Методы обмана ИИ с помощью скрытых триггеров опережают современную защиту

Candellmans · 1 Мар 2022

Исследователи предложили новые методы защиты от троянских атак на глубокие нейронные сети.

Все более широкое использование глубоких нейронных сетей (ГНС) для таких задач компьютерного зрения, как распознавание лиц, медицинская визуализация, обнаружение объектов и автономное вождение, может привлечь внимание киберпреступников. ГНС стали основой для глубокого обучения и более широкой области искусственного интеллекта (ИИ).

Ожидается, что в ближайшие годы использование ИИ будет быстро расти. По мнению аналитиков Emergen Research, мировой рынок технологии ГНС вырастет с $1,26 млрд в 2019 году до $5,98 млрд к 2027 году, при этом спрос в таких отраслях, как здравоохранение, банковское дело, финансовые услуги и страхование, резко возрастет.
Такой быстрорастущий рынок склонен привлекать внимание злоумышленников, которые могут вмешиваться в процесс обучения модели ИИ для внедрения скрытых функций или триггеров в ГНС — «троянских коней» для машинного обучения.

Подобный троян может изменить поведение модели и привести к плохим последствиям. Например, люди могут быть неправильно идентифицированы или объекты могут быть неправильно считаны. Это может быть смертельно опасно при работе с беспилотными автомобилями, считывающими дорожные знаки.

За последние несколько лет исследователи опубликовали множество статей, в которых описываются различные методы атак и способы их обнаружения и защиты от них. Исследователи из Института прикладного искусственного интеллекта в Университете Дикина и в Университете Вуллонгонга (оба в Австралии) утверждают , что многие из предложенных подходов к защите от троянских атак отстают от темпа развития методов атак.

В стандартной троянской атаке на модель классификации изображений злоумышленники контролируют процесс обучения классификатора изображений. Они внедряют троян в классификатор, чтобы он неправильно классифицировал изображение по команде злоумышленника. Троянские атаки продолжают развиваться и становятся все более сложными, с разными триггерами для разных входных изображений, а не с использованием одного глобального изображения.

Эксперты предложили два новых метода защиты — Variational Input Filtering («вариационную входную фильтрацию») и Adversarial Input Filtering («состязательную входную фильтрацию»). Оба метода предназначены для изучения фильтра, который может обнаруживать все трояны во входных данных модели во время выполнения.
VIF рассматривает фильтры как вариационный авткодировщик, который избавляется от всей зашумленной информации на входе, включая триггеры.

В отличие от него, AIF использует вспомогательный генератор для обнаружения и выявления скрытых триггеров и использует состязательное обучение как для генератора, так и для фильтра, чтобы фильтр удалял все потенциальные триггеры.

Подробнее:

Методы обмана ИИ с помощью скрытых триггеров опережают современную защиту

Похожие темы