В Сколтехе показали, как паттерны Тьюринга «обманывают» нейронную сеть

Сколтех

5 лет назад

Результаты исследования были представлены авторами на 35-й Конференции AAAI по искусственному интеллекту (AAAI-21). Статья доступна в виде препринта на сервере arXiv.org. Глубокие нейронные сети, которые уже на данном этапе своего развития способны эффективно решать задачи распознавания и классификации изображений, до сих пор не могут противостоять так называемым адверсальным атакам в виде создания мелких, но характерных искажений на изображении, которые приводит к ошибочному результату работы нейронной сети. Некоторые из таких атак универсальные, то есть при их подаче на вход сети они неизменно нарушают ее работу.

Такие возмущения могут представлять серьезную угрозу для безопасности: так, в 2018 году группа авторов опубликовала препринт, где было описано, как ввести в заблуждение беспилотный автомобиль, заставив его воспринимать обычную уличную рекламу с логотипом как дорожный знак. Большинство известных средств защиты систем от таких атак можно легко обойти, что еще больше усугубляет эпроблему.

Профессор Центра Сколтеха по научным и инженерным вычислительным технологиям для задач с большими массивами данных (CDISE), руководитель Лаборатории вычислительного интеллекта CDISE Иван Оселедец и его коллеги дополнительно исследовали теорию, согласно которой существует связь между универсальными адверсальными возмущениями (UAP) и классическими паттернами Тьюринга, названными так в честь выдающегося английского математика Алана Тьюринга, который впервые ввел понятие «паттерна», лежащего в основе многих узоров в природе, например, полос и пятен в окраске животных.

Поводом для этой работы стало счастливое стечение обстоятельств: в 2018 году Иван Оселедец и Валентин Хрульков представили доклад по проблеме универсальных адверсальных примеров на Конференции по компьютерному зрению и распознаванию образов (CVPR 2018). «На конференции к нам подошел незнакомый человек и сказал, что эти паттерны очень напоминают паттерны Тьюринга.

Это сходство несколько лет оставалось для нас загадкой, пока студенты магистратуры Сколтеха Нурислам Турсынбек, Мария Синдеева и аспирант Илья Вилковский не сформировали команду, которой удалось наконец разгадать тайну паттернов. Эта работа стала еще одним ярким примером внутреннего сотрудничества между центрами Сколтеха, в данном случае между Центром перспективных исследований (CAS) и CDISE», − рассказывает Иван Оселедец.

Природа и механизм адверсальных возмущений пока очень мало изучены. «Это долгая история игры в кошки-мышки между нападающим и обороняющимся. Одной из причин, по которой от таких атак до сих пор нет эффективной защиты – это недостаточность теоретической проработки. Выполнив это исследование, мы сделали еще один шаг в понимании необычных свойств UAP с помощью паттернов Тьюринга, которые имеют под собой прочную теоретическую базу. В перспективе это позволит построить теорию адверсальных примеров», − отмечает Иван Оселедец.

В предыдущих исследованиях было показано, что естественные паттерны Тьюринга, такие как, например, полосы у рыб, могут «обманывать» нейронную сеть. В этой работе исследователям Сколтеха удалось не только просто и наглядно продемонстрировать эту связь, но и описать способы генерации новых атак. «Самый простой способ добиться устойчивости модели с помощью паттернов – добавлять их к изображениям и обучать сеть на искаженных изображениях», − добавляет профессор Оселедец.