Израильские ученые проверили нейросети на скрытый антисемитизм

Юлия

3 месяца назад

Эксперимент проходил в несколько этапов и с использованием разных нейросетей для перепроверки. В научных журналах работу еще не публиковали, но с ее текстом можно ознакомиться на сайте препринтов PsyArXiv Preprints.

Чтобы выяснить, каким представляется образ еврея по версии ИИ, ученые сначала поручили ChatGPT сгенерировать 252 вымышленных персонажа с типично еврейскими и нееврейскими именами и написать для каждого биографию в пределах 100 слов. Для подтверждения стабильности результатов выдачи привлекали другие языковые модели — Gemini и DeepSeek.

На следующем этапе из биографий убрали имена и все прямые указания на еврейское происхождение и религию, а нейросетям дали задание охарактеризовать теперь уже анонимных персонажей по разным психологическим параметрам.

Дальнейший анализ показал, что вымышленных евреев систематически описывали, как более высококомпетентных и статусных людей с развитым интеллектом, но менее склонных проявлять дружелюбие, эмоциональную теплоту и располагать к себе окружающих. Их чаще характеризовали как привилегированных, обладающих преимуществами и скорее относили к угнетателям, нежели к угнетенным.

Когда к оценке тех же биографий подключили 378 людей — мужчин и женщин из США — их восприятие в целом совпало с представлениями, которые транслировал искусственный интеллект.

По мнению авторов исследования, то, что языковые модели и живые участники приписывали еврейским персонажам более высокую компетентность и привилегированность, может отражать специфический нюанс антисемитских стереотипов — идею о том, что своего статуса и успехов евреи достигают не только благодаря уму, но и с помощью нечестных приемов либо групповой поддержки друг друга.

Чтобы проиллюстрировать выявленные паттерны конкретными примерами, нейросетям GPT-4 и DeepSeek дали еще одно задание. Их попросили назвать героев фильмов, видеоигр, книг или других художественных произведений, которые бы обладали набором черт, приписываемых евреям и не принадлежащим к ним людям.

В итоге обе языковые модели независимо друг от друга составили похожие «еврейские» списки. Среди совпавших персонажей оказались герои популярных американских фильмов — доктор Хаус из одноименного сериала, Тайвин Ланнистер из «Игры престолов» и Уолтер Уайт из «Во все тяжкие».

Последующий анализ черт этих действующих лиц, тоже выполненный нейросетями, выявил, что их роднит общий архетип «искусного манипулятора». Для него характерны исключительный интеллект, стратегическое мышление, неоднозначность поступков с моральной точки зрения, склонность нарушать правила или законы, плести интриги, манипулировать людьми и быть эмоционально отстраненным.

Комментируя исследование, израильские специалисты отметили, что подобные ассоциации, генерируемые нейросетями, часто остаются скрытыми и проявляются только при определенных запросах пользователей. Это затрудняет выявление предвзятостей и позволяет им сохраняться под видом контента, кажущегося нейтральным. Ученые призвали разработчиков ИИ обратить на это внимание.