22.07.2025, 14:44

ФизТех

71,7 тыс

Ученые выяснили, как отличить текст, написанный ИИ, от человеческого

❋ 5.1

Команда исследователей из Сколтеха, МФТИ, Института искусственного интеллекта AIRI и других научных центров разработала метод, позволяющий не просто отличать тексты, написанные человеком, от сгенерированных нейросетью, но и понимать, по каким именно признакам классификатор принимает решение о том, является ли текст генерацией или нет. Анализируя внутренние состояния глубоких слоев языковой модели, ученые смогли выделить и интерпретировать численные признаки, отвечающие за стилистику, сложность и «степень уверенности» текста.

ФизТех

# ChatGPT

# нейросети

# ошибки

# слова

# текст

В МФТИ выявили признаки сгенерированных нейросетью текстов / © Alena Plotnikova, unsplash.com

Работа принята на конференцию Findings of ACL 2025 и опубликована в виде препринта на портале arXiv. Стремительное развитие больших языковых моделей (LLM), таких как ChatGPT, Gemma и LLaMA, привело к тому, что сгенерированные ими тексты наполнили интернет, учебники, учебные пособия и даже научные статьи. Возникла острая проблема: как отличить оригинальное человеческое творчество от продукта машины? Существующие системы детекции сгенерированного текста часто работают как «черные ящики»: они выдают вердикт «человек» или «ИИ», но не могут объяснить, на каких конкретно свойствах текста основано их решение. Такая непрозрачность ограничивает их гибкость и надежность: если детектор ошибается, то бывает очень сложно понять, почему именно он ошибся и как избежать такой ошибки в будущем.

Исследователи решили подойти к проблеме с другой стороны. Вместо того чтобы создавать еще один «черный ящик», они задались целью заглянуть «под капот» нейросети и превратить ее внутренние состояния в набор четких и интерпретируемых характеристик текста. Для этого они использовали известную технику — разреженные автокодировщики (Sparse Autoencoders, SAE). Если представить внутреннее состояние нейросети как сложный коктейль из тысяч смешанных сигналов, то SAE работает как высокоточный сепаратор, который раскладывает этот коктейль на более чистые, атомарные «ингредиенты», которые легче интерпретировать. Каждый такой признак отвечает за определенный аспект текста: например, за сложность предложений или использование специфической лексики.

Лаида Кушнарева, старший академический консультант в компании Huawei, прокомментировала: «Люди, регулярно имеющие дело с текстами, сгенерированными ChatGPT, зачастую могут распознать такой текст по характерным чертам — например, неуместно сухому и формальному языку, чрезмерно длинным и “водянистым” вступлениям перед переходом к сути, повторяющимся формулировкам одной и той же мысли и низкой информационной плотности в целом. Однако большинство популярных детекторов сгенерированных текстов не показывают, в какой степени в тексте присутствуют эти и другие понятные человеку особенности.

В отличие от них, наш детектор на основе SAE позволяет автоматически раскладывать тексты на “атомарные” числовые признаки, многие из которых поддаются интерпретации в терминах, понятных человеку. При этом детектор обходит все существующие решения на том наборе данных, который мы использовали. Кроме того, мы показали, что с помощью SAE можно обнаруживать и некоторые осознанные попытки скрыть факт генерации текста — например, преднамеренное добавление лишних пробелов, артиклей или нестандартных символов с целью запутать детекторы. Другими словами, данная техника позволяет автоматически разобрать текст “по косточкам” и принять решение, обоснованность которого может быть впоследствии проверена человеком на основе выявленных признаков и их интерпретации».

В ходе исследования ученые подавали на вход нейросети Gemma-2-2B различные примеры текстов и сохраняли внутренние состояния с глубоких слоев модели для каждого текста. Далее, они выделили из этих внутренних состояний тысячи “атомарных” признаков с помощью SAE. Используя эти признаки, они обучили классификатор для распознавания сгенерированных текстов и приступили к самой интересной части — интерпретации. Они выявили как «универсальные» признаки, характерные для многих генерирующих моделей, так и специфические, присущие отдельным семействам ИИ или определенным типам текста (например, научным статьям и отзывам). Так, в текстах на научные темы ИИ склонен к излишне сложным синтаксическим конструкциям, а в текстах на финансовую тематику — к необоснованным, многословным рассуждениям о простых фактах.

Интерпретации одного из самых «универсальных» признаков 3608, полезных для детектирования AI-текстов / ©
Kuznetsov, K. et al., ArXiv.org

Например, в работе показано, что «признак №3608 с 16-го слоя SAE» отвечает за синтаксическую сложность. Ученые обнаружили, что искусственное усиление этого признака в процессе генерации текста заставляет нейросеть создавать чрезмерно запутанные предложения, которые сложно читать. Наоборот, ослабление этого признака приводит к появлению коротких, «рубленых» фраз с минимальной связностью. Другой сильный признак, №4645, отвечает за степень уверенности текста, а №6587 — за многословные вступления и чрезмерно подробные объяснения.

Анастасия Вознюк, студентка МФТИ, добавила: «Помимо анализа того, на что конкретно модель обращает внимание при детекции, мы попробовали управлять моделью генерации. Признаки, которые мы определили ранее, можно усиливать или ослаблять, и в результате наблюдать что в некоторых случаях новый сгенерированный текст сильнее или, наоборот, слабее, характеризуется данным признаком. Например, при изменении признака определяющего уровень «академичности» языка текста, будет изменяться в соответствующую сторону и стилистика текста.

Результаты показывают, что если давать современным языковым моделям вроде ChatGPT стандартные запросы для генерации, то они с большой вероятностью генерируют текст с характерными чертами, который легко обнаруживается этим и другими детекторами. Однако исследователи предупреждают: если дать нейросети более персонализированное задание (например, попросить написать текст в каком-то необычном для нее стиле), эти характерные черты могут ослабнуть или даже исчезнуть, что может сделать задачу детекции значительно сложнее.

В исследовании был применен новый многогранный подход, который сочетает автоматическое выделение признаков, их ручную интерпретацию и экспериментальную проверку с помощью техники «управления» (steering). Это создает основу для разработки более интерпретируемых детекторов, которые смогут не просто выносить вердикт, но и предоставлять отчет о том, какие именно аномалии были найдены в тексте. Такие инструменты будут полезны для преподавателей, редакторов и исследователей дезинформации. В более широкой перспективе эта работа является важным шагом к демистификации искусственного интеллекта, позволяя нам лучше понимать, как нейросети «мыслят» и создают тексты.

Дальнейшие исследования будут направлены на применение этого метода к новым, более мощным языковым моделям и на изучение более сложных и трудноуловимых признаков, чтобы оставаться на шаг впереди тех, кто пытается использовать ИИ в недобросовестных целях, и при этом уменьшить вероятность ошибиться и несправедливо обвинить человека в том, что его текст был сгенерирован.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Московский физико-технический институт (национальный исследовательский университет), известен также как Физтех — ведущий российский вуз по подготовке специалистов в области теоретической, экспериментальной и прикладной физики, математики, информатики, химии, биологии и смежных дисциплин. Расположен в городе Долгопрудном Московской области, отдельные корпуса и факультеты находятся в Жуковском и в Москве.

ФизТех

# ChatGPT

# нейросети

# ошибки

# слова

# текст

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Жемчужины южного неба. Астрономия в Чили

Астрокомплекс им. С.П. Королева

Москва

Лекция

21 Июл

1500 ₽

Глаза — инструкция по применению

ВСмысле

Санкт-Петербург

Космонавтика и авиация

Москва

Лекция

22 Июл

Бесплатно

Модные слова в жизни, в литературе, в прессе

ВДНХ

Москва

Лекция

22 Июл

Бесплатно

Дизайн на орбите: как покорение космоса перекроило моду и быт

Политехнический музей

Москва

Лекция

23 Июл

Бесплатно

Опасные обитатели морей

Московский зоопарк

Москва

Лекция

23 Июл

Бесплатно

Неизвестное ополчение Ленинграда

Библиотека Екатерингофская

Санкт-Петербург

Лекция

23 Июл

Бесплатно

Какие возможности открывает молекулярное моделирование?

Москва

Петровский док в Кронштадте: гидротехнический шедевр XVIII века

Библиотека роста и карьеры

Санкт-Петербург

Я был бы рад, если бы появилось средство, с очень высокой вероятностью определяющее тексты от ИИ. Но откровенно говоря, не думаю, что можно сделать подобное на длинный период времени. Создатели моделей, которые не хотят, чтобы их детяще подсвечивали, просто уберут или сильно замаскируют те места, по которым их научились распознавать. В этом смысле создатели подобных распознавателей ИИ как раз всегда будут не на шаг впереди, а на два на шага позади создателей самих генераторов текста, изображений и т.д.

Ответить

Алексей Остолецкий

27.07.2025

А самое главное, это размер детектора < 1 кБт "if any Text then AI" - никогда не прогадает. А если чел будет писать на камеру и детектор всё равно скажет ИИ, то такая отмазка - чел нахватался от ИИ паттернов, вот и выдал это на тесте.

Ответить

Наталья

25.07.2025

Это замечательно. Я часто пишу стихи и книги. И мне говорят многие, что это компьютерная обработка. Очень здорово, что появилась такое достижение науки. Я счастлива. 😊👍

Ответить

Andrey E

24.07.2025

Элементарно Ватсон🤷‍♂️

Ответить

Arthur Kusainov

24.07.2025

Эта статья тоже с помощью ИИ написана 😂😂😂

Ответить

—

Andrey E

24.07.2025

Arthur, 👌

Ответить

vitautas shilingas

24.07.2025

Статья безупречна – и этим сразу настораживает. Неужели учёные тоже ИИ?! Шучу. Но теперь каждое “спасибо” коллеге буду читать вслух, ища признаки “нейросетевой сухости”. Сомнения – наш новый digital-иммунитет!»

Ответить

Гриня Медведков

23.07.2025

Действительно, очень "простой" способ. Всего-то нужна отдельная закрытая модель ФизТеха, да ещё и натасканная на английский язык – очень полезно. Кликбейт как он есть – спасибо, что не от редакции.

Ответить

Иван Колупаев

23.07.2025

Ну прям какие-то пчелы против меда. Студенты против сгенеренных ИИ курсовых 😁

Ответить

—

Chelovek kk

24.07.2025

Иван, лол, и с чего ты взял, что они учатся только через списывание?

Ответить

Еще 2 ответа

Иван Колупаев

24.07.2025

Chelovek, с чего ты взял что мне интересно твое мнение?

Ответить

—

Chelovek kk

29.07.2025

Иван, не, а если серьезно, другой ответ будет? Просто я не вижу логики в твоем суждении. Типо, у нас есть интернет, а в нем статьи, образовательные материалы и решенные домашки, но это не значит, что поголовно все долбаны и используют это только для списывания, а не для развития. С книгами и иишками то же самое, это всё тупо носители информации (только в случае ии, этот носитель с тобой говорить может), а как их использовать - дело лично каждого, и я тупо не вижу смысла, когда одних превозносят над другими. Если кто-то списывает, не значит, что все так делают. У языковых иишек огромный потенциал в сфере помощи в личном развитии

Ответить

Гриня Медведков

23.07.2025

Ответить

Иван Колупаев

23.07.2025

Ну прям какие-то пчелы против меда. Студенты против сгенеренных ИИ курсовых 😁

Ответить

—

Chelovek kk

24.07.2025

Иван, лол, и с чего ты взял, что они учатся только через списывание?

Ответить

Еще 2 ответа

Иван Колупаев

24.07.2025

Chelovek, с чего ты взял что мне интересно твое мнение?

Ответить

—

Chelovek kk

29.07.2025

Ответить

Arthur Kusainov

24.07.2025

Эта статья тоже с помощью ИИ написана 😂😂😂

Ответить

—

Andrey E

24.07.2025

Arthur, 👌

Ответить

Алексей Жажин

27.07.2025

Ответить

Алексей Остолецкий

27.07.2025

Ответить

Наталья

25.07.2025

Ответить

Andrey E

24.07.2025

Элементарно Ватсон🤷‍♂️

Ответить

vitautas shilingas

24.07.2025

Ответить

Ученые выяснили, как отличить текст, написанный ИИ, от человеческого

По теме

Израильские ученые проверили нейросети на скрытый антисемитизм

Сергей Марков: сценарий «Терминатора» не грозит нам ни в близком, ни в далеком будущем

Тяга ИИ к гонке вооружений и ядерным ударам сделала его опасным помощником в военно-политических вопросах

Популярное

Историк объяснил, почему римлянам запрещали носить длинные волосы

Кризис без дефицита: почему Россия встала в очереди за бензином и когда они закончатся

Астероид, предположительно, убивший динозавров, оказался исключительной редкостью из дальних окраин Солнечной системы

Кризис без дефицита: почему Россия встала в очереди за бензином и когда они закончатся

Историк объяснил, почему римлянам запрещали носить длинные волосы

Охотники-собиратели заселили рыбой горное озеро 7000 лет назад

Физики уточнили возможные размеры Вселенной

Физики подтвердили гипотезу о существовании двух жидких состояний воды

YouTube в России вырос даже с ограничениями, в отличие от «VK Видео»

Комментарии

Хотите
вести колонку
в нашем
издании?

Колумнисты 66

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Топ необычных авто советской эпохи

Загадка кембрийского взрыва

Электричество от ветряков и солнца дешевле угольного — почему же в Азии начали массово строить угольные ТЭС?

Космические зомби: почему мертвые звезды пожирают своих детей

Атомный квиз — разгоните нейтроны знаний!

Счастливы вместе

30 научных терминов, которые должен знать каждый

Портрет воина

Ученые выяснили, как отличить текст, написанный ИИ, от человеческого

По теме

Израильские ученые проверили нейросети на скрытый антисемитизм

Сергей Марков: сценарий «Терминатора» не грозит нам ни в близком, ни в далеком будущем

Тяга ИИ к гонке вооружений и ядерным ударам сделала его опасным помощником в военно-политических вопросах

Популярное

Комментарии

Хотите вести колонку в нашем издании?

Колумнисты 66

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Хотите
вести колонку
в нашем
издании?