Ученые выяснили, как отличить текст, написанный ИИ, от человеческого
Команда исследователей из Сколтеха, МФТИ, Института искусственного интеллекта AIRI и других научных центров разработала метод, позволяющий не просто отличать тексты, написанные человеком, от сгенерированных нейросетью, но и понимать, по каким именно признакам классификатор принимает решение о том, является ли текст генерацией или нет. Анализируя внутренние состояния глубоких слоев языковой модели, ученые смогли выделить и интерпретировать численные признаки, отвечающие за стилистику, сложность и «степень уверенности» текста.
Работа принята на конференцию Findings of ACL 2025 и опубликована в виде препринта на портале arXiv. Стремительное развитие больших языковых моделей (LLM), таких как ChatGPT, Gemma и LLaMA, привело к тому, что сгенерированные ими тексты наполнили интернет, учебники, учебные пособия и даже научные статьи. Возникла острая проблема: как отличить оригинальное человеческое творчество от продукта машины? Существующие системы детекции сгенерированного текста часто работают как «черные ящики»: они выдают вердикт «человек» или «ИИ», но не могут объяснить, на каких конкретно свойствах текста основано их решение. Такая непрозрачность ограничивает их гибкость и надежность: если детектор ошибается, то бывает очень сложно понять, почему именно он ошибся и как избежать такой ошибки в будущем.
Исследователи решили подойти к проблеме с другой стороны. Вместо того чтобы создавать еще один «черный ящик», они задались целью заглянуть «под капот» нейросети и превратить ее внутренние состояния в набор четких и интерпретируемых характеристик текста. Для этого они использовали известную технику — разреженные автокодировщики (Sparse Autoencoders, SAE). Если представить внутреннее состояние нейросети как сложный коктейль из тысяч смешанных сигналов, то SAE работает как высокоточный сепаратор, который раскладывает этот коктейль на более чистые, атомарные «ингредиенты», которые легче интерпретировать. Каждый такой признак отвечает за определенный аспект текста: например, за сложность предложений или использование специфической лексики.
Лаида Кушнарева, старший академический консультант в компании Huawei, прокомментировала: «Люди, регулярно имеющие дело с текстами, сгенерированными ChatGPT, зачастую могут распознать такой текст по характерным чертам — например, неуместно сухому и формальному языку, чрезмерно длинным и “водянистым” вступлениям перед переходом к сути, повторяющимся формулировкам одной и той же мысли и низкой информационной плотности в целом. Однако большинство популярных детекторов сгенерированных текстов не показывают, в какой степени в тексте присутствуют эти и другие понятные человеку особенности.
В отличие от них, наш детектор на основе SAE позволяет автоматически раскладывать тексты на “атомарные” числовые признаки, многие из которых поддаются интерпретации в терминах, понятных человеку. При этом детектор обходит все существующие решения на том наборе данных, который мы использовали. Кроме того, мы показали, что с помощью SAE можно обнаруживать и некоторые осознанные попытки скрыть факт генерации текста — например, преднамеренное добавление лишних пробелов, артиклей или нестандартных символов с целью запутать детекторы. Другими словами, данная техника позволяет автоматически разобрать текст “по косточкам” и принять решение, обоснованность которого может быть впоследствии проверена человеком на основе выявленных признаков и их интерпретации».
В ходе исследования ученые подавали на вход нейросети Gemma-2-2B различные примеры текстов и сохраняли внутренние состояния с глубоких слоев модели для каждого текста. Далее, они выделили из этих внутренних состояний тысячи “атомарных” признаков с помощью SAE. Используя эти признаки, они обучили классификатор для распознавания сгенерированных текстов и приступили к самой интересной части — интерпретации. Они выявили как «универсальные» признаки, характерные для многих генерирующих моделей, так и специфические, присущие отдельным семействам ИИ или определенным типам текста (например, научным статьям и отзывам). Так, в текстах на научные темы ИИ склонен к излишне сложным синтаксическим конструкциям, а в текстах на финансовую тематику — к необоснованным, многословным рассуждениям о простых фактах.

Интерпретации одного из самых «универсальных» признаков 3608, полезных для детектирования AI-текстов / ©
Kuznetsov, K. et al., ArXiv.org
Например, в работе показано, что «признак №3608 с 16-го слоя SAE» отвечает за синтаксическую сложность. Ученые обнаружили, что искусственное усиление этого признака в процессе генерации текста заставляет нейросеть создавать чрезмерно запутанные предложения, которые сложно читать. Наоборот, ослабление этого признака приводит к появлению коротких, «рубленых» фраз с минимальной связностью. Другой сильный признак, №4645, отвечает за степень уверенности текста, а №6587 — за многословные вступления и чрезмерно подробные объяснения.
Анастасия Вознюк, студентка МФТИ, добавила: «Помимо анализа того, на что конкретно модель обращает внимание при детекции, мы попробовали управлять моделью генерации. Признаки, которые мы определили ранее, можно усиливать или ослаблять, и в результате наблюдать что в некоторых случаях новый сгенерированный текст сильнее или, наоборот, слабее, характеризуется данным признаком. Например, при изменении признака определяющего уровень «академичности» языка текста, будет изменяться в соответствующую сторону и стилистика текста.
Результаты показывают, что если давать современным языковым моделям вроде ChatGPT стандартные запросы для генерации, то они с большой вероятностью генерируют текст с характерными чертами, который легко обнаруживается этим и другими детекторами. Однако исследователи предупреждают: если дать нейросети более персонализированное задание (например, попросить написать текст в каком-то необычном для нее стиле), эти характерные черты могут ослабнуть или даже исчезнуть, что может сделать задачу детекции значительно сложнее.
В исследовании был применен новый многогранный подход, который сочетает автоматическое выделение признаков, их ручную интерпретацию и экспериментальную проверку с помощью техники «управления» (steering). Это создает основу для разработки более интерпретируемых детекторов, которые смогут не просто выносить вердикт, но и предоставлять отчет о том, какие именно аномалии были найдены в тексте. Такие инструменты будут полезны для преподавателей, редакторов и исследователей дезинформации. В более широкой перспективе эта работа является важным шагом к демистификации искусственного интеллекта, позволяя нам лучше понимать, как нейросети «мыслят» и создают тексты.
Дальнейшие исследования будут направлены на применение этого метода к новым, более мощным языковым моделям и на изучение более сложных и трудноуловимых признаков, чтобы оставаться на шаг впереди тех, кто пытается использовать ИИ в недобросовестных целях, и при этом уменьшить вероятность ошибиться и несправедливо обвинить человека в том, что его текст был сгенерирован.
Исследователи опросили более 60 тысяч испытуемых из разных стран и выяснили: чем больше человек зациклен на себе, тем холоднее он к своему партнеру. Правда, снижение накала страстей не всегда плохо, у этого есть и положительные стороны.
Во время раскопок в римском лагере в Йорке (Англия) нашли стеклянную колбу, поразительно напоминающую древнеегипетские флаконы для кохля — традиционную черную подводку для глаз. Не исключено, что это средство макияжа пользовалось популярностью и у римских солдат.
В популярной литературе сверхмассивные черные дыры чаще всего представляют как разрушители звезд и планет. Авторы новой работы попробовали рассчитать, что на самом деле происходит в окрестностях таких объектов и пришли к противоположному выводу.
Вначале Reuters опубликовал статью о взаимоотношениях SpaceX и Пентагона, которую миллиардер --- традиционно для его отношений с этим изданием — назвал фейком. Опровергая ее тезисы, он обнародовал информацию, не представленную ранее публично.
Исследователи опросили более 60 тысяч испытуемых из разных стран и выяснили: чем больше человек зациклен на себе, тем холоднее он к своему партнеру. Правда, снижение накала страстей не всегда плохо, у этого есть и положительные стороны.
Провинция Цзянсу была процветающим центром медицинской практики в Китае во времена династии Мин (1368-1644 годы нашей эры). Микроскопический анализ крошечных частиц на поверхности хирургических ножниц и пинцета из гробницы китайского врача помог выявить следы вещества, получаемого из ядовитого растения, которое, по мнению исследователей, применялось как местная анестезия во время операций.
В высокогорных районах Гималаев появился новый хищник. Он не боится людей, возглавляет стаи собак и все чаще заходит в деревни. Местные жители называют его «кхипшанг». Речь идет о гибриде гималайского волка и бродячей собаки. Ученые опасаются, что этот зверь изменит хрупкий баланс местной дикой природы и в скором времени станет весьма опасным для человека.
В доколумбовых Андах принадлежность к правящему роду определяла доступ к земле, торговле и статусу, поэтому удержать все внутри семьи было вопросом выживания. Ученые выяснили, что элиты долины Чинча решали эту задачу самым прямым способом — заключая браки между родственниками на протяжении как минимум двух поколений.
При совпадении нескольких условий наши глаза способны улавливать излучение в ближнем инфракрасном спектре. Тогда сетчатка начинает работать как нелинейный фотодетектор.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
