• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
22 июля, 14:44
ФизТех
12
70 960

Ученые выяснили, как отличить текст, написанный ИИ, от человеческого

❋ 5.1

Команда исследователей из Сколтеха, МФТИ, Института искусственного интеллекта AIRI и других научных центров разработала метод, позволяющий не просто отличать тексты, написанные человеком, от сгенерированных нейросетью, но и понимать, по каким именно признакам классификатор принимает решение о том, является ли текст генерацией или нет.  Анализируя внутренние состояния глубоких слоев языковой модели, ученые смогли выделить и интерпретировать численные признаки, отвечающие за стилистику, сложность и «степень уверенности» текста.

В МФТИ выявили признаки сгенерированных нейросетью текстов / © Alena Plotnikova, unsplash.com

Работа принята на конференцию Findings of ACL 2025 и опубликована в виде препринта на портале arXiv. Стремительное развитие больших языковых моделей (LLM), таких как ChatGPT, Gemma и LLaMA, привело к тому, что сгенерированные ими тексты наполнили интернет, учебники, учебные пособия и даже научные статьи. Возникла острая проблема: как отличить оригинальное человеческое творчество от продукта машины? Существующие системы детекции сгенерированного текста часто работают как «черные ящики»: они выдают вердикт «человек» или «ИИ», но не могут объяснить, на каких конкретно свойствах текста основано их решение. Такая непрозрачность ограничивает их гибкость и надежность: если детектор ошибается, то бывает очень сложно понять, почему именно он ошибся и как избежать такой ошибки в будущем.

Исследователи решили подойти к проблеме с другой стороны. Вместо того чтобы создавать еще один «черный ящик», они задались целью заглянуть «под капот» нейросети и превратить ее внутренние состояния в набор четких и интерпретируемых характеристик текста. Для этого они использовали известную технику — разреженные автокодировщики (Sparse Autoencoders, SAE). Если представить внутреннее состояние нейросети как сложный коктейль из тысяч смешанных сигналов, то SAE работает как высокоточный сепаратор, который раскладывает этот коктейль на более чистые, атомарные «ингредиенты», которые легче интерпретировать. Каждый такой признак отвечает за определенный аспект текста: например, за сложность предложений или использование специфической лексики.

Лаида Кушнарева, старший академический консультант в компании Huawei, прокомментировала: «Люди, регулярно имеющие дело с текстами, сгенерированными ChatGPT, зачастую могут распознать такой текст по характерным чертам — например, неуместно сухому и формальному языку, чрезмерно длинным и “водянистым” вступлениям перед переходом к сути, повторяющимся формулировкам одной и той же мысли и низкой информационной плотности в целом. Однако большинство популярных детекторов сгенерированных текстов не показывают, в какой степени в тексте присутствуют эти и другие понятные человеку особенности.

В отличие от них, наш детектор на основе SAE позволяет автоматически раскладывать тексты на “атомарные” числовые признаки, многие из которых поддаются интерпретации в терминах, понятных человеку. При этом детектор обходит все существующие решения на том наборе данных, который мы использовали. Кроме того, мы показали, что с помощью SAE можно обнаруживать и некоторые осознанные попытки скрыть факт генерации текста — например, преднамеренное добавление лишних пробелов, артиклей или нестандартных символов с целью запутать детекторы. Другими словами, данная техника позволяет автоматически разобрать текст “по косточкам” и принять решение, обоснованность которого может быть впоследствии проверена человеком на основе выявленных признаков и их интерпретации».

В ходе исследования ученые подавали на вход нейросети Gemma-2-2B различные примеры текстов и сохраняли внутренние состояния с глубоких слоев модели для каждого текста. Далее, они выделили из этих внутренних состояний тысячи “атомарных” признаков с помощью SAE. Используя эти признаки, они обучили классификатор для распознавания сгенерированных текстов и приступили к самой интересной части — интерпретации. Они выявили как «универсальные» признаки, характерные для многих генерирующих моделей, так и специфические, присущие отдельным семействам ИИ или определенным типам текста (например, научным статьям и отзывам). Так, в текстах на научные темы ИИ склонен к излишне сложным синтаксическим конструкциям, а в текстах на финансовую тематику — к необоснованным, многословным рассуждениям о простых фактах.


Интерпретации одного из самых «универсальных» признаков 3608, полезных для детектирования AI-текстов / ©
Kuznetsov, K. et al., ArXiv.org

Например, в работе показано, что «признак №3608 с 16-го слоя SAE» отвечает за синтаксическую сложность. Ученые обнаружили, что искусственное усиление этого признака в процессе генерации текста заставляет нейросеть создавать чрезмерно запутанные предложения, которые сложно читать. Наоборот, ослабление этого признака приводит к появлению коротких, «рубленых» фраз с минимальной связностью. Другой сильный признак, №4645, отвечает за степень уверенности текста, а №6587 — за многословные вступления и чрезмерно подробные объяснения.

Анастасия Вознюк, студентка МФТИ, добавила: «Помимо анализа того, на что конкретно модель обращает внимание при детекции, мы попробовали управлять моделью генерации. Признаки, которые мы определили ранее, можно усиливать или ослаблять, и в результате наблюдать что в некоторых случаях новый сгенерированный текст сильнее или, наоборот, слабее, характеризуется данным признаком. Например, при изменении признака определяющего уровень «академичности» языка текста, будет изменяться в соответствующую сторону и стилистика текста.

Результаты показывают, что если давать современным языковым моделям вроде ChatGPT стандартные запросы для генерации, то они с большой вероятностью генерируют текст с характерными чертами, который легко обнаруживается этим и другими детекторами. Однако исследователи предупреждают: если дать нейросети более персонализированное задание (например, попросить написать текст в каком-то необычном для нее стиле), эти характерные черты могут ослабнуть или даже исчезнуть, что может сделать задачу детекции значительно сложнее.

В исследовании был применен новый многогранный подход, который сочетает автоматическое выделение признаков, их ручную интерпретацию и экспериментальную проверку с помощью техники «управления» (steering). Это создает основу для разработки более интерпретируемых детекторов, которые смогут не просто выносить вердикт, но и предоставлять отчет о том, какие именно аномалии были найдены в тексте. Такие инструменты будут полезны для преподавателей, редакторов и исследователей дезинформации. В более широкой перспективе эта работа является важным шагом к демистификации искусственного интеллекта, позволяя нам лучше понимать, как нейросети «мыслят» и создают тексты.

Дальнейшие исследования будут направлены на применение этого метода к новым, более мощным языковым моделям и на изучение более сложных и трудноуловимых признаков, чтобы оставаться на шаг впереди тех, кто пытается использовать ИИ в недобросовестных целях, и при этом уменьшить вероятность ошибиться и несправедливо обвинить человека в том, что его текст был сгенерирован.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Московский физико-технический институт (национальный исследовательский университет), известен также как Физтех — ведущий российский вуз по подготовке специалистов в области теоретической, экспериментальной и прикладной физики, математики, информатики, химии, биологии и смежных дисциплин. Расположен в городе Долгопрудном Московской области, отдельные корпуса и факультеты находятся в Жуковском и в Москве.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
2 сентября, 08:20
Александр Березин

Бета-блокаторы около 40 лет использовали для лечения людей, пострадавших от инфаркта. Однако работы последних лет, авторы которых пробовали оценить их эффективность в современных условиях, уже поставили их полезность под вопрос. Новое исследование показало, что для одного из полов они могут быть даже вредны.

3 сентября, 07:56
Адель Романова

Недавнее появление в Солнечной системе межзвездного объекта 3I/ATLAS вызвало новую волну обсуждения вопроса о том, как отличить комету или астероид от внеземного космического корабля либо другого артефакта, не созданного человечеством. Астрономы рассказали, что у искусственного объекта могут быть четыре характерные особенности.

1 сентября, 09:25
ТПУ

Ученые ТПУ совместно с коллегами провели эксперименты и с высокой точностью предсказали кинетические характеристики воспламенения и сгорания топлива с добавлением воды. Результаты показали, что топливо с небольшой добавкой воды сгорает на 7-14% быстрее по сравнению с однородным углеводородным топливом. В будущем это может помочь в разработке более экологичных и ресурсоэффективных систем сжигания альтернативных топлив.

2 сентября, 08:20
Александр Березин

Бета-блокаторы около 40 лет использовали для лечения людей, пострадавших от инфаркта. Однако работы последних лет, авторы которых пробовали оценить их эффективность в современных условиях, уже поставили их полезность под вопрос. Новое исследование показало, что для одного из полов они могут быть даже вредны.

1 сентября, 09:25
ТПУ

Ученые ТПУ совместно с коллегами провели эксперименты и с высокой точностью предсказали кинетические характеристики воспламенения и сгорания топлива с добавлением воды. Результаты показали, что топливо с небольшой добавкой воды сгорает на 7-14% быстрее по сравнению с однородным углеводородным топливом. В будущем это может помочь в разработке более экологичных и ресурсоэффективных систем сжигания альтернативных топлив.

27 августа, 15:30
Денис Яковлев

Ученые из Института демографии Общества Макса Планка (Германия), Висконсинского университета в Мэдисоне (США) и Национального института демографических исследований (Франция) проанализировали материалы из базы данных Human Mortality Database (HMD) — ведущего источника информации о смертности в развитых странах. Они попытались спрогнозировать, сохранятся ли темпы роста продолжительности жизни для людей, родившихся в период с 1939 по 2000...

12 августа, 11:29
Юлия Трепалина

Влияет ли формат знакомства на качество последующих романтических отношений в паре? Научные данные на этот счет разнятся. Новое исследование по вопросу представила группа психологов из Польши, Австралии и Великобритании. В попытке понять, при каком сценарии удовлетворенность отношениями выше, а любовь крепче — когда двое нашли друг друга в Сети или познакомились в жизни, — ученые опросили свыше 6000 тысяч человек из разных стран.

16 августа, 19:09
Адель Романова

Астрономы подсчитали, что с поверхности летящего по Солнечной системе межзвездного объекта 3I/ATLAS каждую секунду испаряется около 40 килограммов водяного льда. Такую сильную кометную активность он проявил, будучи в три с половиной раза дальше Земли от Солнца. По мнению ученых, это довольно необычно.

22 августа, 14:45
Игорь Байдов

Ученые обнаружили косвенные доказательства существования мира размером с Землю за орбитой Нептуна. Эта гипотетическая планета отличается от предполагаемой Девятой планеты не только размером, но и гравитационным влиянием на другие объекты.

[miniorange_social_login]

Комментарии

12 Комментариев
Я был бы рад, если бы появилось средство, с очень высокой вероятностью определяющее тексты от ИИ. Но откровенно говоря, не думаю, что можно сделать подобное на длинный период времени. Создатели моделей, которые не хотят, чтобы их детяще подсвечивали, просто уберут или сильно замаскируют те места, по которым их научились распознавать. В этом смысле создатели подобных распознавателей ИИ как раз всегда будут не на шаг впереди, а на два на шага позади создателей самих генераторов текста, изображений и т.д.
А самое главное, это размер детектора < 1 кБт "if any Text then AI" - никогда не прогадает. А если чел будет писать на камеру и детектор всё равно скажет ИИ, то такая отмазка - чел нахватался от ИИ паттернов, вот и выдал это на тесте.
Наталья
25.07.2025
-
0
+
Это замечательно. Я часто пишу стихи и книги. И мне говорят многие, что это компьютерная обработка. Очень здорово, что появилась такое достижение науки. Я счастлива. 😊👍
Andrey E
24.07.2025
-
0
+
Элементарно Ватсон🤷‍♂️
-
1
+
Эта статья тоже с помощью ИИ написана 😂😂😂
-
0
+
Статья безупречна – и этим сразу настораживает. Неужели учёные тоже ИИ?! Шучу. Но теперь каждое “спасибо” коллеге буду читать вслух, ища признаки “нейросетевой сухости”. Сомнения – наш новый digital-иммунитет!»
Действительно, очень "простой" способ. Всего-то нужна отдельная закрытая модель ФизТеха, да ещё и натасканная на английский язык – очень полезно. Кликбейт как он есть – спасибо, что не от редакции.
Ну прям какие-то пчелы против меда. Студенты против сгенеренных ИИ курсовых 😁
    Chelovek kk
    24.07.2025
    -
    0
    +
    Иван, лол, и с чего ты взял, что они учатся только через списывание?
    +
      ещё комментарии
      Chelovek, с чего ты взял что мне интересно твое мнение?
        Chelovek kk
        29.07.2025
        -
        0
        +
        Иван, не, а если серьезно, другой ответ будет? Просто я не вижу логики в твоем суждении. Типо, у нас есть интернет, а в нем статьи, образовательные материалы и решенные домашки, но это не значит, что поголовно все долбаны и используют это только для списывания, а не для развития. С книгами и иишками то же самое, это всё тупо носители информации (только в случае ии, этот носитель с тобой говорить может), а как их использовать - дело лично каждого, и я тупо не вижу смысла, когда одних превозносят над другими. Если кто-то списывает, не значит, что все так делают. У языковых иишек огромный потенциал в сфере помощи в личном развитии
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно