Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
Ученые выяснили, как отличить текст, написанный ИИ, от человеческого
Команда исследователей из Сколтеха, МФТИ, Института искусственного интеллекта AIRI и других научных центров разработала метод, позволяющий не просто отличать тексты, написанные человеком, от сгенерированных нейросетью, но и понимать, по каким именно признакам классификатор принимает решение о том, является ли текст генерацией или нет. Анализируя внутренние состояния глубоких слоев языковой модели, ученые смогли выделить и интерпретировать численные признаки, отвечающие за стилистику, сложность и «степень уверенности» текста.
Работа принята на конференцию Findings of ACL 2025 и опубликована в виде препринта на портале arXiv. Стремительное развитие больших языковых моделей (LLM), таких как ChatGPT, Gemma и LLaMA, привело к тому, что сгенерированные ими тексты наполнили интернет, учебники, учебные пособия и даже научные статьи. Возникла острая проблема: как отличить оригинальное человеческое творчество от продукта машины? Существующие системы детекции сгенерированного текста часто работают как «черные ящики»: они выдают вердикт «человек» или «ИИ», но не могут объяснить, на каких конкретно свойствах текста основано их решение. Такая непрозрачность ограничивает их гибкость и надежность: если детектор ошибается, то бывает очень сложно понять, почему именно он ошибся и как избежать такой ошибки в будущем.
Исследователи решили подойти к проблеме с другой стороны. Вместо того чтобы создавать еще один «черный ящик», они задались целью заглянуть «под капот» нейросети и превратить ее внутренние состояния в набор четких и интерпретируемых характеристик текста. Для этого они использовали известную технику — разреженные автокодировщики (Sparse Autoencoders, SAE). Если представить внутреннее состояние нейросети как сложный коктейль из тысяч смешанных сигналов, то SAE работает как высокоточный сепаратор, который раскладывает этот коктейль на более чистые, атомарные «ингредиенты», которые легче интерпретировать. Каждый такой признак отвечает за определенный аспект текста: например, за сложность предложений или использование специфической лексики.
Лаида Кушнарева, старший академический консультант в компании Huawei, прокомментировала: «Люди, регулярно имеющие дело с текстами, сгенерированными ChatGPT, зачастую могут распознать такой текст по характерным чертам — например, неуместно сухому и формальному языку, чрезмерно длинным и “водянистым” вступлениям перед переходом к сути, повторяющимся формулировкам одной и той же мысли и низкой информационной плотности в целом. Однако большинство популярных детекторов сгенерированных текстов не показывают, в какой степени в тексте присутствуют эти и другие понятные человеку особенности.
В отличие от них, наш детектор на основе SAE позволяет автоматически раскладывать тексты на “атомарные” числовые признаки, многие из которых поддаются интерпретации в терминах, понятных человеку. При этом детектор обходит все существующие решения на том наборе данных, который мы использовали. Кроме того, мы показали, что с помощью SAE можно обнаруживать и некоторые осознанные попытки скрыть факт генерации текста — например, преднамеренное добавление лишних пробелов, артиклей или нестандартных символов с целью запутать детекторы. Другими словами, данная техника позволяет автоматически разобрать текст “по косточкам” и принять решение, обоснованность которого может быть впоследствии проверена человеком на основе выявленных признаков и их интерпретации».
В ходе исследования ученые подавали на вход нейросети Gemma-2-2B различные примеры текстов и сохраняли внутренние состояния с глубоких слоев модели для каждого текста. Далее, они выделили из этих внутренних состояний тысячи “атомарных” признаков с помощью SAE. Используя эти признаки, они обучили классификатор для распознавания сгенерированных текстов и приступили к самой интересной части — интерпретации. Они выявили как «универсальные» признаки, характерные для многих генерирующих моделей, так и специфические, присущие отдельным семействам ИИ или определенным типам текста (например, научным статьям и отзывам). Так, в текстах на научные темы ИИ склонен к излишне сложным синтаксическим конструкциям, а в текстах на финансовую тематику — к необоснованным, многословным рассуждениям о простых фактах.
Интерпретации одного из самых «универсальных» признаков 3608, полезных для детектирования AI-текстов / ©
Kuznetsov, K. et al., ArXiv.org
Например, в работе показано, что «признак №3608 с 16-го слоя SAE» отвечает за синтаксическую сложность. Ученые обнаружили, что искусственное усиление этого признака в процессе генерации текста заставляет нейросеть создавать чрезмерно запутанные предложения, которые сложно читать. Наоборот, ослабление этого признака приводит к появлению коротких, «рубленых» фраз с минимальной связностью. Другой сильный признак, №4645, отвечает за степень уверенности текста, а №6587 — за многословные вступления и чрезмерно подробные объяснения.
Анастасия Вознюк, студентка МФТИ, добавила: «Помимо анализа того, на что конкретно модель обращает внимание при детекции, мы попробовали управлять моделью генерации. Признаки, которые мы определили ранее, можно усиливать или ослаблять, и в результате наблюдать что в некоторых случаях новый сгенерированный текст сильнее или, наоборот, слабее, характеризуется данным признаком. Например, при изменении признака определяющего уровень «академичности» языка текста, будет изменяться в соответствующую сторону и стилистика текста.
Результаты показывают, что если давать современным языковым моделям вроде ChatGPT стандартные запросы для генерации, то они с большой вероятностью генерируют текст с характерными чертами, который легко обнаруживается этим и другими детекторами. Однако исследователи предупреждают: если дать нейросети более персонализированное задание (например, попросить написать текст в каком-то необычном для нее стиле), эти характерные черты могут ослабнуть или даже исчезнуть, что может сделать задачу детекции значительно сложнее.
В исследовании был применен новый многогранный подход, который сочетает автоматическое выделение признаков, их ручную интерпретацию и экспериментальную проверку с помощью техники «управления» (steering). Это создает основу для разработки более интерпретируемых детекторов, которые смогут не просто выносить вердикт, но и предоставлять отчет о том, какие именно аномалии были найдены в тексте. Такие инструменты будут полезны для преподавателей, редакторов и исследователей дезинформации. В более широкой перспективе эта работа является важным шагом к демистификации искусственного интеллекта, позволяя нам лучше понимать, как нейросети «мыслят» и создают тексты.
Дальнейшие исследования будут направлены на применение этого метода к новым, более мощным языковым моделям и на изучение более сложных и трудноуловимых признаков, чтобы оставаться на шаг впереди тех, кто пытается использовать ИИ в недобросовестных целях, и при этом уменьшить вероятность ошибиться и несправедливо обвинить человека в том, что его текст был сгенерирован.
Первый официальный документ, описывающий принцип действий в случае возможного контакта с внеземной цивилизацией, был принят Международной академией астронавтики (IAA) в 1989 году. С тех пор декларацию неоднократно пересматривали, а ее обновленную версию, адаптированную под реалии XXI века, ученые разработали совместно с участниками проекта по поиску инопланетян SETI.
Индийские психиатры описали необычное психическое расстройство у мужчины с алкогольной зависимостью. Так называемый синдром инкуба, сопровождаемый сексуальными галлюцинациями, развился у пациента при попытке сократить потребление спиртного.
Парадокс Циолковского — Ферми сформулировали почти век назад: во Вселенной много звезд, у них — планет. Почему же мы не видим следов других цивилизаций в небе? Автор новой гипотезы считает, что все дело в нейросетях.
В густой оранжевой дымке Титана, где температура опускается до минус 180 градусов Цельсия, происходят невозможные по земным меркам химические реакции: молекула циановодорода (HCN), рожденная в атмосфере из азота, метана и этана, могла сформировать кристаллы, объединяющие вещества противоположной природы.
Первый официальный документ, описывающий принцип действий в случае возможного контакта с внеземной цивилизацией, был принят Международной академией астронавтики (IAA) в 1989 году. С тех пор декларацию неоднократно пересматривали, а ее обновленную версию, адаптированную под реалии XXI века, ученые разработали совместно с участниками проекта по поиску инопланетян SETI.
Число несущих их клеток не просто увеличивается, механизм отбора связан с эволюционным преимуществом половых клеток. Узнать об этом помог улучшенный метод секвенирования ДНК.
Согласно новой гипотезе, сознание возникает не только из-за активности нейронов, но и благодаря физическим процессам — электромагнитным полям от движения жидкости в мозге. Эта модель, как и ее предшественники, пока носит теоретический характер, но предлагает нестандартный взгляд на проблему синхронизации работы разных отделов мозга.
Археологи Института истории материальной культуры РАН (ИИМК РАН), при поддержке фонда «История отечества» в ходе раскопок обнаружили на всемирно известной стоянке каменного века Костенки-17 в Воронежской области редчайшие украшения из зубов песца и окаменелой раковины, а также уникальный для этого времени нуклеус из бивня мамонта для снятия заготовок.
Экспедиционное судно «Эндьюранс» более века называли самым прочным деревянным судном, когда-либо построенным человеком. Но находка, сделанная на дне моря, и изучение старых писем раскрыли неприятную правду. Легендарный «Эндьюранс» Шеклтона вовсе не был непобедимым левиафаном. Напротив, он имел фатальные недостатки, а капитан знал об этом еще до того, как ушел в роковое плавание к берегам Антарктиды.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
ПонятноИз-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
ПонятноНаши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
ПонятноМы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
Комментарии