• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
06.12.2024, 11:01
НИУ ВШЭ
2
339

Созданы нейросети для обнаружения сгенерированных вставок в текстах

❋ 4.5

Команда исследователей с участием Александра Ширнина из НИУ ВШЭ создала две модели для обнаружения в научных текстах частей, сгенерированных искусственным интеллектом. В системе AIpom соединены два типа моделей — декодер и энкодер, что позволяет ей эффективнее находить сгенерированные вставки. Система Papilusion подходит для распознания исправлений с помощью синонимов и кратких пересказов, сгенерированных нейросетью, в работе она использует  модели одного типа — энкодеры. В перспективе подобные модели помогут в проверке оригинальности и достоверности научных публикаций.

В НИУ ВШЭ создали нейросети для обнаружения сгенерированных вставок в текстах / © Obi - @pixel9propics, unsplash.com

Статьи о  системах Papilusion и AIpom опубликованы в цифровом архиве ACL Anthology. Чем популярнее становятся языковые модели, такие как ChatGPT или GigaChat, и чем больше их используют, тем сложнее отличить оригинальный текст, написанный человеком, от сгенерированного. Научные публикации и выпускные работы уже пишут с помощью искусственного интеллекта. Поэтому важно разрабатывать инструменты, которые помогут выявлять в текстах ИИ-вставки. Команда исследователей с участием НИУ ВШЭ предложила свои решения этой задачи на международных научных соревнованиях SemEval 2024 и DAGPap24. 

Модель AIpom использовали для определения границ между оригинальными и сгенерированными фрагментами в научных статьях. В каждой работе соотношение машинного и авторского текста было разным. Для обучения моделей организаторы предоставляли тексты на одну тематику, но на этапе проверки темы менялись, что осложняло задачу. 

«Модели неплохо справляются со знакомыми темами, но если дать новую тематику, то результат становится хуже, — считает один из авторов статьи, стажер-исследователь Научно-учебной лаборатории моделей и методов вычислительной прагматики факультета компьютерных наук НИУ ВШЭ Александр Ширнин. — Это как студент, который, научившись решать один тип задач, не сможет так же легко и правильно решить задачу на незнакомую тему или из другого предмета».

Для повышения эффективности системы исследователи решили комбинировать две модели — декодер и энкодер. На первом этапе использовался декодер — нейросеть, на вход которой подавали инструкцию плюс исходный текст, а на выходе получали фрагмент текста, предположительно сгенерированный ИИ. Затем в оригинальном тексте с помощью метки <BREAK> выделялся участок, где, по прогнозу модели, начинался сгенерированный фрагмент. Энкодер работал с текстом, размеченным на первом этапе, и уточнял предсказания декодера. Для этого он классифицировал каждый токен — минимальную единицу текста в виде слова или части слова — и указывал, написан он человеком или ИИ. Такой подход позволил улучшить точность по сравнению с системами, где применялся только один тип моделей: AIpom заняла 2-е место на научном соревновании SemEval-2024. 

Модель Papilusion также отличала написанный текст от сгенерированного. С ее помощью участки текста разделяли на четыре категории: написанный человеком, исправленный с помощью синонимов, сгенерированный моделью и кратко пересказанный. Задача была правильно определить каждую из категорий. Количество категорий и длина вставок в текстах различались. 

В данном случае разработчики использовали три модели, но уже одного типа — энкодеры. Их обучали предсказывать одну из четырех категорий для каждого токена из текста, все модели обучали независимо друг от друга. Когда модель ошибалась, ее штрафовали и дообучали, при этом замораживая нижние слои модели. 

«В каждой модели в зависимости от архитектуры предусмотрено разное количество слоев. Когда мы обучаем модель, можно не трогать, например, первые десять слоев и менять числа только в двух последних. Так делают, чтобы при обучении не потерять часть важных данных, заложенных в первых слоях, — объясняет Александр Ширнин. — Можно сравнить это со спортсменом, который ошибается в движении рукой. Мы должны объяснить ему только это, а не обнулить его знания и обучать заново, потому что тогда он может разучиться правильно двигаться в целом. Здесь это работает по той же логике. Метод не универсален и на некоторых моделях может быть неэффективен, но в нашем случае это сработало». 

Три энкодера независимо друг от друга определяли категорию для каждого токена (слова). Итоговый выбор системы основывался на том, какая из категорий набрала большинство голосов. На соревновании система Papilusion заняла 6-е место из 30. 

Как отмечают исследователи, сейчас модели для выявления ИИ работают хорошо, но все еще имеют ограничения,  прежде всего плохо обрабатывают данные, выходящие за рамки обучающих, и в целом не хватает разнообразных данных для обучения моделей. 

«Чтобы получать больше данных, нужно сфокусироваться на их сборе. Этим занимаются и компании, и лаборатории. Конкретно для такого типа задач нужно собирать датасеты, где в текстах используются несколько ИИ-моделей и методов исправления, — комментирует исследователь. — То есть не просто продолжить текст с помощью одной модели, а создавать более реалистичные ситуации: где-то попросить модель дополнить текст, переписать начало, чтобы оно лучше подходило, что-то удалить из него, попробовать часть сгенерировать в новом стиле с помощью другого промпта (инструкции) для модели. Также, конечно, важно собирать данные и на других языках, на разные тематики». 

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Национальный исследовательский университет «Высшая школа экономики» — один из крупнейших и самых востребованных вузов России. В университете учится 54 тысячи студентов и работает почти 4,5 тысячи учёных и преподавателей. НИУ ВШЭ ведёт фундаментальные и прикладные исследования в области социально-экономических, гуманитарных, юридических, инженерных, компьютерных, физико-математических наук, а также креативных индустрий. В университете действуют 47 центров превосходства, или международных лабораторий. Вышка объединяет ведущих мировых исследователей в области изучения мозга, нейротехнологий, биоинформатики и искусственного интеллекта. Университет входит в первую группу программы «Приоритет-2030» в направлении «Исследовательское лидерство». Кампусы НИУ ВШЭ расположены в четырех городах — Москве, Санкт-Петербурге, Нижнем Новгороде и Перми, а также в цифровом пространстве — «Вышка Онлайн».
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
25 декабря, 09:49
Максим Абдулаев

Ученые выяснили, что специфический вариант гена fruitless (fru) управляет социальным поведением самцов медоносной пчелы, заставляя их активно участвовать в коллективном обмене пищей и правильно выбирать место в колонии.

24 декабря, 09:05
ПНИПУ

Бурение — единственный способ добычи подземных углеводородов, но традиционные буровые растворы на основе нефтехимии создают серьезную экологическую угрозу. Их токсичные отходы отравляют почву и грунтовые воды, нанося долгосрочный ущерб экосистемам и здоровью людей. В качестве решения разрабатываются «зеленые» альтернативы: биоразлагаемые компоненты из отходов сельского хозяйства, растительных масел и природных полимеров, а также наночастицы. Однако у них есть недостатки: органические составы не всегда устойчивы к температурным условиям в скважинах, а нанотехнологии — дороги и не всегда экологичны. Это препятствует массовому переходу на безопасные методы. Ученые Пермского Политеха совместно с международными исследователями разработали новые классы реагентов для нефтедобычи, сочетающие биоразлагаемые компоненты с наночастицами. Данные составы сокращают вредные утечки более чем на 31% и при этом полностью разлагаются, не нанося ущерба природе.

24 декабря, 10:30
Unitsky String Technologies Inc.

В современном рельсовом транспорте каждый цикл разгона и торможения напрямую зависит от большого количества энергии. И если набор скорости потребляет мощность, то торможение, наоборот, производит ее в избытке. Проблема в том, что значительная часть этой энергии пропадает впустую, буквально сгорая при нагреве контактной сети и тормозных систем. Но уже есть электрохимические и емкостные накопители энергии, которые могут собирать, хранить и возвращать в сеть драгоценные киловатт-часы, делая транспорт одновременно дешевле и экологичнее. Как предполагают белорусские инженеры, в перспективе подобные накопители станут одним из ключевых элементов энергоэффективной транспортной инфраструктуры uST.

23 декабря, 10:51
Игорь Байдов

Среди самых интригующих открытий космического телескопа «‎Джеймс Уэбб» — компактные объекты, получившие название «маленькие красные точки». Их видели только в самых дальних уголках Вселенной. Большинство возникло в первый миллиард лет после Большого взрыва, и ученые предполагали, что такие источники представляют собой небольшие компактные галактики. Однако международная команда астрономов пришла к иному выводу. Они предположили, что на самом деле «маленькие красные точки» — черные дыры, окруженные массивной газовой оболочкой.

26 декабря, 12:32
КНЦ РАН

Обычно, увидев черную плесень в помещении, мы стремимся избавиться от нее как можно скорее. Микроскопический гриб Aspergillus niger обладает уникальной живучестью и умением приспосабливаться к любым неблагоприятным условиям среды, но для человека воспринимается как признак бытовой неприятности. Он портит еду, размножается в сырых углах, вызывает аллергию и ассоциируется с антисанитарией. Однако именно эти качества — устойчивость к токсичным веществам и способность расти в экстремальных условиях — оказались ключевыми для неожиданной сферы его применения. Ученые задействовали этот гриб для утилизации одного из самых проблемных промышленных загрязнителей — трибутилфосфата.

24 декабря, 11:36
ПНИПУ

В России существуют тысячи рабочих мест с вредными и опасными условиями труда. На шахтах, металлургических заводах, в авиастроении люди годами находятся в условиях сильного шума, вибрации, запыленности и контакта с химикатами, что наносит серьезный ущерб здоровью. Однако существующие методы оценки рисков оказываются неэффективными для прогнозирования заболеваний, поскольку работают с усредненными показателями группы, а обязательные медосмотры определяют уже наступившую болезнь. Такая система лечит последствия, но не предотвращает причину. Ученые Пермского Политеха, управления Роспотребнадзора и ФНЦ медико-профилактических технологий управления рисками здоровью населения разработали программу, которая прогнозирует индивидуальные профессиональные риски здоровью для каждого конкретного работника с точностью 89%.

8 декабря, 13:09
Александр Березин

С 2010-х в «Роскосмосе» говорили: будущая РОС сможет пролетать над полюсом, что даст ей возможности для новых научных экспериментов. Но вскоре после того, как в ноябре 2025 года Россия временно лишилась возможности запускать людей в космос, эта позиция изменилась. В результате запускать космонавтов с космодромов нашей страны станет довольно сложно.

17 декабря, 14:19
Игорь Байдов

На скалистых берегах аргентинской Патагонии разворачивается настоящая драма. Магеллановы пингвины, долгое время чувствовавшие себя в безопасности на суше в своих многотысячных колониях, столкнулись с новым и беспощадным врагом. Их извечные морские страхи — касатки и морские леопарды — теперь блекнут перед угрозой, пришедшей из глубины материка. Виновник переполоха — грациозный и мощный хищник, недавно вернувшийся на эти земли после долгого изгнания.

29 ноября, 12:42
Александр Березин

Позавчера, 27 ноября 2025 года, при запуске космонавтов к МКС на стартовую площадку № 31 упала кабина обслуживания стартового комплекса. Это означает, что новые пуски оттуда до починки невозможны. К сожалению, в 2010-х годах, в рамках «оптимизации» расходов, резервную площадку (с которой летал Юрий Гагарин) упразднили. Поэтому случилось беспрецедентное: в XXI веке страна с пилотируемой космической программой осталась без средств запуска людей на орбиту. Пока ремонт не закончится, проблема сохранится. Чем это может грозить?

[miniorange_social_login]

Комментарии

2 Комментария
А Ко
06.12.2024
-
1
+
Разве в антиплагиате уже не реализовали подобную проверку?
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно