06.12.2024, 11:01

НИУ ВШЭ

Созданы нейросети для обнаружения сгенерированных вставок в текстах

❋ 4.5

Команда исследователей с участием Александра Ширнина из НИУ ВШЭ создала две модели для обнаружения в научных текстах частей, сгенерированных искусственным интеллектом. В системе AIpom соединены два типа моделей — декодер и энкодер, что позволяет ей эффективнее находить сгенерированные вставки. Система Papilusion подходит для распознания исправлений с помощью синонимов и кратких пересказов, сгенерированных нейросетью, в работе она использует модели одного типа — энкодеры. В перспективе подобные модели помогут в проверке оригинальности и достоверности научных публикаций.

НИУ ВШЭ

# искусственный интеллект

# научные статьи

# нейросети

# тексты

# языковые модели

В НИУ ВШЭ создали нейросети для обнаружения сгенерированных вставок в текстах / © Obi - @pixel9propics, unsplash.com

Статьи о системах Papilusion и AIpom опубликованы в цифровом архиве ACL Anthology. Чем популярнее становятся языковые модели, такие как ChatGPT или GigaChat, и чем больше их используют, тем сложнее отличить оригинальный текст, написанный человеком, от сгенерированного. Научные публикации и выпускные работы уже пишут с помощью искусственного интеллекта. Поэтому важно разрабатывать инструменты, которые помогут выявлять в текстах ИИ-вставки. Команда исследователей с участием НИУ ВШЭ предложила свои решения этой задачи на международных научных соревнованиях SemEval 2024 и DAGPap24.

Модель AIpom использовали для определения границ между оригинальными и сгенерированными фрагментами в научных статьях. В каждой работе соотношение машинного и авторского текста было разным. Для обучения моделей организаторы предоставляли тексты на одну тематику, но на этапе проверки темы менялись, что осложняло задачу.

«Модели неплохо справляются со знакомыми темами, но если дать новую тематику, то результат становится хуже, — считает один из авторов статьи, стажер-исследователь Научно-учебной лаборатории моделей и методов вычислительной прагматики факультета компьютерных наук НИУ ВШЭ Александр Ширнин. — Это как студент, который, научившись решать один тип задач, не сможет так же легко и правильно решить задачу на незнакомую тему или из другого предмета».

Для повышения эффективности системы исследователи решили комбинировать две модели — декодер и энкодер. На первом этапе использовался декодер — нейросеть, на вход которой подавали инструкцию плюс исходный текст, а на выходе получали фрагмент текста, предположительно сгенерированный ИИ. Затем в оригинальном тексте с помощью метки <BREAK> выделялся участок, где, по прогнозу модели, начинался сгенерированный фрагмент. Энкодер работал с текстом, размеченным на первом этапе, и уточнял предсказания декодера. Для этого он классифицировал каждый токен — минимальную единицу текста в виде слова или части слова — и указывал, написан он человеком или ИИ. Такой подход позволил улучшить точность по сравнению с системами, где применялся только один тип моделей: AIpom заняла 2-е место на научном соревновании SemEval-2024.

Модель Papilusion также отличала написанный текст от сгенерированного. С ее помощью участки текста разделяли на четыре категории: написанный человеком, исправленный с помощью синонимов, сгенерированный моделью и кратко пересказанный. Задача была правильно определить каждую из категорий. Количество категорий и длина вставок в текстах различались.

В данном случае разработчики использовали три модели, но уже одного типа — энкодеры. Их обучали предсказывать одну из четырех категорий для каждого токена из текста, все модели обучали независимо друг от друга. Когда модель ошибалась, ее штрафовали и дообучали, при этом замораживая нижние слои модели.

«В каждой модели в зависимости от архитектуры предусмотрено разное количество слоев. Когда мы обучаем модель, можно не трогать, например, первые десять слоев и менять числа только в двух последних. Так делают, чтобы при обучении не потерять часть важных данных, заложенных в первых слоях, — объясняет Александр Ширнин. — Можно сравнить это со спортсменом, который ошибается в движении рукой. Мы должны объяснить ему только это, а не обнулить его знания и обучать заново, потому что тогда он может разучиться правильно двигаться в целом. Здесь это работает по той же логике. Метод не универсален и на некоторых моделях может быть неэффективен, но в нашем случае это сработало».

Три энкодера независимо друг от друга определяли категорию для каждого токена (слова). Итоговый выбор системы основывался на том, какая из категорий набрала большинство голосов. На соревновании система Papilusion заняла 6-е место из 30.

Как отмечают исследователи, сейчас модели для выявления ИИ работают хорошо, но все еще имеют ограничения, прежде всего плохо обрабатывают данные, выходящие за рамки обучающих, и в целом не хватает разнообразных данных для обучения моделей.

«Чтобы получать больше данных, нужно сфокусироваться на их сборе. Этим занимаются и компании, и лаборатории. Конкретно для такого типа задач нужно собирать датасеты, где в текстах используются несколько ИИ-моделей и методов исправления, — комментирует исследователь. — То есть не просто продолжить текст с помощью одной модели, а создавать более реалистичные ситуации: где-то попросить модель дополнить текст, переписать начало, чтобы оно лучше подходило, что-то удалить из него, попробовать часть сгенерировать в новом стиле с помощью другого промпта (инструкции) для модели. Также, конечно, важно собирать данные и на других языках, на разные тематики».

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Национальный исследовательский университет «Высшая школа экономики» — один из крупнейших и самых востребованных вузов России. В университете учится 54 тысячи студентов и работает почти 4,5 тысячи учёных и преподавателей. НИУ ВШЭ ведёт фундаментальные и прикладные исследования в области социально-экономических, гуманитарных, юридических, инженерных, компьютерных, физико-математических наук, а также креативных индустрий. В университете действуют 47 центров превосходства, или международных лабораторий. Вышка объединяет ведущих мировых исследователей в области изучения мозга, нейротехнологий, биоинформатики и искусственного интеллекта. Университет входит в первую группу программы «Приоритет-2030» в направлении «Исследовательское лидерство». Кампусы НИУ ВШЭ расположены в четырех городах — Москве, Санкт-Петербурге, Нижнем Новгороде и Перми, а также в цифровом пространстве — «Вышка Онлайн».

НИУ ВШЭ

# искусственный интеллект

# научные статьи

# нейросети

# тексты

# языковые модели

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Без каких изобретений летом не обойтись?

Политехнический музей

Москва

Лекция

22 Июн

3800 ₽

Что шепчет химия на ухо художнику?

Политехнический музей

Москва

Лекция

23 Июн

Бесплатно

Удивительные женщины Арабского Востока

Российская государственная библиотека

Москва

Лекция

24 Июн

Бесплатно

Как идеи превращаются в реальное изменение системы

Университет ИТМО

Онлайн

Лекция

24 Июн

Бесплатно

Как русские цари себе жен выбирали

Библиотека роста и карьеры

Санкт-Петербург

Лекция

24 Июн

Бесплатно

Все пилотируемые полеты с рекордным удалением от Земли

Москва

Миры, которые мы не видим: история поиска экзопланет

Московский Планетарий

Москва

Лекция

25 Июн

Бесплатно

От канарейки в доме до ястреба в аэропорту

Московский зоопарк

Москва

Лекция

25 Июн

Бесплатно

Как мозг обманывает. Природа ошибок мышления

Библиотека им. М.А. Светлова

Москва

Популярное

За сутки

За неделю

За месяц

21 июня, 16:10

Evgenia Vavilova

В джунглях Борнео нашли нового сверхпаразита

Паразитические организмы иногда не учитывают, что сами могут оказаться целью паразита более высокого уровня. Сосредотачивая все свои силы на инфицировании и размножении, они остаются беззащитными перед агрессивным специализированным нахлебником.

Биология

# Борнео

# грибы

# кордицепс

# муравьи

# паразитизм

# паразиты

21 июня, 10:23

Николай Цыгикало

Невозможное возможно: как вакуумный двигатель SpaceX RaptorVAC работает при атмосферном давлении

Интригующие испытания высотного ракетного двигателя Raptor Vacuum для корабля Starship, верхней ступени сверхракеты Илона Маска, парадоксальны. Его работа на уровне моря уже сама по себе загадка. Ведь, по классическим представлениям, высотные двигатели на уровне моря корректно не работают. А сопло RaptorVAC на наземном стенде извергает реактивную струю без всяких признаков нарушения работы. Как такое может быть?

Космонавтика

# NASA

# SpaceX

# StarShip

# двигатели

# космос

# ракета

# ракетные двигатели

# США

# технологии

Выбор редакции

21 июня, 15:10

Марк Чернов

Ученые обнаружили «скрытую» подземную систему, питающую Гранд-Каньон

Американские ученые обнаружили в Гранд-Каньоне масштабную сеть скрытых пещер и изучили подземную гидросистему, которая снабжает водой весь национальный парк. Им удалось выяснить, как именно талая вода с поверхности путешествует по этим лабиринтам. Это открытие раскрыло глаза на то, как устроено знаменитое природное чудо, и поможет защитить его от засухи и загрязнений. Ранее этот механизм оставался для исследователей неизученным.

Геология

# геология

# Гранд-Каньон

# пещеры

21 июня, 16:10

Evgenia Vavilova

В джунглях Борнео нашли нового сверхпаразита

Биология

# Борнео

# грибы

# кордицепс

# муравьи

# паразитизм

# паразиты

21 июня, 10:23

Николай Цыгикало

Невозможное возможно: как вакуумный двигатель SpaceX RaptorVAC работает при атмосферном давлении

Космонавтика

# NASA

# SpaceX

# StarShip

# двигатели

# космос

# ракета

# ракетные двигатели

# США

# технологии

Выбор редакции

16 июня, 07:59

ТПУ

Новый подход позволил создавать материалы для водородной энергетики с заданными свойствами

Физики Инженерной школы ядерных технологий ТПУ разработали новый подход к созданию материалов водородной энергетики, основанный на управлении дефектной структурой и иерархической архитектурой материала. Подход позволяет перейти от традиционного подбора составов и добавок к проектированию материалов с заданными характеристиками хранения и транспорта водорода.

ТПУ

# водород

# водородная энергетика

# материалы

# спектрометрия

10 июня, 11:51

Александр Березин

Американские ученые заявили о первом в истории создании GPS-помех из космоса — русскими спутниками

Хотя длительность помех не превышала десяти секунд, это первый известный случай такого рода. Обычно спутникам не хватает мощности для создания радиосигналов той силы, что нужна для подобных помех.

Оружие и техника

# GPS

# космонавтика

# космос

# спутники

25 мая, 14:00

Андрей Серегин

Правящие семьи в доколумбовом Перу веками практиковали браки между родственниками

В доколумбовых Андах принадлежность к правящему роду определяла доступ к земле, торговле и статусу, поэтому удержать все внутри семьи было вопросом выживания. Ученые выяснили, что элиты долины Чинча решали эту задачу самым прямым способом — заключая браки между родственниками на протяжении как минимум двух поколений.

Археология

# Анды

# брак между родственниками

# инки

# раскопки

27 мая, 17:06

Александр Березин

Илон Маск обвинил военных США в использования Starlink на дронах-камикадзе

Вначале Reuters опубликовал статью о взаимоотношениях SpaceX и Пентагона, которую миллиардер --- традиционно для его отношений с этим изданием — назвал фейком. Опровергая ее тезисы, он обнародовал информацию, не представленную ранее публично.

Космонавтика

# SpaceX

# Starlink

# космос

# США

[miniorange_social_login]

Созданы нейросети для обнаружения сгенерированных вставок в текстах

По теме

Экзамен на выносливость: в России cоздали первый масштабный набор тестов для нейросетей на «понимание» длинных текстов

Исследователи из МГУ и «Яндекса» создали первый открытый датасет и метод обучения нейросетей сложным правилам русского языка

Ученые создали инструмент, с помощью которого нейросети смогут эффективнее избегать нежелательных тем

Популярное

В джунглях Борнео нашли нового сверхпаразита

Невозможное возможно: как вакуумный двигатель SpaceX RaptorVAC работает при атмосферном давлении

Ученые обнаружили «скрытую» подземную систему, питающую Гранд-Каньон

В джунглях Борнео нашли нового сверхпаразита

Невозможное возможно: как вакуумный двигатель SpaceX RaptorVAC работает при атмосферном давлении

Новый подход позволил создавать материалы для водородной энергетики с заданными свойствами

Американские ученые заявили о первом в истории создании GPS-помех из космоса — русскими спутниками

Правящие семьи в доколумбовом Перу веками практиковали браки между родственниками

Илон Маск обвинил военных США в использования Starlink на дронах-камикадзе

Комментарии

Хотите
вести колонку
в нашем
издании?

Колумнисты 66

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

5 самых красивых явлений природы

Авмерика или Амазия: будущий суперконтинент Земли определит ее обитаемость

Правда ли, что до встречи с инопланетянами осталось 400 тысяч лет?

Физики доказали, что Вселенная не может быть компьютерной симуляцией? Что здесь не так

Смертоносный орлан: образцы вооружений, обеспечивающие превосходство США

Как несимметричное порождает симметрию, или Почему все планеты вращаются в одной плоскости

DART — самоубийственная миссия к двойному астероиду

Что общего у чувства юмора и павлиньего хвоста?

Созданы нейросети для обнаружения сгенерированных вставок в текстах

По теме

Экзамен на выносливость: в России cоздали первый масштабный набор тестов для нейросетей на «понимание» длинных текстов

Исследователи из МГУ и «Яндекса» создали первый открытый датасет и метод обучения нейросетей сложным правилам русского языка

Ученые создали инструмент, с помощью которого нейросети смогут эффективнее избегать нежелательных тем

Популярное

Комментарии

Хотите вести колонку в нашем издании?

Колумнисты 66

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Хотите
вести колонку
в нашем
издании?