Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
Созданы нейросети для обнаружения сгенерированных вставок в текстах
Команда исследователей с участием Александра Ширнина из НИУ ВШЭ создала две модели для обнаружения в научных текстах частей, сгенерированных искусственным интеллектом. В системе AIpom соединены два типа моделей — декодер и энкодер, что позволяет ей эффективнее находить сгенерированные вставки. Система Papilusion подходит для распознания исправлений с помощью синонимов и кратких пересказов, сгенерированных нейросетью, в работе она использует модели одного типа — энкодеры. В перспективе подобные модели помогут в проверке оригинальности и достоверности научных публикаций.
Статьи о системах Papilusion и AIpom опубликованы в цифровом архиве ACL Anthology. Чем популярнее становятся языковые модели, такие как ChatGPT или GigaChat, и чем больше их используют, тем сложнее отличить оригинальный текст, написанный человеком, от сгенерированного. Научные публикации и выпускные работы уже пишут с помощью искусственного интеллекта. Поэтому важно разрабатывать инструменты, которые помогут выявлять в текстах ИИ-вставки. Команда исследователей с участием НИУ ВШЭ предложила свои решения этой задачи на международных научных соревнованиях SemEval 2024 и DAGPap24.
Модель AIpom использовали для определения границ между оригинальными и сгенерированными фрагментами в научных статьях. В каждой работе соотношение машинного и авторского текста было разным. Для обучения моделей организаторы предоставляли тексты на одну тематику, но на этапе проверки темы менялись, что осложняло задачу.
«Модели неплохо справляются со знакомыми темами, но если дать новую тематику, то результат становится хуже, — считает один из авторов статьи, стажер-исследователь Научно-учебной лаборатории моделей и методов вычислительной прагматики факультета компьютерных наук НИУ ВШЭ Александр Ширнин. — Это как студент, который, научившись решать один тип задач, не сможет так же легко и правильно решить задачу на незнакомую тему или из другого предмета».
Для повышения эффективности системы исследователи решили комбинировать две модели — декодер и энкодер. На первом этапе использовался декодер — нейросеть, на вход которой подавали инструкцию плюс исходный текст, а на выходе получали фрагмент текста, предположительно сгенерированный ИИ. Затем в оригинальном тексте с помощью метки <BREAK> выделялся участок, где, по прогнозу модели, начинался сгенерированный фрагмент. Энкодер работал с текстом, размеченным на первом этапе, и уточнял предсказания декодера. Для этого он классифицировал каждый токен — минимальную единицу текста в виде слова или части слова — и указывал, написан он человеком или ИИ. Такой подход позволил улучшить точность по сравнению с системами, где применялся только один тип моделей: AIpom заняла 2-е место на научном соревновании SemEval-2024.
Модель Papilusion также отличала написанный текст от сгенерированного. С ее помощью участки текста разделяли на четыре категории: написанный человеком, исправленный с помощью синонимов, сгенерированный моделью и кратко пересказанный. Задача была правильно определить каждую из категорий. Количество категорий и длина вставок в текстах различались.
В данном случае разработчики использовали три модели, но уже одного типа — энкодеры. Их обучали предсказывать одну из четырех категорий для каждого токена из текста, все модели обучали независимо друг от друга. Когда модель ошибалась, ее штрафовали и дообучали, при этом замораживая нижние слои модели.
«В каждой модели в зависимости от архитектуры предусмотрено разное количество слоев. Когда мы обучаем модель, можно не трогать, например, первые десять слоев и менять числа только в двух последних. Так делают, чтобы при обучении не потерять часть важных данных, заложенных в первых слоях, — объясняет Александр Ширнин. — Можно сравнить это со спортсменом, который ошибается в движении рукой. Мы должны объяснить ему только это, а не обнулить его знания и обучать заново, потому что тогда он может разучиться правильно двигаться в целом. Здесь это работает по той же логике. Метод не универсален и на некоторых моделях может быть неэффективен, но в нашем случае это сработало».
Три энкодера независимо друг от друга определяли категорию для каждого токена (слова). Итоговый выбор системы основывался на том, какая из категорий набрала большинство голосов. На соревновании система Papilusion заняла 6-е место из 30.
Как отмечают исследователи, сейчас модели для выявления ИИ работают хорошо, но все еще имеют ограничения, прежде всего плохо обрабатывают данные, выходящие за рамки обучающих, и в целом не хватает разнообразных данных для обучения моделей.
«Чтобы получать больше данных, нужно сфокусироваться на их сборе. Этим занимаются и компании, и лаборатории. Конкретно для такого типа задач нужно собирать датасеты, где в текстах используются несколько ИИ-моделей и методов исправления, — комментирует исследователь. — То есть не просто продолжить текст с помощью одной модели, а создавать более реалистичные ситуации: где-то попросить модель дополнить текст, переписать начало, чтобы оно лучше подходило, что-то удалить из него, попробовать часть сгенерировать в новом стиле с помощью другого промпта (инструкции) для модели. Также, конечно, важно собирать данные и на других языках, на разные тематики».
Когда у круглых червей наступают голодные времена или им становится тесно, они объединяют свои усилия, чтобы поменять среду обитания. Забираются друг на друга, образуя живые башни, которые устремляются вверх, где нематоды могут прицепиться к проходящему мимо животному и с его помощью добраться до более изобильных мест. Долгое время ученые лишь догадывались о существовании таких живых башен. Теперь команда исследователей из Германии впервые зафиксировала их в дикой природе.
Илон Маск накинулся на Трампа за отказ от сокращения госрасходов, считая, что это ведет Америку к банкротству. А еще он заявил, что без него тот и к власти бы не пришел. В ответ Трамп предложил сократить госрасходы, лишив Маска всех контрактов. Между тем, именно контракты с ним — основа возвращения американцев на Луну в 2027-2028 годах. Что будет, если американский президент действительно решится на расторжение контрактов? И как это отразится на множественных полетах Starship к Марсу в 2020-х? Как ни странно, оба эти вопроса плотно затрагивают происходящее в нашей стране.
Удаленные промышленные объекты и метеостанции в условиях Крайнего Севера или Дальнего Востока требуют автономного энергоснабжения. Вместо традиционных двигателей их оснащают установками, преобразующими химическую энергию топлива (водорода, метана, биогаза) в электричество и тепло через электрохимические реакции с помощью твердооксидных топливных элементов (ТОТЭ). Эти конструкции со специальными керамическими ячейками работают без сжигания топлива, что повышает их эффективность и экологичность. Ученые ПНИПУ разработали компактный высокотемпературный блок для ТОТЭ. Испытания показали, что он перерабатывает метан на 96%, подтверждая работоспособность системы.
Когда у круглых червей наступают голодные времена или им становится тесно, они объединяют свои усилия, чтобы поменять среду обитания. Забираются друг на друга, образуя живые башни, которые устремляются вверх, где нематоды могут прицепиться к проходящему мимо животному и с его помощью добраться до более изобильных мест. Долгое время ученые лишь догадывались о существовании таких живых башен. Теперь команда исследователей из Германии впервые зафиксировала их в дикой природе.
Илон Маск накинулся на Трампа за отказ от сокращения госрасходов, считая, что это ведет Америку к банкротству. А еще он заявил, что без него тот и к власти бы не пришел. В ответ Трамп предложил сократить госрасходы, лишив Маска всех контрактов. Между тем, именно контракты с ним — основа возвращения американцев на Луну в 2027-2028 годах. Что будет, если американский президент действительно решится на расторжение контрактов? И как это отразится на множественных полетах Starship к Марсу в 2020-х? Как ни странно, оба эти вопроса плотно затрагивают происходящее в нашей стране.
Удаленные промышленные объекты и метеостанции в условиях Крайнего Севера или Дальнего Востока требуют автономного энергоснабжения. Вместо традиционных двигателей их оснащают установками, преобразующими химическую энергию топлива (водорода, метана, биогаза) в электричество и тепло через электрохимические реакции с помощью твердооксидных топливных элементов (ТОТЭ). Эти конструкции со специальными керамическими ячейками работают без сжигания топлива, что повышает их эффективность и экологичность. Ученые ПНИПУ разработали компактный высокотемпературный блок для ТОТЭ. Испытания показали, что он перерабатывает метан на 96%, подтверждая работоспособность системы.
Вид антилоп, с ледникового периода привыкший к массовым миграциям, пытается вернуться в свой исторический ареал, когда-то достигавший Днепра. Однако их нетипичные для травоядных привычки вызывают сильнейшее отторжение у сельских жителей, предлагающих массово уничтожать их с воздуха. С экологической точки зрения возвращение этих животных весьма желательно, но как примирить их с фермерами — неясно.
Недавно вышел второй сезон сериала «Одни из нас» (TheLastofUs), созданного по сюжету популярнейшей видеоигры. Ученые Пермского Политеха решили разобраться, насколько реален сценарий грибной пандемии, превращающей людей зомби? Чем живет кордицепс и как он «ищет» своих жертв, действительно ли паразит способен эволюционировать настолько, чтобы поражать человеческий организм и подчинять себе его волю, был бы у людей шанс выжить, какие грибы уже поселились в наших телах и выручит ли нас иммунитет, сформированный тысячелетиями.
Казахстанский Алматы — город контрастов, где горы соседствуют с урбанистическими пейзажами, а бизнес-центры — с историческими кварталами. Неизменным остается одно — пробки. Ежедневно сюда приезжает более 700 тысяч автомобилей из пригородов, при этом в самом мегаполисе зарегистрировано порядка 600 тысяч транспортных средств. В результате по улицам ежедневно движется более миллиона транспортных средств.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
ПонятноИз-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
ПонятноНаши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
ПонятноМы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
ПонятноМы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.
Понятно
Комментарии