• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
26.11.2025, 16:13
Редакция Naked Science
12,3 тыс

Исследователи из МГУ и «Яндекса» создали первый открытый датасет и метод обучения нейросетей сложным правилам русского языка

❋ 3.2

Исследователи из Института искусственного интеллекта Московского государственного университета и «Яндекса» создали LORuGEC — первый открытый набор данных с примерами ошибок по сложным правилам русского языка. Они также разработали метод, помогающий обучить ИИ исправлять грамматические, пунктуационные и орфографические ошибки при генерации текстов. «Яндекс» рассказал о разработках на полях Конгресса молодых ученых.

Робот читает книгу / © Vasilyev Alexandr, Shutterstock

Большие языковые модели научились генерировать тексты на достаточно хорошем уровне, но они часто ошибаются в грамматике, пунктуации и орфографии русского языка. Это связано с тем, что в открытых наборах данных, на которых обучают нейросети, почти нет сложных правил.

Исследователи из Института искусственного интеллекта Московского государственного университета (МГУ) и «Яндекса» создали датасет, охвативший 48 правил русского языка. В набор данных они включили правила, знание которых проверяют на Едином государственном экзамене (ЕГЭ) и олимпиадах: примеры с неверной пунктуацией в сложноподчиненных предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях.

«В создании датасета нам помогали студенты-лингвисты, а также справочная литература. Мы собрали тысячу примеров, в которых не только исправлены ошибки, но и указаны соответствующие правила русского языка», — рассказал Алексей Сорокин, старший научный сотрудник Института искусственного интеллекта МГУ, разработчик в отделе «Поиска» «Яндекса».

Чтобы научить нейросеть исправлять сложные ошибки, не переобучая ее на созданном датасете, исследователи предложили новый метод Retrieval-Augmented Generation (генерация, усиленная поиском). Дообученная модель GECTOR находит в LORuGEC предложения с тем же типом ошибок, что и в исходной фразе, а затем подсказывает их большой языковой модели. Например, если в предложении пропущена запятая перед «что», модель получит пример с такой же ошибкой, а не с любой пунктуационной. Этот подход помогает избегать лишних исправлений, изменяя только часть с неточностью, а не все предложение.

«Яндекс» уже протестировал новый метод на собственных моделях YandexGPT 5 Lite и YandexGPT 5 Pro, а также на зарубежных аналогах, чтобы подтвердить универсальность подхода. Результаты показали, что точность исправлений сложных ошибок выросла на 5-10 процентов по метрике F0,5 — международному стандарту оценки грамматической коррекции. Новый метод помог нейросетям лучше исправлять ошибки. Так, точность YandexGPT 5 Pro достигла 83 процентов, а YandexGPT 5 Lite — 71 процента.

Ученые выложили датасет и метод обучения в открытый доступ. Это позволит исследователям и разработчикам использовать их, например, при создании образовательных сервисов для школьников и студентов.

«Этот проект — пример успешной коллаборации между наукой и технологическими компаниями. Совместная работа университетских лингвистов и инженеров-разработчиков позволила создать решение, которое действительно понимает тонкости русского языка», — добавил Сорокин.

Статья о датасете и методе дообучения нейросетей опубликована среди материалов конференции по компьютерной лингвистике ACL 2025. Материал получил приз за лучшую работу на воркшопе по инновационному использованию искусственного интеллекта в образовании, который прошел в рамках конференции. Свои работы там также представили Google, Apple, IBM, Bloomberg AI и другие компании.

О разработках «Яндекс» рассказал на полях Конгресса молодых ученых — главного мероприятия Десятилетия науки и технологий в России, проходящего 26-28 ноября в Научно-технологическом университете «Сириус».

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
25 мая, 14:00
Андрей Серегин

В доколумбовых Андах принадлежность к правящему роду определяла доступ к земле, торговле и статусу, поэтому удержать все внутри семьи было вопросом выживания. Ученые выяснили, что элиты долины Чинча решали эту задачу самым прямым способом — заключая браки между родственниками на протяжении как минимум двух поколений.

25 мая, 10:21
Александр Березин

Последние несколько лет по всему миру выходит множество работ о том, что микрочастицы искусственных полимеров накапливаются в тканях человека и могут быть небезопасны. Мы решили обратиться к академику Алексею Хохлову, чтобы дать трибуну противоположной точке зрения. Выбор между ними предлагаем сделать читателю.

23 мая, 12:16
Татьяна Зайцева

Ученые раскрыли причины удивительной сохранности крупнейшей из пирамид Гизы. Секрет того, что за прошедшие тысячелетия пирамиду не разрушили землетрясения, кроется в особенностях ее конструкции, в том числе в так называемых разгрузочных камерах, расположенных непосредственно над погребальной камерой фараона.

21 мая, 16:54
ЮФУ

Астрофизики Южного федерального университета предложили объяснение одной из самых интригующих загадок современной физики — годичных колебаний сигнала в детекторе DAMA/LIBRA, который вот уже почти тридцать лет регистрирует странные сигналы в подземной лаборатории Гран-Сассо в Италии, интерпретируемые как взаимодействие частиц темной материи с обычным веществом.

25 мая, 14:00
Андрей Серегин

В доколумбовых Андах принадлежность к правящему роду определяла доступ к земле, торговле и статусу, поэтому удержать все внутри семьи было вопросом выживания. Ученые выяснили, что элиты долины Чинча решали эту задачу самым прямым способом — заключая браки между родственниками на протяжении как минимум двух поколений.

25 мая, 10:21
Александр Березин

Последние несколько лет по всему миру выходит множество работ о том, что микрочастицы искусственных полимеров накапливаются в тканях человека и могут быть небезопасны. Мы решили обратиться к академику Алексею Хохлову, чтобы дать трибуну противоположной точке зрения. Выбор между ними предлагаем сделать читателю.

17 мая, 10:35
Игорь Байдов

В высокогорных районах Гималаев появился новый хищник. Он не боится людей, возглавляет стаи собак и все чаще заходит в деревни. Местные жители называют его «кхипшанг». Речь идет о гибриде гималайского волка и бродячей собаки. Ученые опасаются, что этот зверь изменит хрупкий баланс местной дикой природы и в скором времени станет весьма опасным для человека.

29 апреля, 13:04
Александр Березин

Релиз довольно неожиданно перенес время образования протонов и нейтронов в более раннее прошлое Вселенной. К сожалению, из его текста осталось неясным научное обоснование таких фундаментальных изменений в космологии. Также он резко передвинул в прошлое и момент возникновения реликтового излучения.

17 мая, 10:00
Evgenia Vavilova

При совпадении нескольких условий наши глаза способны улавливать излучение в ближнем инфракрасном спектре. Тогда сетчатка начинает работать как нелинейный фотодетектор.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Комментарий на проверке

Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Авторизуясь, вы даете согласие на обработку персональных данных и подтверждаете ознакомление с Политикой.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно