Исследователи из МГУ и «Яндекса» создали первый открытый датасет и метод обучения нейросетей сложным правилам русского языка
Исследователи из Института искусственного интеллекта Московского государственного университета и «Яндекса» создали LORuGEC — первый открытый набор данных с примерами ошибок по сложным правилам русского языка. Они также разработали метод, помогающий обучить ИИ исправлять грамматические, пунктуационные и орфографические ошибки при генерации текстов. «Яндекс» рассказал о разработках на полях Конгресса молодых ученых.
Большие языковые модели научились генерировать тексты на достаточно хорошем уровне, но они часто ошибаются в грамматике, пунктуации и орфографии русского языка. Это связано с тем, что в открытых наборах данных, на которых обучают нейросети, почти нет сложных правил.
Исследователи из Института искусственного интеллекта Московского государственного университета (МГУ) и «Яндекса» создали датасет, охвативший 48 правил русского языка. В набор данных они включили правила, знание которых проверяют на Едином государственном экзамене (ЕГЭ) и олимпиадах: примеры с неверной пунктуацией в сложноподчиненных предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях.
«В создании датасета нам помогали студенты-лингвисты, а также справочная литература. Мы собрали тысячу примеров, в которых не только исправлены ошибки, но и указаны соответствующие правила русского языка», — рассказал Алексей Сорокин, старший научный сотрудник Института искусственного интеллекта МГУ, разработчик в отделе «Поиска» «Яндекса».
Чтобы научить нейросеть исправлять сложные ошибки, не переобучая ее на созданном датасете, исследователи предложили новый метод Retrieval-Augmented Generation (генерация, усиленная поиском). Дообученная модель GECTOR находит в LORuGEC предложения с тем же типом ошибок, что и в исходной фразе, а затем подсказывает их большой языковой модели. Например, если в предложении пропущена запятая перед «что», модель получит пример с такой же ошибкой, а не с любой пунктуационной. Этот подход помогает избегать лишних исправлений, изменяя только часть с неточностью, а не все предложение.
«Яндекс» уже протестировал новый метод на собственных моделях YandexGPT 5 Lite и YandexGPT 5 Pro, а также на зарубежных аналогах, чтобы подтвердить универсальность подхода. Результаты показали, что точность исправлений сложных ошибок выросла на 5-10 процентов по метрике F0,5 — международному стандарту оценки грамматической коррекции. Новый метод помог нейросетям лучше исправлять ошибки. Так, точность YandexGPT 5 Pro достигла 83 процентов, а YandexGPT 5 Lite — 71 процента.
Ученые выложили датасет и метод обучения в открытый доступ. Это позволит исследователям и разработчикам использовать их, например, при создании образовательных сервисов для школьников и студентов.
«Этот проект — пример успешной коллаборации между наукой и технологическими компаниями. Совместная работа университетских лингвистов и инженеров-разработчиков позволила создать решение, которое действительно понимает тонкости русского языка», — добавил Сорокин.
Статья о датасете и методе дообучения нейросетей опубликована среди материалов конференции по компьютерной лингвистике ACL 2025. Материал получил приз за лучшую работу на воркшопе по инновационному использованию искусственного интеллекта в образовании, который прошел в рамках конференции. Свои работы там также представили Google, Apple, IBM, Bloomberg AI и другие компании.
О разработках «Яндекс» рассказал на полях Конгресса молодых ученых — главного мероприятия Десятилетия науки и технологий в России, проходящего 26-28 ноября в Научно-технологическом университете «Сириус».
В доколумбовых Андах принадлежность к правящему роду определяла доступ к земле, торговле и статусу, поэтому удержать все внутри семьи было вопросом выживания. Ученые выяснили, что элиты долины Чинча решали эту задачу самым прямым способом — заключая браки между родственниками на протяжении как минимум двух поколений.
Последние несколько лет по всему миру выходит множество работ о том, что микрочастицы искусственных полимеров накапливаются в тканях человека и могут быть небезопасны. Мы решили обратиться к академику Алексею Хохлову, чтобы дать трибуну противоположной точке зрения. Выбор между ними предлагаем сделать читателю.
Ученые раскрыли причины удивительной сохранности крупнейшей из пирамид Гизы. Секрет того, что за прошедшие тысячелетия пирамиду не разрушили землетрясения, кроется в особенностях ее конструкции, в том числе в так называемых разгрузочных камерах, расположенных непосредственно над погребальной камерой фараона.
Астрофизики Южного федерального университета предложили объяснение одной из самых интригующих загадок современной физики — годичных колебаний сигнала в детекторе DAMA/LIBRA, который вот уже почти тридцать лет регистрирует странные сигналы в подземной лаборатории Гран-Сассо в Италии, интерпретируемые как взаимодействие частиц темной материи с обычным веществом.
В доколумбовых Андах принадлежность к правящему роду определяла доступ к земле, торговле и статусу, поэтому удержать все внутри семьи было вопросом выживания. Ученые выяснили, что элиты долины Чинча решали эту задачу самым прямым способом — заключая браки между родственниками на протяжении как минимум двух поколений.
Последние несколько лет по всему миру выходит множество работ о том, что микрочастицы искусственных полимеров накапливаются в тканях человека и могут быть небезопасны. Мы решили обратиться к академику Алексею Хохлову, чтобы дать трибуну противоположной точке зрения. Выбор между ними предлагаем сделать читателю.
В высокогорных районах Гималаев появился новый хищник. Он не боится людей, возглавляет стаи собак и все чаще заходит в деревни. Местные жители называют его «кхипшанг». Речь идет о гибриде гималайского волка и бродячей собаки. Ученые опасаются, что этот зверь изменит хрупкий баланс местной дикой природы и в скором времени станет весьма опасным для человека.
Релиз довольно неожиданно перенес время образования протонов и нейтронов в более раннее прошлое Вселенной. К сожалению, из его текста осталось неясным научное обоснование таких фундаментальных изменений в космологии. Также он резко передвинул в прошлое и момент возникновения реликтового излучения.
При совпадении нескольких условий наши глаза способны улавливать излучение в ближнем инфракрасном спектре. Тогда сетчатка начинает работать как нелинейный фотодетектор.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
Последние комментарии