• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
26.11.2025, 16:13
Редакция Naked Science
12,3 тыс

Исследователи из МГУ и «Яндекса» создали первый открытый датасет и метод обучения нейросетей сложным правилам русского языка

❋ 3.2

Исследователи из Института искусственного интеллекта Московского государственного университета и «Яндекса» создали LORuGEC — первый открытый набор данных с примерами ошибок по сложным правилам русского языка. Они также разработали метод, помогающий обучить ИИ исправлять грамматические, пунктуационные и орфографические ошибки при генерации текстов. «Яндекс» рассказал о разработках на полях Конгресса молодых ученых.

Робот читает книгу / © Vasilyev Alexandr, Shutterstock

Большие языковые модели научились генерировать тексты на достаточно хорошем уровне, но они часто ошибаются в грамматике, пунктуации и орфографии русского языка. Это связано с тем, что в открытых наборах данных, на которых обучают нейросети, почти нет сложных правил.

Исследователи из Института искусственного интеллекта Московского государственного университета (МГУ) и «Яндекса» создали датасет, охвативший 48 правил русского языка. В набор данных они включили правила, знание которых проверяют на Едином государственном экзамене (ЕГЭ) и олимпиадах: примеры с неверной пунктуацией в сложноподчиненных предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях.

«В создании датасета нам помогали студенты-лингвисты, а также справочная литература. Мы собрали тысячу примеров, в которых не только исправлены ошибки, но и указаны соответствующие правила русского языка», — рассказал Алексей Сорокин, старший научный сотрудник Института искусственного интеллекта МГУ, разработчик в отделе «Поиска» «Яндекса».

Чтобы научить нейросеть исправлять сложные ошибки, не переобучая ее на созданном датасете, исследователи предложили новый метод Retrieval-Augmented Generation (генерация, усиленная поиском). Дообученная модель GECTOR находит в LORuGEC предложения с тем же типом ошибок, что и в исходной фразе, а затем подсказывает их большой языковой модели. Например, если в предложении пропущена запятая перед «что», модель получит пример с такой же ошибкой, а не с любой пунктуационной. Этот подход помогает избегать лишних исправлений, изменяя только часть с неточностью, а не все предложение.

«Яндекс» уже протестировал новый метод на собственных моделях YandexGPT 5 Lite и YandexGPT 5 Pro, а также на зарубежных аналогах, чтобы подтвердить универсальность подхода. Результаты показали, что точность исправлений сложных ошибок выросла на 5-10 процентов по метрике F0,5 — международному стандарту оценки грамматической коррекции. Новый метод помог нейросетям лучше исправлять ошибки. Так, точность YandexGPT 5 Pro достигла 83 процентов, а YandexGPT 5 Lite — 71 процента.

Ученые выложили датасет и метод обучения в открытый доступ. Это позволит исследователям и разработчикам использовать их, например, при создании образовательных сервисов для школьников и студентов.

«Этот проект — пример успешной коллаборации между наукой и технологическими компаниями. Совместная работа университетских лингвистов и инженеров-разработчиков позволила создать решение, которое действительно понимает тонкости русского языка», — добавил Сорокин.

Статья о датасете и методе дообучения нейросетей опубликована среди материалов конференции по компьютерной лингвистике ACL 2025. Материал получил приз за лучшую работу на воркшопе по инновационному использованию искусственного интеллекта в образовании, который прошел в рамках конференции. Свои работы там также представили Google, Apple, IBM, Bloomberg AI и другие компании.

О разработках «Яндекс» рассказал на полях Конгресса молодых ученых — главного мероприятия Десятилетия науки и технологий в России, проходящего 26-28 ноября в Научно-технологическом университете «Сириус».

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
12 марта, 07:55
Игорь Байдов

Каждую весну оплодотворенные матки шмелей выходят из зимовки и основывают новые колонии. Но как они умудряются выжить, если во время «спячки» их подземное убежище часто подтапливают талые или дождевые воды? Первыми на этот вопрос в 2024 году ответила команда канадских биологов. Они выяснили, что шмели способны безопасно проводить под водой до недели. Теперь другая группа ученых решила выяснить, какой именно физиологический механизм стоит за этим феноменом.

13 марта, 13:03
ФизТех

Антиген стволовых клеток простаты (PSCA) — это белок, который участвует в патогенезе заболеваний предстательной железы. Его вторая роль касается развития болезни Альцгеймера и других неврологических патологий. Новая статья ученых из МФТИ и ИБХ РАН с соавторами описала структуру PSCA, его фармакологические свойства и участие в нейровоспалении, что поможет создать новые лекарства. 

12 марта, 13:30
Александр Березин

Существует мнение, что астронавты в космосе — «балласт». Но на практике в сложных условиях именно люди выполняют ключевую работу, а автоматы резко уступают им по возможностям. Поэтому научных работ по итогам лунных экспедиций людей было больше, чем по итогам работы на Луне всех автоматов за всю историю. Несмотря на это, существует серьезная вероятность того, что у нового американского средства доставки людей на Луну не будет возможности ручной посадки.

10 марта, 14:47
ФизТех

Коллектив климатологов из Института географии РАН, Института физики атмосферы имени А. М. Обухова РАН и МФТИ разобрал одну из самых загадочных страниц климатической летописи: почему Арктика так резко потеплела в первой половине XX века, причем особенно сильно зимой. Ученые оценили, какую долю в тех температурных скачках могли сыграть «внутренние ритмы» атмосферы и океана Северного полушария и почему ответ меняется в зависимости от того, как именно отделять естественные колебания климата от внешних факторов вроде роста парниковых газов и загрязнения воздуха аэрозолями.

12 марта, 07:55
Игорь Байдов

Каждую весну оплодотворенные матки шмелей выходят из зимовки и основывают новые колонии. Но как они умудряются выжить, если во время «спячки» их подземное убежище часто подтапливают талые или дождевые воды? Первыми на этот вопрос в 2024 году ответила команда канадских биологов. Они выяснили, что шмели способны безопасно проводить под водой до недели. Теперь другая группа ученых решила выяснить, какой именно физиологический механизм стоит за этим феноменом.

8 марта, 10:58
Татьяна Зайцева

Согласно гипотезе о так называемой Еврогондване, в эпоху динозавров Европа, как часть северного суперконтинента Лавразия, еще не полностью отделилась от южного суперконтинента Гондвана и животные могли свободно мигрировать между Европой и Африкой. Однако новый анализ найденных в Венгрии костей первобытного крокодила показал, что его сходство с гондванскими видами обусловлено не близким родством, а схожим образом жизни.

3 марта, 14:06
Александр Березин

В ноябре 2025 года при взлете российской ракеты с Байконура к МКС с существенной высоты упала кабина обслуживания 8У216. Поскольку в 2010-х годах из экономии средств у нас отказались от дублирования стартовых площадок, это создало ситуацию временной невозможности пилотируемых полетов. Теперь, всего через три месяца после происшествия, «Роскосмос» смог решить проблему, поставив запасную кабину обслуживания, найденную на складах Минобороны. Весенние пуски к МКС, запланированные ранее, теперь имеют шансы пройти в срок.

5 марта, 08:10
Александр Березин

Одна сторона сыплет более дорогими и сложными баллистическими ракетами, другая — относительно дешевыми крылатыми. Но при этом первая на порядок беднее второй. А что у них с технологическим уровнем для наземной войны, и почему, кстати, глава второй избегает даже самого этого слова? Попробуем разобраться в реальных возможностях военных машин сторон потенциально самого опасного конфликта 2026 года.

28 февраля, 16:50
Игорь Байдов

В той части Пиренеев, которые находятся на территории Испании, исследователи обнаружили первые доказательства добычи золота в эпоху Римской империи. На месте древних рудников нашли сложные гидравлические сооружения и остатки водохранилища, возраст которых определили с помощью метода оптического датирования. Открытие прольет свет на инженерные приемы римлян и поставит точку в многолетнем споре: действительно ли римляне добывали золото в этом регионе.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно