26.11.2025, 16:13

Редакция Naked Science

12,3 тыс

Исследователи из МГУ и «Яндекса» создали первый открытый датасет и метод обучения нейросетей сложным правилам русского языка

❋ 3.2

Исследователи из Института искусственного интеллекта Московского государственного университета и «Яндекса» создали LORuGEC — первый открытый набор данных с примерами ошибок по сложным правилам русского языка. Они также разработали метод, помогающий обучить ИИ исправлять грамматические, пунктуационные и орфографические ошибки при генерации текстов. «Яндекс» рассказал о разработках на полях Конгресса молодых ученых.

Технологии

# искусственный интеллект

# лингвистика

# нейросети

# правила русского языка

# технологии

# языковые модели

Робот читает книгу / © Vasilyev Alexandr, Shutterstock

Большие языковые модели научились генерировать тексты на достаточно хорошем уровне, но они часто ошибаются в грамматике, пунктуации и орфографии русского языка. Это связано с тем, что в открытых наборах данных, на которых обучают нейросети, почти нет сложных правил.

Исследователи из Института искусственного интеллекта Московского государственного университета (МГУ) и «Яндекса» создали датасет, охвативший 48 правил русского языка. В набор данных они включили правила, знание которых проверяют на Едином государственном экзамене (ЕГЭ) и олимпиадах: примеры с неверной пунктуацией в сложноподчиненных предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях.

«В создании датасета нам помогали студенты-лингвисты, а также справочная литература. Мы собрали тысячу примеров, в которых не только исправлены ошибки, но и указаны соответствующие правила русского языка», — рассказал Алексей Сорокин, старший научный сотрудник Института искусственного интеллекта МГУ, разработчик в отделе «Поиска» «Яндекса».

Чтобы научить нейросеть исправлять сложные ошибки, не переобучая ее на созданном датасете, исследователи предложили новый метод Retrieval-Augmented Generation (генерация, усиленная поиском). Дообученная модель GECTOR находит в LORuGEC предложения с тем же типом ошибок, что и в исходной фразе, а затем подсказывает их большой языковой модели. Например, если в предложении пропущена запятая перед «что», модель получит пример с такой же ошибкой, а не с любой пунктуационной. Этот подход помогает избегать лишних исправлений, изменяя только часть с неточностью, а не все предложение.

«Яндекс» уже протестировал новый метод на собственных моделях YandexGPT 5 Lite и YandexGPT 5 Pro, а также на зарубежных аналогах, чтобы подтвердить универсальность подхода. Результаты показали, что точность исправлений сложных ошибок выросла на 5-10 процентов по метрике F0,5 — международному стандарту оценки грамматической коррекции. Новый метод помог нейросетям лучше исправлять ошибки. Так, точность YandexGPT 5 Pro достигла 83 процентов, а YandexGPT 5 Lite — 71 процента.

Ученые выложили датасет и метод обучения в открытый доступ. Это позволит исследователям и разработчикам использовать их, например, при создании образовательных сервисов для школьников и студентов.

«Этот проект — пример успешной коллаборации между наукой и технологическими компаниями. Совместная работа университетских лингвистов и инженеров-разработчиков позволила создать решение, которое действительно понимает тонкости русского языка», — добавил Сорокин.

Статья о датасете и методе дообучения нейросетей опубликована среди материалов конференции по компьютерной лингвистике ACL 2025. Материал получил приз за лучшую работу на воркшопе по инновационному использованию искусственного интеллекта в образовании, который прошел в рамках конференции. Свои работы там также представили Google, Apple, IBM, Bloomberg AI и другие компании.

О разработках «Яндекс» рассказал на полях Конгресса молодых ученых — главного мероприятия Десятилетия науки и технологий в России, проходящего 26-28 ноября в Научно-технологическом университете «Сириус».

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Технологии

# искусственный интеллект

# лингвистика

# нейросети

# правила русского языка

# технологии

# языковые модели

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Орган из пластика и клеток: новая медицина без экспериментов на людях

ВДНХ

Москва

Лекция

11 Июл

Бесплатно

Биологические эксперименты в космосе в настоящее время

Космонавтика и авиация

Москва

Лекция

11 Июл

Бесплатно

Научная карьера в сельском хозяйстве: как защитить докторскую в 33 года и стать директором института?

ВДНХ

Москва

Экспериментаниум

Москва

Экскурсия

11 Июл

Бесплатно

Космос с берегов Инда и Ганга

Космонавтика и авиация

Москва

Лекция

12 Июл

Бесплатно

Достижения современной физики

Космонавтика и авиация

Москва

Русское географическое общество

Москва

Лекция

13 Июл

800 ₽

Парадоксальные механизмы жизни: прорывы в биологии

Центр «Архэ»

Онлайн

Лекция

14 Июл

Бесплатно

Эволюция социальности позвоночных в контексте происхождения человеческого общества

Библиотека им. Н. А. Некрасова

Москва

Популярное

За сутки

За неделю

За месяц

9 июля, 13:06

Редакция Naked Science

YouTube в России вырос даже с ограничениями, в отличие от «VK Видео»

Видеосервисы стали неотъемлемой частью жизни россиян. В 2026 году охваты большинства платформ продолжают расти, в том числе YouTube.

Медиа

# «ВКонтакте»

# YouTube

# аудитория

# блокировки

# видеосервис

# интернет

# медиа

9 июля, 18:33

Редакция Naked Science

Российский ученый Артем Оганов получил международную госпремию Китая

Торжественная церемония прошла в Пекине, на совместном заседании ведущих научных организаций Китая и XI съезда Китайской ассоциации науки и техники. Вручал награды председатель КНР Си Цзиньпин. Оганов получил премию за научно-техническое сотрудничество. Эта награда считается одной из самых престижных в сфере науки.

Медиа

# китай

# награда

# научная премия

# российские ученые

9 июля, 14:20

МГППУ

Психологи выяснили, почему молодежь не спешит в ЗАГС

Готовность к браку — это сочетание мотивов, знаний, навыков и качеств личности, которые обеспечат построение узаконенных отношений с любимым человеком. Исследователи из МГППУ выявили, как отличаются способность к эмпатии, коммуникативная компетентность, хозяйственно-бытовые навыки и распределение ролей в семье у людей в браке, сожителей и у людей без постоянного партнера для совместного проживания.

МГППУ

# брак

# молодежь

# отношения

# Психология

9 июля, 13:06

Редакция Naked Science

YouTube в России вырос даже с ограничениями, в отличие от «VK Видео»

Медиа

# «ВКонтакте»

# YouTube

# аудитория

# блокировки

# видеосервис

# интернет

# медиа

9 июля, 18:33

Редакция Naked Science

Российский ученый Артем Оганов получил международную госпремию Китая

Медиа

# китай

# награда

# научная премия

# российские ученые

9 июля, 14:20

МГППУ

Психологи выяснили, почему молодежь не спешит в ЗАГС

МГППУ

# брак

# молодежь

# отношения

# Психология

25 июня, 16:20

Любовь С.

Физики уточнили возможные размеры Вселенной

Вселенная может оказаться «замкнутой» глобальной структурой, где свет от далеких галактик способен возвращаться к наблюдателю с разных направлений. Именно такой сценарий не удалось исключить авторам нового масштабного обзора. Проверить его предсказания астрономы смогут уже в ближайшие годы.

Астрономия

# бесконечность

# вселенная

# геометрия

# пространство

# реликтовое излучение

# свет

# топология

25 июня, 15:09

Марк Чернов

Физики подтвердили гипотезу о существовании двух жидких состояний воды

Ученые впервые на молекулярном уровне доказали, что обычная вода одновременно состоит из двух разных жидких состояний — более плотного и менее плотного, которые непрерывно сменяют друг друга. Раз молекулярная «двойственность» действительно существует, это подтверждает спорную 30-летнюю гипотезу. Новое открытие поможет, наконец, объяснить десятки «странных» физических аномалий воды, включая ее расширение при замерзании и парадоксальное изменение вязкости под давлением.

Физика

# вода

# Молекулярная биология

# структура воды

# фазовые переходы

26 июня, 14:54

Максим Абдулаев

Начало деменции у пожилых собак определили по их походке

Американские ветеринары установили, что длина шага передних лап у пожилых собак отражает возрастные изменения в работе мозга. Когда у собак развивается деменция, шаги их передних лап становятся короче, причем эта связь не зависит от хронической боли в суставах.

Биология

# деменция

# походка

# собаки

# старение

[miniorange_social_login]

Исследователи из МГУ и «Яндекса» создали первый открытый датасет и метод обучения нейросетей сложным правилам русского языка

По теме

Исследователи выяснили, как нейросети понимают каламбуры

Ученый выявил «алгоритмическую шизофрению» нейросетей

Экзамен на выносливость: в России cоздали первый масштабный набор тестов для нейросетей на «понимание» длинных текстов

Популярное

Комментарии

Последние новости:

Ради выживания на высокогорье мыши научились есть ядовитые растения

Российские онкологи запатентовали калькулятор для персонализации лечения рака молочной железы

Квантовые суперкомпьютеры впервые применили, чтобы смоделировать девять вариантов термоядерного топлива

Физик рассказал, как охлаждать дом кондиционером без вреда для здоровья

Климатический «щелчок»: может ли Эль-Ниньо изменить привычный нам мир

Промышленный кошмар: почему терраформирование Марса может оказаться неподъемной задачей

Невозможное возможно: как вакуумный двигатель SpaceX RaptorVAC работает при атмосферном давлении

Жанна д’Арк: как неграмотная девушка определила будущее мира

Последние комментарии

Самые обсуждаемые

YouTube в России вырос даже с ограничениями, в отличие от «VK Видео»

Древнейшие звезды Млечного Пути помогли уточнить возраст Вселенной

Климатический «щелчок»: может ли Эль-Ниньо изменить привычный нам мир

Антропологи пересмотрели причины увеличения человеческого мозга