Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
Исследователи из МГУ и «Яндекса» создали первый открытый датасет и метод обучения нейросетей сложным правилам русского языка
Исследователи из Института искусственного интеллекта Московского государственного университета и «Яндекса» создали LORuGEC — первый открытый набор данных с примерами ошибок по сложным правилам русского языка. Они также разработали метод, помогающий обучить ИИ исправлять грамматические, пунктуационные и орфографические ошибки при генерации текстов. «Яндекс» рассказал о разработках на полях Конгресса молодых ученых.
Большие языковые модели научились генерировать тексты на достаточно хорошем уровне, но они часто ошибаются в грамматике, пунктуации и орфографии русского языка. Это связано с тем, что в открытых наборах данных, на которых обучают нейросети, почти нет сложных правил.
Исследователи из Института искусственного интеллекта Московского государственного университета (МГУ) и «Яндекса» создали датасет, охвативший 48 правил русского языка. В набор данных они включили правила, знание которых проверяют на Едином государственном экзамене (ЕГЭ) и олимпиадах: примеры с неверной пунктуацией в сложноподчиненных предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях.
«В создании датасета нам помогали студенты-лингвисты, а также справочная литература. Мы собрали тысячу примеров, в которых не только исправлены ошибки, но и указаны соответствующие правила русского языка», — рассказал Алексей Сорокин, старший научный сотрудник Института искусственного интеллекта МГУ, разработчик в отделе «Поиска» «Яндекса».
Чтобы научить нейросеть исправлять сложные ошибки, не переобучая ее на созданном датасете, исследователи предложили новый метод Retrieval-Augmented Generation (генерация, усиленная поиском). Дообученная модель GECTOR находит в LORuGEC предложения с тем же типом ошибок, что и в исходной фразе, а затем подсказывает их большой языковой модели. Например, если в предложении пропущена запятая перед «что», модель получит пример с такой же ошибкой, а не с любой пунктуационной. Этот подход помогает избегать лишних исправлений, изменяя только часть с неточностью, а не все предложение.
«Яндекс» уже протестировал новый метод на собственных моделях YandexGPT 5 Lite и YandexGPT 5 Pro, а также на зарубежных аналогах, чтобы подтвердить универсальность подхода. Результаты показали, что точность исправлений сложных ошибок выросла на 5-10 процентов по метрике F0,5 — международному стандарту оценки грамматической коррекции. Новый метод помог нейросетям лучше исправлять ошибки. Так, точность YandexGPT 5 Pro достигла 83 процентов, а YandexGPT 5 Lite — 71 процента.
Ученые выложили датасет и метод обучения в открытый доступ. Это позволит исследователям и разработчикам использовать их, например, при создании образовательных сервисов для школьников и студентов.
«Этот проект — пример успешной коллаборации между наукой и технологическими компаниями. Совместная работа университетских лингвистов и инженеров-разработчиков позволила создать решение, которое действительно понимает тонкости русского языка», — добавил Сорокин.
Статья о датасете и методе дообучения нейросетей опубликована среди материалов конференции по компьютерной лингвистике ACL 2025. Материал получил приз за лучшую работу на воркшопе по инновационному использованию искусственного интеллекта в образовании, который прошел в рамках конференции. Свои работы там также представили Google, Apple, IBM, Bloomberg AI и другие компании.
О разработках «Яндекс» рассказал на полях Конгресса молодых ученых — главного мероприятия Десятилетия науки и технологий в России, проходящего 26-28 ноября в Научно-технологическом университете «Сириус».
Окаменелые остатки рептилии возрастом 289 миллионов лет сохранили полное анатомическое устройство грудной клетки ранних покорителей суши. Благодаря нетронутым хрящам исследователи реконструировали механику первого полноценного реберного дыхания. Наличие в тканях оригинальных белков подтвердило, что сложные органические молекулы способны сохраняться в палеонтологической летописи почти на 100 миллионов лет дольше, чем считалось.
Представления о политическом устройстве древних майя долгое время сводились к образу всемогущего обожествленного царя. Однако новые находки археологов в джунглях Гватемалы показали, что на смену абсолютной монархии там пришла куда более открытая форма власти — с советами, открытыми заседаниями и коллективной ответственностью.
Когда международная экспедиционная группа, исследующая море Уэдделла в Антарктиде на борту ледокола «Поларштерн», попыталась укрыться от шторма, ученые и экипаж судна удивились внезапному появлению острова, не обозначенного ни на одной морской карте.
Четыре человека, летящие к Луне, столкнулись с целым рядом мелких неприятностей — от низкой температуры в начале работы до поломки мочевыводящей системы туалета на вторые сутки и необходимости взамен пользоваться пакетами. К счастью, пока самые крупные сложности удалось компенсировать. Но все они вместе могут сдвинуть ситуацию к решению, о котором Naked Science уже говорил в нашем видеоподкасте о миссии: не исключено, что при высадке астронавтов на Луне их корабль состыкуют со Starship не на окололунной, а уже на околоземной орбите.
Окаменелые остатки рептилии возрастом 289 миллионов лет сохранили полное анатомическое устройство грудной клетки ранних покорителей суши. Благодаря нетронутым хрящам исследователи реконструировали механику первого полноценного реберного дыхания. Наличие в тканях оригинальных белков подтвердило, что сложные органические молекулы способны сохраняться в палеонтологической летописи почти на 100 миллионов лет дольше, чем считалось.
Международная команда палеонтологов развенчала статус окаменелости Pohlsepia mazonensis, которая с 2000 года считалась древнейшим осьминогом на земле. Сканирование выявило внутри породы скрытый зубчатый аппарат (радулу). Его строение показывает, что перед учеными не осьминог, а окаменевшие остатки сгнившего наутилуса. Это открытие сдвигает появление первых осьминогов на 150 миллионов лет вперед и заставляет пересмотреть молекулярные часы эволюции головоногих.
В парках некоторых стран все чаще можно заметить странную картину: синицы и воробьи вместо пуха и веточек приносят в клювах сигаретные окурки. Орнитологи из Польши решили выяснить, зачем птицы выстилают гнезда мусором, пропитанным никотином. Оказалось, пернатые нашли способ использовать вредную человеческую привычку для защиты своего потомства. Но, как это часто бывает в природе, у медали есть обратная сторона.
Марсоход «Персеверанс» обнаружил в камнях на кромке кратера Езеро спектральные признаки минерала корунда, из которого на Земле образуются рубины и сапфиры. Такие спектры на Красной планете зарегистрировали впервые. Теперь ученые пытаются понять, при каких процессах он мог там сформироваться, ведь условия на Марсе заметно отличаются от тех, в которых корунд обычно образуется на Земле.
Четыре человека, летящие к Луне, столкнулись с целым рядом мелких неприятностей — от низкой температуры в начале работы до поломки мочевыводящей системы туалета на вторые сутки и необходимости взамен пользоваться пакетами. К счастью, пока самые крупные сложности удалось компенсировать. Но все они вместе могут сдвинуть ситуацию к решению, о котором Naked Science уже говорил в нашем видеоподкасте о миссии: не исключено, что при высадке астронавтов на Луне их корабль состыкуют со Starship не на окололунной, а уже на околоземной орбите.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
Последние комментарии