Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
Исследователи из МГУ и «Яндекса» создали первый открытый датасет и метод обучения нейросетей сложным правилам русского языка
Исследователи из Института искусственного интеллекта Московского государственного университета и «Яндекса» создали LORuGEC — первый открытый набор данных с примерами ошибок по сложным правилам русского языка. Они также разработали метод, помогающий обучить ИИ исправлять грамматические, пунктуационные и орфографические ошибки при генерации текстов. «Яндекс» рассказал о разработках на полях Конгресса молодых ученых.
Большие языковые модели научились генерировать тексты на достаточно хорошем уровне, но они часто ошибаются в грамматике, пунктуации и орфографии русского языка. Это связано с тем, что в открытых наборах данных, на которых обучают нейросети, почти нет сложных правил.
Исследователи из Института искусственного интеллекта Московского государственного университета (МГУ) и «Яндекса» создали датасет, охвативший 48 правил русского языка. В набор данных они включили правила, знание которых проверяют на Едином государственном экзамене (ЕГЭ) и олимпиадах: примеры с неверной пунктуацией в сложноподчиненных предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях.
«В создании датасета нам помогали студенты-лингвисты, а также справочная литература. Мы собрали тысячу примеров, в которых не только исправлены ошибки, но и указаны соответствующие правила русского языка», — рассказал Алексей Сорокин, старший научный сотрудник Института искусственного интеллекта МГУ, разработчик в отделе «Поиска» «Яндекса».
Чтобы научить нейросеть исправлять сложные ошибки, не переобучая ее на созданном датасете, исследователи предложили новый метод Retrieval-Augmented Generation (генерация, усиленная поиском). Дообученная модель GECTOR находит в LORuGEC предложения с тем же типом ошибок, что и в исходной фразе, а затем подсказывает их большой языковой модели. Например, если в предложении пропущена запятая перед «что», модель получит пример с такой же ошибкой, а не с любой пунктуационной. Этот подход помогает избегать лишних исправлений, изменяя только часть с неточностью, а не все предложение.
«Яндекс» уже протестировал новый метод на собственных моделях YandexGPT 5 Lite и YandexGPT 5 Pro, а также на зарубежных аналогах, чтобы подтвердить универсальность подхода. Результаты показали, что точность исправлений сложных ошибок выросла на 5-10 процентов по метрике F0,5 — международному стандарту оценки грамматической коррекции. Новый метод помог нейросетям лучше исправлять ошибки. Так, точность YandexGPT 5 Pro достигла 83 процентов, а YandexGPT 5 Lite — 71 процента.
Ученые выложили датасет и метод обучения в открытый доступ. Это позволит исследователям и разработчикам использовать их, например, при создании образовательных сервисов для школьников и студентов.
«Этот проект — пример успешной коллаборации между наукой и технологическими компаниями. Совместная работа университетских лингвистов и инженеров-разработчиков позволила создать решение, которое действительно понимает тонкости русского языка», — добавил Сорокин.
Статья о датасете и методе дообучения нейросетей опубликована среди материалов конференции по компьютерной лингвистике ACL 2025. Материал получил приз за лучшую работу на воркшопе по инновационному использованию искусственного интеллекта в образовании, который прошел в рамках конференции. Свои работы там также представили Google, Apple, IBM, Bloomberg AI и другие компании.
О разработках «Яндекс» рассказал на полях Конгресса молодых ученых — главного мероприятия Десятилетия науки и технологий в России, проходящего 26-28 ноября в Научно-технологическом университете «Сириус».
Австралийские археологи обнаружили редкий клад каменных орудий на западе штата Квинсленд. В яме на берегу пересыхающего водоема лежали 60 совершенно новых тесел, изготовленных в XIX веке. Ученые установили, что это был «торговый пакет», подготовленный для обмена в экономической сети аборигенов. Владелец не смог забрать ценный груз, вероятно, из-за конфликта с европейскими поселенцами.
На федеральной территории «Сириус» 26-28 ноября 2025 года прошел юбилейный V Конгресс молодых ученых, продемонстрировавший результаты пятилетней работы. Этот Конгресс стал самым масштабным за всю историю. За пять лет в три раза увеличилось число участников конгресса, а количество стран-участниц выросло в четыре раза.
В этом квизе нет правильных и неправильных ответов. Все варианты имеют право на существование. Выбор отражает личные или социальные приоритеты. Поскольку такие вопросы часто завязаны на эмоции и смутные ощущения, мы избегаем диктовать правильные ответы, но показываем, что атомная отрасль имеет проекты, соответствующие разным интенциям. Итогом квиза будет рекомендация, в создании какого типа инновационных реакторов было бы оптимально работать участнику опроса с учетом его предпочтений и склонностей. Это позволит ему соотнести и ассоциировать себя с атомными проектами.
Позавчера, 27 ноября 2025 года, при запуске космонавтов к МКС на стартовую площадку № 31 упала кабина обслуживания стартового комплекса. Это означает, что новые пуски оттуда до починки невозможны. К сожалению, в 2010-х годах, в рамках «оптимизации» расходов, резервную площадку (с которой летал Юрий Гагарин) упразднили. Поэтому случилось беспрецедентное: в XXI веке страна с пилотируемой космической программой осталась без средств запуска людей на орбиту. Пока ремонт не закончится, проблема сохранится. Чем это может грозить?
Австралийские археологи обнаружили редкий клад каменных орудий на западе штата Квинсленд. В яме на берегу пересыхающего водоема лежали 60 совершенно новых тесел, изготовленных в XIX веке. Ученые установили, что это был «торговый пакет», подготовленный для обмена в экономической сети аборигенов. Владелец не смог забрать ценный груз, вероятно, из-за конфликта с европейскими поселенцами.
В Передовой инженерной школе КНИТУ-КАИ (ПИШ КАИ) действуют временные научные коллективы (ВНК), работающие над реальными инженерными задачами. Одним из наиболее ярких результатов стала работа ВНК-4, созданного для развития технологий в области легких авиационных систем. Проект реализуется под руководством Никиты Сёмина, который также возглавляет специальное образовательное пространство (СОП) ПИШ КАИ «Авиамоделирование».
Позавчера, 27 ноября 2025 года, при запуске космонавтов к МКС на стартовую площадку № 31 упала кабина обслуживания стартового комплекса. Это означает, что новые пуски оттуда до починки невозможны. К сожалению, в 2010-х годах, в рамках «оптимизации» расходов, резервную площадку (с которой летал Юрий Гагарин) упразднили. Поэтому случилось беспрецедентное: в XXI веке страна с пилотируемой космической программой осталась без средств запуска людей на орбиту. Пока ремонт не закончится, проблема сохранится. Чем это может грозить?
Японские биологи повторили античную технологию производства вина из изюма, чтобы выяснить механизм его брожения. Исследователи показали, что сушеный виноград, в отличие от свежего, накапливает на поверхности дикие дрожжи и способен превращать воду в алкоголь без внесения дополнительных заквасок.
Человеческие языки разнообразны, но это разнообразие ограничивается повторяющимися закономерностями. Пытаясь описать правила, которым подчиняются различия в грамматике, лингвисты сформулировали ряд так называемых грамматических универсалий — утверждений, предположительно верных для всех или большинства языков мира. Международная команда ученых провела статистический анализ на материале 2430 языков и обнаружила, что соответствующими действительности можно считать около трети таких утверждений.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
Последние комментарии