1 декабря, 16:13

ФизТех

Экзамен на выносливость: в России cоздали первый масштабный набор тестов для нейросетей на «понимание» длинных текстов

❋ 4.8

Команда исследователей из SberAI, НИУ ВШЭ, Института искусственного интеллекта AIRI и МФТИ представила LIBRA — первый в своем роде масштабный бенчмарк для оценки способности больших языковых моделей (LLM) работать с длинными текстами на русском языке. Эта разработка решает критическую проблему в области развития искусственного интеллекта, предоставляя российскому научному сообществу универсальный и прозрачный инструмент для измерения и сравнения производительности нейросетей в одной из самых сложных и востребованных задач.

ФизТех

# искусственный интеллект

# нейросети

# русский язык

# технологии

# языковые модели

Робот читает книгу / © idal / depositphotos

В последние годы большие языковые модели совершили настоящий прорыв, научившись вести осмысленный диалог, писать тексты и программный код. Однако у большинства из них долго оставалась «ахиллесова пята» — ограниченный объем «оперативной памяти», или, как говорят специалисты, короткое контекстное окно. Модель могла блестяще оперировать информацией, поданной ей в последних нескольких абзацах, но «забывала» то, что было в начале длинного документа. Это серьезно ограничивало их применение в задачах, требующих анализа больших объемов информации: юридических договоров, научных статей, медицинских карт или целых литературных произведений.

Недавние технологические достижения позволили значительно расширить это окно, и теперь лучшие модели способны «удержать в уме» текст, сопоставимый по объему с романом «Война и мир». Однако вместе с новыми возможностями возник и новый вызов: как объективно измерить, насколько хорошо нейросеть на самом деле «понимает» такой огромный массив данных? Существующие тесты для русского языка были либо слишком простыми, либо не были рассчитаны на такие объемы, а большинство передовых разработок в этой области были созданы для английского языка.

Именно для решения этой задачи команда российских ученых создала LIBRA (Long Input Benchmark for Russian Analysis). Это не просто один тест, а целый комплексный «экзамен», состоящий из 18 заданий различной природы и сложности. Он позволяет оценить, как модель справляется с текстами объемом от четырех тысяч до 128 тысяч токенов (единиц текста, сопоставимых с количеством слов), что эквивалентно диапазону от большой статьи до увесистой книги. Все задания в бенчмарке разделены на четыре группы по возрастанию сложности, что позволяет провести всесторонний анализ способностей нейросети. Работа представлена на международном воркшопе CODI 2025, прошедшем в рамках конференции EMNLP 2025 в Сучжоу (Китай).

Структура бенчмарка LIBRA. Бенчмарк представляет собой комплексный «экзамен» для нейросетей, состоящий из 18 заданий, которые разделены на четыре группы по возрастанию сложности. От простых задач по поиску «иголки в стоге сена» (Group I), до заданий, требующих анализа и сопоставления фактов, разбросанных по всему тексту (Group II и III), и решения логических и математических задач на основе прочитанного (Group IV). Такая многоуровневая структура позволяет оценить способность искусственного интеллекта работать с текстами объемом до 128 тысяч токенов, что эквивалентно целой книге / © Churin et al., Long Context Benchmark for the Russian Language (2025)

Первая, самая простая группа заданий, работает по принципу «найди иголку в стоге сена». В огромный массив текста помещается короткая, уникальная фраза (например, «ключ доступа»), и задача модели — найти и извлечь ее. Вторая группа усложняет задачу: модели нужно не просто найти информацию, но и ответить на прямой вопрос, основанный на содержании текста. Третья группа требует уже настоящей «детективной работы»: ответ не лежит на поверхности, и для его формулировки нейросети необходимо найти и связать воедино несколько фактов, разбросанных по разным частям документа. Наконец, четвертая, самая сложная группа, требует от модели целостного «понимания» всего контекста и применения логики, включая решение математических задач, описанных в тексте.

Руководитель направления SberAI, доцент ВШЭ Мария Тихонова отметила, что в эпоху стремительного развития искусственного интеллекта критически важно иметь не просто инструменты, но и открытые платформы для совместной работы.

«LIBRA — это не только набор из 18 уникальных задач, но и открытый бенчмарк, доступный всем исследователям: датасеты, код для оценки и публичный лидерборд на HuggingFace. Мы стремились создать «песочницу», где каждый исследователь и разработчик в России мог бы честно и прозрачно тестировать свои модели для работы с длинными текстами, сравнивать результаты и вносить свой вклад», — рассказала Тихонова.

Она выразила надежду, что LIBRA позволит ускорить прогресс в области обработки длинного контекста для русского языка, стимулируя здоровое соревнование и обмен знаниями внутри сообщества.

Как пояснил главный разработчик бенчмарка LIBRA Игорь Чурин, ограниченный «объем памяти» был одним из ключевых препятствий для широкого внедрения LLM в реальные бизнес-процессы и научные исследования, где часто приходится работать с огромными документами.

«Теперь у нас есть инструмент, который позволяет количественно оценивать, как модели действительно ведут себя на масштабных русскоязычных данных — от десятков тысяч токенов до объемов, сравнимых с целой книгой. Мы планируем расширять набор задач, включать новые домены и анализировать тонкие сбои в рассуждениях моделей. Наша цель не просто фиксировать ограничения, а понять их природу и помочь разработчикам создавать системы, которые действительно способны хранить, интерпретировать и использовать большие массивы контекста так же уверенно, как человек», — рассказал Чурин.

Исследователи уже протестировали на своем бенчмарке 17 популярных языковых моделей. Результаты оказались весьма показательными: даже у самых продвинутых систем производительность заметно снижается по мере увеличения длины текста. Это подтверждает, что, несмотря на значительный прогресс, задача глубокого «понимания» действительно больших объемов информации остается одной из самых сложных для современного искусственного интеллекта. Лидером тестов стала модель GPT-4o, а среди моделей с открытыми весами, доступных российскому сообществу, лучший результат показала GLM4-9B-Chat.

Уникальность LIBRA заключается не только в том, что это первый подобный инструмент для русского языка, но и в его комплексности и открытости. Набор из 18 заданий, 14 из которых были созданы специально для этого проекта на основе открытых источников данных, обеспечивает всестороннюю и многогранную оценку. А непереводной характер большинства данных позволяет учитывать специфику российских реалий и культурного кода при оценке, чего невозможно добиться, переводя датасеты с английского. Публикация всех материалов в открытом доступе превращает бенчмарк в живую платформу и точку сборки для всего российского ИИ-сообщества.

«Разработка мощных языковых моделей в России идет полным ходом, но до сих пор у нас не было общего «секундомера» для измерения их производительности в марафонском забеге — обработке длинных текстов. Раньше каждый разработчик тестировал свои модели по-своему, что делало сравнение невозможным. LIBRA — наш ответ на этот вызов. Мы создали единый, открытый и сложный полигон, на котором все желающие могут проверить свои модели в честном соревновании. Предоставляя в открытый доступ не только сами задания, но и код для оценки и публичную таблицу лидеров, мы надеемся стимулировать дальнейшее развитие и совершенствование русскоязычных нейросетей», — прокомментировал исследователь лаборатории нейронных систем и глубокого обучения МФТИ Айдар Булатов.

Команда планирует расширять и усложнять бенчмарк, добавляя в него новые типы заданий и текстовые домены.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Московский физико-технический институт (национальный исследовательский университет), известен также как Физтех — ведущий российский вуз по подготовке специалистов в области теоретической, экспериментальной и прикладной физики, математики, информатики, химии, биологии и смежных дисциплин. Расположен в городе Долгопрудном Московской области, отдельные корпуса и факультеты находятся в Жуковском и в Москве.

ФизТех

# искусственный интеллект

# нейросети

# русский язык

# технологии

# языковые модели

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

XII Конгресс «Инновационная практика: наука плюс бизнес»

МГУ

Москва

Лекция

02 Дек

900 ₽

Китообразные: от наземных предков к властителям океанов

Центр «Архэ»

Москва

Лекция

02 Дек

750 ₽

Смутное время (1604—1613 гг.)

Центр «Архэ»

Онлайн

Лекция

03 Дек

Бесплатно

Морское обрастание в Арктике: жизнь в замедленной съемке

Центр морских исследований МГУ

Онлайн

Лекция

03 Дек

1000 ₽

История нашего алфавита

Центр «Архэ»

Москва

Центр «Архэ»

Москва

Лекция

04 Дек

1400 ₽

Эпоха средиземноморских сверхдержав

Центр «Архэ»

Москва

Библиотека им. Н. А. Некрасова

Москва

Лекция

04 Дек

500 ₽

Роль движения в когнитивном развитии

Санкт-Петербургский Планетарий

Санкт-Петербург

Популярное

За сутки

За неделю

За месяц

29 ноября, 12:42

Александр Березин

Впервые в истории Россия временно лишилась возможности выводить людей в космос. Какие выводы сделают отрасль сильнее?

Позавчера, 27 ноября 2025 года, при запуске космонавтов к МКС на стартовую площадку № 31 упала кабина обслуживания стартового комплекса. Это означает, что новые пуски оттуда до починки невозможны. К сожалению, в 2010-х годах, в рамках «оптимизации» расходов, резервную площадку (с которой летал Юрий Гагарин) упразднили. Поэтому случилось беспрецедентное: в XXI веке страна с пилотируемой космической программой осталась без средств запуска людей на орбиту. Пока ремонт не закончится, проблема сохранится. Чем это может грозить?

Космонавтика

# «Союз МС»

# Байконур

# корабль Союз

# космодром «Восточный»

# космодром Байконур

# космос

# Роскосмос

# Россия

Выбор редакции

29 ноября, 11:09

Любовь С.

Железные метеориты подтвердили роль Юпитера, как главного «архитектора» Солнечной системы

Проанализировав результаты более 100 исследований, посвященных метеоритам разных типов, ученые реконструировали события, происходившие в первые миллионы лет после рождения Солнечной системы, и выяснили, как именно возникли Земля и другие миры.

Астрономия

# железные метеориты

# изотопный анализ

# метаанализ

# планеты

# Солнечная система

# хондриты

30 ноября, 13:20

Максим Абдулаев

Биологи нашли систему принудительного роста вниз у растений

Американские ботаники выяснили, что ориентация растений в пространстве — результат конкуренции двух противоположных сигнальных систем, а не простого стремления расти вверх. Они описали белок SLQ1, который активно заставляет стебель расти вниз. Это открытие меняет представление о гравитропизме: оказалось, растения балансируют между сигналами «вверх» и «вниз».

Биология

# ботаника

# мутации

# растения

# рост

29 ноября, 12:42

Александр Березин

Впервые в истории Россия временно лишилась возможности выводить людей в космос. Какие выводы сделают отрасль сильнее?

Космонавтика

# «Союз МС»

# Байконур

# корабль Союз

# космодром «Восточный»

# космодром Байконур

# космос

# Роскосмос

# Россия

Выбор редакции

27 ноября, 20:20

Максим Абдулаев

Эксперимент подтвердил эффективность античного способа получения вина из изюма

Японские биологи повторили античную технологию производства вина из изюма, чтобы выяснить механизм его брожения. Исследователи показали, что сушеный виноград, в отличие от свежего, накапливает на поверхности дикие дрожжи и способен превращать воду в алкоголь без внесения дополнительных заквасок.

Археология

# алкоголь

# античность

# вино

# виноделие

# дрожжи

# история

# микробиология

27 ноября, 11:05

Игорь Байдов

Каменные идолы острова Пасхи оказались результатом соперничества независимых общин

Долгое время ученые полагали, что сотни гигантских статуй на острове Пасхи создали представители местной общины под руководством одного вождя. Однако авторы нового исследования поставили эту гипотезу под сомнение. Детальная трехмерная карта главного каменного карьера острова указала на более сложную картину. Вероятно, монументы были плодом творчества и соперничества небольших независимых групп.

Антропология

# остров Пасхи

# Полинезия

# статуи

29 ноября, 12:42

Александр Березин

Впервые в истории Россия временно лишилась возможности выводить людей в космос. Какие выводы сделают отрасль сильнее?

Космонавтика

# «Союз МС»

# Байконур

# корабль Союз

# космодром «Восточный»

# космодром Байконур

# космос

# Роскосмос

# Россия

Выбор редакции

27 ноября, 20:20

Максим Абдулаев

Эксперимент подтвердил эффективность античного способа получения вина из изюма

Археология

# алкоголь

# античность

# вино

# виноделие

# дрожжи

# история

# микробиология

20 ноября, 13:12

Полина Меньшова

Анализ 2430 языков показал сходства и различия их правил грамматики

Человеческие языки разнообразны, но это разнообразие ограничивается повторяющимися закономерностями. Пытаясь описать правила, которым подчиняются различия в грамматике, лингвисты сформулировали ряд так называемых грамматических универсалий — утверждений, предположительно верных для всех или большинства языков мира. Международная команда ученых провела статистический анализ на материале 2430 языков и обнаружила, что соответствующими действительности можно считать около трети таких утверждений.

Психология

# грамматика

# лингвистика

# морфология

# синтаксис

# языки

[miniorange_social_login]

Экзамен на выносливость: в России cоздали первый масштабный набор тестов для нейросетей на «понимание» длинных текстов

По теме

Исследователи из МГУ и «Яндекса» создали первый открытый датасет и метод обучения нейросетей сложным правилам русского языка

Ученые нашли способ ускорить оптимизацию нейросетей до 500 раз при помощи законов физики

Искусственный интеллект обретает здравомыслие: новый метод заставил нейросети сомневаться в своих ответах

Популярное

Впервые в истории Россия временно лишилась возможности выводить людей в космос. Какие выводы сделают отрасль сильнее?

Железные метеориты подтвердили роль Юпитера, как главного «архитектора» Солнечной системы

Биологи нашли систему принудительного роста вниз у растений

Впервые в истории Россия временно лишилась возможности выводить людей в космос. Какие выводы сделают отрасль сильнее?

Эксперимент подтвердил эффективность античного способа получения вина из изюма

Каменные идолы острова Пасхи оказались результатом соперничества независимых общин

Впервые в истории Россия временно лишилась возможности выводить людей в космос. Какие выводы сделают отрасль сильнее?

Эксперимент подтвердил эффективность античного способа получения вина из изюма

Анализ 2430 языков показал сходства и различия их правил грамматики

Комментарии

Хотите
вести колонку
в нашем
издании?

Колумнисты 65

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

НИТУ МИСИС

РТУ МИРЭА

Цари и вожди. Узнаете ли вы правителя России по его деяниям?

Сахарный пузырь: психология панических покупок

Тайны микроскопов Левенгука

Билл Гейтс хочет осыпать Землю мелом, чтобы спасти человечество. Сколько людей умрет в результате?

Вопросы читателей (ч. 9)

Зов темной глубины

Японский зонд подтвердил теорию российского физика об образовании Луны

Неизвестная Земля: путешествие в историю со скафандром

Экзамен на выносливость: в России cоздали первый масштабный набор тестов для нейросетей на «понимание» длинных текстов

По теме

Исследователи из МГУ и «Яндекса» создали первый открытый датасет и метод обучения нейросетей сложным правилам русского языка

Ученые нашли способ ускорить оптимизацию нейросетей до 500 раз при помощи законов физики

Искусственный интеллект обретает здравомыслие: новый метод заставил нейросети сомневаться в своих ответах

Популярное

Комментарии

Хотите вести колонку в нашем издании?

Колумнисты 65

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

НИТУ МИСИС

РТУ МИРЭА

Хотите
вести колонку
в нашем
издании?