• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
02.12.2025, 10:59
НИУ ВШЭ
103

Психолингвисты создали инструмент для оценки сложности текстов на малых языках России

❋ 4.7

Исследователи Центра языка и мозга НИУ ВШЭ разработали инструмент, позволяющий определить сложность текстов на малоресурсных языках. В первой версии поддерживаются несколько малых языков России: адыгейский, башкирский, бурятский, татарский, осетинский и удмуртский. Это первая подобная разработка, адаптированная специально для этих языков и учитывающая их морфологические и лексические особенности.

Учебники адыгейского языка / © adygvoice

По данным Института языкознания РАН, в России насчитывается 155 языков. Среди них есть малочисленные: например, на адыгейском говорят около 80 тысяч человек, на бурятском, осетинском и удмуртском — от 250 до 350 тысяч человек. Есть и языки с более чем миллионом носителей, например башкирский и татарский. Все эти языки имеют статус государственных в республиках России, поэтому важно не только сохранить их, но и создавать условия для их развития, а также возможности для обучения и реального использования, в том числе в образовании и науке. 

В 2025 году был принят Указ Президента РФ «Об утверждении Основ государственной языковой политики Российской Федерации». Он поддерживает языковое многообразие и задает курс на развитие и практическое использование языков народов России. Один из способов достичь этих целей — создать цифровые инструменты, которые сделают работу с малоресурсными языками проще и доступнее.

Команда ученых из Центра языка и мозга НИУ ВШЭ разработала онлайн-инструмент — калькулятор сложности текстов, который помогает быстро и легко оценить сложность текста на нескольких малых языках с учетом их лингвистических особенностей. Калькулятор создавался с опорой на опыт Антонины Лапошиной и Марии Лебедевой, разработавших инструмент для оценки сложности русскоязычных текстов.

Калькулятор, созданный психолингвистами НИУ ВШЭ, оценивает тексты по нескольким параметрам: во-первых, длина и частотность слов — они анализируются на основе данных из больших языковых корпусов,  во-вторых, процент лексики из частотного списка, то есть учитывается доля слов, входящих в список 5000 наиболее употребляемых слов каждого языка, и, в-третьих, соотношение частей речи — анализируется распределение различных частей речи в тексте. Кроме того, калькулятор учитывает такие характеристики, как лексическая плотность, лексическое разнообразие, динамичность и описательность текста.

Ключевая инновация — использование формулы удобочитаемости Флеша, адаптированной для каждого языка отдельно. Это позволяет точнее оценивать сложность и удобство восприятия текста. 

Индекс Флеша основан на количестве слов, предложений и слогов, но исходные коэффициенты были подобраны для английского языка и плохо работают для языков с иной структурой — например, для полисинтетического адыгейского, где средняя длина слова значительно больше. В исследовании 2025 года Ульяна Петрунина и Нина Здорова отдельно пересчитали коэффициенты в формуле для адыгейского языка, что значительно повысило точность оценки.

«Параметры калькулятора мы адаптировали под структурные особенности каждого из шести малоресурсных языков России — на основе корпусов текстов, частотного и морфологического анализа. Аналогичным образом мы скорректировали и классический индекс удобочитаемости Флеша. Благодаря этому алгоритм можно легко перенастраивать на другие малоресурсные языки, независимо от их типологических характеристик», — пояснила один из разработчиков, научный сотрудник Центра языка и мозга НИУ ВШЭ Ульяна Петрунина.

Инструмент поможет создавать сопоставимые стимульные материалы в научных экспериментах и обеспечит преподавателей ресурсом для подбора качественного учебного материала по уровням сложности. Такая разработка — важный вклад в сохранение и развитие малых языков России, поддержку языкового многообразия страны. 

«Наш инструмент позволяет исследователям и педагогам подбирать материалы с учетом их лингвистической сложности, что особенно важно для исследований и преподавания с ограниченным количеством ресурсов на данных языках», — отметила Нина Здорова, один из авторов инструмента.

В следующих версиях планируется добавление других малоресурсных и мало представленных в лингвистике языков — не только на территории России.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Национальный исследовательский университет «Высшая школа экономики» — один из крупнейших и самых востребованных вузов России. В университете учится 54 тысячи студентов и работает почти 4,5 тысячи учёных и преподавателей. НИУ ВШЭ ведёт фундаментальные и прикладные исследования в области социально-экономических, гуманитарных, юридических, инженерных, компьютерных, физико-математических наук, а также креативных индустрий. В университете действуют 47 центров превосходства, или международных лабораторий. Вышка объединяет ведущих мировых исследователей в области изучения мозга, нейротехнологий, биоинформатики и искусственного интеллекта. Университет входит в первую группу программы «Приоритет-2030» в направлении «Исследовательское лидерство». Кампусы НИУ ВШЭ расположены в четырех городах — Москве, Санкт-Петербурге, Нижнем Новгороде и Перми, а также в цифровом пространстве — «Вышка Онлайн».
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
28 февраля, 16:50
Игорь Байдов

В той части Пиренеев, которые находятся на территории Испании, исследователи обнаружили первые доказательства добычи золота в эпоху Римской империи. На месте древних рудников нашли сложные гидравлические сооружения и остатки водохранилища, возраст которых определили с помощью метода оптического датирования. Открытие прольет свет на инженерные приемы римлян и поставит точку в многолетнем споре: действительно ли римляне добывали золото в этом регионе.

1 марта, 13:21
Любовь С.

Ученые предложили новый способ оценки текущего темпа экспансии Вселенной с помощью едва уловимиого космического гравитационного «гула» от слияний неразличимых компактных объектов. Объединив данные наблюдений наземных интерферометров и статистику не выявленных сигналов, астрофизики получили уточненные ограничения параметра, вокруг которого разгорается один из самых острых споров в современной космологии.

28 февраля, 11:53
Андрей Серегин

Разное отношение домашних животных к хозяевам давно стало предметом споров, обсуждений и шуток. Ученые из Венгрии показали, что собаки демонстрируют по отношению к человеку уровень альтруизма, сходный с детским, тогда как кошки ищут в партнерстве с человеком прежде всего свою выгоду.

28 февраля, 16:50
Игорь Байдов

В той части Пиренеев, которые находятся на территории Испании, исследователи обнаружили первые доказательства добычи золота в эпоху Римской империи. На месте древних рудников нашли сложные гидравлические сооружения и остатки водохранилища, возраст которых определили с помощью метода оптического датирования. Открытие прольет свет на инженерные приемы римлян и поставит точку в многолетнем споре: действительно ли римляне добывали золото в этом регионе.

26 февраля, 10:02
Татьяна Зайцева

В мире оказалось гораздо больше диких пчел, чем кто-либо мог предположить. Ученые впервые оценили, сколько видов пчел существует на Земле, и обнаружили, что показатель превышает 26 тысяч — примерно на четверть больше, чем считалось.

28 февраля, 11:53
Андрей Серегин

Разное отношение домашних животных к хозяевам давно стало предметом споров, обсуждений и шуток. Ученые из Венгрии показали, что собаки демонстрируют по отношению к человеку уровень альтруизма, сходный с детским, тогда как кошки ищут в партнерстве с человеком прежде всего свою выгоду.

12 февраля, 07:52
Адель Романова

Астрономы недавно проанализировали базу данных о падающих на Землю объектах и пришли к выводу, что два из них прибыли из межзвездного пространства. Известна не только дата, но и место падения каждого из них.

12 февраля, 08:19
Полина Меньшова

«Любить лишь можно только раз», — писал поэт Сергей Есенин, а герои культовых сериалов приходили к выводу, что «настоящая» влюбленность случается в жизни максимум дважды. Однако ни один из этих тезисов не подкреплен научными данными. Американские исследователи подошли к вопросу иначе: опросили более 10 тысяч человек и вывели среднее число сильных влюбленностей, возможных в течение жизни.

28 февраля, 16:50
Игорь Байдов

В той части Пиренеев, которые находятся на территории Испании, исследователи обнаружили первые доказательства добычи золота в эпоху Римской империи. На месте древних рудников нашли сложные гидравлические сооружения и остатки водохранилища, возраст которых определили с помощью метода оптического датирования. Открытие прольет свет на инженерные приемы римлян и поставит точку в многолетнем споре: действительно ли римляне добывали золото в этом регионе.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно