• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
02.12.2025, 10:59
НИУ ВШЭ
104

Психолингвисты создали инструмент для оценки сложности текстов на малых языках России

❋ 4.7

Исследователи Центра языка и мозга НИУ ВШЭ разработали инструмент, позволяющий определить сложность текстов на малоресурсных языках. В первой версии поддерживаются несколько малых языков России: адыгейский, башкирский, бурятский, татарский, осетинский и удмуртский. Это первая подобная разработка, адаптированная специально для этих языков и учитывающая их морфологические и лексические особенности.

Учебники адыгейского языка / © adygvoice

По данным Института языкознания РАН, в России насчитывается 155 языков. Среди них есть малочисленные: например, на адыгейском говорят около 80 тысяч человек, на бурятском, осетинском и удмуртском — от 250 до 350 тысяч человек. Есть и языки с более чем миллионом носителей, например башкирский и татарский. Все эти языки имеют статус государственных в республиках России, поэтому важно не только сохранить их, но и создавать условия для их развития, а также возможности для обучения и реального использования, в том числе в образовании и науке. 

В 2025 году был принят Указ Президента РФ «Об утверждении Основ государственной языковой политики Российской Федерации». Он поддерживает языковое многообразие и задает курс на развитие и практическое использование языков народов России. Один из способов достичь этих целей — создать цифровые инструменты, которые сделают работу с малоресурсными языками проще и доступнее.

Команда ученых из Центра языка и мозга НИУ ВШЭ разработала онлайн-инструмент — калькулятор сложности текстов, который помогает быстро и легко оценить сложность текста на нескольких малых языках с учетом их лингвистических особенностей. Калькулятор создавался с опорой на опыт Антонины Лапошиной и Марии Лебедевой, разработавших инструмент для оценки сложности русскоязычных текстов.

Калькулятор, созданный психолингвистами НИУ ВШЭ, оценивает тексты по нескольким параметрам: во-первых, длина и частотность слов — они анализируются на основе данных из больших языковых корпусов,  во-вторых, процент лексики из частотного списка, то есть учитывается доля слов, входящих в список 5000 наиболее употребляемых слов каждого языка, и, в-третьих, соотношение частей речи — анализируется распределение различных частей речи в тексте. Кроме того, калькулятор учитывает такие характеристики, как лексическая плотность, лексическое разнообразие, динамичность и описательность текста.

Ключевая инновация — использование формулы удобочитаемости Флеша, адаптированной для каждого языка отдельно. Это позволяет точнее оценивать сложность и удобство восприятия текста. 

Индекс Флеша основан на количестве слов, предложений и слогов, но исходные коэффициенты были подобраны для английского языка и плохо работают для языков с иной структурой — например, для полисинтетического адыгейского, где средняя длина слова значительно больше. В исследовании 2025 года Ульяна Петрунина и Нина Здорова отдельно пересчитали коэффициенты в формуле для адыгейского языка, что значительно повысило точность оценки.

«Параметры калькулятора мы адаптировали под структурные особенности каждого из шести малоресурсных языков России — на основе корпусов текстов, частотного и морфологического анализа. Аналогичным образом мы скорректировали и классический индекс удобочитаемости Флеша. Благодаря этому алгоритм можно легко перенастраивать на другие малоресурсные языки, независимо от их типологических характеристик», — пояснила один из разработчиков, научный сотрудник Центра языка и мозга НИУ ВШЭ Ульяна Петрунина.

Инструмент поможет создавать сопоставимые стимульные материалы в научных экспериментах и обеспечит преподавателей ресурсом для подбора качественного учебного материала по уровням сложности. Такая разработка — важный вклад в сохранение и развитие малых языков России, поддержку языкового многообразия страны. 

«Наш инструмент позволяет исследователям и педагогам подбирать материалы с учетом их лингвистической сложности, что особенно важно для исследований и преподавания с ограниченным количеством ресурсов на данных языках», — отметила Нина Здорова, один из авторов инструмента.

В следующих версиях планируется добавление других малоресурсных и мало представленных в лингвистике языков — не только на территории России.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Национальный исследовательский университет «Высшая школа экономики» — один из крупнейших и самых востребованных вузов России. В университете учится 54 тысячи студентов и работает почти 4,5 тысячи учёных и преподавателей. НИУ ВШЭ ведёт фундаментальные и прикладные исследования в области социально-экономических, гуманитарных, юридических, инженерных, компьютерных, физико-математических наук, а также креативных индустрий. В университете действуют 47 центров превосходства, или международных лабораторий. Вышка объединяет ведущих мировых исследователей в области изучения мозга, нейротехнологий, биоинформатики и искусственного интеллекта. Университет входит в первую группу программы «Приоритет-2030» в направлении «Исследовательское лидерство». Кампусы НИУ ВШЭ расположены в четырех городах — Москве, Санкт-Петербурге, Нижнем Новгороде и Перми, а также в цифровом пространстве — «Вышка Онлайн».
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
13 апреля, 10:19
Максим Абдулаев

Энтомологи сравнили устойчивость коммерческих и диких гибридных медоносных пчел к главному паразиту ульев — клещу варроа. Полевые и лабораторные тесты показали, что гибриды заражаются в пять раз реже, поскольку их личинки не нравятся паразитам. Пчела-гибрид выживает без регулярных химических обработок и, что важно для пчеловодов, сохраняет миролюбивый характер.

14 апреля, 10:44
Татьяна Зайцева

Кошка может внезапно отказаться от корма, который ела месяцами, и все потому, что ей просто надоел его запах, пришли к выводу японские исследователи. Поэтому хозяевам стоит почаще вносить немного разнообразия в рацион, который они предлагают питомцу, вернее — в аромат, который пища источает.

14 апреля, 08:40
Любовь С.

Астрономы впервые получили одно из наиболее убедительных доказательств существования самых первых звезд во Вселенной. Именно такие объекты могли запустить химическую эволюцию космоса и привести к появлению галактик, планет и в итоге жизни.

10 апреля, 10:51
Татьяна Зайцева

Когда международная экспедиционная группа, исследующая море Уэдделла в Антарктиде на борту ледокола «Поларштерн», попыталась укрыться от шторма, ученые и экипаж судна удивились внезапному появлению острова, не обозначенного ни на одной морской карте.

13 апреля, 10:19
Максим Абдулаев

Энтомологи сравнили устойчивость коммерческих и диких гибридных медоносных пчел к главному паразиту ульев — клещу варроа. Полевые и лабораторные тесты показали, что гибриды заражаются в пять раз реже, поскольку их личинки не нравятся паразитам. Пчела-гибрид выживает без регулярных химических обработок и, что важно для пчеловодов, сохраняет миролюбивый характер.

11 апреля, 19:45
Evgenia Vavilova

Ученые давно знают как с хорошим приближением прогнозировать рост поверхностей. Но экспериментально подтвердить точное соответствие реальных процессов и модели — гораздо более сложная задача, у которой, тем не менее, есть решение.

19 марта, 10:58
Игорь Байдов

В парках некоторых стран все чаще можно заметить странную картину: синицы и воробьи вместо пуха и веточек приносят в клювах сигаретные окурки. Орнитологи из Польши решили выяснить, зачем птицы выстилают гнезда мусором, пропитанным никотином. Оказалось, пернатые нашли способ использовать вредную человеческую привычку для защиты своего потомства. Но, как это часто бывает в природе, у медали есть обратная сторона.

19 марта, 12:41
Игорь Байдов

Марсоход «Персеверанс» обнаружил в камнях на кромке кратера Езеро спектральные признаки минерала корунда, из которого на Земле образуются рубины и сапфиры. Такие спектры на Красной планете зарегистрировали впервые. Теперь ученые пытаются понять, при каких процессах он мог там сформироваться, ведь условия на Марсе заметно отличаются от тех, в которых корунд обычно образуется на Земле.

5 апреля, 15:48
Александр Березин

Четыре человека, летящие к Луне, столкнулись с целым рядом мелких неприятностей — от низкой температуры в начале работы до поломки мочевыводящей системы туалета на вторые сутки и необходимости взамен пользоваться пакетами. К счастью, пока самые крупные сложности удалось компенсировать. Но все они вместе могут сдвинуть ситуацию к решению, о котором Naked Science уже говорил в нашем видеоподкасте о миссии: не исключено, что при высадке астронавтов на Луне их корабль состыкуют со Starship не на окололунной, а уже на околоземной орбите.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Комментарий на проверке

Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно