• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
2 декабря, 10:59
НИУ ВШЭ
19

Психолингвисты создали инструмент для оценки сложности текстов на малых языках России

❋ 4.7

Исследователи Центра языка и мозга НИУ ВШЭ разработали инструмент, позволяющий определить сложность текстов на малоресурсных языках. В первой версии поддерживаются несколько малых языков России: адыгейский, башкирский, бурятский, татарский, осетинский и удмуртский. Это первая подобная разработка, адаптированная специально для этих языков и учитывающая их морфологические и лексические особенности.

Учебники адыгейского языка / © adygvoice

По данным Института языкознания РАН, в России насчитывается 155 языков. Среди них есть малочисленные: например, на адыгейском говорят около 80 тысяч человек, на бурятском, осетинском и удмуртском — от 250 до 350 тысяч человек. Есть и языки с более чем миллионом носителей, например башкирский и татарский. Все эти языки имеют статус государственных в республиках России, поэтому важно не только сохранить их, но и создавать условия для их развития, а также возможности для обучения и реального использования, в том числе в образовании и науке. 

В 2025 году был принят Указ Президента РФ «Об утверждении Основ государственной языковой политики Российской Федерации». Он поддерживает языковое многообразие и задает курс на развитие и практическое использование языков народов России. Один из способов достичь этих целей — создать цифровые инструменты, которые сделают работу с малоресурсными языками проще и доступнее.

Команда ученых из Центра языка и мозга НИУ ВШЭ разработала онлайн-инструмент — калькулятор сложности текстов, который помогает быстро и легко оценить сложность текста на нескольких малых языках с учетом их лингвистических особенностей. Калькулятор создавался с опорой на опыт Антонины Лапошиной и Марии Лебедевой, разработавших инструмент для оценки сложности русскоязычных текстов.

Калькулятор, созданный психолингвистами НИУ ВШЭ, оценивает тексты по нескольким параметрам: во-первых, длина и частотность слов — они анализируются на основе данных из больших языковых корпусов,  во-вторых, процент лексики из частотного списка, то есть учитывается доля слов, входящих в список 5000 наиболее употребляемых слов каждого языка, и, в-третьих, соотношение частей речи — анализируется распределение различных частей речи в тексте. Кроме того, калькулятор учитывает такие характеристики, как лексическая плотность, лексическое разнообразие, динамичность и описательность текста.

Ключевая инновация — использование формулы удобочитаемости Флеша, адаптированной для каждого языка отдельно. Это позволяет точнее оценивать сложность и удобство восприятия текста. 

Индекс Флеша основан на количестве слов, предложений и слогов, но исходные коэффициенты были подобраны для английского языка и плохо работают для языков с иной структурой — например, для полисинтетического адыгейского, где средняя длина слова значительно больше. В исследовании 2025 года Ульяна Петрунина и Нина Здорова отдельно пересчитали коэффициенты в формуле для адыгейского языка, что значительно повысило точность оценки.

«Параметры калькулятора мы адаптировали под структурные особенности каждого из шести малоресурсных языков России — на основе корпусов текстов, частотного и морфологического анализа. Аналогичным образом мы скорректировали и классический индекс удобочитаемости Флеша. Благодаря этому алгоритм можно легко перенастраивать на другие малоресурсные языки, независимо от их типологических характеристик», — пояснила один из разработчиков, научный сотрудник Центра языка и мозга НИУ ВШЭ Ульяна Петрунина.

Инструмент поможет создавать сопоставимые стимульные материалы в научных экспериментах и обеспечит преподавателей ресурсом для подбора качественного учебного материала по уровням сложности. Такая разработка — важный вклад в сохранение и развитие малых языков России, поддержку языкового многообразия страны. 

«Наш инструмент позволяет исследователям и педагогам подбирать материалы с учетом их лингвистической сложности, что особенно важно для исследований и преподавания с ограниченным количеством ресурсов на данных языках», — отметила Нина Здорова, один из авторов инструмента.

В следующих версиях планируется добавление других малоресурсных и мало представленных в лингвистике языков — не только на территории России.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Национальный исследовательский университет «Высшая школа экономики» — один из крупнейших и самых востребованных вузов России. В университете учится 54 тысячи студентов и работает почти 4,5 тысячи учёных и преподавателей. НИУ ВШЭ ведёт фундаментальные и прикладные исследования в области социально-экономических, гуманитарных, юридических, инженерных, компьютерных, физико-математических наук, а также креативных индустрий. В университете действуют 47 центров превосходства, или международных лабораторий. Вышка объединяет ведущих мировых исследователей в области изучения мозга, нейротехнологий, биоинформатики и искусственного интеллекта. Университет входит в первую группу программы «Приоритет-2030» в направлении «Исследовательское лидерство». Кампусы НИУ ВШЭ расположены в четырех городах — Москве, Санкт-Петербурге, Нижнем Новгороде и Перми, а также в цифровом пространстве — «Вышка Онлайн».
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
1 декабря, 17:18
Unitsky String Technologies Inc.

Сегодня проблема рационального использования ресурсов в логистике становится ключевой, а значит, в транспортных системах приходится переосмысливать саму логику перевозок. Исследование белорусских инженеров из компании UST Inc. показывает, что недостаточно простого перехода на электротягу или возобновляемые источники энергии — важно уменьшить энергозатраты транспорта на единицу выполненной работы, то есть повысить удельную энергоэффективность. Подобный подход реализуется в транспортно-инфраструктурных комплексах uST.

29 ноября, 12:42
Александр Березин

Позавчера, 27 ноября 2025 года, при запуске космонавтов к МКС на стартовую площадку № 31 упала кабина обслуживания стартового комплекса. Это означает, что новые пуски оттуда до починки невозможны. К сожалению, в 2010-х годах, в рамках «оптимизации» расходов, резервную площадку (с которой летал Юрий Гагарин) упразднили. Поэтому случилось беспрецедентное: в XXI веке страна с пилотируемой космической программой осталась без средств запуска людей на орбиту. Пока ремонт не закончится, проблема сохранится. Чем это может грозить?

1 декабря, 13:33
КАИ

В Передовой инженерной школе КНИТУ-КАИ (ПИШ КАИ) действуют временные научные коллективы (ВНК), работающие над реальными инженерными задачами. Одним из наиболее ярких результатов стала работа ВНК-4, созданного для развития технологий в области легких авиационных систем. Проект реализуется под руководством Никиты Сёмина, который также возглавляет специальное образовательное пространство (СОП) ПИШ КАИ «Авиамоделирование».

29 ноября, 12:42
Александр Березин

Позавчера, 27 ноября 2025 года, при запуске космонавтов к МКС на стартовую площадку № 31 упала кабина обслуживания стартового комплекса. Это означает, что новые пуски оттуда до починки невозможны. К сожалению, в 2010-х годах, в рамках «оптимизации» расходов, резервную площадку (с которой летал Юрий Гагарин) упразднили. Поэтому случилось беспрецедентное: в XXI веке страна с пилотируемой космической программой осталась без средств запуска людей на орбиту. Пока ремонт не закончится, проблема сохранится. Чем это может грозить?

27 ноября, 20:20
Максим Абдулаев

Японские биологи повторили античную технологию производства вина из изюма, чтобы выяснить механизм его брожения. Исследователи показали, что сушеный виноград, в отличие от свежего, накапливает на поверхности дикие дрожжи и способен превращать воду в алкоголь без внесения дополнительных заквасок.

27 ноября, 11:05
Игорь Байдов

Долгое время ученые полагали, что сотни гигантских статуй на острове Пасхи создали представители местной общины под руководством одного вождя. Однако авторы нового исследования поставили эту гипотезу под сомнение. Детальная трехмерная карта главного каменного карьера острова указала на более сложную картину. Вероятно, монументы были плодом творчества и соперничества небольших независимых групп.

29 ноября, 12:42
Александр Березин

Позавчера, 27 ноября 2025 года, при запуске космонавтов к МКС на стартовую площадку № 31 упала кабина обслуживания стартового комплекса. Это означает, что новые пуски оттуда до починки невозможны. К сожалению, в 2010-х годах, в рамках «оптимизации» расходов, резервную площадку (с которой летал Юрий Гагарин) упразднили. Поэтому случилось беспрецедентное: в XXI веке страна с пилотируемой космической программой осталась без средств запуска людей на орбиту. Пока ремонт не закончится, проблема сохранится. Чем это может грозить?

27 ноября, 20:20
Максим Абдулаев

Японские биологи повторили античную технологию производства вина из изюма, чтобы выяснить механизм его брожения. Исследователи показали, что сушеный виноград, в отличие от свежего, накапливает на поверхности дикие дрожжи и способен превращать воду в алкоголь без внесения дополнительных заквасок.

20 ноября, 13:12
Полина Меньшова

Человеческие языки разнообразны, но это разнообразие ограничивается повторяющимися закономерностями. Пытаясь описать правила, которым подчиняются различия в грамматике, лингвисты сформулировали ряд так называемых грамматических универсалий — утверждений, предположительно верных для всех или большинства языков мира. Международная команда ученых провела статистический анализ на материале 2430 языков и обнаружила, что соответствующими действительности можно считать около трети таких утверждений.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно