Хотите получать важные новости науки?
Подписаться
  • Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
09.07.2024
ТюмГУ
136

Ученые предложили эффективную модель для генерации ключевых слов в научном тексте

4.3

Исследователи Института проблем передачи информации имени А. А. Харкевича РАН и кафедры программного обеспечения Школы компьютерных наук ТюмГУ предложили подход к генерации ключевых слов для русскоязычных научных текстов с помощью модели mT5 (multilingual text-to-text transformer), дообученнной на материале текстового корпуса Keyphrases CS&Math Russian.

Ученые предложили эффективную модель для генерации ключевых слов в научном тексте / © Obi - @pixel8propix, unsplash.com

Ключевые слова – важный элемент научного текста. Их использование позволяет облегчить поиск статей, улучшить систематизацию научных текстов и резюмировать содержание статей для читателя.

Автоматизация подбора ключевых слов представляет собой актуальную задачу в условиях большого количества информационных ресурсов. Сегодня большинство методов подбора этой выборки протестировано на англоязычных текстовых корпусах, в то время как для анализа русскоязычных текстов используется достаточно узкий набор методов выделения ключевых слов.

Статья «Генерация ключевых слов для русскоязычных научных текстов с помощью модели mT5» ученых Анны Глазковой, Дмитрия Морозова, Марины Воробьевой и Андрея Ступникова вышла в журнале «Моделирование и анализ информационных систем».

Существует несколько подходов к подбору ключевых слов: извлечение их непосредственно из текста, подбор из заранее определенного перечня тематики или рубрики, генерация на основе семантики текста путем его обобщения и перефразирования. В последнем случае задача подбора ключевых слов схожа с задачей автоматического абстрактного реферирования текстов.

Большая часть широко используемых подходов к извлечению этих слов основана на выделении из текста наиболее значимых слов и словосочетаний по принципу обучения без учителя (unsupervised learning). К таким подходам относятся, в частности, статистические алгоритмы, такие как YAKE! и KP-Miner, графовые (TopicRank, TextRank) и ряд алгоритмов, основанных на применении методов машинного обучения и современных лингвистических моделей (KEA, KeyBERT).

Несмотря на впечатляющие результаты для ряда текстовых корпусов, алгоритмы, основанные на извлечении ключевых слов, обладают некоторыми ограничениями. В частности, они не способны определять количество этих слов автоматически и генерировать слова, отсутствующие в тексте в явном виде.

На практике же списки ключевых слов обычно включают в себя как слова и словосочетания, встречающиеся в тексте непосредственно, так и слова, семантически связанные с содержанием текста, но не упомянутые в нем явно. Данные ограничения могут быть преодолены при помощи нейросетевых моделей, в том числе современных лингвистических моделей для генерации текстов.

Ученые пытались преодолеть пробел в использовании современных лингвистических моделей для генерации ключевых слов для русскоязычных научных текстов. В статье представлены результаты экспериментов по генерации списка ключевых слов как последовательности токенов (единиц учета) на примере модели mT5.

Выбор модели обусловлен ее широким использованием для автоматического реферирования и, в частности, для реферирования русскоязычных текстов. Результаты сравниваются с результатами ряда широко используемых методов извлечения ключевых слов.

Среди преимуществ генерации ключевых слов с помощью предобученной лингвистической модели можно назвать отсутствие необходимости проводить нормализацию и задавать ограничения на количество и длину ключевых слов, возможность генерировать те слова, которые не упомянуты в исходном тексте в явном виде.

С другой стороны, указанные свойства могут быть также ограничениями указанного подхода. Дообучение рассмотренной модели требует наличия обучающей выборки и, вероятно, дообученная модель ограниченно пригодна для генерации ключевых слов для текстов других предметных областей.

Кроме того, эффективность предложенного подхода и значения метрик зависят от специфики корпуса текстов, используемого для экспериментов. В рассмотренном корпусе доля ключевых слов, не встречающих в тексте в явном виде, составляет 53.17 процента и 54.8 процента для обучающей и тестовой выборок соответственно.

Поскольку подходы, осуществляющие извлечение, а не генерацию ключевых слов, не способны генерировать слова данного типа, модели генерации текста, подобные mT5, имеют преимущество на таких корпусах. Работа выполнена в рамках проекта, поддержанного грантом Президента России для молодых ученых — кандидатов наук.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Тюменский государственный университет (ТюмГУ) — первый университет Тюменской области, был открыт в 1930 году. Готовит специалистов по 175 направлениям подготовки. Университет входит в число участников Проекта 5-100 — программы повышения международной конкурентоспособности российских вузов среди ведущих мировых научно-образовательных центров.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Позавчера, 10:56
ПНИПУ

С наступлением летней жары так и тянет окунуться в прохладную воду реки или озера. И такое решение может быть небезопасным! Эксперты Пермского Политеха рассказали, от чего водоемы становятся мутными и грязными, почему нельзя купаться рядом с утками и мостами, что находят в запрещенных для отдыха местах, какие инфекции можно подхватить и как не заболеть после купания.

Позавчера, 12:53
Юлия Тарасова

Анализ свыше миллиона фрагментов из выступлений в датском парламенте показал, что с приходом в правительство политики начинают изъясняться менее простым и понятным людям языком. Причины тенденции автор исследования увидел в обязанностях, которые накладывает правительственная должность.

Позавчера, 20:07
Юлия Тарасова

Прошлые исследования показали, что татуировки могут быть способом самовыражения и отражать определенные черты личности их обладателей. Но насколько верно судят окружающие о владельцах нательных рисунков, исходя из их внешнего вида? Результаты нового исследования продемонстрировали, что подобные выводы часто бывают ошибочными.

25 июня
ФизТех

Группа российских ученых из Института прикладной математики имени М. В. Келдыша РАН и МФТИ провела детальное численное исследование источников шума, генерируемых крылом прототипа сверхзвукового бизнес-джета в режиме посадки. Эта работа, сочетающая передовые методы вычислительной гидродинамики и аэроакустики, впервые позволила с высокой точностью локализовать и охарактеризовать основные зоны шумообразования вблизи полноразмерной геометрии крыла модели прототипа сверхзвукового пассажирского самолета в посадочной конфигурации.

25 июня
Елена Авдеева

Состояние паралича, в которое впадают разные виды животных, хорошо известно и задокументировано. Обычно оно считается защитной реакцией в случае опасности, но никаких доказательств этому до сих пор нет. Особенно загадочным остается поведение обитателей океана, притворяющихся мертвыми. Ученые проверили существующие объяснения этого эффекта и сделали неожиданные выводы.

25 июня
Evgenia Vavilova

Квантовые спиновые жидкости (КСЖ) обещают ученым развитие в областях квантовых вычислений и передачи энергии без потерь. В них магнитные моменты частиц теоретически не должны упорядочиваться даже при охлаждении до абсолютного нуля температур.

17 июня
Адель Романова

Радиотелескопы уловили очень короткий сигнал, и по его характеристикам стало ясно, что он не может быть естественного происхождения. Астрономы пришли к выводу, что источник находился в околоземном пространстве — там, где уже более полувека летает «мертвый» аппарат NASA.

25 июня
ФизТех

Группа российских ученых из Института прикладной математики имени М. В. Келдыша РАН и МФТИ провела детальное численное исследование источников шума, генерируемых крылом прототипа сверхзвукового бизнес-джета в режиме посадки. Эта работа, сочетающая передовые методы вычислительной гидродинамики и аэроакустики, впервые позволила с высокой точностью локализовать и охарактеризовать основные зоны шумообразования вблизи полноразмерной геометрии крыла модели прототипа сверхзвукового пассажирского самолета в посадочной конфигурации.

5 июня
Александр Березин

Вид антилоп, с ледникового периода привыкший к массовым миграциям, пытается вернуться в свой исторический ареал, когда-то достигавший Днепра. Однако их нетипичные для травоядных привычки вызывают сильнейшее отторжение у сельских жителей, предлагающих массово уничтожать их с воздуха. С экологической точки зрения возвращение этих животных весьма желательно, но как примирить их с фермерами — неясно.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно