09.07.2024, 11:31

ТюмГУ

Ученые предложили эффективную модель для генерации ключевых слов в научном тексте

❋ 4.3

Исследователи Института проблем передачи информации имени А. А. Харкевича РАН и кафедры программного обеспечения Школы компьютерных наук ТюмГУ предложили подход к генерации ключевых слов для русскоязычных научных текстов с помощью модели mT5 (multilingual text-to-text transformer), дообученнной на материале текстового корпуса Keyphrases CS&Math Russian.

ТюмГУ

# ключевые слова

# научный текст

# слова

# текст

Ученые предложили эффективную модель для генерации ключевых слов в научном тексте / © Obi - @pixel8propix, unsplash.com

Ключевые слова – важный элемент научного текста. Их использование позволяет облегчить поиск статей, улучшить систематизацию научных текстов и резюмировать содержание статей для читателя.

Автоматизация подбора ключевых слов представляет собой актуальную задачу в условиях большого количества информационных ресурсов. Сегодня большинство методов подбора этой выборки протестировано на англоязычных текстовых корпусах, в то время как для анализа русскоязычных текстов используется достаточно узкий набор методов выделения ключевых слов.

Статья «Генерация ключевых слов для русскоязычных научных текстов с помощью модели mT5» ученых Анны Глазковой, Дмитрия Морозова, Марины Воробьевой и Андрея Ступникова вышла в журнале «Моделирование и анализ информационных систем».

Существует несколько подходов к подбору ключевых слов: извлечение их непосредственно из текста, подбор из заранее определенного перечня тематики или рубрики, генерация на основе семантики текста путем его обобщения и перефразирования. В последнем случае задача подбора ключевых слов схожа с задачей автоматического абстрактного реферирования текстов.

Большая часть широко используемых подходов к извлечению этих слов основана на выделении из текста наиболее значимых слов и словосочетаний по принципу обучения без учителя (unsupervised learning). К таким подходам относятся, в частности, статистические алгоритмы, такие как YAKE! и KP-Miner, графовые (TopicRank, TextRank) и ряд алгоритмов, основанных на применении методов машинного обучения и современных лингвистических моделей (KEA, KeyBERT).

Несмотря на впечатляющие результаты для ряда текстовых корпусов, алгоритмы, основанные на извлечении ключевых слов, обладают некоторыми ограничениями. В частности, они не способны определять количество этих слов автоматически и генерировать слова, отсутствующие в тексте в явном виде.

На практике же списки ключевых слов обычно включают в себя как слова и словосочетания, встречающиеся в тексте непосредственно, так и слова, семантически связанные с содержанием текста, но не упомянутые в нем явно. Данные ограничения могут быть преодолены при помощи нейросетевых моделей, в том числе современных лингвистических моделей для генерации текстов.

Ученые пытались преодолеть пробел в использовании современных лингвистических моделей для генерации ключевых слов для русскоязычных научных текстов. В статье представлены результаты экспериментов по генерации списка ключевых слов как последовательности токенов (единиц учета) на примере модели mT5.

Выбор модели обусловлен ее широким использованием для автоматического реферирования и, в частности, для реферирования русскоязычных текстов. Результаты сравниваются с результатами ряда широко используемых методов извлечения ключевых слов.

Среди преимуществ генерации ключевых слов с помощью предобученной лингвистической модели можно назвать отсутствие необходимости проводить нормализацию и задавать ограничения на количество и длину ключевых слов, возможность генерировать те слова, которые не упомянуты в исходном тексте в явном виде.

С другой стороны, указанные свойства могут быть также ограничениями указанного подхода. Дообучение рассмотренной модели требует наличия обучающей выборки и, вероятно, дообученная модель ограниченно пригодна для генерации ключевых слов для текстов других предметных областей.

Кроме того, эффективность предложенного подхода и значения метрик зависят от специфики корпуса текстов, используемого для экспериментов. В рассмотренном корпусе доля ключевых слов, не встречающих в тексте в явном виде, составляет 53.17 процента и 54.8 процента для обучающей и тестовой выборок соответственно.

Поскольку подходы, осуществляющие извлечение, а не генерацию ключевых слов, не способны генерировать слова данного типа, модели генерации текста, подобные mT5, имеют преимущество на таких корпусах. Работа выполнена в рамках проекта, поддержанного грантом Президента России для молодых ученых — кандидатов наук.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Тюменский государственный университет (ТюмГУ) — первый университет Тюменской области, был открыт в 1930 году. Готовит специалистов по 175 направлениям подготовки. Университет является участником федеральной программы стратегического академического лидерства «Приоритет 2030». Участие в программе способствует трансформации образовательного, научно-технологического и управленческого блоков ТюмГУ, а также его роли в качестве центра научно-технологического и социально-экономического развития региона.

ТюмГУ

# ключевые слова

# научный текст

# слова

# текст

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Алкоголь и организм: мифы и реальность

ВСмысле

Онлайн

Лекция

18 Июл

Бесплатно

Введение в TTS (Text-to-Speech)

Библиотека им. М. Ю. Лермонтова

Санкт-Петербург

Лекция

18 Июл

Бесплатно

Город через экран смартфона

Политехнический музей

Москва

Космонавтика и авиация

Москва

Экскурсия

19 Июл

500 ₽

Человеческое в технике

Политехнический музей

Москва

Лекция

19 Июл

500 ₽

Немыслимо: о возможностях и ограничениях нашего мышления

ВСмысле

Онлайн

Лекция

20 Июл

Бесплатно

Как кишечник управляет мозгом: еда, микробиота и ось кишечник-мозг

Курилка Гутенберга

Москва

Лекция

20 Июл

Бесплатно

Тайны Северной Двины: как Россия нашла своих звероящеров

Центр «Архэ»

Онлайн

Лекция

20 Июл

Бесплатно

Большие перелеты советской страны. «Пролетарий» летит над Европой

Астрокомплекс им. С.П. Королева

Москва

Популярное

За сутки

За неделю

За месяц

17 июля, 10:00

Губкинский университет

Российское масло уменьшило расход топлива и увеличило ресурс газопоршневых двигателей

Ученые РГУ нефти и газа (НИУ) имени И. М. Губкина разработали синтетическое масло для газопоршневых двигателей, позволяющее снизить расход топливного метана на семь процентов. Продукт разработан в целях импортозамещения в сфере энергетики. Разработка открывает новые возможности распределенной энергетики на Крайнем Севере, Дальнем Востоке и других территориях без центральных сетей.

Губкинский университет

# двигатели

# материалы

# моторное масло

# промышленность

16 июля, 15:12

Evgenia Vavilova

Физики впервые воспроизвели в лаборатории процесс извлечения энергии из черной дыры

Процессы, сопровождающие жизнь черных дыр, интересуют не только теоретиков. Ученые уже знают, что энергия и частицы могут покидать черные дыры и теперь работают над способами эту энергию использовать.

Физика

# Роджер Пенроуз

# Черные дыры

# электромагнитные волны

# энергия

17 июля, 15:20

ФизТех

Астрофизики установили причины ритмичных вспышек блазара Тон 599

Большой коллектив ученых из Специальной астрофизической обсерватории РАН (п. Нижний Архыз), Астрокосмического центра ФИАН, Крымской астрофизической обсерватории РАН, Санкт-Петербургского государственного университета и МФТИ с коллегами впервые провел комплексный многоволновой анализ переменности блазара Тон 599 за период с 1983 по 2025 год и обнаружил в этих данных скрытый ритм, указывающий на работу двух взаимосвязанных механизмов.

ФизТех

# астрономия

# астрофизика

# блазары

# Черные дыры

17 июля, 10:00

Губкинский университет

Российское масло уменьшило расход топлива и увеличило ресурс газопоршневых двигателей

Губкинский университет

# двигатели

# материалы

# моторное масло

# промышленность

13 июля, 14:06

Максим Абдулаев

Пережившие китобоев: как в России спасают гренландских китов Охотского моря и не только

Кит живет двести лет, умеет пробивать головой полуметровый лед и поет океанский джаз голосом несмазанной дверной петли. Охотоморские гренландские киты — это не просто многотонные ледоколы. Это древние узники, которые остались жить в Охотском море со времен последнего оледенения. Это счастливцы, которые смогли пережить гарпуны китобоев XIX-XX веков, но сегодня уязвимы не меньше. Чтобы спасти этих поразительных китов, российским ученым и команде фонда «Природа и люди» приходится: считать хвосты, читать биографии по шрамам, прятать подростков от хищников, стрелять (спутниковыми метками) с парамоторов и тяжелых дронов. Рассказываем, как устроена жизнь гренландских китов России и кто помогает им не исчезнуть навсегда с лица планеты.

Биология

# Баренцево море

# горбатые киты

# защита природы

# китообразные

# киты

# косатки

# природа

# усатые киты

Выбор редакции

12 июля, 12:24

Марк Чернов

Интервальное голодание оказалось не хуже подсчета калорий — и оно значительно легче переносится

Ученые выяснили, почему интервальное голодание для многих оказывается эффективнее обычных диет. Исследование показало, что ограничение времени для приема пищи избавляет худеющего от изнуряющего ощущения жесткого контроля и при этом позволяет сбросить ровно столько же, сколько при скрупулезном подсчете калорий.

Медицина

# диета

# интервальное голодание

# лишний вес

# метаболизм

# питание

# похудение

25 июня, 16:20

Любовь С.

Физики уточнили возможные размеры Вселенной

Вселенная может оказаться «замкнутой» глобальной структурой, где свет от далеких галактик способен возвращаться к наблюдателю с разных направлений. Именно такой сценарий не удалось исключить авторам нового масштабного обзора. Проверить его предсказания астрономы смогут уже в ближайшие годы.

Астрономия

# бесконечность

# вселенная

# геометрия

# пространство

# реликтовое излучение

# свет

# топология

25 июня, 15:09

Марк Чернов

Физики подтвердили гипотезу о существовании двух жидких состояний воды

Ученые впервые на молекулярном уровне доказали, что обычная вода одновременно состоит из двух разных жидких состояний — более плотного и менее плотного, которые непрерывно сменяют друг друга. Раз молекулярная «двойственность» действительно существует, это подтверждает спорную 30-летнюю гипотезу. Новое открытие поможет, наконец, объяснить десятки «странных» физических аномалий воды, включая ее расширение при замерзании и парадоксальное изменение вязкости под давлением.

Физика

# вода

# Молекулярная биология

# структура воды

# фазовые переходы

9 июля, 13:06

Редакция Naked Science

YouTube в России вырос даже с ограничениями, в отличие от «VK Видео»

Видеосервисы стали неотъемлемой частью жизни россиян. В 2026 году охваты большинства платформ продолжают расти, в том числе YouTube.

Медиа

# «ВКонтакте»

# YouTube

# аудитория

# блокировки

# видеосервис

# интернет

# медиа

[miniorange_social_login]

This is a really interesting development. Accurate keyword generation is becoming more important as the volume of scientific literature grows so fast. A strong model doesn’t just help researchers find relevant work — it also improves how studies get indexed, shared, and discovered across platforms. Since I work with text-based tools myself, I really appreciate innovations that make handling written content easier. For anyone interested in experimenting with fun or creative text transformations, here’s a simple tool I use often: https://upsidedowntexts.com/

Ответить

Up Side

27.11.2025

Ответить

Ученые предложили эффективную модель для генерации ключевых слов в научном тексте

По теме

Ученые выяснили, как отличить текст, написанный ИИ, от человеческого

В ТюмГУ предложили вариант извлечения ключевых фраз из текста

В ВШЭ объяснили, почему с возрастом мы хуже понимаем тексты

Популярное

Российское масло уменьшило расход топлива и увеличило ресурс газопоршневых двигателей

Физики впервые воспроизвели в лаборатории процесс извлечения энергии из черной дыры

Астрофизики установили причины ритмичных вспышек блазара Тон 599

Российское масло уменьшило расход топлива и увеличило ресурс газопоршневых двигателей

Пережившие китобоев: как в России спасают гренландских китов Охотского моря и не только

Интервальное голодание оказалось не хуже подсчета калорий — и оно значительно легче переносится

Физики уточнили возможные размеры Вселенной

Физики подтвердили гипотезу о существовании двух жидких состояний воды

YouTube в России вырос даже с ограничениями, в отличие от «VK Видео»

Комментарии

Хотите
вести колонку
в нашем
издании?

Колумнисты 66

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Эвакуация.нет: почему люди не уезжают из зоны вооруженного конфликта

Скорость вращения Земли, причины ее изменения и что нам об этом известно

С точки зрения психологии: почему произошел Брекзит?

Депрессия: что за зверь?

Ученые из Уханя действительно создали «искусственный» коронавирус — но не тот

Топ самых необычных беспилотников

Что такое «парадокс убитого дедушки» и как его решить

«Длинная рука» авиации: как действуют ракеты

Ученые предложили эффективную модель для генерации ключевых слов в научном тексте

По теме

Ученые выяснили, как отличить текст, написанный ИИ, от человеческого

В ТюмГУ предложили вариант извлечения ключевых фраз из текста

В ВШЭ объяснили, почему с возрастом мы хуже понимаем тексты

Популярное

Комментарии

Хотите вести колонку в нашем издании?

Колумнисты 66

ПНИПУ

ФизТех

НИУ ВШЭ

Сколтех

ТюмГУ

РНФ

ЮФУ

МГППУ

РТУ МИРЭА

НИТУ МИСИС

Хотите
вести колонку
в нашем
издании?