Ученые предложили эффективную модель для генерации ключевых слов в научном тексте
Исследователи Института проблем передачи информации имени А. А. Харкевича РАН и кафедры программного обеспечения Школы компьютерных наук ТюмГУ предложили подход к генерации ключевых слов для русскоязычных научных текстов с помощью модели mT5 (multilingual text-to-text transformer), дообученнной на материале текстового корпуса Keyphrases CS&Math Russian.
Ключевые слова – важный элемент научного текста. Их использование позволяет облегчить поиск статей, улучшить систематизацию научных текстов и резюмировать содержание статей для читателя.
Автоматизация подбора ключевых слов представляет собой актуальную задачу в условиях большого количества информационных ресурсов. Сегодня большинство методов подбора этой выборки протестировано на англоязычных текстовых корпусах, в то время как для анализа русскоязычных текстов используется достаточно узкий набор методов выделения ключевых слов.
Статья «Генерация ключевых слов для русскоязычных научных текстов с помощью модели mT5» ученых Анны Глазковой, Дмитрия Морозова, Марины Воробьевой и Андрея Ступникова вышла в журнале «Моделирование и анализ информационных систем».
Существует несколько подходов к подбору ключевых слов: извлечение их непосредственно из текста, подбор из заранее определенного перечня тематики или рубрики, генерация на основе семантики текста путем его обобщения и перефразирования. В последнем случае задача подбора ключевых слов схожа с задачей автоматического абстрактного реферирования текстов.
Большая часть широко используемых подходов к извлечению этих слов основана на выделении из текста наиболее значимых слов и словосочетаний по принципу обучения без учителя (unsupervised learning). К таким подходам относятся, в частности, статистические алгоритмы, такие как YAKE! и KP-Miner, графовые (TopicRank, TextRank) и ряд алгоритмов, основанных на применении методов машинного обучения и современных лингвистических моделей (KEA, KeyBERT).
Несмотря на впечатляющие результаты для ряда текстовых корпусов, алгоритмы, основанные на извлечении ключевых слов, обладают некоторыми ограничениями. В частности, они не способны определять количество этих слов автоматически и генерировать слова, отсутствующие в тексте в явном виде.
На практике же списки ключевых слов обычно включают в себя как слова и словосочетания, встречающиеся в тексте непосредственно, так и слова, семантически связанные с содержанием текста, но не упомянутые в нем явно. Данные ограничения могут быть преодолены при помощи нейросетевых моделей, в том числе современных лингвистических моделей для генерации текстов.
Ученые пытались преодолеть пробел в использовании современных лингвистических моделей для генерации ключевых слов для русскоязычных научных текстов. В статье представлены результаты экспериментов по генерации списка ключевых слов как последовательности токенов (единиц учета) на примере модели mT5.
Выбор модели обусловлен ее широким использованием для автоматического реферирования и, в частности, для реферирования русскоязычных текстов. Результаты сравниваются с результатами ряда широко используемых методов извлечения ключевых слов.
Среди преимуществ генерации ключевых слов с помощью предобученной лингвистической модели можно назвать отсутствие необходимости проводить нормализацию и задавать ограничения на количество и длину ключевых слов, возможность генерировать те слова, которые не упомянуты в исходном тексте в явном виде.
С другой стороны, указанные свойства могут быть также ограничениями указанного подхода. Дообучение рассмотренной модели требует наличия обучающей выборки и, вероятно, дообученная модель ограниченно пригодна для генерации ключевых слов для текстов других предметных областей.
Кроме того, эффективность предложенного подхода и значения метрик зависят от специфики корпуса текстов, используемого для экспериментов. В рассмотренном корпусе доля ключевых слов, не встречающих в тексте в явном виде, составляет 53.17 процента и 54.8 процента для обучающей и тестовой выборок соответственно.
Поскольку подходы, осуществляющие извлечение, а не генерацию ключевых слов, не способны генерировать слова данного типа, модели генерации текста, подобные mT5, имеют преимущество на таких корпусах. Работа выполнена в рамках проекта, поддержанного грантом Президента России для молодых ученых — кандидатов наук.
Американские биотехнологи впервые сообщили об обращении вспять клеточного старения в живых клетках печени человека — не мышиных, не синтетических, а именно человеческих. На волне этого результата компания привлекла 435 миллионов долларов и готовится к клиническим испытаниям.
В 2017 году человечество впервые заметило объект, прилетевший из другой звездной системы. Он оказался странным, почти не похожим ни на астероид, ни на комету, и получил имя Оумуамуа. Затем появился «нормальный» межзвездный странник — комета Борисова. А в 2025-м астрономы обнаружили 3I/ATLAS — объект, который, вероятно, хранит вещество времен рождения чужих миров. Но что изменили в астрономии эти три гостя из межзвездной тьмы?
Роль личности в истории чаще всего иллюстрируют правителями или полководцами. Но, глядя на современную карту мира, нельзя не признать: она выглядела бы принципиально иначе, если бы не одна крестьянская девушка, которую сожгли в этот день ровно 595 лет назад.
В 2017 году человечество впервые заметило объект, прилетевший из другой звездной системы. Он оказался странным, почти не похожим ни на астероид, ни на комету, и получил имя Оумуамуа. Затем появился «нормальный» межзвездный странник — комета Борисова. А в 2025-м астрономы обнаружили 3I/ATLAS — объект, который, вероятно, хранит вещество времен рождения чужих миров. Но что изменили в астрономии эти три гостя из межзвездной тьмы?
Астрономы провели длительную радиодиагностику межзвездного объекта 3I/ATLAS и не нашли признаков искусственных технологий. Наблюдение окончательно подтвердило естественную природу ледяного тела, хотя ученые изначально не ожидали сенсации.
Тысячу лет назад колоссальный степной пояс от Амура до Дуная назывался Великой степью. На Руси его знали как Дикую степь. В этом краю жили кочевники, и среди них — хищная птица сокол-балобан. Сейчас цельной трансконтинентальной популяции балобана больше нет. Небольшой европейский островок уцелел в Венгрии, Австрии и в Крыму. Есть популяция в Казахстане, Монголии и Китае. В России сокол-балобан, помимо Крыма, живет в горах Южной Сибири. И выживание этой популяции, как и всего вида, под угрозой. Как живет эта птица и как ей помогают в нашей стране? Зачем в Хакасии посреди «нигде» построили огромный облёточник? Буквально сегодня в него уже доставили первую партию птиц.
В высокогорных районах Гималаев появился новый хищник. Он не боится людей, возглавляет стаи собак и все чаще заходит в деревни. Местные жители называют его «кхипшанг». Речь идет о гибриде гималайского волка и бродячей собаки. Ученые опасаются, что этот зверь изменит хрупкий баланс местной дикой природы и в скором времени станет весьма опасным для человека.
В доколумбовых Андах принадлежность к правящему роду определяла доступ к земле, торговле и статусу, поэтому удержать все внутри семьи было вопросом выживания. Ученые выяснили, что элиты долины Чинча решали эту задачу самым прямым способом — заключая браки между родственниками на протяжении как минимум двух поколений.
При совпадении нескольких условий наши глаза способны улавливать излучение в ближнем инфракрасном спектре. Тогда сетчатка начинает работать как нелинейный фотодетектор.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно