Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
Ученые предложили эффективную модель для генерации ключевых слов в научном тексте
Исследователи Института проблем передачи информации имени А. А. Харкевича РАН и кафедры программного обеспечения Школы компьютерных наук ТюмГУ предложили подход к генерации ключевых слов для русскоязычных научных текстов с помощью модели mT5 (multilingual text-to-text transformer), дообученнной на материале текстового корпуса Keyphrases CS&Math Russian.
Ключевые слова – важный элемент научного текста. Их использование позволяет облегчить поиск статей, улучшить систематизацию научных текстов и резюмировать содержание статей для читателя.
Автоматизация подбора ключевых слов представляет собой актуальную задачу в условиях большого количества информационных ресурсов. Сегодня большинство методов подбора этой выборки протестировано на англоязычных текстовых корпусах, в то время как для анализа русскоязычных текстов используется достаточно узкий набор методов выделения ключевых слов.
Статья «Генерация ключевых слов для русскоязычных научных текстов с помощью модели mT5» ученых Анны Глазковой, Дмитрия Морозова, Марины Воробьевой и Андрея Ступникова вышла в журнале «Моделирование и анализ информационных систем».
Существует несколько подходов к подбору ключевых слов: извлечение их непосредственно из текста, подбор из заранее определенного перечня тематики или рубрики, генерация на основе семантики текста путем его обобщения и перефразирования. В последнем случае задача подбора ключевых слов схожа с задачей автоматического абстрактного реферирования текстов.
Большая часть широко используемых подходов к извлечению этих слов основана на выделении из текста наиболее значимых слов и словосочетаний по принципу обучения без учителя (unsupervised learning). К таким подходам относятся, в частности, статистические алгоритмы, такие как YAKE! и KP-Miner, графовые (TopicRank, TextRank) и ряд алгоритмов, основанных на применении методов машинного обучения и современных лингвистических моделей (KEA, KeyBERT).
Несмотря на впечатляющие результаты для ряда текстовых корпусов, алгоритмы, основанные на извлечении ключевых слов, обладают некоторыми ограничениями. В частности, они не способны определять количество этих слов автоматически и генерировать слова, отсутствующие в тексте в явном виде.
На практике же списки ключевых слов обычно включают в себя как слова и словосочетания, встречающиеся в тексте непосредственно, так и слова, семантически связанные с содержанием текста, но не упомянутые в нем явно. Данные ограничения могут быть преодолены при помощи нейросетевых моделей, в том числе современных лингвистических моделей для генерации текстов.
Ученые пытались преодолеть пробел в использовании современных лингвистических моделей для генерации ключевых слов для русскоязычных научных текстов. В статье представлены результаты экспериментов по генерации списка ключевых слов как последовательности токенов (единиц учета) на примере модели mT5.
Выбор модели обусловлен ее широким использованием для автоматического реферирования и, в частности, для реферирования русскоязычных текстов. Результаты сравниваются с результатами ряда широко используемых методов извлечения ключевых слов.
Среди преимуществ генерации ключевых слов с помощью предобученной лингвистической модели можно назвать отсутствие необходимости проводить нормализацию и задавать ограничения на количество и длину ключевых слов, возможность генерировать те слова, которые не упомянуты в исходном тексте в явном виде.
С другой стороны, указанные свойства могут быть также ограничениями указанного подхода. Дообучение рассмотренной модели требует наличия обучающей выборки и, вероятно, дообученная модель ограниченно пригодна для генерации ключевых слов для текстов других предметных областей.
Кроме того, эффективность предложенного подхода и значения метрик зависят от специфики корпуса текстов, используемого для экспериментов. В рассмотренном корпусе доля ключевых слов, не встречающих в тексте в явном виде, составляет 53.17 процента и 54.8 процента для обучающей и тестовой выборок соответственно.
Поскольку подходы, осуществляющие извлечение, а не генерацию ключевых слов, не способны генерировать слова данного типа, модели генерации текста, подобные mT5, имеют преимущество на таких корпусах. Работа выполнена в рамках проекта, поддержанного грантом Президента России для молодых ученых — кандидатов наук.
Смотрящие онлайн-порно сегодня видят сцены физической агрессии гораздо чаще, чем это было 15-20 лет назад. К такому выводу пришел канадский социолог, изучив 255 самых просматриваемых видео, размещенных на популярном порносайте Pornhub с 2000 по 2024 год.
На основании большого массива данных, которые собрали с помощью видеосъемки с дронов, закрепленных на животных датчиков и других способов, исследователи вычислили, что одному взрослому представителю вида Globicephala macrorhynchus семейства дельфиновых необходимо от 82 до 202 кальмаров в день (в среднем 142 кальмара), а в год — до 73 тысяч штук.
Наблюдая за сверхновой 2024 ggi спустя всего 26 часов после вспышки, астрономы напрямую определили форму ударной волны в момент ее прорыва из звезды. Открытие позволит уточнить механизмы гибели массивных светил и может привести к пересмотру существующих моделей возникновения сверхновых.
Ученые открыли новый, ранее неизвестный способ передвижения бактерий по поверхностям, для которого не нужны жгутики. Эти микроорганизмы на краю колонии переваривают сахара, выделяют метаболиты и создают осмотическое давление. Оно вызывает микроскопическое «цунами», и на нем бактерии катятся вперед.
Недавно интернет взорвался заголовками: «Симуляция Вселенной невозможна», «Новое исследование полностью опровергает теорию симуляции». Поводом стала статья, авторы которой вознамерились доказать, что мы не живем внутри компьютера. Naked Science объясняет, что не так с этой новостью и можно ли на самом деле доказать, что «матрицы не существует».
Термояд начнет вырабатывать электричество через 20 лет — так говорили с 1950-х, но этого все так и не происходит. Почему? В чем принципиальные сложности на этом пути? Чего добивается «Росатом» в проекте ИТЭР и почему параллельно уже начал работу по российскому термоядерному реактору ТРТ? Руководитель проектного офиса по управляемому термоядерному синтезу «Наука и инновации» госкорпорации «Росатом» Андрей Аникеев ответил на наши вопросы.
Проанализировав данные наблюдений, полученных с помощью наземных обсерваторий за последние два десятилетия, астрономы обнаружили потенциально обитаемый мир — суперземлю Gliese 251 c (GJ 251 с). Планета обращается вокруг красного карлика на расстоянии около 18 световых лет от Земли и считается одним из самых перспективных кандидатов для поисков жизни.
По расчетам, большинство «гостей» из других звездных систем летят к Земле примерно со стороны созвездия Геркулес. Скорее всего, они время от времени падают на нашу планету, просто мы еще не научились это замечать. Как удалось вычислить, чаще всего они должны падать зимой и где-то в окрестностях экватора.
В современном доме, насыщенном разнообразной техникой, удлинители стали незаменимым атрибутом, позволяющим обеспечить электропитанием все необходимые устройства. Однако мало кто задумывается, что привычное использование этого аксессуара может нести серьезную угрозу безопасности. По статистике, значительная часть бытовых пожаров происходит из-за неправильной эксплуатации электропроводки и вспомогательных устройств. Какие приборы категорически нельзя подключать через удлинители и почему это может привести к трагическим последствиям, рассказывает профессор кафедры наноэлектроники РТУ МИРЭА, доктор физико-математических наук Алексей Юрасов.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно