Разработан алгоритм поиска научных статей с помощью нейросети
Специалисты НИЦ «Курчатовский институт» и МФТИ разработали систему семантического поиска научных публикаций по большим базам научных публикаций на основе информации о внешнем цитировании с использованием нейросетевых моделей.
Современные темпы роста объема научной информации требуют новых инструментов, позволяющих ученым искать и отбирать публикации на интересующие их темы.
Современные цифровые методы поиска научных статей включают в себя не только текстовые запросы и анализ цитирований, но и более сложные алгоритмы. Например, популярные системы Google Scholar и Scopus при ранжировании статей учитывают как ключевые слова, так и данные о цитированиях одних статей другими, что помогает найти наиболее релевантные материалы. Системы СoCites и Connected Papers умеют анализировать частоту, с которой статьи цитируют друг друга: это позволяет лучше выделять темы, идеи и концепции, наиболее актуальные для конкретной научной области.
Для улучшения точности поиска ученые постоянно ищут новые методы. Результаты работы опубликованы в научном журнале «Физика элементарных частиц и атомного ядра».
«Существующие сегодня методы поиска учитывают лишь частоту совместного цитирования. Разработанная нами система предлагает новый подход к поиску по научным публикациям — на основе кратких описаний результатов работ, используемых при цитировании одних статей другими. При обучении нейросетевой модели мы использовали базу англоязычных научных публикаций по биомедицине PubMed Central объемом 7,6 миллиона статей», — сообщила Дарья Доровских, лаборант-исследователь Курчатовского комплекса НБИКС-природоподобных технологий.
Из архива публикаций отбиралась информация о цитировании: текст авторского упоминания ключевых результатов другой работы и ссылка на нее. Затем с помощью нейросетевой модели BERT были созданы векторные представления этих упоминаний. Векторные представления позволяют хранить семантику слов в понятном для компьютера виде: векторы фиксируют информацию о значении слова на основе соседних слов в тексте.
Созданный прототип сервиса определяет семантический контекст и позволяет находить научные публикации по коротким описаниям. В том числе система может быстро найти статьи, даже если они не полностью соответствуют ключевым словам поискового запроса, но релевантны ему по теме.
Для удобства пользователей специалисты разработали веб-интерфейс на основе Python с использованием библиотек Flask и React для поиска статей. Систему протестировали на различных запросах, одни из которых составлялись вручную, другие автоматически выбирались из текста статей. Результаты показали, что новая система на основе нейросетевой модели BERT более точна, чем традиционные методы: она находит релевантные статьи быстрее и эффективнее. По словам ученых, прототип системы можно доработать с учетом особенностей сферы внедрения.
Ученые давно сделали вывод о том, что в поздней Античности монеты перестали представлять собой цену как валюта, однако не было понятно когда именно это произошло. Новое исследование погребения римского воина из бельгийского форта Оденбург показало, в какой момент монеты стали цениться просто весом металла в кошельке.
Долгое время считалось, что гигантские стрекозообразные, жившие 300 миллионов лет назад, стали такими из‑за высокого содержания кислорода. Тогда в атмосфере его было около 30% вместо сегодняшних 21%. Учёные полагали, что крупные насекомые задохнулись бы в нашей атмосфере. Но оказалось, что это не так.
Большой взрыв мог быть не началом Вселенной, а моментом рождения самой гравитации в привычном нам виде. Новая модель предлагает иную, квантовую форму гравитации, которая могла запустить инфляцию и избавить космологию от проблемы сингулярности, где законы физики перестают работать.
Шведские биологи отследили миграцию обыкновенного соловья с помощью миниатюрных датчиков-рюкзаков. Как оказалось, при пересечении Сахары и Аравийской пустыни птицы летят только по ночам и не ищут пищу. Соловьи преодолевают пустыню без дозаправки, полагаясь лишь на накопленный заранее жир.
Вода из другой звездной системы оказалась не похожа на земную: в составе третьего межзвездного объекта нашли рекордное содержание дейтерия — тяжелого изотопа водорода. Этот химический след указывает на необычные условия формирования системы, где возникла комета, и меняет представления о сценариях рождения далеких планетных систем.
На границе возможностей оптоволокна лазерный пучок самоорганизовывается в мощный, сфокусированный луч-иглу. Параметры этого излучения таковы, что позволяют в реальном времени без дополнительных ухищрений рассматривать клеточные процессы.
В последнее время пуски с российских северных космодромов осуществляют без предварительного уведомления, чего не было в прошлом. Вероятно, дело в недавно упомянутых главой «Роскосмоса» атаках на Плесецк во время пуска. Сегодняшний запуск обеспечил вывод на орбиту космических аппаратов военного назначения.
Четыре человека, летящие к Луне, столкнулись с целым рядом мелких неприятностей — от низкой температуры в начале работы до поломки мочевыводящей системы туалета на вторые сутки и необходимости взамен пользоваться пакетами. К счастью, пока самые крупные сложности удалось компенсировать. Но все они вместе могут сдвинуть ситуацию к решению, о котором Naked Science уже говорил в нашем видеоподкасте о миссии: не исключено, что при высадке астронавтов на Луне их корабль состыкуют со Starship не на окололунной, а уже на околоземной орбите.
Когда международная экспедиционная группа, исследующая море Уэдделла в Антарктиде на борту ледокола «Поларштерн», попыталась укрыться от шторма, ученые и экипаж судна удивились внезапному появлению острова, не обозначенного ни на одной морской карте.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
