• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
08.07.2025, 12:03
Университет ИТМО
2,9 тыс

Российские ученые создали модель, которая читает научную статью за минуту вместо полутора часов

❋ 4.5

Ученые из ИТМО и МГУ представили мультиагентную систему NanoMINER для автоматизированного извлечения и обработки данных из научных статей в области наноматериалов и нанозимов. Анализ статьи занимает у системы всего минуту, тогда как на ручную обработку уходит в среднем полтора часа. NanoMINER демонстрирует высокую точность до 98% и позволит ускорить исследования в материаловедении, бионанотехнологиях и других областях.

Создана модель, которая читает научную статью за минуту / © Michał Parzuchowski, unsplash.com

Результаты исследования опубликованы в журнале npj Computational Materials. Ключевая информация о свойствах, составе и поведении наноматериалов часто представлена в неструктурированном виде внутри статей. Ручное извлечение является крайне трудоемким и медленным процессом, затрудняющим масштабный анализ и создание баз данных. Решить эту проблему можно с помощью автоматизированных систем извлечения данных. Однако большинство существующих решений в этой области имеют ряд ограничений: работают только с текстом, требуют участия человека или не обрабатывают полные статьи.

Для решения этих ученые из ИТМО совместно с коллегой из МГУ представили систему NanoMINER, которая работает с данными о наноматериалах и нанозимах. NanoMINER обрабатывает научные статьи, включая текст, изображения и графики, используя комбинацию моделей, в частности, GPT-4o (для анализа текста и связывания информации) и YOLO (для обработки визуальных данных).

Алгоритм прост и не требует специальных знаний. Пользователю нужно загрузить статью в интерфейс NanoMINER, а система выдаст структурированный набор данных, извлеченный из текста: например, информацию о составе материала, условиях синтеза, свойствах и результатах, а также может предсказать тип кристаллической решетки по химической формуле. Автоматизированный анализ статьи занимает одну минуту по сравнению со средними 90 минутами при ручной обработке.

Точность системы ученые проверили на верифицированных вручную данных из 20 предыдущих работ. Авторы оценивали полноту, точность и согласованность извлеченной информации. Оказалось, что модель распознает данные с высокой точностью — до 98% для кинетических параметров нанозимов и до 66% для молекулярных характеристик наноматериалов (химических формул, кристаллических систем и параметров поверхности).

Разработка доступна для всех желающих — исходный код и инструкция по установке программы опубликованы на платформе GitHub. Любой исследователь может скачать систему, развернуть ее локально на своем компьютере или сервере и использовать для извлечения данных из любых статей. Ученые уверены, что их решение найдет применение как в академической среде, так и среди практикующих специалистов, работающих с наноматериалами, химическими базами данных и ИИ-моделями.

«Вскоре мы планируем добавить новые направления исследований для сбора, включая токсичность наночастиц, биосовместимость, каталитические свойства и другие важные характеристики. Параллельно улучшаем точность извлечения информации, тестируем различные архитектуры языковых моделей — как открытые, так и коммерческие через API — и ищем оптимальный баланс между качеством и доступностью. Уверены, что нашу систему можно будет адаптировать для применения и в других областях — например, биомедицине. В будущем модель может стать основой для создания масштабируемых баз данных, автоматически обновляемых на основе новых публикаций», — рассказала автор оригинальной идеи исследования и соавтор статьи, инженер Передовой инженерной школы ИТМО, ассистент факультета биотехнологий ИТМО Юлия Разливина.

Исследование поддержано программой «Приоритет 2030».

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Университет ИТМО (Санкт-Петербург) — национальный исследовательский университет, ведущий вуз России в области информационных и фотонных технологий. Альма-матер победителей международных соревнований по программированию: ICPC (единственный в мире семикратный чемпион), Google Code Jam, Facebook Hacker Cup, Яндекс.Алгоритм, Russian Code Cup, Topcoder Open и др. Приоритетные направления: IT, фотоника, робототехника, квантовые коммуникации, трансляционная медицина, урбанистика, Art&Science, Science Communication.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
17 февраля, 10:00
ФизТех

Ученые из Института космических исследований РАН и МФТИ раскрыли химический механизм, объясняющий появление молекул воды на поверхностях астероидов.

17 февраля, 15:30
МГППУ

Пластичность мозга — его способность перестраиваться под влиянием приходящей информации. Это свойство необходимо для обучения и адаптации. Пластичность особенно высока в детском и юношеском возрасте, она помогает быстро выучить иностранный язык и освоить сложные моторные навыки (например, фигурное катание). Ресурс пластичности есть и у пожилых людей — благодаря альтернативным нейронным сетям они восстанавливаются после травмы или инсульта. Как выясняется, высокая пластичность это не всегда хорошо. Нарушение тонкого баланса между пластичностью и стабильностью может вести к неприятным последствиям, таким как хроническая боль, тиннитус (звон в ушах) и фобии.

17 февраля, 09:30
СПбГУ

Исследователи Санкт-Петербургского государственного университета разработали эффективный способ обнаружения в крови важнейшего биомаркера иммунитета — неоптерина — с помощью нанотехнологий и лазера.

12 февраля, 07:52
Адель Романова

Астрономы недавно проанализировали базу данных о падающих на Землю объектах и пришли к выводу, что два из них прибыли из межзвездного пространства. Известна не только дата, но и место падения каждого из них.

12 февраля, 11:41
Александр Березин

На наземные растения, в основном деревья, приходится 80 процентов всей биомассы Земли, 450 миллиардов тонн сухого углерода и более двух триллионов тонн «живого веса». Поэтому идея сажать новые леса для связывания СО2 из атмосферы долго казалась логичной. Новые данные показали, что реальность заметно сложнее.

12 февраля, 08:19
Полина Меньшова

«Любить лишь можно только раз», — писал поэт Сергей Есенин, а герои культовых сериалов приходили к выводу, что «настоящая» влюбленность случается в жизни максимум дважды. Однако ни один из этих тезисов не подкреплен научными данными. Американские исследователи подошли к вопросу иначе: опросили более 10 тысяч человек и вывели среднее число сильных влюбленностей, возможных в течение жизни.

12 февраля, 07:52
Адель Романова

Астрономы недавно проанализировали базу данных о падающих на Землю объектах и пришли к выводу, что два из них прибыли из межзвездного пространства. Известна не только дата, но и место падения каждого из них.

28 января, 10:50
Игорь Байдов

Международная команда палеонтологов описала новый вид динозавра размером с крупную современную птицу. Он носил на голове плотный костяной нарост, который эти животные, возможно, использовали для внутривидовых разборок. Находка показывает, что даже мелкие хищники мелового периода могли решать конфликты не только когтями и зубами, но и ударами головой.

26 января, 14:26
Александр Березин

Образцы грунта, взятые астронавтами полвека назад, вложили еще один важный кирпич в здание научной картины мира: гипотеза о том, что Земля исходно была сухой, не стыкуется с фактами. Похоже, идею о невозможности сохранения большого количества воды на «теплых» планетах придется пересмотреть.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно