• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
8 июля, 12:03
Университет ИТМО
2,9 тыс

Российские ученые создали модель, которая читает научную статью за минуту вместо полутора часов

❋ 4.5

Ученые из ИТМО и МГУ представили мультиагентную систему NanoMINER для автоматизированного извлечения и обработки данных из научных статей в области наноматериалов и нанозимов. Анализ статьи занимает у системы всего минуту, тогда как на ручную обработку уходит в среднем полтора часа. NanoMINER демонстрирует высокую точность до 98% и позволит ускорить исследования в материаловедении, бионанотехнологиях и других областях.

Создана модель, которая читает научную статью за минуту / © Michał Parzuchowski, unsplash.com

Результаты исследования опубликованы в журнале npj Computational Materials. Ключевая информация о свойствах, составе и поведении наноматериалов часто представлена в неструктурированном виде внутри статей. Ручное извлечение является крайне трудоемким и медленным процессом, затрудняющим масштабный анализ и создание баз данных. Решить эту проблему можно с помощью автоматизированных систем извлечения данных. Однако большинство существующих решений в этой области имеют ряд ограничений: работают только с текстом, требуют участия человека или не обрабатывают полные статьи.

Для решения этих ученые из ИТМО совместно с коллегой из МГУ представили систему NanoMINER, которая работает с данными о наноматериалах и нанозимах. NanoMINER обрабатывает научные статьи, включая текст, изображения и графики, используя комбинацию моделей, в частности, GPT-4o (для анализа текста и связывания информации) и YOLO (для обработки визуальных данных).

Алгоритм прост и не требует специальных знаний. Пользователю нужно загрузить статью в интерфейс NanoMINER, а система выдаст структурированный набор данных, извлеченный из текста: например, информацию о составе материала, условиях синтеза, свойствах и результатах, а также может предсказать тип кристаллической решетки по химической формуле. Автоматизированный анализ статьи занимает одну минуту по сравнению со средними 90 минутами при ручной обработке.

Точность системы ученые проверили на верифицированных вручную данных из 20 предыдущих работ. Авторы оценивали полноту, точность и согласованность извлеченной информации. Оказалось, что модель распознает данные с высокой точностью — до 98% для кинетических параметров нанозимов и до 66% для молекулярных характеристик наноматериалов (химических формул, кристаллических систем и параметров поверхности).

Разработка доступна для всех желающих — исходный код и инструкция по установке программы опубликованы на платформе GitHub. Любой исследователь может скачать систему, развернуть ее локально на своем компьютере или сервере и использовать для извлечения данных из любых статей. Ученые уверены, что их решение найдет применение как в академической среде, так и среди практикующих специалистов, работающих с наноматериалами, химическими базами данных и ИИ-моделями.

«Вскоре мы планируем добавить новые направления исследований для сбора, включая токсичность наночастиц, биосовместимость, каталитические свойства и другие важные характеристики. Параллельно улучшаем точность извлечения информации, тестируем различные архитектуры языковых моделей — как открытые, так и коммерческие через API — и ищем оптимальный баланс между качеством и доступностью. Уверены, что нашу систему можно будет адаптировать для применения и в других областях — например, биомедицине. В будущем модель может стать основой для создания масштабируемых баз данных, автоматически обновляемых на основе новых публикаций», — рассказала автор оригинальной идеи исследования и соавтор статьи, инженер Передовой инженерной школы ИТМО, ассистент факультета биотехнологий ИТМО Юлия Разливина.

Исследование поддержано программой «Приоритет 2030».

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Университет ИТМО (Санкт-Петербург) — национальный исследовательский университет, ведущий вуз России в области информационных и фотонных технологий. Альма-матер победителей международных соревнований по программированию: ICPC (единственный в мире семикратный чемпион), Google Code Jam, Facebook Hacker Cup, Яндекс.Алгоритм, Russian Code Cup, Topcoder Open и др. Приоритетные направления: IT, фотоника, робототехника, квантовые коммуникации, трансляционная медицина, урбанистика, Art&Science, Science Communication.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
27 декабря, 17:46
Адель Романова

После открытия объекта 3I/ATLAS предполагалось, что ядро межзвездной кометы могло иметь гигантские размеры. Но в процессе дальнейших наблюдений выяснилось, что эти оценки были явно завышены. Недавние расчеты показали, что на самом деле 3I/ATLAS по размерам соответствует среднестатистическим или даже самым компактным кометам Солнечной системы.

27 декабря, 10:10
Любовь С.

Вокруг звезды HD 131488, расположенной в созвездии Центавра (Centaurus) на расстоянии около 152 световых лет от Земли, впервые зафиксировали следы монооксида углерода (CO), который образуется при столкновениях и испарении комет. Находка открывает новую страницу в изучении формирования планетных систем.

27 декабря, 10:30
Максим Абдулаев

Палеонтологи описали крупнейшее в мире скопление следов динозавров: более 16 000 вмятин на площади 7500 квадратных метров. Ученые считают, что эта территория была не просто местом случайных прогулок, а оживленной трассой, где динозавры организованно мигрировали вдоль берега древнего озера.

26 декабря, 15:47
Максим Абдулаев

Биологи опровергли представление о примитивности органов чувств у древнейших бесчелюстных, обнаружив у миксин огромный арсенал рецепторов для поиска добычи. Исследователи доказали, что способность различать сложные запахи и аминокислоты появилась у общего предка позвоночных задолго до возникновения челюстей.

27 декабря, 17:46
Адель Романова

После открытия объекта 3I/ATLAS предполагалось, что ядро межзвездной кометы могло иметь гигантские размеры. Но в процессе дальнейших наблюдений выяснилось, что эти оценки были явно завышены. Недавние расчеты показали, что на самом деле 3I/ATLAS по размерам соответствует среднестатистическим или даже самым компактным кометам Солнечной системы.

28 декабря, 16:21
Александр Березин

В 16.18 по московскому времени 28 декабря 2025 года с единственного гражданского космодрома на территории России произошел 17-й по счету космический запуск этого года. Перед ним на космодроме побывал корреспондент нашего издания, и вскоре мы выпустим репортаж о том, чем живет самый холодный космодром в мире.

8 декабря, 13:09
Александр Березин

С 2010-х в «Роскосмосе» говорили: будущая РОС сможет пролетать над полюсом, что даст ей возможности для новых научных экспериментов. Но вскоре после того, как в ноябре 2025 года Россия временно лишилась возможности запускать людей в космос, эта позиция изменилась. В результате запускать космонавтов с космодромов нашей страны станет довольно сложно.

17 декабря, 14:19
Игорь Байдов

На скалистых берегах аргентинской Патагонии разворачивается настоящая драма. Магеллановы пингвины, долгое время чувствовавшие себя в безопасности на суше в своих многотысячных колониях, столкнулись с новым и беспощадным врагом. Их извечные морские страхи — касатки и морские леопарды — теперь блекнут перед угрозой, пришедшей из глубины материка. Виновник переполоха — грациозный и мощный хищник, недавно вернувшийся на эти земли после долгого изгнания.

23 декабря, 10:51
Игорь Байдов

Среди самых интригующих открытий космического телескопа «‎Джеймс Уэбб» — компактные объекты, получившие название «маленькие красные точки». Их видели только в самых дальних уголках Вселенной. Большинство возникло в первый миллиард лет после Большого взрыва, и ученые предполагали, что такие источники представляют собой небольшие компактные галактики. Однако международная команда астрономов пришла к иному выводу. Они предположили, что на самом деле «маленькие красные точки» — черные дыры, окруженные массивной газовой оболочкой.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Закрыть
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно