Российские ученые создали модель, которая читает научную статью за минуту вместо полутора часов
Ученые из ИТМО и МГУ представили мультиагентную систему NanoMINER для автоматизированного извлечения и обработки данных из научных статей в области наноматериалов и нанозимов. Анализ статьи занимает у системы всего минуту, тогда как на ручную обработку уходит в среднем полтора часа. NanoMINER демонстрирует высокую точность до 98% и позволит ускорить исследования в материаловедении, бионанотехнологиях и других областях.
Результаты исследования опубликованы в журнале npj Computational Materials. Ключевая информация о свойствах, составе и поведении наноматериалов часто представлена в неструктурированном виде внутри статей. Ручное извлечение является крайне трудоемким и медленным процессом, затрудняющим масштабный анализ и создание баз данных. Решить эту проблему можно с помощью автоматизированных систем извлечения данных. Однако большинство существующих решений в этой области имеют ряд ограничений: работают только с текстом, требуют участия человека или не обрабатывают полные статьи.
Для решения этих ученые из ИТМО совместно с коллегой из МГУ представили систему NanoMINER, которая работает с данными о наноматериалах и нанозимах. NanoMINER обрабатывает научные статьи, включая текст, изображения и графики, используя комбинацию моделей, в частности, GPT-4o (для анализа текста и связывания информации) и YOLO (для обработки визуальных данных).
Алгоритм прост и не требует специальных знаний. Пользователю нужно загрузить статью в интерфейс NanoMINER, а система выдаст структурированный набор данных, извлеченный из текста: например, информацию о составе материала, условиях синтеза, свойствах и результатах, а также может предсказать тип кристаллической решетки по химической формуле. Автоматизированный анализ статьи занимает одну минуту по сравнению со средними 90 минутами при ручной обработке.
Точность системы ученые проверили на верифицированных вручную данных из 20 предыдущих работ. Авторы оценивали полноту, точность и согласованность извлеченной информации. Оказалось, что модель распознает данные с высокой точностью — до 98% для кинетических параметров нанозимов и до 66% для молекулярных характеристик наноматериалов (химических формул, кристаллических систем и параметров поверхности).
Разработка доступна для всех желающих — исходный код и инструкция по установке программы опубликованы на платформе GitHub. Любой исследователь может скачать систему, развернуть ее локально на своем компьютере или сервере и использовать для извлечения данных из любых статей. Ученые уверены, что их решение найдет применение как в академической среде, так и среди практикующих специалистов, работающих с наноматериалами, химическими базами данных и ИИ-моделями.
«Вскоре мы планируем добавить новые направления исследований для сбора, включая токсичность наночастиц, биосовместимость, каталитические свойства и другие важные характеристики. Параллельно улучшаем точность извлечения информации, тестируем различные архитектуры языковых моделей — как открытые, так и коммерческие через API — и ищем оптимальный баланс между качеством и доступностью. Уверены, что нашу систему можно будет адаптировать для применения и в других областях — например, биомедицине. В будущем модель может стать основой для создания масштабируемых баз данных, автоматически обновляемых на основе новых публикаций», — рассказала автор оригинальной идеи исследования и соавтор статьи, инженер Передовой инженерной школы ИТМО, ассистент факультета биотехнологий ИТМО Юлия Разливина.
Исследование поддержано программой «Приоритет 2030».
В высокогорных районах Гималаев появился новый хищник. Он не боится людей, возглавляет стаи собак и все чаще заходит в деревни. Местные жители называют его «кхипшанг». Речь идет о гибриде гималайского волка и бродячей собаки. Ученые опасаются, что этот зверь изменит хрупкий баланс местной дикой природы и в скором времени станет весьма опасным для человека.
Во всем мире во всех человеческих культурах около 90% людей пользуются преимущественно правой рукой. Такое поразительное единство практически всего человечества не имеет аналогов среди приматов и до сих пор остается эволюционной загадкой. Ученые проанализировали данные о более чем двух тысячах человекообразных обезьянах и выяснили, когда и почему праворукость стала популяционной тенденцией.
При совпадении нескольких условий наши глаза способны улавливать излучение в ближнем инфракрасном спектре. Тогда сетчатка начинает работать как нелинейный фотодетектор.
В высокогорных районах Гималаев появился новый хищник. Он не боится людей, возглавляет стаи собак и все чаще заходит в деревни. Местные жители называют его «кхипшанг». Речь идет о гибриде гималайского волка и бродячей собаки. Ученые опасаются, что этот зверь изменит хрупкий баланс местной дикой природы и в скором времени станет весьма опасным для человека.
При совпадении нескольких условий наши глаза способны улавливать излучение в ближнем инфракрасном спектре. Тогда сетчатка начинает работать как нелинейный фотодетектор.
Во всем мире во всех человеческих культурах около 90% людей пользуются преимущественно правой рукой. Такое поразительное единство практически всего человечества не имеет аналогов среди приматов и до сих пор остается эволюционной загадкой. Ученые проанализировали данные о более чем двух тысячах человекообразных обезьянах и выяснили, когда и почему праворукость стала популяционной тенденцией.
В последнее время пуски с российских северных космодромов осуществляют без предварительного уведомления, чего не было в прошлом. Вероятно, дело в недавно упомянутых главой «Роскосмоса» атаках на Плесецк во время пуска. Сегодняшний запуск обеспечил вывод на орбиту космических аппаратов военного назначения.
В высокогорных районах Гималаев появился новый хищник. Он не боится людей, возглавляет стаи собак и все чаще заходит в деревни. Местные жители называют его «кхипшанг». Речь идет о гибриде гималайского волка и бродячей собаки. Ученые опасаются, что этот зверь изменит хрупкий баланс местной дикой природы и в скором времени станет весьма опасным для человека.
Химические связи в материале, из которого сделана электроника, разрываются не из-за накопительного износа от протекания тока через них, а из-за электронов с конкретной энергией.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
Понятно
Что-то в вашем комментарии показалось подозрительным, поэтому перед публикацией он пройдет модерацию.
Понятно
Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
Понятно
Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
Понятно
Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
Понятно
