• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
14.02.2022
Сколтех
2 448

Нейронную сеть научили распознавать химические формулы из научных статей

4.5

Исследователи из основанного в Сколтехе стартапа «Синтелли», МГУ имени Ломоносова и Университета «Сириус» разработали решение на базе нейронной сети для автоматического распознавания химических формул на сканах научных статей.

Нейронную сеть научили распознавать химические формулы из научных статей / ©Getty images / Автор: Павел Сорокин

Статья с описанием исследования опубликована в научном журнале Chemistry-Methods, выпускаемом издательством Европейского химического общества. Человечество вступает в эпоху искусственного интеллекта, и химия здесь не исключение. Современные методы глубокого обучения всецело базируются на больших объемах качественных данных, которые необходимы для обучения нейросетей.

Хорошая новость: химические данные «не стареют». Даже если какое-то соединение было синтезировано, скажем, в начале XX века, информация о его структуре, свойствах и методах синтеза остается актуальной по сей день. Даже в наши дни всеобщей цифровизации нельзя назвать редкостью случай, когда химику-органику приходится искать по библиотекам оригинальный научный журнал или диссертацию, изданную в начале XX века, скажем, на немецком языке, чтобы получить информацию о малоизученной молекуле.

Но есть и плохая новость: не существует единого стандарта представления химических формул. Химики привыкли использовать множество приемов сокращения записи известных химических групп. Например, вместо рисунка трет-бутильной группы могут использоваться несколько вариантов обозначений: tBu, t-Bu или tert-Bu. Что еще хуже, часто целую группу похожих соединений записывают в виде шаблона с символами-заместителями (R1,R2), но сами расшифровки заместителей могут быть приведены где угодно: в таблицах, схемах, в тексте статьи, в приложениях к статье.

Примеры искусственных шаблонов с погрешностями / ©Иван Хохлов и другие / Chemistry-Methods

Добавьте сюда различные стили отрисовки в различных журналах, традиции и привычки химиков, изменения стилей рисования с течением времени. Все это приводит к тому, что иногда даже химики-эксперты теряются в попытках расшифровать «химический кроссворд» из очередной статьи. Для алгоритма эта задача и вовсе кажется неразрешимой.

Однако в руках у исследователей уже был опыт применения мощного инструмента для решения схожих задач — нейросети «Трансформер», предложенной компанией Google для машинного перевода с одного языка на другой. Вместо этого коллектив решил «переводить» изображение молекулы или молекулярного шаблона в специально разработанное текстовое представление этого шаблона. Это представление исследователи назвали Functional-Group-SMILES.

К большому удивлению авторов работы, нейросеть оказалась способна выучить практически все, если выбранный стиль отображения был представлен в обучающем наборе данных. Однако «Трансформер» сам по себе требует десятки миллионов примеров для обучения. Вручную вырезать из журналов столько химических формул просто невозможно. Тогда исследователи решили посмотреть на проблему под другим углом: сделать генератор данных, который будет создавать случайные молекулярные шаблоны комбинируя различные фрагменты молекул и стили отрисовки.

«Наше исследование наглядно демонстрирует сдвиг парадигмы в области оптического распознавания химических структур. Если раньше исследователи работали над тем, как распознать молекулярные структуры, то, благодаря уникальной производительности нейросетей типа „Трансформер“, возможно полностью сфокусироваться именно на создании генератора искусственных примеров, имитирующих большинство возможных стилей отрисовки молекулярных шаблонов.

Наш алгоритм комбинирует молекулы, функциональные группы, шрифты, стили и даже погрешности печати, фрагменты других молекул, фрагменты аннотаций и так далее. Даже химику будет тяжело сказать, была ли молекула взята из существующей статьи или ее рисунок создан нашим генератором», — говорит Сергей Соснин, руководитель исследования и основанного в Сколтехе стартапа «Синтелли».

Исследователи надеются, что метод станет важнейшим шагом на пути к химической системе искусственного интеллекта, которая будет способна «читать» и «понимать» статьи не хуже высококвалифицированного химика. 

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Сколковский институт науки и технологий — негосударственный технологический университет, расположенный в инновационном центре Сколково. Институт был создан в 2011 году при поддержке Массачусетского технологического института. Модель института предусматривает тесную интеграцию технологического образования, исследовательской работы и предпринимательских навыков. Институт ведёт обучение по программам магистратуры и PhD, рабочий язык — английский.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Вчера, 15:14
Елизавета Александрова

Пролетевший через Солнечную систему в 2017 году астероид Оумуамуа произвел неизгладимое впечатление в том числе своей беспрецедентно вытянутой формой. Астрономы попытались рассчитать, как он мог стать таким и почему в Солнечной системе мы не наблюдаем ничего подобного.

Позавчера, 12:12
НИУ ВШЭ

Исследователи МИЭМ НИУ ВШЭ впервые в России показали эффективную работу беспроводного канала связи 6G на частотах субтерагерцового диапазона. Устройство передает данные со скоростью 12 гигабит в секунду и сохраняет стабильность сигнала, автоматически переключаясь при блокировке. Показатели соответствуют международным стандартам 6G.

Вчера, 19:15
Татьяна

Нейтрино крайне редко взаимодействуют с веществом: мириады этих почти безмассовых частиц пронзают Землю, оставаясь незамеченными. Для наблюдения за ними строят детекторы гигантского объема под землей или водой, способные уловить единичные события в потоках космических частиц. Один из таких инструментов расположен в Средиземном море. Это KM3NeT — нейтринный детектор черенковского типа объемом один кубический километр воды. Коллаборация работающих на нем ученых сообщила о регистрации сигнала от астрофизического нейтрино рекордной энергии.

10 февраля
Андрей

Европейские палеонтологи изучили исключительно сохранившийся скелет плезиозавра из юрского периода, обнаруженный в Германии еще в 1940 году. Тогда ископаемую рептилию спрятали от разрушений войны в музей, а через 80 лет выяснилось, что на теле древнего животного остались мягкие ткани — кожа с уцелевшими клеточными ядрами и чешуйки. Новые данные дополняют представление о внешнем виде плезиозавров, живших больше 180 миллионов лет назад.

Вчера, 15:14
Елизавета Александрова

Пролетевший через Солнечную систему в 2017 году астероид Оумуамуа произвел неизгладимое впечатление в том числе своей беспрецедентно вытянутой формой. Астрономы попытались рассчитать, как он мог стать таким и почему в Солнечной системе мы не наблюдаем ничего подобного.

10 февраля
Елизавета Александрова

Астрономы обнаружили, что почти треть всех наблюдаемых галактик во Вселенной объединены в пять самых широкомасштабных структур — галактические сверхскопления. На составленной учеными трехмерной карте одно особенно выделяется своими рекордными размерами: простирается на миллиард с лишним световых лет.

31 января
Березин Александр

В 2022-2025 годах страны Западной Европы попытались отказаться от природного газа из России. Автор новой работы показал, что получившиеся при этом результаты были во многом противоположны целям.

10 февраля
Андрей

Европейские палеонтологи изучили исключительно сохранившийся скелет плезиозавра из юрского периода, обнаруженный в Германии еще в 1940 году. Тогда ископаемую рептилию спрятали от разрушений войны в музей, а через 80 лет выяснилось, что на теле древнего животного остались мягкие ткани — кожа с уцелевшими клеточными ядрами и чешуйки. Новые данные дополняют представление о внешнем виде плезиозавров, живших больше 180 миллионов лет назад.

14 января
Елизавета Александрова

По распространению сейсмических волн в недрах Земли геологи словно «сканируют» планету и обнаруживают все больше интересных особенностей ее внутреннего строения. Недавно очередное такое исследование заставило ученых особенно внимательно рассмотреть то, что скрывается под Тихоокеанской литосферной плитой.

[miniorange_social_login]

Комментарии

Написать комментарий
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно
Ваше сообщение получено

Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.

Понятно