14.02.2022, 11:53

Сколтех

Нейронную сеть научили распознавать химические формулы из научных статей

❋ 4.5

Исследователи из основанного в Сколтехе стартапа «Синтелли», МГУ имени Ломоносова и Университета «Сириус» разработали решение на базе нейронной сети для автоматического распознавания химических формул на сканах научных статей.

Сколтех

# ИИ

# научная статья

# Нейронная сеть

# Химики

# химическая формула

Нейронную сеть научили распознавать химические формулы из научных статей / ©Getty images / Автор: Павел Сорокин

Статья с описанием исследования опубликована в научном журнале Chemistry-Methods, выпускаемом издательством Европейского химического общества. Человечество вступает в эпоху искусственного интеллекта, и химия здесь не исключение. Современные методы глубокого обучения всецело базируются на больших объемах качественных данных, которые необходимы для обучения нейросетей.

Хорошая новость: химические данные «не стареют». Даже если какое-то соединение было синтезировано, скажем, в начале XX века, информация о его структуре, свойствах и методах синтеза остается актуальной по сей день. Даже в наши дни всеобщей цифровизации нельзя назвать редкостью случай, когда химику-органику приходится искать по библиотекам оригинальный научный журнал или диссертацию, изданную в начале XX века, скажем, на немецком языке, чтобы получить информацию о малоизученной молекуле.

Но есть и плохая новость: не существует единого стандарта представления химических формул. Химики привыкли использовать множество приемов сокращения записи известных химических групп. Например, вместо рисунка трет-бутильной группы могут использоваться несколько вариантов обозначений: tBu, t-Bu или tert-Bu. Что еще хуже, часто целую группу похожих соединений записывают в виде шаблона с символами-заместителями (R1,R2), но сами расшифровки заместителей могут быть приведены где угодно: в таблицах, схемах, в тексте статьи, в приложениях к статье.

Примеры искусственных шаблонов с погрешностями / ©Иван Хохлов и другие / Chemistry-Methods

Добавьте сюда различные стили отрисовки в различных журналах, традиции и привычки химиков, изменения стилей рисования с течением времени. Все это приводит к тому, что иногда даже химики-эксперты теряются в попытках расшифровать «химический кроссворд» из очередной статьи. Для алгоритма эта задача и вовсе кажется неразрешимой.

Однако в руках у исследователей уже был опыт применения мощного инструмента для решения схожих задач — нейросети «Трансформер», предложенной компанией Google для машинного перевода с одного языка на другой. Вместо этого коллектив решил «переводить» изображение молекулы или молекулярного шаблона в специально разработанное текстовое представление этого шаблона. Это представление исследователи назвали Functional-Group-SMILES.

К большому удивлению авторов работы, нейросеть оказалась способна выучить практически все, если выбранный стиль отображения был представлен в обучающем наборе данных. Однако «Трансформер» сам по себе требует десятки миллионов примеров для обучения. Вручную вырезать из журналов столько химических формул просто невозможно. Тогда исследователи решили посмотреть на проблему под другим углом: сделать генератор данных, который будет создавать случайные молекулярные шаблоны комбинируя различные фрагменты молекул и стили отрисовки.

«Наше исследование наглядно демонстрирует сдвиг парадигмы в области оптического распознавания химических структур. Если раньше исследователи работали над тем, как распознать молекулярные структуры, то, благодаря уникальной производительности нейросетей типа „Трансформер“, возможно полностью сфокусироваться именно на создании генератора искусственных примеров, имитирующих большинство возможных стилей отрисовки молекулярных шаблонов.

Наш алгоритм комбинирует молекулы, функциональные группы, шрифты, стили и даже погрешности печати, фрагменты других молекул, фрагменты аннотаций и так далее. Даже химику будет тяжело сказать, была ли молекула взята из существующей статьи или ее рисунок создан нашим генератором», — говорит Сергей Соснин, руководитель исследования и основанного в Сколтехе стартапа «Синтелли».

Исследователи надеются, что метод станет важнейшим шагом на пути к химической системе искусственного интеллекта, которая будет способна «читать» и «понимать» статьи не хуже высококвалифицированного химика.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.

Сколковский институт науки и технологий — негосударственный технологический университет, расположенный в инновационном центре Сколково. Институт был создан в 2011 году при поддержке Массачусетского технологического института. Модель института предусматривает тесную интеграцию технологического образования, исследовательской работы и предпринимательских навыков. Институт ведёт обучение по программам магистратуры и PhD, рабочий язык — английский.

Сколтех

# ИИ

# научная статья

# Нейронная сеть

# Химики

# химическая формула

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Предстоящие мероприятия

Космическая импровизация: как Солнце создает хаос и порядок

Сколтех

Москва

Экскурсия

12 Июл

Бесплатно

Экскурсия в Музей Истории Мироздания

Курилка Гутенберга

Москва

Лекция

12 Июл

1700 ₽

Путешествие с кошкой Шредингера по квантовой запутанности: от параллельных вселенных до квантового компьютера

ВСмысле

Санкт-Петербург

Лекция

12 Июл

Бесплатно

Свет в ловушке: резонансные эффекты в наномасштабе

Сколтех

Москва

Лекция

12 Июл

700 ₽

Партия социалистов-революционеров: портреты

Центр «Архэ»

Москва

Лекция

12 Июл

Бесплатно

Звериный взгляд на красоту

Сколтех

Москва

Лекция

12 Июл

Бесплатно

Наука и искусство измерения времени

Сколтех

Москва

Лекция

13 Июл

Бесплатно

Органическая химия азота для медицины и освоения космоса

Космонавтика и авиация

Москва

Лекция

13 Июл

Бесплатно

Насколько огромна Вселенная?

Космонавтика и авиация

Москва

Популярное

За сутки

За неделю

За месяц

11 июля, 17:47

Денис Яковлев

Ученые определили оптимальную длительность физической активности, которая продлевает жизнь на треть

Международная команда ученых оценила связь между длительностью физической активности, ее интенсивностью, риском смерти от всех причин и вероятностью развития сердечно-сосудистых и онкологических заболеваний.

Медицина

# ЗОЖ

# онкологические заболевания

# сердечно-сосудистые болезни

# смертность

# спорт

10 июля, 13:16

ФизТех

Скрутить в кольцо и сломать позвоночник: ученые узнали, как крестьяне наказывали конокрадов в царской России

Кража лошадей была серьезной проблемой для крестьянских хозяйств в Российской империи. Особенности этого явления, включающие жестокие уголовные наказания, крестьянский самосуд и межэтнические конфликты, выявили в ходе исследования юридических источников историки из МФТИ и РЭУ имени Г.В. Плеханова.

ФизТех

# воровство

# крестьяне

# лошади

# Россия

12 июля, 09:23

Александр Березин

Гусеницы восковой моли превратили полиэтилен в жир и пострадали от этого

Исследователи разобрались с тем, что происходит в организме пластикоядных гусениц при поедании и переваривании самого распространенного пластика. Оказалось, что для их здоровья это не проходит бесследно, но, похоже, есть способ помочь и гусеницам, и осуществляемому ими процессу разрушения искусственных полимеров.

Биология

# биология

# гусеницы

# пластик

8 июля, 09:23

Полина Меньшова

Люди с высоким уровнем интеллекта оказались менее нравственными

Принято считать, что люди с развитыми когнитивными способностями отличаются высокими моральными принципами. Ученые из Великобритании решили проверить этот тезис научными методами и пришли к противоположному выводу.

Психология

# интеллект

# мораль

# нравственность

# показатель IQ

9 июля, 08:26

Полина Меньшова

Предпочтения в спорте связали с типом личности

Подобрать тип физической активности, который лучше всего подходит человеку, можно исходя из особенностей его характера. Психологи из Великобритании определили, что люди с разными чертами личности получают больше удовольствия от разных видов спорта.

Психология

# спорт

# тип личности

# фитнес

# характер

# черты личности

9 июля, 12:05

Редакция Naked Science

За месяц «ВКонтакте» покинули больше миллиона авторов

В июне 2025 года ВК покинули 1,2 миллиона авторов контента. Это резкое ускорение их бегства в сравнении с предшествующими месяцами. Одновременно число авторов на других платформах растет, в результате по этому показателю соцсеть обогнал не только Telegram, но и запрещенный Instagram*. Причиной происходящего многие наблюдатели посчитали совокупность решений менеджмента компании за последние годы.

Медиа

# «ВКонтакте»

# медиа

# соцсети

17 июня, 16:49

Адель Романова

Давно отключенный спутник внезапно прислал «громкий» радиосигнал

Радиотелескопы уловили очень короткий сигнал, и по его характеристикам стало ясно, что он не может быть естественного происхождения. Астрономы пришли к выводу, что источник находился в околоземном пространстве — там, где уже более полувека летает «мертвый» аппарат NASA.

Астрономия

# космический мусор

# космос

# радиосигналы

# спутники

25 июня, 15:19

ФизТех

Российские ученые впервые точно определили источники шума сверхзвукового самолета с помощью суперкомпьютера

Группа российских ученых из Института прикладной математики имени М. В. Келдыша РАН и МФТИ провела детальное численное исследование источников шума, генерируемых крылом прототипа сверхзвукового бизнес-джета в режиме посадки. Эта работа, сочетающая передовые методы вычислительной гидродинамики и аэроакустики, впервые позволила с высокой точностью локализовать и охарактеризовать основные зоны шумообразования вблизи полноразмерной геометрии крыла модели прототипа сверхзвукового пассажирского самолета в посадочной конфигурации.

ФизТех

# «Суперджет»

# самолет

# сверхзвуковой

# суперкомпьютеры

# Шум

2 июля, 11:17

Юлия Тарасова

Коров покормили отходами конопли и проверили их молоко на психоактивность

Результаты эксперимента в США в будущем могут позволить добиться разрешения на использование отработанной конопли в качестве кормовой добавки в животноводстве.

Биология

# животноводство

# конопля

# корм

# коровы

# молоко

# ТГК

# тетрагидроканнабинол

[miniorange_social_login]

Нейронную сеть научили распознавать химические формулы из научных статей

По теме

ИИ помог выявлять болезнь Паркинсона на ранних стадиях по снимкам глазного дна

В MIT создана «Машина кошмаров»

Время настоящего ИИ стало ещё ближе

Популярное

Ученые определили оптимальную длительность физической активности, которая продлевает жизнь на треть

Скрутить в кольцо и сломать позвоночник: ученые узнали, как крестьяне наказывали конокрадов в царской России

Гусеницы восковой моли превратили полиэтилен в жир и пострадали от этого

Люди с высоким уровнем интеллекта оказались менее нравственными

Предпочтения в спорте связали с типом личности

За месяц «ВКонтакте» покинули больше миллиона авторов

Давно отключенный спутник внезапно прислал «громкий» радиосигнал

Российские ученые впервые точно определили источники шума сверхзвукового самолета с помощью суперкомпьютера

Коров покормили отходами конопли и проверили их молоко на психоактивность

Комментарии

Хотите
вести колонку
в нашем
издании?

Колумнисты 64

ПНИПУ

ФизТех

Сколтех

НИУ ВШЭ

ТюмГУ

РНФ

ЮФУ

МГППУ

НИТУ МИСИС

КНЦ РАН

Иммунитет от векторных вакцин оказался стойким, а у мРНК — преходящим. Зато ЮАР запретила «Спутник»… из-за борьбы с ВИЧ

Может ли Россия применить тактическое ядерное оружие

Люди, ставшие гениями после удара по голове

«Очень интересно открывать что-то новое: день, когда эксперимент дал не то, что ты ожидал, — это замечательный день»

Первый успешный полет Starship: к чему приведет революция в освоении космоса?

Faraday Future FF91: Быстрый, большой, дорогой. Новый «убийца» Tesla?

Не фастфуд: всемирную эпидемию лишнего веса вызвали обычные пластификаторы

Черная желчь: что такое депрессия

Нейронную сеть научили распознавать химические формулы из научных статей

По теме

ИИ помог выявлять болезнь Паркинсона на ранних стадиях по снимкам глазного дна

В MIT создана «Машина кошмаров»

Время настоящего ИИ стало ещё ближе

Популярное

Комментарии

Хотите вести колонку в нашем издании?

Колумнисты 64

ПНИПУ

ФизТех

Сколтех

НИУ ВШЭ

ТюмГУ

РНФ

ЮФУ

МГППУ

НИТУ МИСИС

КНЦ РАН

Хотите
вести колонку
в нашем
издании?