Исследователи из Сколтеха, МГУ и Университета «Сириус» предложили новый метод визуализации химических реакций. Инструмент позволяет специалисту обозреть глобальное пространство реакций, чтобы найти новые или более эффективные пути синтеза органических соединений. Для этого нейросетевой метод проецирует химические реакции на плоскость в виде точек, группируя их по сходству.
Статья опубликована в журнале ACS Omega. Химики постоянно ищут новые пути синтеза ценных органических соединений: лекарств, пестицидов, топливных присадок, красителей и пигментов, материалов органических светодиодов и так далее. Поскольку любое органическое соединение можно получить массой способов, химикам-органикам и медицинским химикам приходится перебирать большие базы реакций, где на одно вещество могут быть приведены сотни известных путей синтеза. Человеческое восприятие плохо приспособлено для такой работы.
«Химик просматривает выдачу на поисковый запрос к базе данных и группирует реакции похожего вида, получая таким образом представление о структуре пространства синтеза, но для этого нужна мощная химическая интуиция, и все равно есть риск субъективной оценки», — объясняет руководитель исследования Сергей Соснин из Сколтеха.
Вместе с соавторами работы он упростил и стандартизировал описанный процесс. Они нашли способ выделять «сущность» химических реакций и наносить их на график, облегчая анализ. «Намного удобнее смотреть на картинку, а не на длинный список реакций. А визуализируем мы реакции на основании того, какие у них исходные соединения и продукты», — добавляет Соснин.
Предложенный метод преобразовывает каждую молекулу в численное представление (бинарный вектор). Затем алгоритм извлекает сущность реакции путем вычитания векторов исходных веществ из векторов продуктов. «Получается вектор, который в каком-то смысле соответствует тому, что в ходе реакции изменилось. При этом он не зависит от конкретных реагирующих веществ, — рассказывает Соснин. — Поэтому данный вектор является прозрачным и эффективным представлением реакции».
Единственная проблема с векторами реакций состоит в том, что для человека они абсолютно невразумительны, если вы, конечно, не приучены мыслить в 1024 измерениях. «Мы визуализируем эти векторы, недоступные прямому восприятию, при помощи подхода под названием параметрический t-SNE, — прокомментировал исследователь. — Нейросеть проецирует каждый многомерный вектор на плоскость как точку с некоторыми координатами».
На таком рисунке химик видит стандартные типы реакций, представленные скоплениями точек, например теми, которые выделены тремя пронумерованными ромбами. Допустим, вас интересуют пути синтеза дарунавира (фиолетовые круги) — антиретровирусного лекарства против ВИЧ и для профилактики СПИД — или лекарства от астмы монтелукаста (серые круги). По визуализации можно понять, какие типы реакций в первую очередь используются для получения этих веществ, а какие почему-то используются редко или вовсе не применяются, быть может, вопреки интуитивным ожиданиям специалиста.
Коллектив подчеркивает объективность такой визуализации. Она чем-то похожа на классификацию животных только по ДНК, без какого бы то ни было внимания к их внешнему облику. Подобно тому, как оказывается, что сокол — более близкий родственник попугаю и воробью, чем ястребу и орлу; химические реакции тоже порой раскрывают свою сущность, которая идет вразрез с интуицией.