Уведомления
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
Нейронную сеть научили распознавать химические формулы из научных статей
Исследователи из основанного в Сколтехе стартапа «Синтелли», МГУ имени Ломоносова и Университета «Сириус» разработали решение на базе нейронной сети для автоматического распознавания химических формул на сканах научных статей.
Статья с описанием исследования опубликована в научном журнале Chemistry-Methods, выпускаемом издательством Европейского химического общества. Человечество вступает в эпоху искусственного интеллекта, и химия здесь не исключение. Современные методы глубокого обучения всецело базируются на больших объемах качественных данных, которые необходимы для обучения нейросетей.
Хорошая новость: химические данные «не стареют». Даже если какое-то соединение было синтезировано, скажем, в начале XX века, информация о его структуре, свойствах и методах синтеза остается актуальной по сей день. Даже в наши дни всеобщей цифровизации нельзя назвать редкостью случай, когда химику-органику приходится искать по библиотекам оригинальный научный журнал или диссертацию, изданную в начале XX века, скажем, на немецком языке, чтобы получить информацию о малоизученной молекуле.
Но есть и плохая новость: не существует единого стандарта представления химических формул. Химики привыкли использовать множество приемов сокращения записи известных химических групп. Например, вместо рисунка трет-бутильной группы могут использоваться несколько вариантов обозначений: tBu, t-Bu или tert-Bu. Что еще хуже, часто целую группу похожих соединений записывают в виде шаблона с символами-заместителями (R1,R2), но сами расшифровки заместителей могут быть приведены где угодно: в таблицах, схемах, в тексте статьи, в приложениях к статье.
Добавьте сюда различные стили отрисовки в различных журналах, традиции и привычки химиков, изменения стилей рисования с течением времени. Все это приводит к тому, что иногда даже химики-эксперты теряются в попытках расшифровать «химический кроссворд» из очередной статьи. Для алгоритма эта задача и вовсе кажется неразрешимой.
Однако в руках у исследователей уже был опыт применения мощного инструмента для решения схожих задач — нейросети «Трансформер», предложенной компанией Google для машинного перевода с одного языка на другой. Вместо этого коллектив решил «переводить» изображение молекулы или молекулярного шаблона в специально разработанное текстовое представление этого шаблона. Это представление исследователи назвали Functional-Group-SMILES.
К большому удивлению авторов работы, нейросеть оказалась способна выучить практически все, если выбранный стиль отображения был представлен в обучающем наборе данных. Однако «Трансформер» сам по себе требует десятки миллионов примеров для обучения. Вручную вырезать из журналов столько химических формул просто невозможно. Тогда исследователи решили посмотреть на проблему под другим углом: сделать генератор данных, который будет создавать случайные молекулярные шаблоны комбинируя различные фрагменты молекул и стили отрисовки.
«Наше исследование наглядно демонстрирует сдвиг парадигмы в области оптического распознавания химических структур. Если раньше исследователи работали над тем, как распознать молекулярные структуры, то, благодаря уникальной производительности нейросетей типа „Трансформер“, возможно полностью сфокусироваться именно на создании генератора искусственных примеров, имитирующих большинство возможных стилей отрисовки молекулярных шаблонов.
Наш алгоритм комбинирует молекулы, функциональные группы, шрифты, стили и даже погрешности печати, фрагменты других молекул, фрагменты аннотаций и так далее. Даже химику будет тяжело сказать, была ли молекула взята из существующей статьи или ее рисунок создан нашим генератором», — говорит Сергей Соснин, руководитель исследования и основанного в Сколтехе стартапа «Синтелли».
Исследователи надеются, что метод станет важнейшим шагом на пути к химической системе искусственного интеллекта, которая будет способна «читать» и «понимать» статьи не хуже высококвалифицированного химика.
Существует несколько гипотез о том, как на самом деле древние египтяне строили свои пирамиды. Если о способах возведения монументальных сооружений и инструментах, которые использовали строители, более-менее известно, то о методах доставки блоков и их установки мнения разнятся. Команда французских архитекторов и египтологов изучила ландшафт вокруг самой древней из сохранившихся египетских пирамид — Джосера — и рассказала, как египтяне могли доставлять и поднимать камни для ее строительства.
Эпоксидные смолы известны своей прочностью, устойчивостью к химическим воздействиям и хорошими электрическими свойствами. Такие полимеры используют в качестве основы красок, покрытий, клеев и изоляционных материалов. Однако их применение ограничено высокой вязкостью. Ученые ПНИПУ синтезировали низковязкую, но прочную эпоксидную смолу. Разработка откроет новые горизонты ее использования, избавит от потребности применять разбавители и станет модификатором более высоковязких существующих смол без понижения механических характеристик. Например, клей и краска станут более устойчивыми.
В прошлом ИИ-системы выполняли определенный набор задач, а при появлении новых их нужно было переобучать. На это уходили дополнительные финансовые и вычислительные ресурсы. Открытие лаборатории исследований искусственного интеллекта T-Bank AI Research и Института AIRI меняет ситуацию. Ученые первыми в мире создали модель в области контекстного обучения (In-Context Learning), которая на нескольких примерах сама может учиться новым действиям.
Существует несколько гипотез о том, как на самом деле древние египтяне строили свои пирамиды. Если о способах возведения монументальных сооружений и инструментах, которые использовали строители, более-менее известно, то о методах доставки блоков и их установки мнения разнятся. Команда французских архитекторов и египтологов изучила ландшафт вокруг самой древней из сохранившихся египетских пирамид — Джосера — и рассказала, как египтяне могли доставлять и поднимать камни для ее строительства.
Человек множеством способов загрязняет природу вокруг себя, преимущественно воду. В Мировой океан попадают как отходы с производств, так и тонны пластикового мусора. Все это способно отравлять жизнь морских животных, особенно редких вроде акул. Одним из малоизученных токсичных источников можно назвать наркотики, в частности кокаин. Случайное употребление этого вещества акулами раньше только предполагали, но теперь бразильские биологи нашли прямые доказательства.
Международная команда исследователей с участием ученых из НИУ ВШЭ изучила, как люди, владеющие двумя языками (билингвы), ассоциируют время с пространством. Оказалось, что и в первом, и во втором языке они связывают прошлое с левой частью пространства, а будущее — с правой. При этом чем выше уровень владения вторым языком, тем сильнее выражена эта связь.
Необычный биологический вид, по оценке авторов новой научной работы, пригоден для заселения четвертой планеты без каких-либо предварительных условий — уже в том виде, в котором он существует сейчас. Поскольку речь идет о фотосинтетическом организме, он способен нарабатывать существенное количество кислорода. Интересно, что кандидат на терраформирование Марса сохранил жизнеспособность после месяца в жидком азоте.
Falcon 9 Block 5 впервые за три сотни запусков дал частично неудачный полет. Ракета выводила 20 спутников компании SpaceX, с 15 связь уже пропала, еще пять могут быть потеряны в ближайшее время.
Авторы нового исследования впервые показали, что круглые провалы в лунной поверхности не просто близки к многокилометровым пещерам на естественном спутнике Земли, но и располагают тоннелями, ведущими в глубину.
Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.
ПонятноИз-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.
ПонятноНаши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.
ПонятноМы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.
ПонятноМы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.
Понятно
Комментарии