• Добавить в закладки
  • Facebook
  • Twitter
  • Telegram
  • VK
  • Печать
  • Email
  • Скопировать ссылку
13.11.2022
Даниил Кузнецов
2
57 023

Целительные алгоритмы: как искусственный интеллект совершил революцию в биомедицине

6.4

В кино часто изображают искусственный интеллект и роботов коварными и злокозненными, но почти никогда лечащими смертельные заболевания или омолаживающими человеческие организмы. А ведь биомедицина — одна из наиболее важных сфер применения ИИ. За последние пять лет здесь произошло немало впечатляющих прорывов. Уже сейчас ИИ может реально помочь миллионам людей. Однако консерватизм и недоверие многих врачей старой школы к новым технологиям препятствуют широкому внедрению подобных систем. Какие открытия совершил искусственный интеллект в молекулярной биологии и как они повлияют на лечение рака и продление жизни — в четвертой статье цикла Naked Science об ИИ и его влиянии на наше общество.

ИИ в роли врача
Так генерирующая изображения нейросеть MidJourney «представляет» себе ответ на вопрос «Каким будет ИИ в роли врача» / ©Naked Science / Автор: Lampronia Auxilius

ИИ заглядывает внутрь клетки

Молекулярная биология долго была «мокрой» наукой — ученым приходилось работать главным образом в лабораториях, капая растворами и препаратами в пробирки. Новая эра началась в 1990 году со старта проекта «Геном человека». Более 30 прошедших с того момента лет ознаменовались несколькими ключевыми трендами.  

Во-первых, это развитие технологий секвенирования — «чтения» последовательности нуклеотидов, элементарных букв в коде молекул ДНК и РНК, а также их последующее тотальное удешевление. Шутка ли — на получение сиквенса (расшифровки или «текста») первого полного генома человека потребовалось 13 лет и около трех миллиардов долларов (а с учетом инфляции на текущий момент — почти шесть миллиардов). Сегодня каждый может сделать то же самое за неделю-две, потратив всего от 600 до тысячи долларов! 

Во-вторых, наступление «эры эпигенетики». Хотя эта наука имеет столетнюю предысторию, ее расцвет и изменение в парадигме понимания наследственности произошли также после 1990 года. Стало понятно, во многом тоже благодаря секвенированию, что важно не какие существуют гены и их мутации в геноме живых существ, а какие именно, как и почему активны в тот или иной момент времени. 

Третий тренд, объединяющий и надстраивающийся над первыми двумя — появление и взлет всевозможных «омиков». Центральная догма молекулярной биологии гласит: реализация генетической информации всегда идет по пути от ДНК через РНК к белкам. 

При этом все наши гены в ДНК формируют геном. Все экспрессированные (активные) в данный момент гены — совокупность РНК или транскриптом. Все синтезированные на основе мРНК белки — протеом. Все сигнальные пути в клетках, в которых задействованы экспрессированные белки, — интерактом. Ну а все молекулы-метаболиты — метаболом. При этом еще важно учитывать, что белки не только должны синтезироваться, но и пройти процесс фолдинга, или укладки в особую характерную трехмерную структуру, от которой также будут зависеть их свойства.

На листе — типичный вывод данных программы PAL2NAL (она переводит множественные выравнивания белковых последовательностей и соответствующих последовательностей ДНК (или мРНК) в выравнивания кодонов) / © Darryl Leja, NHGRI

«Омики» породили в молекулярной биологии огромные объемы данных. В новую эпоху ключевыми исследователями в этой области стали «сухие» биоинформатики, специалисты по исследованию больших омикс-данных. Нередко эти люди никогда даже не бывали в лабораториях, но зато хорошо разбирались, как обрабатывать дата-сеты и находить внутри них закономерности. Один из лучших методов для этого — машинное обучение. Да и, как известно, большие данные — всегда главное топливо для систем искусственного интеллекта. Поэтому ИИ быстро превратился как в широко распространенный метод исследования в биологии, так и в прикладную технологию, реализующую научные открытия в виде полезного медицинского продукта для пациентов и врачей.

ИИ побеждает рак

Если геном — это в определенной степени стабильная характеристика клеток нашего организма (с учетом того что в нем могут возникать мутации), то все остальные «омики» меняются в зависимости от вида клеток, тканей, органов, состояния организма, воздействия факторов внешней среды и даже психологического стресса.

Например, в обыденном представлении рак — это некое единое заболевание. В действительности современные врачи называют раком только злокачественные опухоли эпителиальной ткани — карциномы. Однако такие новообразования могут возникать во всех тканях — костной, соединительной или мышечной (саркомы), нервной (глиомы), клетках лимфатической системы (лимфомы), крови и костного мозга (лейкемии) и так далее. 

Но важно даже не это. Те же самые солидные опухоли в матке или молочной железе двух женщин симптоматически выглядят совершенно одинаково, однако на уровне своего геномного, транскриптомного и протеомного профиля могут отличаться кардинально. А значит, если лечить их одинаковыми, стандартными методами, то в одном случае терапия может дать положительный результат, а в другом нет. 

Омикс-данные и технологии искусственного интеллекта открыли в медицине дорогу для персонализированной и прецизионной медицины, когда лечат не заболевание вообще, а конкретного пациента и характерную именно для него форму патологии с опорой на информацию о его уникальном профиле активных генов и экспрессированных белков здесь и сейчас.

Отличным примером успешной реализации прецизионного подхода и использования ИИ как для исследований, так и для индивидуальной диагностики и подбора наиболее эффективного лечения стали разработки российского биомедицинского стартапа Oncobox, резидента фонда «Сколково». Один из сооснователей и директор по науке в компании — доктор биологических наук Антон Буздин из ИБХ РАН, а среди исследователей — ведущие российские онкобиоинформатики из МФТИ и Сеченовского университета.

Для лечения солидных опухолей существует свыше 160 таргетных препаратов. Каждый из них воздействует на свои специфические молекулярные мишени в раковых клетках, из-за чего их эффективность отличается для разных групп пациентов. Для обоснованного выбора конкретного таргетного препарата для каждого пациента в Oncobox разработали особое диагностическое исследование.

В него входит полноэкзомное секвенирование нового поколения (Next Generation Sequencing, NGS) биоматериала опухоли, взятого с помощью пункции или после хирургической операции по ее удалению. Такое секвенирование позволяет «прочесть» свыше 22 500  кодирующих  белков генов и выявить в них все ведущие («драйверные») мутации, способные вызвать развитие опухоли у пациента. 

Визуализация роста раковых клеток в организме / ©Frank C. Marini, WFBCCC, NCI

Потом идет определение мутационной нагруженности опухоли (количества мутаций на каждый миллион нуклеотидов) и транскриптомный анализ активности генов по уровню экспрессии мРНК. На этом этапе выявляются отличия в экспрессии генов в опухолевой и нормальной ткани. Транскриптомные данные показывают, какие именно гены подавлены, а какие активны и могут стать мишенями для таргетных препаратов.

Завершают исследование два ноу-хау российской компании: интерактомный анализ, в ходе которого с помощью биоинформационных алгоритмов устанавливаются  специфичные для конкретной опухоли изменения молекулярных путей и моделируется воздействие на них большинства имеющихся на рынке противоопухолевых лекарств. А в финале на основе объединения геномных, транскриптомных и интерактомных данных искусственный интеллект строит индивидуальный рейтинг эффективности более чем для 160 таргетных препаратов. 

Лечащему врачу стоит обратить внимание на первые 5-10 позиций рейтинга. Туда часто попадают как конвенциональные препараты, применяющиеся в «золотом стандарте» терапии для данного вида опухолей, так и совершенно неожиданные. Предельно упрощая: у пациентки может быть рак яичника, но система рекомендует ей средство против рака легких. 

Проблема в том, что клиницисты старой школы обычно отказывают в прописывании подобных лекарств, так как они не входят в стандартные рекомендации. И здесь срабатывают не только предубеждение и отсутствие понимания специфики современной прецизионной медицины и работы искусственного интеллекта, но и определенные юридические опасения. Однако на поздних стадиях онкологических заболеваний врачи могут назначать препараты off-label (нестандартные, в том числе и экспериментальные), и часто пациенты после их приема показывают хороший ответ на терапию. Тем не менее вопрос доверия онкологов «второму мнению» от ИИ и возможность выписать на его основе данные препараты для больного все равно остается.

ИИ преодолевает старение

Науку о продлении жизни (longevity science) тоже трудно сейчас представить без технологий искусственного интеллекта. Так, Александр Жаворонков, в прошлом приглашенный профессор МФТИ и заведующий лабораторией биоинформатики ФНКЦ ДГОИ запустил стартапы Insilico Medicine и Deep Longevity, где для поиска средств «вечной молодости» использует глубокое обучение. В эти компании вложился даже широко известный визионер и евангелист ИИ из Китая Кай-Фу Ли, имеющий около 70 миллионов подписчиков в социальных сетях.

Модели глубокого обучения активно применяются для определения биологических маркеров, которые могли бы служить объективными показателями возраста. Наборы таких показателей, найденные нейросетью, называются DAC — Deep Aging Clocks. Среди них «часы» совершенно разных типов: генетические, эпигенетические, протеомные, а также психологические (по результатам ответов на опросники), по результатам общего анализа крови, по данным электрокардиографии и энцефалографии, даже просто по фотографиям лица.

Около 17 DAC как раз и обнаружила компания Deep Longevity. Например, коллектив ученых под руководством Жаворонкова изучил с помощью машинного обучения транскриптомы клеток скелетных мышц. Проследив за возрастными изменениями в активности генов, им удалось показать, что главную роль в старении играют гены, участвующие в поддержании баланса ионов кальция и в ряде внутриклеточных сигнальных путей, включая взаимодействие с нейромедиаторами.

©Daniele Levis Pelusi, Unsplash

Любой из DAC может стать биологической мишенью для препарата, направленного против старения. В их поиске также помогают нейросети. Они осуществляют скрининг фармакологических баз данных, в которых содержатся сведения о свойствах миллионов уже известных молекул. Сопоставляя и комбинируя множество их сочетаний, ИИ определяет потенциальные субстанции, способные повлиять на ту или иную биологическую мишень. Более того, нейросети способны также предсказать, какие из уже используемых в фармакологии веществ могут иметь пока неизученное «противовозрастное» действие, и какие понадобятся химические модификации для усиления нужного эффекта.

Как итог, благодаря ИИ молекулярный скрининг, ранее требовавший множества реальных и ресурсоемких экспериментов, превратился в задачу, решаемую сравнительно недолгими вычислениями, in silico — «в кремнии», то есть на компьютере с помощью машинного обучения. А генеративно-состязательные нейросети (Generative adversarial network, GAN) — две противоборствующие друг с другом в рамках одной модели (первая, условно, предлагает решения, а вторая их отбраковывает) — могут генерировать потенциальные молекулы с нужной структурой и функциями «с нуля». 

Наиболее известны среди них модели SeqGAN, RANC и ATNC. При этом в 2017 году Insilico Medicine Александра Жаворонкова также представила свою модель druGAN, способную генерировать небольшие соединения с заранее заданной способностью воздействия на мишени в раковых опухолях.

ИИ предсказывает ДНК

За последние два года огромные прорывы произошли в технологиях обработки естественного языка (Natural language processing, NLP). Большое развитие получили генеративные языковые модели, такие как GPT-3 и LaMDA для английского языка, созданные в Сбере ruGPT-3 и в Яндексе YaLM 100B для русского языка, мультиязычные BLOOM и mGPT. При этом все они способны работать не только с естественными языками, но и с другими знаковыми системами — языками программирования, нотными записями, математическими выражениями и так далее.

Но ведь код ДНК — тоже своеобразный «язык». Ну или как минимум знаковая система со своим алфавитом, способами и правилами его сочетания в «слова» и грамматикой «выражений». Во многом это, конечно, метафора, но продуктивная. Потому что с расшифрованным геномом человека можно работать как с текстом, используя современные NLP-модели.

Весной этого года ученые из научной группы «Биоинформатика» российского Института изучения искусственного интеллекта AIRI (Artificial Intelligence Research Institute) совершили прорыв мирового уровня. Они представили языковую модель-трансформер GENA-LM, впервые обученную на новейшем дата-сете T2T-CHM13, который содержит самую полную на сегодня информацию о последовательности ДНК человека.

Дело в том, что в рамках проекта «Геном человека» в 2003 году был секвенирован отнюдь не полный геном, а только его 85% — так называемый эухроматин, то есть сами гены и участки между ними. Другую, вспомогательную часть — гетерохроматин окончательно расшифровали только весной 2022 года. 

В GENA-LM кодировщик преобразует входные последовательности в векторные представления, с которыми уже работает декодировщик. Эту систему разработчики дополнили механизмом внимания BigBird, повышающего эффективность обработки особо длинных последовательностей. В ходе обучения задача модели была предсказать 15% скрытой части последовательности на основании открытых 85%.

Подобная языковая модель, «понимающая» скрытые закономерности в последовательности человеческой ДНК, позволит лучше разобраться в механизмах ее работы, а также возникающих в них опасных нарушений. Теперь с помощью GENA-LM можно находить участки, которые активизируют или, наоборот, подавляют работу отдельных генов и целых генных каскадов. Все это также пригодится в продвижении прецизионной диагностики и терапии.

ИИ сворачивает белки

Завершая разговор о влиянии ИИ на молекулярную биологию, невозможно обойти знаменитую модель-трансформер AlphaFold 2 от компании DeepMind. Представленная в конце 2020 года, к июлю 2022-го она сгенерировала трехмерные структуры более чем для 200 миллионов белков. Как выразились сами разработчики, «всей белковой вселенной». 

Визуализация работы «сворачивательного» алгоритма AlphaFold / © Karen Arnott/EMBL-EBI

И это отнюдь не голословное утверждение. Выложенный в открытый доступ дата-сет включает информацию о белках архей и бактерий, растений, грибов и животных. То есть всех четырех выделяемых биологами царств живых организмов.

Белки — ключевые молекулы жизни. Они закодированы в последовательностях ДНК, но во многом их свойства и функции определяются сложной пространственной формой. Она задается в процессе укладки (фолдинга) как последовательностью аминокислот, из которых все белки состоят, так и условиями сворачивания цепочки и рядом других факторов.

В молекулярной биологии до появления искусственного интеллекта для определения механизма работы того или иного белка его структуру приходилось устанавливать экспериментально. Это требовало больших усилий и ресурсов, исследования могли занимать не один год. Однако за несколько десятилетий ученые во всем мире смогли собрать данные о структуре почти 200 тысяч белков. 

Созданный дата-сет использовали для обучения модели AlphaFold 2. Как итог — ИИ за полтора года на три порядка превзошел усилия всего научного сообщества молекулярных биологов Земли за совокупное время его существования.

Вместо заключения

ИИ радикально изменил биологическую науку, в институтских  и университетских лабораториях, R&D-подразделениях частных компаний происходит фейерверк открытий. Но если там действительно видна медицина первой трети XXI века, то в реальных системах здравоохранения разных стран мы в лучшем случае наблюдаем конец XX века.

«Каждое направление применения ИИ в биологии порождает целую область применения в области практического здравоохранения. Задача биомедицинского кластера Фонда “Сколково” на этапе формирования понимания практического применения той или иной концепции поддержать команду, чтобы эта технология вышла на рынок и смогла доказать свою состоятельность. Здесь кроется большая и трудоемкая работа с моделями функционирования систем здравоохранения разных стран и в целом индустрии наук о жизни. Изменить ситуацию может только просвещение медработников в области ИИ, органичное преобразование государственных политик регулирования, стандартов и законодательной базы», — считает Сергей Воинов, директор по акселерации по направлению цифровая медицина биомедицинского кластера Фонда «Сколково». 

Нашли опечатку? Выделите фрагмент и нажмите Ctrl + Enter.
Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK
Предстоящие мероприятия
Позавчера, 11:53
СПбГУ

Ученые Санкт-Петербургского государственного университета в составе научной группы выявили ген, который позволил арахису стать природным ГМО и адаптироваться к изменяющимся условиям окружающей среды.

Сегодня, 11:14
КНЦ РАН

В Мурманской области не добывают золото: его месторождений здесь пока не нашли. Впрочем, сообщения о находках этого металла датируются еще XVIII веком. Геологам также известны в Кольском регионе рудопроявления золота — минеральные тела, содержащее драгоценный металл в ассоциации с другими минералами, характерными для промышленных руд, но в таком количестве, что при нынешнем развитии экономики и технологий добывать его нерентабельно. Чтобы обнаружить в Кольском Заполярье месторождения золота, необходимы новые исследования. Ученые Геологического института Кольского научного центра провели их и узнали о природе местных рудопроявлений.

Позавчера, 09:35
Андрей

Американские биологи впервые провели анатомический анализ лицевых мышц койотов и обнаружили у этих хищников мышцы, которые позволяют домашним собакам строить «щенячий взгляд». Гипотетически этот признак возник при одомашнивании, но авторы новой научной работы опровергли эту версию. Вдобавок исследователи обнаружил мышцу-пучок, которая позволяет койотам щуриться.

28 сентября
Любовь

Международная исследовательская группа смогла прорастить семя древнего дерева из рода коммифора (Commiphora), найденного в пещере Иудейской пустыни в 1980-х годах. Ученые предположили, что это растение упоминается в библейских текстах. История семени, пролежавшего в земле почти тысячу лет, не только впечатляет, но и открывает новые возможности для изучения древней флоры засушливого региона.

1 октября
Полина Меньшова

Натуральные, или счетные, числа обозначают количество чего-либо или порядковый номер предмета относительно других. Ноль, не относящийся к натуральным числам, кодирует пустоту, отсутствие каких бы то ни было предметов. Однако человеческий мозг реагирует на него как на очень маленькое число, обнаружили ученые из Германии.

28 сентября
Unitsky String Technologies Inc.

Уголь – один из главных источников производимой электроэнергии во всем мире. В то время как запасов природного газа и нефти хватит на 40–60 лет, а уранового топлива – на 80–90, угля достаточно на тысячи лет. Но есть одна проблема: его использование наносит серьезный вред экологии. Это и выброс парниковых газов (CO2, СН4), а также SOx, NOx и твердых частиц при его сжигании, и загрязнение почвы и подземных вод в зоне складирования отходов. Однако белорусские ученые считают, что за этим видом топлива будущее, и знают, как сделать использование угля безопасным для природы.

25 сентября
Татьяна

Марс не всегда был холодным и сухим, как сейчас. Все больше фактов говорит о том, что миллиарды лет назад там текли водные потоки. А значит, была плотная атмосфера, создающая парниковый эффект и поддерживающая воду в жидком состоянии. Примерно 3,5 миллиарда лет назад вода исчезла, газовая оболочка существенно поредела. Почему? Ответ буквально лежит на поверхности, выяснили американские геологи.

11 сентября
Андрей

Французские исследователи проанализировали тысячи спутниковых снимков поверхности Антарктиды и выяснили, что почти весь континент покрывают продольные дюны — такой рельеф часто встречается на спутнике Сатурна Титане. Ученые также узнали, какие ветры формируют антарктические дюны, и нашли противоречие, раскрывающее детали климата на континенте.

17 сентября
Unitsky String Technologies Inc.

Инженеры из Белоруссии разработали альтернативный маршрут для более быстрой, безопасной и доступной перевозки грузов по сравнению с использованием Северного морского пути (СМП). Проект предусматривает организацию высокоскоростных грузопассажирских перевозок, в том числе транзитных, что станет альтернативой другим видам транспорта, в первую очередь авиации, за счет высокой скорости передвижения и уровня комфорта.

[miniorange_social_login]

Комментарии

2 Комментария
-
0
+
Onkobox крутая контора, четыре года назад делали отцу анализ абсолютно бесплатно, в то же самое время подобные анализ за границей стоит десятки тысяч долларов, по словам врачей. Так же звонили каждые пол года, узнавали как идет процесс лечения. Луч света в темном царстве нашей медицины.
    -
    1
    +
    Как было бы здорово, если бы эта крутая контора разработала участкового врача с ИИ и внедрила их во всех медучреждениях страны, а то в поликлинику ходить страшно...
Подтвердить?
Подтвердить?
Причина отклонения
Подтвердить?
Не получилось опубликовать!

Вы попытались написать запрещенную фразу или вас забанили за частые нарушения.

Понятно
Жалоба отправлена

Мы обязательно проверим комментарий и
при необходимости примем меры.

Спасибо
Аккаунт заблокирован!

Из-за нарушений правил сайта на ваш аккаунт были наложены ограничения. Если это ошибка, напишите нам.

Понятно
Что-то пошло не так!

Наши фильтры обнаружили в ваших действиях признаки накрутки. Отдохните немного и вернитесь к нам позже.

Понятно
Лучшие материалы
Войти
Регистрируясь, вы соглашаетесь с правилами использования сайта и даете согласие на обработку персональных данных.
Ваша заявка получена

Мы скоро изучим заявку и свяжемся с Вами по указанной почте в случае положительного исхода. Спасибо за интерес к проекту.

Понятно
Ваше сообщение получено

Мы скоро прочитаем его и свяжемся с Вами по указанной почте. Спасибо за интерес к проекту.

Понятно