Site icon Naked Science

Нейросеть научили с точностью до 95% предсказывать взаимодействия белков в клетке, важные для изучения болезней

Схема работы модели GSMFormer-PPI. На панели A показаны разные типы представлений белка, которые использует модель: последовательностно-структурные и поверхностные. На панели B показано, как они приводятся к общей размерности, анализируются трансформером и затем используются для итогового предсказания взаимодействия / © Arteaga, D., Chervov, N. & Poptsova, M. Multimodal graph, surface, and language-based model for protein protein interaction prediction. Sci Rep 16, 4772 (2026)

Почти все процессы в клетке зависят от взаимодействия белков внутри нее. С их помощью клетка передает сигналы, запускает и регулирует химические реакции, образует молекулярные комплексы, необходимые для ее работы. И если такие взаимодействия нарушаются и клетка работает неправильно, это может приводить к заболеваниям.

Поэтому для изучения механизма болезней и поиска мишеней для лечения ученым важно понимать, какие белки могут взаимодействовать друг с другом, а какие нет. Выяснять это экспериментально трудно: если в исследовании рассматриваются десятки или сотни белков, число возможных пар оказывается слишком большим для проверки. Из-за этого биологи используют методы машинного обучения, предсказывающие такие связи по структуре и свойствам молекул. 

Исследователи НИУ ВШЭ разработали систему GSMFormer-PPI, которая учитывает три типа данных о каждом из белков в предполагаемой паре: аминокислотную последовательность, трехмерную структуру и свойства молекулярной поверхности.  Для их обработки авторы использовали существующие модели, которые переводят эти данные в числовые представления. Аминокислотную последовательность — порядок цепочки аминокислот, из которой построен белок, — анализирует белковая языковая модель. Трехмерная структура белка представляется как граф, где аминокислоты становятся вершинами, а их пространственные контакты — связями.  Такое описание обрабатывает графовая нейронная сеть. Также с помощью отдельного алгоритма учитывались свойства поверхности белка — форма и физико-химические характеристики участков, через которые белки распознают друг друга. Работа опубликована в журнале Scientific Reports.

Затем эти числовые представления о белках поступали в разработанный авторами трансформерный модуль — нейросеть, которая совместно анализирует разные типы данных о белке. Если в работах других исследователей признаки часто просто объединялись в один вектор, то здесь модель не складывает их механически, а выявляет связи между ними. 

«При взаимодействии белков особенно важна их поверхность: именно через нее молекулы распознают друг друга и на ней сосредоточены физико-химические свойства, от которых зависит связывание. В нашей модели мы попытались учесть эту информацию вместе с последовательностью и трехмерной структурой белка, а затем не просто объединить признаки, а дать алгоритму возможность анализировать связи между ними. Именно это и позволило точнее предсказывать белок-белковые взаимодействия», — комментирует один из авторов статьи, директор Центра биомедицинских исследований и технологий Института ИИиЦН ФКН НИУ ВШЭ Мария Попцова.

Чтобы проверить, насколько хорошо работает новая модель, исследователи протестировали ее на наборе данных PINDER — крупной базе известных белковых взаимодействий.  В экспериментах GSMFormer-PPI показала точность 95,7% и превзошла популярные графовые модели, например GCN и GAT. Также исследователи провели тест с более простым вариантом GSMFormer-PPI — без модуля, который анализирует связи между разными типами данных. Эта версия работала хуже, что доказывает: дело не только в самих данных о белке, но и в том, как именно модель их сопоставляет.

Дополнительные тесты показали, что для точного прогноза важны все три типа данных: последовательность, пространственная структура и свойства поверхности белка. Когда исследователи поочередно убирали один из компонентов, качество предсказания снижалось. Иными словами, модель работает лучше именно потому, что рассматривает белок сразу на нескольких уровнях. В перспективе такие системы могут помочь быстрее отбирать пары белков при изучении механизмов болезней и поиске мишеней для лекарств.

Exit mobile version