Колумнисты

В МФТИ создали «Шамбалу» для данных о работе генов

Ученые МФТИ разработали единую платформу Shambhala, объединяющую данные разных платформ моделей экспрессии генов человека при сохранении их биологических свойств. Эти данные широко используются в функциональной геномике и молекулярной медицине. Стандартизация профилей открывает возможности для всестороннего сравнения характеристик, связанных с заболеваниями и разработкой новых вакцин и лекарств.

Работа опубликована в журнале Frontiers in Molecular Biosciences. В современной биоинформатике допускают нормализацию данных генной экспрессии в довольно гибком формате, и по факту результаты различных исследований оказываются плохо совместимы. Для получения больших данных генной экспрессии на практике в основном применяется два подхода: микрочиповая гибридизация и секвенирование. Оба используют совершенно разные технологические платформы.

Основная сложность аналитической работы заключается в том, что каждая серия экспериментов вносит свою техническую специфику. В итоге не всегда понятно, на что списать обнаруженные различия: на биологию или работу разных лабораторий с разным оборудованием, протоколами и техническими факторами.

Предлагаемое биоинформатиками МФТИ решение позволит объединять для единого анализа максимально большие массивы данных. Генная экспрессия (активность) отвечает за реализацию генетической информации, а именно преобразование наследственной информации в РНК и белки. Количественная характеристика этого процесса очень важна для исследований в медицине и фармацевтике. Но до сих пор данные экспериментов технически очень разнились, что мешало созданию общей базы данных.

«Уже давно ученые бьются над тем, чтобы профили генной экспрессии были сравнимы друг с другом. Обычно берут два или три набора данных и соединяют результаты с помощью алгоритма, подобранного именно для этих наборов данных. То есть решается частная, а не универсальная задача. В итоге для каждого нового сравнения требуется и новая процедура.

Мы решили пойти другим путем и разработать некий универсальный вариант представления данных: мы создали электронную платформу Shambhala, которая преобразует каждый профиль генной экспрессии в заранее определенный универсальный формат. Таким образом, все данные объединяются в единую матрицу, части которой можно как угодно сравнивать между собой», — рассказал Антон Буздин, заведующий лабораторией биоинформатики МФТИ.

Антон Буздин, заведующий лабораторией биоинформатики МФТИ / ©Пресс-служба МФТИ

В своей работе ученые использовали профили экспрессии генов 6 793 образцов рака и 11 135 нормальных тканей. К ним применили двенадцать критериев эффективности для различных версий платформы Shambhala. Они касались классификаторов биологического типа, свойств корреляции / регрессии, стабильности показателей эффективности лекарств и качества данных для использования классификаторов машинного обучения.

В ходе работы ученые проверили эффективность платформы в сохранении особенностей экспрессии генов и функциональных характеристик, таких как уровни активации путей и прогнозируемые показатели активности противораковых лекарств. Текущие версии платформы Shambhala используют преобразование профилей около 8000 наиболее активных человеческих генов, которые возможно оценить с наибольшей точностью.

«Практическое применение платформы лежит в сфере анализа больших данных. Анализ генной экспрессии позволит нам научиться лечить многие хронические заболевания, в том числе онкологические, и различные инфекции, включая новые. Понять причину и механизм их появления и развития, а значит, и определить, какие лекарства наиболее эффективно подходят в каждом конкретном случае. Также эти данные помогут в разработке вакцин нового поколения, так называемых РНК-вакцин», — отметил Антон Буздин.

Наконец, на вопрос, почему они выбрали такое романтическое название для своей платформы, ученый ответил: «На тот момент, когда перед нами только встала задача объединения данных, лучшим методом была программа XPN, написанная нашим бывшим соотечественником Андреем Шабалиным. Ну а в реализации первой версии уже нашего решения нам очень сильно помогла Ирина Шабалина (они не родственники) из Петрозаводского университета. Придумав такое название, мы не просто похвалили свой метод, но также увековечили вклад уважаемых коллег».