Международная группа ученых создала компьютерный алгоритм для изучения эволюционной истории живых организмов с дуплицированным геномом. Речь идет главным образом о дрожжах и растениях. Программа позволяет проанализировать генетическую информацию о видах и сделать вывод о том, как у них произошла полногеномная дупликация и почему она закрепилась в ходе эволюции.
Статья опубликована в журнале Oxford Bioinformatics, одном из лидирующих научных изданий по направлению Computer Science.
Как показывают исследования генетиков, некоторые растения и даже животные обладают полногеномными дупликациями, то есть некоторые их гены присутствуют в нескольких копиях, более или менее сходных друг с другом. Очевидно, что у организма-предка такой дупликации не было, однако в какой-то момент в ходе эволюции она произошла и закрепилась в популяции.
Чтобы понять процесс дупликации генома, необходимо построить так называемую эволюционную историю вида с этим эволюционным событием. Эта история позволяет проследить, что случалось с популяцией в прошлом, и обнаружить, где именно произошла дупликация и в каких условиях она закрепилась. Однако работа по воссозданию такой истории является сложной биоинформатической задачей.
Пытаясь построить эволюционную историю видов с полногеномными дупликациями, ученый сталкивается с целым рядом задач, похожих по своей цели, однако совершенно разных по своей математической структуре. Чтобы эффективно их решить, необходимо прибегнуть к оптимизации. Для этого международная группа ученых, куда вошли специалисты Университета ИТМО и Университета Джорджа Вашингтона в США, предложила использовать приемы целочисленного линейного программирования, основы которого заложил советский математик и экономист, нобелевский лауреат Леонид Витальевич Канторович.
«Есть класс близких по смыслу, но разных с точки зрения математики задач, — поясняет Никита Алексеев, соавтор исследования. — Для них мы разработали унифицированный подход, который сводится к целочисленному программированию. Это метод оптимизации, сводящий сложную проблему к набору линейных уравнений и неравенств, для решения которых существует ряд эффективных пакетов».
В результате ученые разработали программу, которая анализирует дуплицированные геномы и делает с высокой долей вероятности верное предположение о том, какой эволюционный путь прошел вид за свою историю, какое количество дупликаций генома произошло за это время, а также как менялись копии генов, возникшие в результате дупликации. Иногда в них самих появляются мутации, изменения определенных участков, так, что они уже не являются точными копиями друг друга. Также предложенный подход может быть применен и для дуплицированных участков генома у животных.
«Дупликации участков генома встречаются у многих видов и могут затрагивать не весь геном, а только какие-то отдельные его фрагменты, и наш инструмент можно адаптировать и к таким проблемам», — заключил Алексеев.