Международный консорциум Telomere-to-Telomere, куда вошли ученые СПбГУ, опубликовал первую версию нового референсного генома человека. В ней впервые, при участии представителей университета, удалось расшифровать центромеры — участки ДНК с большим количеством повторов, составляющие около двух процентов всего генома. С помощью эталона ученые смогут найти больше связей между мутациями и болезнями, а значит — повысить эффективность различных видов лечения.
Первая сборка генома была получена около двадцати лет назад. На проект «Геном человека» (The Human Genome Project, HGP) было потрачено несколько миллиардов долларов и более десяти лет упорной работы многих специалистов по всему миру. При этом полученная сборка на самом деле была далеко не полной.
Почти 10 процентов человеческого генома не было собрано из-за проблем на различных стадиях исследования: от биологических экспериментов до решения алгоритмических задач по сборке. В течение следующих двадцати лет референсный геном многократно улучшался, но тем не менее даже его последняя версия GRCh38 все еще содержала неизвестные последовательности длиной около 161 миллиона пар оснований — это почти 5 процентов генома.
«Одной из главных проблем для сборки являются длинные участки повторяющихся последовательностей. С использованием технологий секвенирования, способных производить только короткие фрагменты, было невозможно определить, где именно в геноме и в каком количестве такие повторяющиеся участки содержатся.
Но в 2010-х годах активное распространение получили новые технологии секвенирования, разрабатываемые компаниями Pacific BioSciences и Oxford Nanopore. Последовательности, получаемые с помощью этих технологий, намного длиннее, чем у предыдущих поколений секвенаторов, и составляют десятки и сотни тысяч оснований», — рассказала один из авторов проекта, научный сотрудник лаборатории «Центр алгоритмической биотехнологии» СПбГУ Алла Михеенко.
Поэтому только сейчас, почти через двадцать лет после создания первой сборки генома человека, наука наконец-то готова закрыть все пробелы в референсном геноме. Для этого исследователи из разных стран объединились в международный консорциум Telomere-to-Telomere (T2T), возглавляемый Адамом Филлиппи (Adam Phillippy) из Национальных институтов здоровья США (The National Institutes of Health, NIH) и Карен Мига из Университета Калифорнии в Санта-Круз (University of California, Santa Cruz, UCSC).
Чтобы понять смысл названия консорциума, необходимо знать, что теломеры — это участки генома, которые находятся на концах каждой хромосомы. Соответственно, целью T2T является сборка каждой хромосомы «от теломеры до теломеры», то есть от начала до конца. Первая версия нового референсного генома, созданного Т2Т, была опубликована осенью 2020 года. Сейчас консорциум занимается подготовкой большой научной публикации, в которой будут подробно описаны методы сборки генома и проверки его на наличие ошибок. Теперь исследователей по всему миру ждет огромная работа по анализу нового референсного генома.
«Наша группа под руководством профессора Павла Певзнера занималась в первую очередь работой с одними из самых сложных участков человеческого генома, сборка которых до недавнего времени была принципиально невозможна, — центромерами. Это участки длиной несколько миллионов букв, в которых одна и та же последовательность может повторяться несколько тысяч раз. Центромеры участвуют в важнейших клеточных процессах — например, в делении клетки», — отметила другой автор проекта, сотрудница лаборатории «Центр алгоритмической биотехнологии» СПбГУ Татьяна Дворкина.
Первая программа, способная получать автоматическую сборку центромер, была создана в лаборатории Павла Певзнера в Университете Калифорнии в Сан-Диего его аспирантом Андреем Бзикадзе. Затем группа под руководством Сергея Нурка из NIH создала программу HiCanu, способную собирать любые геномы из длинных высокоточных фрагментов, производимых секвенатором компании Pacific BioSciences. В проекте по расшифровке генома были использованы обе эти программы, что позволило получить последовательности центромер для всех хромосом. Примечательно, что оба ученых, Андрей Бзикадзе и Сергей Нурк, защитили диссертации (магистерскую и кандидатскую соответственно) в СПбГУ.
Программа TandemTools, разработанная сотрудниками Центра алгоритмической биотехнологии СПбГУ Аллой Михеенко и Алексеем Гуревичем, позволила найти важные ошибки в первых вариантах сборки центромер, исправить алгоритм сборки и получить в итоге правильные последовательности, которые и были включены в опубликованную сборку генома. Другая программа, разработанная сотрудницей лаборатории Татьяной Дворкиной, StringDecomposer, использовалась для изучения структуры центромер, и результат ее работы сможет пролить свет на многие важные вопросы, связанные с эволюцией человеческого генома.
«Важно понимать, что собирать качественный геном каждого человека — задача, с одной стороны, невероятно сложная и дорогостоящая, а с другой — совершенно не нужная. Два разных человека генетически совпадают более чем на 99,9 процентов. Мы можем секвенировать ДНК человека, сравнивать полученные фрагменты с известным эталоном (или референсом) и находить различия», — объясняет Татьяна Дворкина.
Отличия от референсного генома могут быть как «вредными» (например, мутации, которые служат причиной генетических заболеваний), так и, напротив, «полезными». К примеру, существуют мутации, снижающие риск развития онкологических или сердечно-сосудистых заболеваний. Поиск «вредных» мутаций очень важен как для понимания механизмов развития различных заболеваний, так и для прогнозирования рисков и разработки методов лечения.
Сейчас любой человек может секвенировать свой геном и получить информацию о том, носителем каких генетических заболеваний он является, есть ли риск передачи этих заболеваний детям, повышен ли у него риск развития болезни Альцгеймера или рака. Все эти данные ученые получили, сравнивая геномы тысяч людей с референсом.
«Новые статьи, в которых исследователи сообщают о найденных связях между определенными участками в геноме и заболеваниями, публикуются буквально ежедневно. Именно поэтому, так важно, чтобы эталонная геномная последовательность была полная и безошибочная. В противном случае механизмы развития некоторых заболеваний останутся неясными и разработка лечения для них будет затруднена», — рассказала Алла Михеенко.