Исследователи Международной лаборатории статистической и вычислительной геномики НИУ ВШЭ совместно с иностранными коллегами предложили новый статистический метод анализа перемешивания популяций. Он позволяет точнее определять время и количество волн миграций. Так, в истории колумбийцев и мексиканцев (потомков коренных американцев, испанцев и африканцев) присутствуют два эпизода перемешивания, которые произошли около 350 и 200 лет назад для мексиканцев и 400 и 100 лет назад для колумбийцев.
Результаты опубликованы в журнале Plos Genetics. Когда в 1953 году Ф. Крик и Дж. Уотсон расшифровали структуру ДНК, они заявили, что «разгадали тайну жизни». Действительно, вся жизнь на Земле воспроизводится за счет постоянного деления клеток и копирования их генетического материала. ДНК передается потомкам из поколения в поколение, а геном человека представляет собой мозаику из генетических фрагментов наших предков, живших в разные эпохи. Чтобы понимать истоки генетического разнообразия современных людей, необходимо исследовать историю популяций: где жили наши предки, когда и куда они мигрировали, когда и с кем перемешивались.
Историю перемешивания популяций можно восстановить, если проанализировать связи между генетическими вариантами человека. В нашем геноме присутствует генетический материал отца и матери; далее своим потомкам мы передаем уже новые сочетания генетических вариантов, мозаику, составленную из геномов наших родителей. Это явление называется рекомбинацией.
Например, если мать — испанка, а отец — коренной американец, то у ребенка будет один испанский и один американский набор хромосом. Но своему ребенку он передаст уже набор хромосом, состоящий из сочетания участков испанского и американского происхождения (второй набор хромосом достанется ребенку от другого родителя).
Происхождение этих участков можно определить по последовательностям генетических вариантов, характерным для той или иной популяции. В каждом новом поколении рекомбинации будут перемешивать участки разного происхождения все сильнее и сильнее, разбивая эти характерные генетические последовательности. Со временем они распадаются, окончательно перемешиваясь между собой.
Таким образом, вычислив корреляцию между генетическими вариантами на разных участках хромосом и проанализировав силу их связей, можно сказать, сколько поколений назад произошло перемешивание популяций.
Более ранние методы анализа генетического перемешивания популяций позволяли оценить время последнего события перемешивания. Алгоритм был основан на анализе силы связи между парами генетических вариантов. Ученые из Международной лаборатории статистической и вычислительной геномики НИУ ВШЭ совместно с иностранными коллегами предложили анализировать тройки вариантов. Такой статистический метод позволяет моделировать более сложные сценарии перемешивания популяций: например, выделить два случая перемешивания и определить, сколько поколений сменилось с тех пор.
«Представим, что к берегам Америки впервые пристают корабли с европейскими переселенцами. Европейцы начинают осваивать новые территории и перемешиваются с коренным населением Америки. Однако через несколько поколений туда приплывают еще корабли с европейцами. Вот как раз наш метод и позволяет увидеть, что было две волны переселения, два эпизода перемешивания в разные временные периоды», — объясняет один из авторов статьи, стажер-исследователь лаборатории, студент МИЭМ ВШЭ Михаил Шишкин.
В качестве примера в работе были проанализированы генетические образцы популяции колумбийцев и мексиканцев, собранные в рамках проекта по созданию генетической базы данных 1000 Genomes. Обе эти популяции появились в результате перемешивания коренных американцев, испанцев и африканцев. Результаты расчетов показали, что в истории обеих популяций было по две волны перемешивания, которые произошли 13 и 8 поколений (350 и 200 лет) назад для мексиканцев и 15 и 4 поколения (400 и 100 лет) назад для колумбийцев.
«Наш метод требует больших объемов данных для работы: если для более ранних алгоритмов требовались десятки образцов, то нам нужны сотни. И сегодня есть возможность их получить. В нашем случае мы воспользовались генетической базой данных проекта 1000 Genomes. За последние 10 лет возможности расшифровки генома и обработки данных значительно расширились, так что количество доступных образцов больше не является ограничением», — рассказывает заведующий Международной лабораторией статистической и вычислительной геномики НИУ ВШЭ Владимир Щур.