Оценка — 43 162 — основана на новом определении гена.
Полный список генов, составляющих человеческую ДНК, был бы одним из самых полезных инструментов в руках ученых, в первую очередь биологов и медиков. Но несмотря на то что проект «Геном человека» завершили 17 лет назад, у ученых до сих пор нет единого мнения даже о количестве генов, не говоря уже о едином исчерпывающем списке. Очередную попытку оценить количество генов и каталогизировать их предприняла группа американских биологов, и новый результат в полтора-два раза превзошел предыдущие оценки.
В 1990 году, когда стартовал проект «Геном человека» (HGP), предполагалось, что в человеческой ДНК содержится около 100 тысяч генов (в начале девяностых под геномом подразумевался участок ДНК, несущий информацию о структуре белка). В 2001-м были опубликованы результаты HGP и аналогичного проекта Крейга Вентера и его компании Celera Corporation; в первой статье шла речь о 31 тысяче, во второй — о 26 588 генах, кодирующих белки. В последовавшей через три года статье HGP говорилось уже о 24 тысячах генов. База данных, созданная участниками проекта Ensembl, в самой актуальной версии (34d) содержит информацию о 22 298 кодирующих белки генах и их 34 214 транскриптах.
Пополнением и редактированием списка генов человека занимаются всего две организации: уже упомянутый проект Европейского института биоинформатики и Института Сенгера Ensembl/Gencode и Национальный центр биотехнологической информации США, ведущий базу данных RefSeq. Между этими каталогами существуют сотни расхождений и в том, что касается кодирующих белки генов, и в описании длинных некодирующих РНК; есть разница и в типологии генов. Кроме того, оба каталога постоянно обновляются: только за прошедший год в Gencode внесли и удалили из него несколько сотен генов.
Появление в 2008 году технологии секвенирования РНК заставило биологов пересмотреть определение гена: сейчас многие специалисты склонны считать геном и последовательность нуклеотидов, кодирующую РНК, на которой не синтезируется белок, но которая сама участвует в метаболизме. С учетом таких последовательностей число генов в геноме человека может быть значительно больше, чем двадцать и даже тридцать тысяч.
В 2017 году группа исследователей под руководством Стивена Зальцберга (Steven Salzberg), специалиста по статистическим методам в биологии в Институте Джонса Хопкинса, начала работу над новым каталогом человеческих генов. Для этого ученые обработали результаты почти 10 тысяч экспериментов по секвенированию РНК из образцов 31 вида тканей человеческого тела. В новой базе данных оказалось 43 162 гена, из которых 21 306 кодируют белки, а 21 тысяча — нет. В каталог вошли почти пять тысяч новых генов и 30 миллионов новых вариантов транскриптов, большая часть из которых, по мнению авторов работы, не принимает участия ни в каких процессах жизнедеятельности; процесс чтения ДНК в клетке оказался очень «шумным». Препринт статьи с этими результатами выложен в репозитории bioRxiv; в конце августа Зальцберг опубликовал в BMC Biology статью, в которой рассказал о работе.
Группа Зальцберга не считает свои результаты окончательными; недавно каталог получил первое обновление — и их предвидится еще много. «Я не удивлюсь, если и через десять лет мы не придем к консенсусу о количестве генов в человеческой ДНК», — отмечает Зальцберг. Но, несмотря на это, ученый полагает, что новая база данных будет полезна: в частности, для поиска генов, ответственных за развитие наследственных заболеваний, причину которых установить до сих пор не удалось.