Человеческий геном дочитали до конца

…и нашли в нём сотню ранее неизвестных генов.

Когда говорят, что человеческий геном прочитали к 2004 году, то обычно уточняют, что его прочитали не целиком. Непрочитанными остались около 200 млн нуклеотидов, то есть генетических букв, которые образуют последовательность ДНК. Эти 200 миллионов составляют чуть более 8% генома человека, и по большей части они выглядят как многочисленные повторы тех или иных более-менее длинных последовательностей.

Хромосомы человека; короткие плечи акроцентричных хромосом окрашены зелёным, центромеры – красным. (Фото: T. Potapova, J. Gerton / Stowers Institute for Medical Research)
Открыть в полном размере

Когда геном читали в первый раз, зоны с повторами пропускали не просто так. Взять и прочесть всю хромосому от начала до конца, как она есть, мы не можем – существующие методы позволяют читать ДНК лишь определённой длины, намного меньше длины хромосомы. Поэтому огромную хромосомную ДНК дробят на части, эти части читают, а потом получившиеся последовательности соединяют вместе. Но не будем забывать, что весь алфавит ДНК – это всего четыре буквы, четыре нуклеотида: А, Т, Г, Ц. Можно догадаться, насколько непростыми должны быть алгоритмы, которые ищут, где перекрываются разные куски ДНК, где соединяются конец одного фрагмента и начало другого. Задача тем сложнее, чем меньше фрагмент, потому что тем сложнее понять, в каком контексте он стоит в геноме. (Для сравнения можно представить, что вам нужно определить, из какого места в незнакомом романе взята одна глава, или полглавы, или абзац – или всего лишь словосочетание, например, «голубое небо»: это голубое небо может стоять в тексте много где.) И задача ещё более усложняется, если мы имеем дело с фрагментами, составленными из повторов.

Но если научиться читать достаточно длинные куски ДНК, то можно просеквенировать и зоны с повторами. Собственно, в этом направлении методы чтения ДНК и развивались – фрагменты ДНК, которые можно прочесть за раз, постоянно удлинялись. Кроме того, совершенствовались алгоритмы и сама вычислительная техника, которую биоинформатики используют для сборки геномов.

В любой хромосоме есть обширные зоны повторов – это теломеры и центромеры. Теломерами называют концевые участки хромосом, они ничего не кодируют, но зато защищают кодирующие участки от повреждений при копировании ДНК. Копировальный аппарат клетки устроен так, что не может дочитывать хромосомную ДНК до самого конца, какой-то кусочек на конце обязательно теряется. И вот бессмысленные теломеры как раз постепенно отдают себя кусок за куском при копировании ДНК. Центромеры же нужны для другого – к ним крепятся белки, которые растаскивают хромосомы при делении клетки к её полюсам, чтобы каждой дочерней клетке досталась нормальная полноценная копия родительского генома. Центромеры находятся примерно посередине хромосомы, хотя в некоторых случаях они делят хромосому на две очень неравные части.

Про теломеры и центромеры было известно, что они состоят из повторов, и даже из каких примерно повторов; полностью были прочитаны центромеры восьмой хромосомы, а также хромосом Х и Y, но последовательности центромер остальных хромосом в точности никто не знал. И вот сейчас в журналах Science и Nature Methods вышло сразу несколько статей, которые закрывают все белые пятна человеческого генома. Правда, в этих публикациях не вполне детально описана Y-хромосома, но, как сообщает портал Science, работа над ней закончена и полную последовательность Y-хромосомы вскоре опубликуют.

В итоге оказалось, что у центромер структура довольно сложная: они состоят из крупных повторов, которые, в свою очередь, образованы повторами поменьше, причём рисунок повторов в центромерах у каждой хромосомы свой. Это тем более интересно, если учесть, что центромеры, в общем-то, выполняют у всех хромосом одну и ту же работу – они помогают распределить копии хромосом по дочерним клеткам.

Другой важный результат касается акроцентричных хромосом, то есть тех, у которых центромера сильно смещена к одному концу. У таких хромосом (тринадцатой, четырнадцатой, пятнадцатой, двадцать первой и двадцать второй) есть длинное плечо и короткое плечо. Про короткие плечи было известно, что в них записано множество копий генов, кодирующих рибосомные РНК. (Рибосомами называют большие молекулярные машины для синтеза белка, они состоят из рибосомных белков и рибосомных РНК.) Короткие плечи оставались недочитанными, и сейчас их тоже прочитали подробно вместе с повторами. Генов рибосомных РНК (рРНК) в среднем в одном геноме может быть 315 копий, хотя самих в наших рибосомах всего четыре вида. Оказалось, что в генах рРНК и в повторах есть характерные отличия, свойственные той или иной хромосоме. (Иными словами, копии гена какой-то рРНК на тринадцатой хромосоме будут все в чём-то отличаться от копий генов той же рРНК на четырнадцатой хромосоме.)

Исследователи прочитали и другие неразведанные участки генома, за пределами центромер, теломер и коротких плеч некоторых хромосом. В этих участках есть и бессмысленные повторы, и остатки вирусов, и заснувшие мобильные элементы – особые последовательности, которые могут самостоятельно копировать себя внутри генома (часто мобильные элементы происходят от сильно изменившихся вирусов). Но кроме того, в прежде непрочитанных участках оказалось порядочно генов – целых 3604. Правда, большая часть их – это копии уже известных генов, может быть, слегка отличающиеся от известных вариантов. Однако нашлись и такие, которые кодируют какие-то новые белки, в том смысле, что в прежних вариантах человеческого генома их не было. Таких абсолютно новых генов оказалось 104. Новооткрытые гены (все 3604) имеют отношение к развитию мозга и организма в целом, некоторые связаны с сердечно-сосудистыми, онкологическими и иммунными заболеваниями, но прежде чем судить о них с генетическо-медицинской точки зрения, нужно проверить, насколько они вообще активны (про некоторые сразу стало понятно, что они домутировались до нерабочего состояния).

И напоследок нужно сказать, почему новый геном пока можно лишь с натяжкой называть человеческим. Дело в том, что для того, чтобы получить настоящий человеческий геном, нужно сопоставить много геномов от разных людей. В нашей ДНК есть последовательности, которые неизменны у всех, и есть другие последовательности, которые могут отличаться если не у каждого человека, то у очень многих. Сравнивая геномы разных людей, мы получаем так называемый референсный геном – он относится не к конкретному человеку, но к людям вообще. Именно на референсный геном смотрят специалисты по медицинской генетике, когда ищут опасные мутации в геноме конкретного пациента.

Ту ДНК, в которой сейчас прочитали центромеры, теломеры и пр., взяли даже не из человека, а из клеток хориоаденомы, или, как её неблагозвучно называют по-русски, пузырного заноса. Это странное клеточное образование, возникающее в результате слияния нормального сперматозоида с яйцеклеткой, у которой вообще нет хромосом. То есть при созревании яйцеклеток такое случается, что образуется яйцеклетка без своего генетического материала, и если она встретится со сперматозоидом, все хромосомы в ней будут отцовские. Зародыша здесь никак не получится, хориоаденому удаляют хирургически, но зато потом она может послужить науке в виде клеточной культуры. Для секвенирования (чтения) ДНК такие клетки очень кстати – именно потому, что в них есть только отцовские варианты хромосом. И когда исследователи будут читать последовательность фрагментов, им не придётся разбирать, относится ли прочитанный кусок, к примеру, к материнской 18 хромосоме или к отцовской 18 хромосоме.

То есть сейчас белые пятна человеческого генома закрыли с помощью ДНК, взятой из продукта неудавшейся беременности, а белые пятна в Y-хромосоме закрыли с помощью одного профессора из Гарварда, который любезно предоставил свой генетический материал для исследований. На самом деле, частично новые последовательности сверяли с данными, полученными при более продвинутом секвенировании человеческой ДНК в рамках других геномных проектов. Пока что таким образом удалось установить, в каких участках прежних белых пятен следует ожидать наиболее сильные индивидуальные вариации. Когда придёт время собирать новый референсный геном человека – что, по-видимому, дело ближайшего будущего, – именно на эти особо вариативные участки будут обращать особое внимание.

Человеческий геном дочитали до конца

Рубрики