ДНК-локатор для Европы

«Генетическая карта Европы» очень похожа на политическую

«Генетическая карта Европы» оказалась поразительно похожа на политическую. Происхождение любого человека – например, нелегального мигранта или потерявшего память больного – можно с её помощью определить с точностью до нескольких сот километров. Достаточно проанализировать 0,01% его ДНК.

Генетический анализ уже давно и прочно вошел в число рутинных процедур таких прикладных областей знания, как криминалистика и медицина. Совершенствование же методов распознавания генетических маркеров, как правило, находит применение в фундаментально научных задачах.

Например, благодаря новым техническим решениям была полностью секвенирована мтДНК доисторического человека неандертальского типа, и уже в ближайшем будущем ученые надеются расшифровать его полный ядерный геном и сравнить его с человеческим. Наша собственная история все чаще открывается нам не благодаря археологическим находкам, а при помощи методов генетического анализа. Например, мы узнали примерную хронологию заселения Земли и выяснили, что на самом раннем этапе своего развития человечество чуть было не исчезло с лица Земли из-за засухи.

Однако данные, закодированные в нескольких миллиардах нуклеотидов ДНК, могут рассказать гораздо больше и о конкретном человеке, и о человечестве в целом. Джон Новембр из Калифорнийского университета в Лос-Анджелесе и его коллеги показали, как масштабный генетический анализ более чем трех тысяч европейцев позволил уже сегодня выявить структуру населения Европы и узнать, насколько различны генетически представители малых европейских государств.

Теперь учёные могут с точностью до нескольких сот километров определить место происхождения любого европейца только на основе его ДНК.

Работа учёных, наиболее примечательная часть которой — финальный график, принята к публикации в одном из ближайших номеров Nature.

Для получения подобного результата потребовалось задействовать в тестировании 3 192 человека из различных уголков Европы, которые добровольно в рамках проекта Population Reference Sample согласились на ДНК-секвенирование. Отличие данной работы от предыдущих состоит в том, что благодаря возросшей скорости экспериментальных методов учёным удалось проверить более полумиллиона (500 568, если быть точным) локусов в ДНК каждого задействованного в работе европейца на предмет мононуклеотидных полиморфизмов, или снипов — единичных замен генетических «букв» кода.

Чтобы результаты такого масштабного анализа были более надежными, ученым пришлось ввести существенные ограничения на полученные данные. Например, для каждого нового испытуемого ученые самостоятельно проверяли его географическое происхождение по данным о предках до второго колена, и, только если этих данных не было, доверяли паспортным сведениям.

Кроме того, ученые удалили из рассмотрения снипы с низким качеством оценки, уравняли, где было возможно, количество испытуемых из различных регионов до некоторого среднего по Европе и отбросили генетическую информацию о людях с родственниками из разных уголков Строго Света. Как проверили потом авторы, на итоговую картину эти ограничения практически не повлияли, однако в основной работе были учтены все же чуть менее 1 400 европейских геномов с данными о двухстах тысячах мононуклеотидных полиморфизмов.

Итоговые данные — это положение 1400 человек в пространстве 200 тысяч переменных (впрочем, каждая из них может принимать всего четыре значения, соответствующих четырём «буквам» генетического кода). Понятно, что анализировать такой массив не под силу даже самому феноменальному гению математики, и для анализа генетики сводят данные всего к нескольким координатам — как правило, двум, так как такой график можно представить коллегам в публикации; иногда используют несколько разных координат.

Определить «генетическое расстояние» между двумя людьми относительно несложно — можно, к примеру, посчитать общее количество ДНК-локусов, в которых эти два человека отличаются. А вот способов построить двумерный график можно придумать великое множество. Желательно при этом, чтобы положение точек на таком графике соответствовало двум требованиям. Во-первых, насколько это возможно, отражать «генетические расстояние»: две далёкие точки на графике должны соответствовать сильно отличающимся геномам, а две близкие — более или менее похожим. А во-вторых, чтобы группы геномов, отличающиеся от других какой-то группой снипов (притом что внутри группы они могут отличаться по каким-то другим признакам), такой же группой выглядели и на графике: так эти группы будет легче идентифицировать, а новую точку — легче поместить в нужную группу.

Метод главных компонент

один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. Изобретен Карлом Пирсоном в 1901 году. Применяется во многих областях, таких как распознавание образов, компьютерное зрение, сжатие данных и тому подобных.

Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных. Иногда метод главных компонент называют преобразованием Кархунена-Лоэва или преобразованием Хотеллинга.

Другие способы уменьшения размерности данных – это метод независимых компонент, многомерное шкалирование, а также многочисленные нелинейные обобщения: метод главных кривых и многообразий, поиск наилучшей проекции, нейросетевые методы «узкого горла», самоорганизующиеся карты Кохонена и другие.

Для решения этой не совсем чётко сформулированной задачи существуют немало математических способов; самый распространённый в генетике — метод главных компонент, который позволяет определить такие «оси» в многомерном массиве данных, вдоль которых отличия геномов наиболее заметны. Им и воспользовались Новембр и его коллеги, ограничившись двумя такими осями.

Разместив на плоскости все без малого полторы тысячи точек, они увидели картину, поразительно напоминающую политическую карту Европы.

Португальские и испанские геномы оказались на этой карте левее французских, немцы — правее, «итальянцы» расположились под французами, а британцы — над ними. К счастью, крутить полученную карту можно как угодно — это не изменяет геометрических соотношений между положением точек. Так что учёным оставалось лишь сопоставить генетический график с географической картой — так называемой клинальностью по композитному параметру, соответствующему главной оси, — и определить, что самый главный «основной компонент» соответствует оси юго-юго-восток — северо-северо-запад, и именно в таком виде и представить карту коллегам.

врез №
skin: article/incut(default)
data:

{
    "_essence": "test",
    "incutNum": 3,
    "pic_fsize": "42837",
    "picsrc": "«Генетическая карта Европы» Джона Новембра и его коллег. Справа внизу – менее яркий результат аналогичной работы Манфреда Кайзера, опубликованный месяц назад. // Джон Новембр/M.Kaiser",
    "repl": "<3>:{{incut3()}}",
    "uid": "_uid_2827658_i_3"
}

Конечно, итоговая карта оказалась не без изъянов. Мало того что индивидуальные геномы расползались далеко за границы стран, им соответствующих. Русские разместились на этом графике среди чехов и поляков, оказавшись куда «западнее» украинцев, а словаки вообще провалились глубоко под Альпы, обнаружившись на самом конце итальянского «сапожка». Впрочем, это может объясняться особенностями скудной выборки тех и других: русских в исходных данных было всего шесть человек, а словак нашёлся и вовсе один.

Тем не менее, пользуясь только этой картой, родину 90% человек можно указать с точностью 700 км, а 50% — до 300 км.

Это при том, что 200 тысяч «букв» ДНК — менее 0,01% всего генетического кода человека.

На графике также очень хорошо заметно, что генетическое разнообразие европейцев-южан куда значительнее, чем у северных народов. Эти данные, по мнению самого Новембра, легко объяснить историей заселения людьми Европы. После появления здесь Homo sapiens 35 тысяч лет назад лишь через 15 тысяч лет, с отступлением ледников, произошло первое массовое переселение народов на север, а ещё через 10 тысяч лет, с возникновением сельского хозяйства, на север отправились новые группы южан, которые все эти тысячелетия представляли внушительные, хорошо оформленные популяции.

К слову сказать, похожая работа, основанная во многом на тех же генетических данных, была опубликована в журнале Current Biology еще месяц назад. Стоит отметить, что и её руководителю Манфреду Кайзеру удалось получить с помощью такого же метода главных компонент похожую, хотя и не настолько сочную картинку. В том анализе были задействованы две с половиной тысячи геномов, тщательно собранных компанией GlaxoSmithKline, занимающейся охотой на гены, повинные в побочных эффектах от употребления людьми различных медикаментов.

врез №
skin: article/incut(default)
data:

{
    "_essence": "test",
    "incutNum": 1,
    "picsrc": "\"Генетическя карта\" населения Швейцарии // Джон Новембр",
    "repl": "<1>:{{incut1()}}",
    "uid": "_uid_2827658_i_1"
}

Вместе с тем метод главных компонент в обоих случаях не смог разделить европейцев на отдельные генетические кластеры. Другими словами, генетическое разнообразие европейцев настолько мало, что даже полумиллиона мононуклеотидных полиморфизмов недостаточно, чтобы разделить всего три тысячи человек на маленькие подгруппы.

«У нас иногда любят говорить о «русских генах», «польских генах» или генах «татарских». Но эта статья нам наглядно показывает, что таких генов нет!»

— прокомментировал «Газете.Ru» эти работы один из главных отечественных специалистов по геногеографии Олег Балановский из лаборатории популяционной генетики человека Медико-генетического научного центра РАМН, хорошо известный нашим читателям.

«Только изучив сто тысяч генов, авторы смогли (и то с ошибкой в несколько сотен километров) определять вероятные места происхождения изученных европейцев. Сделать это по одному гену и даже по ста генам невозможно! — говорит Балановский. — Нет какого-то одного гена, характерного для населения данной страны. Только комбинация из сотен тысяч генов более или менее специфична.

А значит, беспочвенны рассуждения тех, кто опасается воздействия на генофонд народа через его специфичные гены».

«Такую статью мы ждали давно. Технологиям, позволяющим анализировать миллион генетических маркеров, уже несколько лет. И в этой статье эти новые технологии наконец применены для изучения генофонда Европы, — продолжает учёный. — Эта работа прекрасно показывает преемственность в науке: ведь когда 10–15 лет назад появились работы по митохондриальной ДНК (материнская линия наследования) и Y-хромосоме (отцовская линия наследования), то первый прорыв произошел тоже на генофонде Европы, и даже вывод о важности географии в упорядочивании генофонда был сделан тот же самый, что и теперь».

По словам Балановского, технологии сегодняшнего дня позволяют достичь небывалой надежности и точности результатов: «То, что сорок лет назад генетика едва различала в густом тумане, то, что десять лет назад начало освещаться двумя мощными противотуманными фарами (митохондриальной ДНК и Y-хромосомой), то же самое мы начинаем теперь видеть при свете миллиона более слабых огней (генов хотя и менее информативных, зато многочисленных и распределенных по всему геному)».

«Следующего и последнего шага — полной, стопроцентной освещенности — можно ждать через несколько лет, когда станет доступным полное секвенирование всего генома — не миллиона нуклеотидов, как сейчас, а всех существующих в геноме миллиардов», — предсказывает отечественный специалист.

По его мнению, возникает лишь вопрос, нужно ли ждать таких подробных данных. Ведь уже сейчас и «две наши мощные фары (митохондриальная ДНК и Y-хромосома), и миллион более слабых огней (но распределенных по всему геному) позволяют нам видеть структуру генофонда человечества и делать как фундаментальные научные, так и прикладные выводы».

Тревожит учёного то обстоятельство, что пока число изученных генов в геноме намного больше числа людей, у которых изучены эти гены.

«Только изучение генофонда — всей совокупности генов — позволяет изучить генетику народа, чтобы помочь врачам ставить диагнозы, а всем людям — прослеживать историю их народа или их собственной семьи», — подытожил Олег Балановский.