Объединенная исследовательская группа из Европейского института биоинформатики (EBI), расположенного в Великобритании, и Европейской лаборатории молекулярной биологии (EMBL), расположенной в Германии, совместно с компанией Agilent Technologies (США) разработала технологию, позволяющую использовать искусственные ДНК в качестве долговременного, надежного и энергонезависимого носителя информации. Статья с описанием технологии опубликована сегодня в Nature.
Используя в качестве устройства памяти короткие одноцепочечные ДНК, так называемые олигонуклеотиды (олигонуклеотид — короткая форма нуклеиновой кислоты, содержащая относительно небольшое, до нескольких десятков, число нуклеотидов), исследователи записали на массив таких ДНК пять различных файлов, содержащих полное собрание сонетов Шекспира (текст в формате ASCII), статью первооткрывателей структуры ДНК Джеймса Уотсона и Френсиса Крика «Молекулярная структура нуклеиновых кислот» в формате PDF, цветное фото здания ЕBI в формате JPEG, 26-секундный MP3-файл с фрагментом речи Мартина Лютера Кинга «У меня есть мечта», а также файл с алгоритмом Хаффмана, использованным для конвертации бинарных файлов в вид, удобный для представления данных через последовательность азотистых оснований ДНК.
Общий объем полезных данных, записанных и считанных с ДНК, составил примерно 5,2 мегабита.
skin: article/incut(default)
data:
{
"_essence": "test",
"incutNum": 2,
"pic2": "/files3/865/4938865/GOLDMAN.jpg",
"picsrc": "Доктор Ник Голдман из EMBL-EBI держит в руках пробирку со всеми сонетами Шекспира, классической научной статьей, звуковым файлом и фотографией своего института, записанными на ДНК. // Nature",
"repl": "<2>:{{incut2()}}",
"uid": "_uid_4938865_i_2"
}
Кодирование происходило в три этапа. Двоичный код, в котором были представлены данные, сначала конвертировался на компьютере в троичный посредством алгоритма Хаффмана, с помощью которого восьмибитные блоки данных (байты) представлялись в виде последовательности из пяти троичных чисел, или тритов (0,1,2). Далее блочная последовательность тритов конвертировалась в код из трех нуклеотидов.
Троичная кодировка позволяла не только сжать данные, но и уменьшить вероятность ошибок при последующем считывании ДНК и реконструкции двоичного массива.
Как известно, ДНК представляет собой полимерную молекулу, в состав которой входят четыре нуклеотида (аденин, гуанин, тимин и цитозин — А, Г, Т, Ц). Для конвертации троичного кода достаточно трех, поэтому в каждом последующем троичном блоке основания можно было комбинировать по-разному, ведь один из четырех нуклеотидов в них мог отсутствовать. Последнее гарантировало, что при синтезе ДНК два и более одинаковых нуклеотида не пришлось бы стыковать в одну полимерную цепочку (так называемый гомополимер), что снижает вероятность ошибок при последующей реконструкции данных.
skin: article/incut(default)
data:
{
"_essence": "test",
"incutNum": 3,
"pic2": "/files3/865/4938865/Fig1.jpg",
"picsrc": "Схема конвертации данных (сонета Шекспира) в ДНК-массив: а) двоичный код b) троичный код c) ДНК-код d) дублированные фрагменты ДНК с шаговым смещением 25 бит (желтым отмечены участки ДНК с адресными метками). // Nature",
"repl": "<3>:{{incut3()}}",
"uid": "_uid_4938865_i_3"
}
Замороженный и высушенный в вакууме массив синтезированных ДНК, представляющий собой крошечную щепотку органики в герметично запаянной пробирке, был отослан обычной срочной почтой обратно в Англию и далее — в Германию, в одну из лабораторий EMBL, где ДНК были обратно расшифрованы с почти стопроцентной точностью, позволившей, в свою очередь, успешно реконструировать пять первоначальных файлов (число и содержание которых сотрудники лаборатории не знали).
Запоминать информацию посредством ДНК успешно пробуют еще с конца 80-х, однако настоящий прорыв в этом направлении произошел только сейчас, со стремительным удешевлением и, главное, увеличением точности технологий по быстрому синтезу и расшифровке ДНК-молекул.
Заметим, что команда EBI-EMBL, описавшая технологию своей ДНК-памяти в Nature, не является здесь первопроходцем.
Относительно недавно группа Джорджа Чёрча, давно экспериментирующая с ДНК-памятью и работающая в Гарварде, сообщила в конкурирующем Science, что ей удалось записать и считать с синтезированного массива коротких одноцепочечных ДНК несколько файлов (книгу, изображения и JAVA-код), притом точно такого же общего объема — 5,2 мегабита, о чем еще полгода назад подробно писала «Газета.Ru».
Сравнение использованных технологий показывает, что обе группы использовали практически идентичные методы записи и считывания информации с ДНК.
Массив данных сначала разбивался на блоки размером чуть больше ста бит, затем перекодировался в буквенную последовательность нуклеотидов, на основе которой синтезировались короткие, чуть больше 100 оснований, ДНК-цепочки. Считывание информации с массива осуществлялось с помощью автоматизированной полимеразно-цепной реакции и параллельных ДНК-секвенаторов новейшего поколения: ДНК-цепочки многократно клонировали, далее, одновременно корректируя ошибки, прочитывали, а получившиеся коды соединяли в массивы данных в соответствии с адресными метками, расположенными на концах цепочек.
Именно устойчивость к ошибкам авторы статьи в Narture назвали главным преимуществом своей технологии, отвечая на специально организованном пресс-брифинге на вопрос, чем же их ДНК-память отличается от ДНК-памяти, разработанной в Гарварде.
С этим, впрочем, можно и поспорить: во-первых, группа Чёрча также заложила в свою ДНК-память алгоритм коррекции ошибок, при котором сравнивались коды размноженных «зеркальных» ДНК-цепочек. Во-вторых, сами авторы статьи в Nature признают «избыточность» своей схемы, так как точность современных устройств, синтезирующих и считывающих короткие, до 200 оснований, цепочки ДНК, очень высокая, а среднее число ошибок редко превышает одну на 500 оснований.
skin: article/incut(default)
data:
{
"_essence": "test",
"incutNum": 6,
"pic2": "/files3/865/4938865/EBI_picture.jpg",
"picsrc": "Фотография EBI, записанная и считанная с помощью ДНК. // Nature",
"repl": "<6>:{{incut6()}}",
"uid": "_uid_4938865_i_6"
}