Microsoft собирается использовать ДНК для хранения цифровых данных

Компания продолжает эксперименты с искусственной ДНК: сейчас она работает над проектом «ДНК-хранилище» (DNA Storage) в сотрудничестве с университетом Вашингтона.

«ДНК-хранилище состоит из синтезатора ДНК, который упаковывает данные в цепочку ДНК, контейнера, в котором хранятся пулы ДНК, и секвенатора, который считывает последовательности ДНК и преобразует их обратно в цифровые данные».

Самая интересная проблема, с которой надо разобраться для использования ДНК-хранилища — это адресация. Основная единица хранения ДНК — это цепь, состоящая из 100–200 нуклеотидов и способная хранить 50-100 бит информации. Это означает, что с каждым объектом данных будет сопоставлено несколько цепей ДНК. Исследователи используют архитектуру «ключ-значение», причем ключ связан с пулом, содержащим нужную цепь, а дальше с помощью механизма произвольного доступа осуществляется доступ к конкретной цепи внутри пула.

Еще одним важным аспектом является представление данных. ДНК представляет собой комибнацию четырех оснований — A, C, G, T. То есть двоичное число 01110001 будет эквивалентно 1301 в четверичной системе счисления, а значит, последовательности CTAC в ДНК. Впрочем, исследователи решили для представления данных использовать только 3 основания, а четвертое используется для коррекции ошибок. То есть приведенное выше число 01110001 закодируется как 01112, или CTCTG.

Больше информации об используемой системе кодирования и принципе работы системы можно узнать в файле, опубликованном Microsoft.

Согласно мнению некоторых аналитиков, технология хранения данных на основе ДНК имеет два основных преимущества перед традиционными цифровыми запоминающими устройствами: значительно более длительный срок службы (в соответствии с последними данными, данные ДНК могут храниться до 2000 лет) и более высокая плотность данных (до 1 триллиона ГБ для один грамм ДНК).

Впрочем, по данным Microsoft и Вашингтонского университета, ДНК-хранилища пока не следует рассматривать как альтернативу флэш-памяти или жестким дискам: «Мы представляем себе хранение ДНК как самый последний уровень в иерархии глубокого хранения; он позволяет обеспечить очень плотное и прочное архивное хранение с временем доступа от многих часов до нескольких дней».

Основная идея также состоит в том, что синтез и считывание ДНК могут производиться параллельно, что позволит достичь требуемой ширины полосы для чтения и записи.

Доуг Кармин, лидер проекта от Microsoft, пояснил, что первоначальные тесты с использованием ДНК «показал, что мы могли бы закодировать и восстановить 100 процентов цифровых данных», но в розничной продаже жизнеспособный продукт появится еще не скоро.

Источник: InfoQ