Зберігання даних на ДНК як спосіб вирішення проблеми із засиллям інформації в XXI столітті

Багатьом відомий вірш Роберта Фроста «Інша сторона». Він складається із 144 слів та займає всього одну сторінку. Також цей вірш може вміститися у файл розміром 1 кілобайт. А якщо цим займуться вчені, то цей вірш може поміститися у кілька краплях води в пробірці. Сама ж вода буде містити в собі невидимі ланцюжки ДНК, що вільно в ній плавають.

Вчені все частіше говорять, що ДНК — це ідеальний спосіб зберігання інформації. Вона стабільна, доволі міцна, її легко скопіювати. За кілька років учені записали на рівні ДНК такі твори світової літератури та музики, як Smoke on the Water гурту Deep Purple, «Війну і мир» Лева Товстого та навіть гіфку з конем. Проте, щоби ДНК замінила жорсткі диски та магнітні накопичувачі, потрібно, щоб такий спосіб запису інформації був зрозумілішим, доступнішим для зчитування та зберігання інформації кожному з користувачів.
Цим питанням займається Хєнджун Парк (Hyunjun Park) та його колеги зі стартапу Catalog. Півтори року тому вони вперше записали вірш на ДНК. Зараз їх апетити зросли. Вони займаються розробкою машини, що зможе записувати терабайт інформації на день за допомогою 500 трильйонів молекул ДНК. За кілька років співробітники стартапу Catalog  планують запустити корпоративні послуги запису даних на ДНК для технологічних компаній, уряду та для індустрії розваг. Проект Массачусетського технологічного університету не єдиний у своєму роді, який займається таким видом діяльності. Такі великі компанії, як Intel, Microsoft, Micron та інші фінансують власні проекти, що займаються збереженням даних в самій ДНК.

Такий підхід до справи, в разі успішного тестування технології, допоможе вирішити проблему з надмірним потоком інформації в XXI столітті. Ще п’ять років тому людство виготовило 4,4 зетабайта різної інформації. До 2025 року ця цифра може вирости до 160 зетабайта. Сучасна інфраструктура не здатна впоратися з тим об’ємом даних, який очікується до 2040 року. Тоді дані можуть зайняти всі мікросхеми у світі.

Більшість світової інформації — від музики та наукових досліджень до секретних матеріалів уряду зберігаються на магнітних носіях. Це досить дешевий, але не довговічний спосіб збереження даних. Тому інформацію доводиться копіювати кожне десятиліття.

Віктор Жирнов, вчений з компанії Semiconductor Research Corporation:

«Сучасні технології вже близькі до своїх фізичних меж розростання. Спосіб зберігання даних в ДНК більш місткий, ніж будь-який досі відомий спосіб зберігання інформації на носіях.»

Для прикладу, щоб зберегти в ДНК всі фільми, які існують в світі, нам знадобиться сховище за розміром з маленький кубик цукру. Таке сховище може проіснувати вже не десятиліття, як раніше було з іншими накопичувачами, а десять тисяч років.

Головний мінус такої технології — це ціна. За останні роки вартість зчитування даних ДНК (секвенування) стала дешевшою, проте не настільки дешевою, щоби бути доступною всім. Запис однієї хвилини якісного стереозвуку коштує наразі біля $100 тисяч.

Команда стартапу Catalog безумовно хочуть знизити такі ціни використовуючи більш традиційний метод розбивки інформації на біти, нулі та одиниці, які лягатимуть на чотири базових з’єднання в структурі ДНК. У 2016 році компанія Microsoft змогла записати 200 мегабайт даних в ланцюжок ДНК. Тоді комп’ютерний гігант використав 13448372 унікальних кусочків ДНК. Catalog  прагне згенерувати дуже велику кількість однакових молекул ДНК, не більше 30 пар за основу. Вчені використовують мільярди ензимних реакцій, щоб зашифрувати інформацію в зразки рекомбінацій, заготованих кусочків ДНК. Якщо раніше один біт лягав на одну пару основ, тепер же біти будуть розподілятися по багатовимірним матрицям. Кожен такий набір молекул буде займати своє положення в кожній матриці.

«Якщо уявити дані у вигляді книги, то ви зможете записати інформацію, скопійовану від руки – пояснив Парк. Замість того, аби переводити кожну літеру в потрібний формат, Catalog розробить печатний прес, де кожна літера буде представлена молекулою ДНК. Сортуючи ці заготовлені молекули належним чином, ми зможемо всі слова звести докупи в тому порядку, який був у книзі.»

Якщо така технологія приживеться, то перед нами буде можливість зберігати перш за все такі дані, які необхідні за юридичними причинами. Серед таких даних можуть бути урядові документи, медичні дані, запис з камер спостереження тощо.  На початку 2019 року Catalog планує запустити комерційне тестування свого проекту. Перш за все компанія буде орієнтуватися на розвідувальні служби, керування космічними дослідженнями, ІТ – сектор та американська кіноіндустрія.

Молекулярним збереженням даних наразі займається і урядова організація – Управління перспективних досліджень Міністерства оборони США (DARPA). За 2017 рік Управління виділило $15,3 мільйона на вивчення зберігання даних у ДНК за методом нулів та одиниць. Технологічні компанії-гіганти теж не пасуть задніх та ведуть роботу в даному напрямку.  До 2020 року Microsoft планує запустити робочий прототип сховищ ДНК в одному зі своїх цифрових центрів.

Як зізнався представник із відділу досліджень Microsoft Даг Кармін, таке сховище стане бути доступним «ВІП-клієнтам», які є достатньо вимогливими щодо кількості збережених даних. Зазвичай, вони зберігають не менше ніж декілька гігабайт і петабайт даних.

Плани Microsoft на довгострокове майбутнє ще більш амбіційні. «Ми плануємо повністю замінити магнітні накопичувачі. Це станеться доволі скоро завдяки популяризації  досліджень у споживчій генетиці та синтетичної біології. З часом людям все простіше отримати доступ до своєї ДНК. То чому ж не надати людям можливість зчитувати будь-які дані, які на ній були записані раніше?»- поділився планами компанії Даг Кармін.

БІЛЬШЕ ЦІКАВОГО:

Джерело: Wired