把全世界的数据装进一辆拖车
Miles Davis 的 《Tutu》被存储成DNA序列
© David Redfern/Redferns
去年十月,Deep Purple 的《Smoke on the Water》和 Miles Davis 的 《Tutu》再度创造了历史——但这次不是音乐史,而是科学史。来自华盛顿大学、微软和 Twist 生物科学的联合研究团队,成功地将这两张唱片存储进了一段 DNA 序列中,并且可以无损解码播放。
这是 DNA 在数据储存领域充满前景的最新迹象。科学家们很久之前就认为 DNA 是一种潜在的存储媒介,因为它可以用小空间储存海量信息,并且能稳定保存成千上万年。
2012 年,哈佛大学的科学家们成功地将一本书的文本存储在了 DNA 中。2017 年年初,美国政府里一个致力于美国国家安全的部门——国防高级研究计划局(Darpa)也宣布了资助更多 DNA 存储研究的计划。
如果进展顺利,这将成为“全球不断产生的巨量信息如何存档”这一难题的答案。很多人还没有意识到数据存储这一问题有多严重。
Gurtej Sandhu 是 Micron 科技的高级研究员,该数码存储产品公司市值近 500 亿美元。Gurtej 介绍,目前大多数数据都储存在磁盘中,不管是音乐还是科研数据都是如此。
这些磁盘类似于录音带,只是“更大,科技含量更高”,是储存数据最经济的方法。然而,随着存储内容指数级增加,“磁带会塞满成百上千个仓库。”Sandhu 说,“而且磁带并不能永久储存,10 年之后信息就会消失,所以到时候又得重新录入。
[不论你是]一个病毒,一根黄瓜,一头大象,还是特朗普。你生命里最重要的信息都存在你的 DNA 里。
——Yaniv Erlich, 哥伦比亚大学
而 DNA 用来存储和复制信息是非常合适的,我们自己的身体就是证据。“[不论你是]一个病毒,一根黄瓜,一头大象,还是特朗普,不管是什么,” 哥伦比亚大学计算机科学家 Yaniv Erlich 在三月刚发表过 DNA 存储方面的论文,Erlich 表示,“你生命里最重要的信息都存在你的 DNA 里。
基因分子是非常小的,所以用它来存储转码数据能够解决磁盘占用空间的问题。“要存下全世界的资料大概需要 10 吨的DNA,”Erlich 补充道,“一辆半挂式拖车就可以装得完。
▲ 理论上一个 5mL 试管的 DNA 可以存储 1Eb 的数据
DNA 还具有长久性。DNA 已经存在了 35 亿年,”Erlich 指出,“再保持 1 万年都不是问题。
Twist 生物科技的 CEO,Emily Leproust 女士谈到,DNA 廉价且易于复制。“复制一管 DNA 只需要 1 美元,耗时一小时,”Leprous t说,“听起来可能很多,但是如果这一管 DNA 中的数据相当于一个数据中心的量,试想复制整个数据中心只需要 1 美元和一小时,这绝对是前所未闻的。
加利福尼亚大学洛杉矶分校化学和生物化学助理教授 Sriram Kosuri 认为,将数码资料的二进制码翻译成为 DNA 的双螺旋链可能并没有预想的那么复杂。
Kosuri 教授作为共同作者在 2012 年发表了一篇论文,该论文被他称为“某种意义上大概是最简单的学术论文之一”。该论文阐述了二进制码中的 0 和 1 可以被翻译为 DNA 碱基对中的 A,T,C,G;于是,A 可以表示 00,T 可以表示 01,以此类推。
这样一来,一条 DNA 链就可以对应着数字编码合成出来,再通过测序仪解码来读取数据。
然而,合成 DNA 的过程中可能有些麻烦。不是所有的分子都能顺利合成,而且 DNA 序列有时会产生重复编码。
为了减少解码读取时产生的误差,Erlich 和他的团队研究出了一种类似于数独的算法。Erlich 说,在数独中“你即使忽略掉一部分提示,依然可以解题”。
通过应用数独技术,Erlich 团队成功实现了以每克 DNA 存储 215Pb 的密度编码信息,并准确地完成了数据读取还原。1Pb 相当于 9 千亿页的原始文本。Darpa 已经资助了 Erlich,对这一系统进行更深入的研究。
计算架构师与合成生物学家目前正在设计程序,以实现 DNA 存储自动化,这样就可以在 DNA 中对文件进行搜索查找。
华盛顿大学计算机科学系教授 Luis Ceze 解释,这个程序包括液态元件(即 DNA 悬液)和电子元件。“所有液态的流体部分都要实现自动化,”他表示,“因为你不可能雇佣 1 亿人在数据中心搬运 DNA 嘛。
目前,成本问题仍然是一个障碍。尽管读取 DNA 序列现在相对廉价简单,但写入 DNA 的花费却非常昂贵。Twist生物科学的收费是每个 DNA 碱基 7-9 美分,存储 12Mb 的 DNA 数据就需要大约 10 万美元。
Biodesic 生物工程公司的咨询师 Robert Carlson 表示,DNA 驱动要想媲美一个磁带驱动的效率的话,需要“相当于每天 1 万个人类基因组”的读写速度。据他统计,目前全球 DNA 合成工业每天仅仅可以写入 3 个人类基因组 DNA。
Leproust 女士拥有一家采用 3D 打印技术的 DNA 合成公司,她对此却很乐观,她说:“我们相信,我们已经有一个能将 DNA(合成)成本降低百万倍的计划。”尽管她也承认,实现这一目标的时间尚不明确。
注:内容已更新,以解释Erlich团队以每克DNA 215Pb的密度存储信息的详情,实际的数据存储总量为几Mb。
文章来源:https://www.ft.com/content/45ea22b0-cec2-11e7-947e-f1ea5435bcc7
投稿或应聘,请将简历发送到
精选内容
美柏路演

▼  点击阅读原文,查看更多好内容
继续阅读
阅读原文