我是数据:高中生把数据编入体内,1千克DNA未来可储存全球数据
【新智元导读】全球每年产生的数据需要4180亿个1TB硬盘才能放下,若是把如此庞大的数据放到DNA上,只需 1kg DNA就够了!最近一家公司将16G的维基百科存储在了一个DNA分子上让人惊叹,DNA存储已成为最受关注的新兴技术之一,“我,就是数据”时代即将来临。
“我,就是数据”时代悄然将至。
在科幻大片《超体》中,“女超人”Lucy凭借药物的作用,大脑不断被开发,获得了包括心灵感应、瞬间吸收知识等技能。当大脑开发到100%时,已然达到了“I am everywhere”的至高境界。
而目前我们正处于数据爆炸增长的时代,现存的硬盘、3D内存芯片等数据存储方式已然出现“负荷过重”的迹象。若是要存储全球的数据似乎是一件较为棘手的事情,更不要提做到像Lucy那般集“全宇宙数据于一身”了。
一种新的方式便应运而生——DNA数据存储。
其实,这种尝试早就已经开始了。
去年年底,法国一位16岁高中生Locatelli便将《古兰经》和《圣经》中的部分内容注入到了自己体内。把希伯来语和阿拉伯语的字符转换成DNA碱基的特定组合,然后用购买的病毒编辑到DNA链里,最后用注射器注入自己的大腿(详细内容见文末附录)。
除了这位高中生之外,上周,一家位于波士顿的初创公司Catalog宣布,他们将维基百科英文版一共16G的所有文本存储在了一个DNA分子上!
他们相信生物分子的寿命将比最新的计算机存储技术长得多。
16G的维基百科,只需一个DNA分子便可轻松存储
计算机存储技术已经从带磁铁的电线变成了硬盘,变成了3D存储芯片。但是下一代存储技术可能会使用与地球上的生命一样古老的方法:DNA。
初创企业Catalog近日宣布,维基百科英文版的所有文本都被塞进了我们身体使用的相同基因分子中。也就是说,他们将维基百科英文版一共16G的所有文本存储在了一个DNA分子上!
Catalog用它的第一台DNA书写器完成了这项壮举。
Catalog的DNA写入机可以以每秒4兆比特的速度写入数据,但该公司希望使其速度至少提高1000倍。
至于说这个DNA书写器有多大,呃,如果你先把家里的冰箱、烤箱扔掉,再打掉一部分橱柜,这台机器就可以很容易地安装在你的房子里啦(机器的大小与一辆现代SUV差不多)。尽管它不太可能很快就将手机的闪存芯片推到一边,但Catalog认为,它对一些需要存档数据的客户已经很有用了。
DNA链很小,很难管理,但是生物分子可以存储除了控制细胞如何变成豌豆植物或黑猩猩的基因以外的其他数据。Catalog使用了比人类DNA短但更多的预制合成DNA链,因此它可以存储更多的数据。
依靠DNA而不是最新的高科技小型化设备来存储可能听起来像是倒退了一步。但是DNA是紧密的,化学上是稳定的,而且因为它是地球生物学的基础,它可能不会像硬盘驱动器或CD那样过时,也不会像软盘驱动器那样消失。
谁在市场上购买这种存储?Catalog有一个合作伙伴要宣布, Arch Mission基金会正试图将人类知识储存在不只是在地球上,甚至在太阳系的其他地方——就像SpaceX发射到轨道上的Elon Musk的Tesla Roadster一样。除此之外,Catalog还未透露其他客户是谁,或者是否会为其DNA写入服务收费。
该公司在一份声明中说:“我们正在与政府机构、产生大量测试数据的主要国际科学项目、石油天然气、媒体和娱乐、金融和其他行业的主要公司进行讨论。”
总部位于波士顿的Catalog拥有自己的设备,可以在DNA中每秒记录4兆比特的数据。优化的速度应该是当前速度的三倍,让人们在一天内记录125千兆字节——大约相当于高端手机可以存储的容量。
传统的DNA测序产品已经在生物技术市场上销售,可以读取DNA数据。“我们认为这一全新的序列技术用例将有助于(大大)降低成本,”Catalog认为计算业务是一个潜在的巨大市场。
Catalog首席执行官Hyunjun Park和首席技术创新官Nathaniel Roquet于2016年创立了这家公司。当时,Park是麻省理工学院的博士后,Roquet是哈佛大学的研究生。
Catalog使用寻址系统,这意味着客户可以使用大型数据集。即使DNA以长序列存储数据,目录也可以使用分子探针读取存储在任何地方的信息。换句话说,它是一种像硬盘一样的随机存取存储器,而不是像半个世纪前大型计算机鼎盛时期的磁带盘那样的顺序存取。
尽管DNA数据可能会被宇宙射线破坏,但Catalog认为它是一种比其他方法更稳定的介质。毕竟,我们有几千年前灭绝动物的DNA。我们打个赌,你抽屉里的U盘在25年后还会用吗?
DNA存储数据的意义何在?
近日,《科学美国人》与世界经济论坛联合发布了2019年全球十大新兴技术,其中一项就是用DNA储存数据。那么,用DNA存储数据的意义何在呢?
据软件公司Domo称,2018年,谷歌每分钟进行388万次搜索,人们在YouTube上观看了433万个视频,发送了159362760封电子邮件,推特了47.3万次,在Instagram上发布了49000张照片。
到2020年,全球人均每秒将产生大约1.7兆字节的数据,假设世界人口为78亿,这相当于每年约418个zettabytes。这么多的数据如果放在容量为1TB的硬盘上,需要4180亿个硬盘才能放下!
如果是这样的话,目前的数据存储系统通撑不过一个世纪。此外,运行数据中心需要消耗大量的能量。简而言之,我们将面临一个严重的数据存储问题,随着时间的推移,这个问题将变得更加严重!
因此,硬盘存储的一种替代方案——基于DNA的数据存储才显得尤为重要。由核苷酸A,T,C和G的长链组成的DNA是生命的信息存储材料。数据可以按照这些字母的顺序存储,从而将DNA转变为一种新的信息技术形式。
它已经过常规排序(读取),合成(写入)并且可以轻松准确地复制。DNA也是非常稳定的,正如生活在50多万年前的化石马的完整基因组测序所证明的那样,存储它不需要太多能量。
但是,DNA的存储容量是让人惊讶的。DNA可以以远超过电子设备的密度精确存储大量数据。例如,根据哈佛大学George Church及其同事于2016年发表在“Nature Materials”杂志上的计算,简单的大肠杆菌的存储密度约为每立方厘米1019比特。
在这样的密度下,一个边长约一米的DNA立方体可以很好地满足全世界一年的数据储存需求,换个维度讲,1kg DNA就能储存全球数据。
DNA数据存储的前景不仅仅是理论上的。例如,2017年,哈佛大学的Church小组采用CRISPR DNA编辑技术,将人手的图像记录到大肠杆菌的基因组中,并以高于90%的准确率读出。华盛顿大学和微软研究院的研究人员已经开发出一个完全自动化的系统,用于编写、存储和读取DNA编码的数据。包括微软和Twist Bioscience在内的一些公司正在致力于推进DNA存储技术。
与此同时,DNA已经被研究人员用来以不同的方式管理数据,这些研究人员努力处理海量的数据。新一代测序技术的最新进展使得数十亿个DNA序列可以轻松同时读取。有了这种能力,研究人员可以使用DNA序列的条形码作为分子识别“标签”,以跟踪实验结果。DNA条形码正被用于大大加快化学工程、材料科学和纳米技术等领域的研究步伐。例如,在佐治亚理工学院,James E. Dahlman的实验室正在迅速确定更安全的基因疗法;其他人正在研究如何对抗耐药性和防止癌症转移。
使DNA数据存储变得通用的挑战之一是读取和写入DNA的成本和速度,如果要与电子存储竞争,则需要进一步降低这些成本和速度。即使DNA没有成为一种无所不在的存储材料,它几乎肯定会被用来以全新的方式生成信息,并长期保存某些类型的数据。
DNA能够存储数据,是否也可遗传?
前不久,新智元报道了一篇文章——顶级学术期刊《CELL》同日连续发表两篇重磅文章,研究人员在对线虫的研究中发现,记忆可以被遗传,甚至持续3-4代!
在2016年的SXSW大会上,南加州大学教授Theodore Berger宣布了一个轰动整个科技界的消息:
在对猴子、老鼠的实验中,通过人造海马体完成了短时记忆向长期储存记忆“几乎完美”的转换,这项技术可以完成对人脑记忆的备份,并复制到其他人的大脑中。这就意味着记忆有可能“遗传”给后代。
而近日,爱思维尔(Elsevier)出版公司旗下的细胞出版社(Cell Press)杂志《CELL》同日发表了两篇重磅文章——记忆居然真的可以遗传!
文章地址:
https://www.cell.com/cell/fulltext/S0092-8674(19)30448-9
文章地址:
https://www.cell.com/cell/fulltext/S0092-8674(19)30552-5
这两项重磅的研究结果表明:至少在线虫(C.elegans)这样的生物中,记忆可以被遗传,且可以维持3-4代。堪称颠覆认知!
记忆的遗传,或是另一种“永生”?
纵观历史,有无数人在寻找着永生不死的方式——他们或修炼自己的精神世界,或求助于丹药、或修建宏伟的寝陵,想以此实现精神的延续和永存,但无一成真。
今天,我们借助科学发现,人们对“永生”的研究也不断在持续着。
新智元此前报道过《Nature重磅封面:复活死亡大脑!》——耶鲁大学的最新研究表明,猪大脑在死亡4小时后成功复活,并维持了至少6小时。
这项研究掀起了一波道德伦理的舆论浪潮,有人担心这是否就会是僵尸启示录的开始;但同时还有人认为,让一些伟人的大脑复活,实现意识和记忆的“永生”,将具有重大的意义。
而这次科学家们的发现可谓是颠覆了我们的认知。
原来信息竟然可以通过神经代代相传,加之这次DNA可以存储海量数据,不知道这是不是另一种“永生”的方式呢?
附:16岁高中将《古兰经》和《圣经》注入体内
去年年底,法国一位16岁高中生Locatelli将《古兰经》和《圣经》中的部分内容注入到了自己体内。他将文本转换成了DNA,并注射到了自己的大腿上。
12月3日,他还将这项实验的文章发表到了Open Science Framwork(OSF)上。
论文地址:
https://osf.io/yj8xw/
从逻辑上来讲,这项壮举并不难。Locatelli首先用一个基本的系统将文本翻译为构成DNA的核酸。
在圣经《创世纪》中,他将22个希伯来字母转换成四种可能的核酸:胞嘧啶、胸腺嘧啶、鸟嘌呤或腺嘌呤。胞嘧啶和胸腺嘧啶分别代表五个字母,鸟嘌呤和腺嘌呤分别代表六个字母。
这张表是从《古兰经》的独立(isolated)字母中汲取灵感而开发的
在阿拉伯语文本中,Locatelli去掉了28个字母中的5个,并给了其中3个独特的核酸,允许Ra和Sad共享胸腺嘧啶。在这两种情况下,Locatelli都忽略空格、标点符号和变音符号。
这张表的灵感来自希伯来字母和DNA密码。
然后,他分别从VectorBuilder和ProteoGenix公司购买了定制的DNA链,以及用于将新DNA插入细胞的良性病毒。他买了一些生理盐水和注射器就出发去参加了比赛。注射后,他只出现了轻微的过敏反应。
Locatelli说:“我做这个实验是为了宗教和科学之间和平的象征。”
但是,加州大学洛杉矶分校的生物化学家Sriram Kosuri表示,他不能确定Locatelli的方法是否真的有效;无法评估病毒载体是否成功地将合成的DNA导入了Locatelli细胞。
这位少年的研究确实表明,在DNA中存储任何类型的信息并不是一件很难的事情。这是一种非常高效的存储方式,这就是为什么科学家们一直把它看作是在紧凑空间中安全存储大量数据的一种方式。
到目前为止,尽管生物技术公司正在竞相寻找更便宜的方法,但制造用于数据存储的合成DNA的成本高得令人望而却步。
当然,商业存储的目标是能够将其转换回可用的信息。从理论上讲,如果新的DNA被正确地植入Locatelli的细胞中,细胞会像他自己的DNA一样复制,也就是说他自己进行了基因编辑,那么基于文本的DNA就可以被翻译成文本。
然而,这可能并没有发生。最先进的医学研究刚刚开始开发基因疗法。即使人工合成的DNA被保存下来,最初的文本转换也非常不精确,很难重现真实的文本。
参考链接:
[1]https://www.cnet.com/news/startup-packs-all-16gb-wikipedia-onto-dna-strands-demonstrate-new-storage-tech/
[2]https://qz.com/1508028/a-teen-injected-dna-coded-with-the-bible-and-quran-into-his-leg/
[3]https://www.sciencemag.org/news/2017/03/dna-could-store-all-worlds-data-one-room
[4]https://www.vice.com/en_us/article/wj3yy9/this-teen-translated-a-bible-verse-into-dna-and-injected-it-into-himself
[5]https://www.nature.com/news/how-dna-could-store-all-the-world-s-data-1.20496