算法让「CRISPR」火得名副其实

生物科技学家正在踊跃抓住使用革命性基因编辑利器CRISPR的良机。这个分子工具能通过编程准确调整任何有机体的DNA,但是,科学家仍需要加快编程速度的软件算法。目前,有数十个团队正在开发这样的软件,而且每个团队都面临着赶上快速发展的科学的重任和一个日益拥挤的领域。

算法让「CRISPR」火得名副其实CRISPR –「规律成簇间隔短回文重复」缩写,是一个在微生物中发现的基因现象,被科学家用来在指定位置上摧毁或者添加DNA。CRISPR软件不是第一个基因编辑工具,但它是迄今为止操作最简单,最便宜的,并且自从四年前升级以来,已经得到世界范围内的使用。研究人员可以用它移除动物模型的基因,研究该基因的功能;生产药用微生物,创立基因疗法来治疗疾病;并且在未来—伦理争论结束后—用来消除人类胚胎中的遗传性疾病。

在不到四年的时间里,CRISPR「已经改变了世界各地的生物实验室。」该技术的贡献者之一,来自位于查尔斯镇,马萨诸塞州总医学院心血管研究中心的化学生物学家Jing-Ruey Joanna Yeh说:「因为这个系统是如此的简单、高效,任何实验室都可以使用。」传统的基因改造技术把DNA梭进细胞里面,但没法预知基因组会粘在哪里。使用CRISPR就像用光标在文档中的两个字母中间点击「删除」或者「粘贴」。工具的使用费不超过$50美元。市面上有其它和CRISPR一样精确的基因组编辑系统,但它们都需要定制,并且需要更多的专业知识和资源来组装。

「尽管较之以前的工具,CRISPR很赞,但它并不总是管用。」加州大学伯克利分校创新基因组的科学主任Jacob Corn说:「我们感到很费解,」但那也是软件流行起来的原因。开发新算法可以帮助研究人员设计出更容易取得成功的CRISPR。

CRISPR系统配有两个主要特征:1)一个可编程的基因代码短链(向导RNA);2)一个充当分子剪刀的蛋白质(通常是被称作Cas9的酶)。一旦复合物被导入细胞,向导RNA会把Cas9带到生物体DNA序列(或基因组)内的准确位置,像魔术贴一样粘在上面,并让Cas9剪断该DNA。接下来,细胞自身机制会修护切口,在这一过程中,毁坏或者添加一些DNA,破坏基因。研究人员也可以有意将新的基因代码导入这个位置。

向导RNA通过寻找带有分子互补代码的DNA片段,来发现自己在生物体基因组内的目标。这些分子被称为碱基,并用字母A(腺嘌呤),T(胸腺嘧啶),G(鸟嘌呤),和C(胞嘧啶)表示。

算法让「CRISPR」火得名副其实DNA把基因编码成化学序列(符号A,T,G,C),让它们与互补的序列交配(A与T,G与C),形成分子螺旋线的阶梯。

向导RNA把CRISPR复合体带到DNA里的互补位点,亦即酶寻找被称为「protospacer相邻基序」(缩写为PAM)地标的地方。如果复合体同时找到匹配的DNA和PAM,它将剪断DNA链,打乱基因的序列或者在相同的地方创造新的DNA。

编辑基因组的科学家通常是寻找一个控制特定功能的片段——一个基因。它们大概有几百到几千碱基那么长。不过,向导RNA只有20组碱基的长度,所以,科学家们必须选择位于基因中,以20组为单位的互补碱基段作为目标。这里有两个需要考虑的限制:一)目标必须靠近分子剪刀可以识别的地标;二)目标不能与基因组里其它任何地方由20组碱基组成的片段相同。

由Cas9酶查找的地标叫做「protospacer相邻基序」(缩写为PAM)。「PAM」在基因组里很容易找到:就像在一本书里找「the」字。任何一个在「PAM」旁边,以20组为单位的互补碱基都可以作为目标点位。

不过,想要确保这20组互补碱基的独特性很难。对于只有四个变量的基因代码来说,大多数生物的基因组有几百到数十亿组的碱基对,模式经常重复。向导RNA会被诱饵片段(decoy segments),叫做脱靶位点(off-target sites),分散注意力,而且可能最终让错误的基因发生突变。与目标片段存在几个碱基差异的片段能妨碍到工具工作。「你能用眼扫描整个基因组,找出(脱靶位点),但要花很长时间。」负责开发CRISPR软件Protospacer工作台,来自巴黎巴斯德研究所的数据学家Cameron Ross McPherson说。

仅需来自用户的少数输入,基因编辑软件的算法就能进行快速搜索。由哈佛大学开发的CHOPCHOP要求用户输入生物体的名称,基因的名称,和其它可选的高级参数。在短短的几秒钟内,该算法可以找出目标基因内,所有在「PAM」附近的以20组为单位的互补碱基,并根据它们在基因组和其它参数中的独特性排名,生成一张向导RNA清单。例如,对斑马鱼爪子 (spaw)基因的检索产生了55个可能的向导RNA,其中大部分拥的RNA是与其它基因组有至少两处不同的独特序列。

在过去的两年内,有数十个这样的软件工具问世,大多数都是免费的。也有些公司,比如来自旧金山的Benchling,提供比免费公开版本更好用的用户界面。但没有一个脱颖而出的软件系统,开发CRISPR的软件E-CRISP,来自位于海德堡,德国癌症研究中心的Michael Boutros说。Boutros表示还有大量工作需要完成。拥有一个有55个理论上可能有用的向导RNA的清单是一个有益的起点,但是,留给研究人员的任务是必须以试错的方式判断出那个最管用。人们需要能确定预测某个特别向导RNA将会有用的算法。

为此,生物统计学家开始整理试验数据,寻找成功向导RNA的普遍特征,用来指导基于机器学习的预测系统。但是,大部分数据都分散在小型的个人研究里。「把所有数据都放在一起将形成非常强大的资源,这是电脑工程师的机遇。」加州伯克利的Jacob Corn说。不过,现阶段也存在一些大型数据集。来自马萨诸塞州剑桥Broad研究所的一组研究人员近期在人类和老鼠细胞上测试了近2,000组向导RNA,并且发表了一组改进算法的规定。

与此同时,科学家正在试图改造Cas9和其它用来切割的蛋白质,试图为CRISPR用户提供更多的操作选择。这其中的一些蛋白质可以提高向导RNA的准确度。如果他们成功了,对预测精准度软件的需求可能会消失,或者更新。「如果可以完全消除脱靶的可能性,那很好。」Corn说:「但是我们做到了吗?还没有。」