奕真生物收购 Curoverse,利用 AI 技术辅助基因

随着基因测序数据量的快速增长,基因测序领域将越来越需要高效获取积累数据以及进行云端分析的计算模式。人工智能技术可以帮助揭示特定疾病在基因层面的风险,同时协助处理大量增长的遗传学、医疗和科研的数据。此外,利用自然语言处理和深度学习等功能,还能够帮助客户根据需要查询他们的基因数据。

整理 | 项文虎 刘燕

来源 | Wired

基因携带着个人的先天信息。如果一个人的基因测序被存储在电脑上,大约占据 150GB 的存储空间。当进行基因检测的人数大幅增加后,数据的存储将成为一个巨大挑战。此外,要想从这些基因组中挖掘有用的信息,还要将它们进行交叉对比,同时与医疗记录、数百万份遗传学论文进行比较。

这正是人工智能技术擅长处理的场景。8 月 3 日,基因测序公司 Veritas Genetics (下称奕真生物)收购 Curoverse。总部位于波士顿、2010 年成立的 Curoverse,通过向免费的生物信息数据管理开源平台 Arvados 用户提供技术支持服务,帮助科学家分析生物医学数据,解决科学研究中的大量数据处理运算、分析及储存的问题,从而缩短医药研发的周期。奕真生物认为, 人工智能技术可以帮助揭示特定疾病在基因层面的风险,同时协助处理大量增长的遗传学、医疗和科研的数据。此外,奕真生物还希望利用自然语言处理和深度学习等功能,帮助客户根据需要查询他们的基因数据。

更广泛地说,基因组学和人工智能是相互呼唤的。作为一种原始的数据格式,一个人的基因组大约为 15 GB。存储一个碱基对大约只需要两个比特,而每对染色体中大约有 30 亿对碱基对,其大小为 750 MB,而人有 23 对染色体,所以数量上大约为 150 GB。但是基因测序并不完美。Veritas Genetics 的联合创始人兼 CEO Mirza Cifric 表示,其公司将对每个基因组进行至少 30 次的识别,以确保他们的研究结果具有统计学意义。Cifric Mirza 还表示:「你必须保留所有的数据,以便时常回顾。」

基因测序领域需要新的计算方式

「看,我是一名计算机科学家,我喜欢人工智能和机器学习,但是目前没有多少编码能解决这一问题,」加州大学旧金山分校计算健康科学研究所主任 Atul Butte 说。他之前在斯坦福大学工作时,尝试在基因研究中利用人工智能技术挖掘数据。不过,最终他发现,直接雇佣人员阅读论文,把信息录入数据库的成本要小得多。

奕真生物收购 Curoverse,利用 AI 技术辅助基因

不可否认的是,随着基因测序数据量的快速增长,这一领域将越来越需要高效获取积累数据以及进行云端分析的计算模式。比如,大多数疾病都是由多个基因共同作用导致,其中存在大量基因的变量表达,因此基于基因数据的疾病分析、预测与解读,需要对比变量因素。

23 and Me 和 Color Genomics 已经可以提供基于单一变异疾病的基因风险监测,但奕真生物想要比它们走得更远。目前,美国一些最大的危险来自于糖尿病和心脏病等疾病。这些疾病由多种基因之间的相互作用引发,同时与饮食习惯、锻炼情况等外部因素有关。Mirza Cifric 相信,在人工智能技术的帮助下,奕真生物不仅能够发现诱发疾病的各个因素,同时能够提供每个因素对整体风险的影响的统计数值。

Atul Butte 对此有很大的预期。但是,用遗传数据做预测诊断仍有各种各样的问题。Atul Butte 提到了 2013 年一项利用多基因测试来预测心脏病的研究,该研究使用了一项针对健康数据和心脏病的「弗雷明汉心脏研究」数据。「他们的作者表明,根据多基因风险评分、血液水平、血脂水平和家族病史,如果有人患心脏病,你可以在 10 年内预测,」Atul Butte 说,「但医生也可以在不使用基因组的情况下做同样的事情。」

Atul Butte 说,当我们将各种不同的基因研究、环境风险以及其他因素组合一起,试图预测未来时,总是会有无法预期的混乱因素掺杂进来。「将基因报告结构化是一个长期以来的圣杯。」Atul Butte 补充道,「即使试图让研究人员以一种标准的、机器可读的方式来编写和报告数据,也没有实现。例如,研究人员在定义自闭症与其他病症的不同时,总会遇到新的问题。」

除了疾病分析与预测,医生与科研机构还能通过人工智能更充分并高效地运用数据量巨大的医学文献。据报道,IBM Watson 能够在 10 分钟内阅读并剖析 20,000,000 份医学文献、论文和病理报告,而一名研究人员一年却只能够阅读 200-300 份医学文献。通过海量的数据积累、对比和分析,Watson 还能在众多医学领域协助医生为病人提供个性化的专业治疗建议。

2017 年 7 月 11日,美国神经学会官方杂志 Neurology® Genetics 发布了一项研究结果,纽约基因组中心 ( NYGC ) 的研究人员、洛克菲勒大学( Rockefeller University )、其他 NYGC 成员机构及IBM 公司联合宣布, IBM Watson for Genomics ( IBM Watson 基因解决方案)能够分析通过全基因组 DNA 测序获得复杂基因组数据。研究期间,IBM Watson能够在 10 分钟内提供有临床可行性的报告。相比之下,通过人工分析和处理获得类似结果则需 160 个小时。

如果基因组直接面向用户是怎样的情况?Mirza Cifric 希望这次合并能够改善使用遗传数据的消费者体验,甚至可以将其整合到日常生活中。例如,将基因组和健康记录与数字助理联系起来,这样根据用户的胆固醇的遗传风险和最新的血液检测结果,Alexa 就可以提示你是否应该再吃一块披萨。当然,基因检测对日常生活的提升并不限于饮食。有些人对非处方药的用量不是很敏感,有了基因检测后,一个快速的查询就可以知道是否应该多吃一片泰诺。

源起个人基因组计划

除了清晰可见的市场需求,由于哈佛医学院基因组研究中心主任乔治·丘奇( George Church ),两家公司在此之前已有渊源。

七年前,丘奇开始一项名为「个人基因组计划」的项目,目标是对 10 万名人类基因组进行测序,并将其健康信息进行关联对比。奕真生物创始人曾参与了这个项目的测序工作,并以产前检测服务为起点,于 2015 年推出了 1000 美元的全基因组产品。

而 Curoverse 的系统最初是为哈佛个人基因组计划开发,媒体称,欧美和亚洲等地的主要基因组测序中心均采用 Curoverse 的服务,对大量数据进行分析处理、管理以及相关数据(如 RNA ,微生物组和成像)的分析。

这还只是存储问题。「此外,测序还将面临特定领域的众多问题,例如某个碱基对的变异、替换、缺失或者增添等问题。」Mirza Cifric 说道。现在听起来简单,但科学家分析的基因组数量是以数百万计的。正是凭借对这些基因变异的分析,科学家们制造了新的药物,并计算出药物对不同人群的疗效。

目前,Curoverse 在存储和分类基因组数据的工作之外,还准备在 600 多万篇冗长的学术论文中,搜索详细描述基因行为的图表、图像及注释等图像信息。这是一项宏伟的计划,因为自然语言处理仍然是目前 AI 领域棘手的问题。

Mirza Cifric 认为,这次收购将有助于奕真生物成为基因数据的巨头。「苹果最近宣布,他们已经在一个季度里出货 4100 万台 iphone 。我认为在不久的将来,我们会在一个季度完成 4100 万个基因组检测。」他说。但考虑到这项服务将近 1000 美元的收费标准,大规模的推广显得有些困难。不过,检测的成本注定会降下来,同时 AI 的应用也将让为基因测序付费成为常态。

2016 年 7 月,奕真生物还在中国成立了办事处。同年 10 月,奕真生物宣布完成共计 2 亿人民币的 B 轮融资,投资方包括礼来亚洲基金 ( LillyAsia Ventures ) 、挚信资本 ( Trustbridge Partners ) 和先声药业。至此,包括 2015 年 A 轮融资在内,累计获得融资总额 3 亿元人民币。

中国同样是基因测序领域的热土。成立于2013年的医渡云则集中做临床数据挖掘;2014年10月成立的奇云诺德,构建了一站式生物信息大数据平台,包括基因数据发动机、大数据挖掘软件、数据可视化工具以及订制化流程;同样是在2014年成立的聚道科技( GeneDock )提供基因大数据云计算服务平台,今年 3 月 6 日发布基于云计算的人全基因组标准化分析服务——GeneDock HG,可以实现在约 5 小时内完成一个样本的标准分析,支持约 100 个样本数据的并行处理;2015 年,药明康德旗下明码生物科技为英国国家基因组计划提供罕见病及癌症临床数据解析服务,明码生物科技已经可以实现从测序到数据存储,再到数据解析一站式的服务。(原文经过编辑删减与修改)

相关推荐