机器学习助力医疗,通过数据分析发现近6000种新病毒
最近,研究者借助 AI 技术发现了近 6000 种前所未闻的新病毒,这一工作已在 3 月 15 号由美国能源部(DOE)组织的一场会议中展示,成为了一种探索发现数量巨大、种类繁多的病毒的新工具。
尽管从人类健康到垃圾降解,病毒的影响力无处不在,却很难被研究。科学家无法在实验室培植绝大多数病毒,确定其基因序列的尝试也多遭失败,因为它们的基因组极小,且进化迅速。
近年来,通过将取自不同环境的样本中的 DNA 进行排序,研究者已经获得了一些未知的病毒。为了确定目前存在的微生物,研究者搜集了已知病毒和细菌的基因特征,就如同文字处理器的「查找」功能会突出显示文档中包含特定字母的单词。但这一方法经常失败,因为病毒学家无法搜集他们不知道的东西。机器学习解决了这一问题,因为它可以发现海量数据中的潜在模式。机器学习算法解析数据,从中学习,接着自动分类信息。
南加州大学洛杉矶分校的计算生物学家 Jie Ren 说:「从前没有研究病毒的好方法,但现在就不同了,我们有了新工具。」
上周日,美国能源部联合基因组研究所(JGI)的计算生物学家 Simon Roux 训练计算机识别不常见的 Inoviridae 病毒家族的基因序列。这些病毒生存在细菌中并改变宿主的行为:比如,它们会使引起霍乱的细菌即霍乱弧菌的毒性变得更强。Roux 在 JGI 组织的会议上(加州,旧金山)展示了其研究,称在他的研究开始前已识别到的基因组种类不到 100 种。
Roux 展示了一个机器学习算法,该算法使用两个数据集:一个包含 805 个来自已知 Inoviridae 的基因序列,另一个包含 2000 个来自细菌和其他病毒的基因序列。算法可以找到一种方式来区分二者。
然后,Roux 向模型馈送大量宏基因组学数据集。计算机恢复了一万多种 Inoviridae 基因组,并将其分成不同种类的集群。这些集群之间的基因变异非常大,意味着 Inoviridae 可能有很多家族。
病毒学习
在另一项独立研究中,巴西圣保罗大学的生物信息学家 Deyvid Amgarten 应用机器学习来在城市动物园的天然肥料堆中寻找病毒。他将算法设计为可以搜索病毒基因组的几个可分辨特征,例如给定长度的 DNA 双链的基因密度。经过训练之后,计算机复原了几种可能是新型的基因组,Amgarten 说。他将这个结果在 JGI 会议上进行了展示。最后一步是学习这些病毒生成的蛋白质种类,然后检查哪些蛋白质将加速有机物的破坏。「我们希望改善肥料的质量。」他说。
Amgarten 是从去年报告的一项机器学习工具即 Ren 的团队开发的 VirFinder 中得到灵感的。VirFinder 被设计用于寻找 DNA 碱基组合,例如 DNA 双链中的 AT 或 GC。Ren 将算法应用到从健康人和肝硬化患者(由肝炎或慢性酒精中毒导致的疾病)的脸部取样的宏基因组。机器将取样的病毒完成了分组之后,该团队注意到样本中某些特定类型的基因组在健康人群中相对更少或更多,这意味着这些基因组相关的病毒可能导致了疾病。Ren 的成果是一项很诱人的发现:生物医学研究者长期以来一直很困惑,到底是哪些病毒导致了那些疑难杂症,例如慢性疲劳综合症(也称为肌痛性脑脊髓炎),以及炎症性肠病。
康涅狄格州法明顿市的基因组医学杰克逊实验室的免疫学家 Derya Unutmaz 推测,病毒可能触发了一些毁灭性的反应,或者改变了人体微生物群系的细菌行为,从而使新陈代谢和免疫系统变得不稳定。Unutmaz 说,通过应用机器学习,研究者可以发现患者体内仍被隐藏的病毒。此外,由于 AI 可以在大规模数据集中发现模式,该方法也许可以将病毒数据和细菌关联起来,然后和症状相关的蛋白质变化关联起来。「机器学习可以揭示出我们甚至从没思考过的问题。」Unutmaz 说。
原文地址:https://www.nature.com/articles/d41586-018-03358-3