斯坦福科学家发布用于药物研究的深度学习算法
机器之心报道
参与:李泽南、黄小天
人工智能算法可以识别精妙的信息,这使得它们能够区分照片中的人,或像医生一样识别屏幕中的医疗图像。但这样的能力通常依赖于数万条数据的训练。这意味着人工智能不能在缺乏数据的任务中展示自己的能力,如新药开发领域。
斯坦福大学化学教授 Vijay Pande 和他的学生们认为这种情况已经得到解决。他们展示了一种有前途的深度学习方式——one-shot learning,只需要很少的数据就可以解决问题。
斯坦福大学化学教授 Vijay Pande
「我们正在尝试在新药设计的初始阶段应用机器学习,特别是深度学习,」Pande 介绍道。「问题在于:如果你有了数千个药物设计的例子(用于训练机器学习模型),这基本上意味着你已经开发出新药了。」
该小组承认,将 one-shot learning 使用在药物设计问题中还远远不够——可供使用的数据看起来太少了。但他们在此前的研究中仅需要数百条数据就成功训练了模型,而用于测试 one-shot learning 的数据足够,这看起来值得一试。
出乎意料的是,他们的研究成果(发表在 4 月 3 日的《ACS Central Science》上)显示了 one-shot learning 方法在新药开发和其他化学研究领域上具有很大潜力。
从图片到分子
One-shot learning 在机器学习领域并不是全新事物,它已经被其他研究者应用在了图像识别和基因组学等方面,但把它应用在开发新药上看起来有些不同。图片像素和基因组可以自然地输入进算法,而小分子结构却不能。
为了让分子信息更易被算法接受,研究者们首先根据原子之间的连接方式代表分子(这在数学领域里被称为图)。这一步以算法可以处理的形式成功凸显了各化学成分的固有特性。
通过图表示法,研究小组用两个数据集训练了他们的算法——一个数据集有关化学物毒性,另一个则是已有药物成分中有副作用的部分。在第一个数据集中,研究人员仅训练了 6 个化学成分,模型成功预测出了另外 3 种化学成分的毒性。而在第二个数据集上,他们在 21 个任务中训练算法与带有副作用的药物相关联,并对剩余 6 种进行了测试。
在两个任务中,算法预测化合物毒性和副作用的能力得到了验证。
「我们在研究了一些原型算法之后发现在给出少量训练数据的情况下,它们可以在接收新数据后得出非常准确的预测,」Pande lab 的学生,该论文联合作者 Bharath Ramsundar 表示。
当然,这一方式并不能解决所有问题。Ramsundar 向人们警告:One-shot learning 并不是魔法。新研究是建立在目前 one-shot leanring 发展上的又一个进展,它的预测依赖于不同分子的距离,这是分子式的间接形式,每次训练只能识别特定的信息。如果研究者训练算法识别毒性后让其进行副作用的预测,算法就会完全崩溃。
来自实验主义者的帮助
那些担忧人工智能取代人类工作之人将不会对这一研究产生任何恐惧。研究人员将其看作开发化学家使用的潜在工具的准备工作,这些化学家的研究还处于起步阶段,正努力从一组有希望的候选中选定深入研究的分子。
Ramsundar 说:「现在,人们靠预感做出这种选择,这也许是一种对作为实验主义者的帮忙人的赞美。」
在药物设计之外,这一工具也将广泛应用于分子化学。毕竟,Pande 实验室正在太阳能电池的不同化学成分上测试这些方法。他们也已经编写了用于实验开源的所有代码,并可作为深度化学库(DeepChem library)的一部分使用。
Pande 说:「这篇论文首次把 one-shot 用于这一空间,看到机器学习的这一领域飞速发展令人激动;但这远没有结束,并且仅是一个开始。」
论文链接:
http://pubs.acs.org/doi/full/10.1021/acscentsci.6b00367
项目 GitHub:
https://github.com/deepchem/deepchem