前沿|科学家利用生成对抗网络寻找新型抗癌药物分子

选自DRUG

Moscow Institute of Physics and Technology

参与:黄小天、蒋思源


前沿|科学家利用生成对抗网络寻找新型抗癌药物分子

演示中的AAE架构。来源:MIPT新闻办公室

来自Mail.Ru集团、Insilico药业和MIPT的科学家首次将生成神经网络应用于制造令人期盼的药物。通过使用生成对抗网络(GAN)开发和植入新分子结构,使得寻找具有潜在药物疗效的物质的时间和成本锐减。研究者试图通过此技术寻找可用于肿瘤、CVD以及抗感染的新药物。最初的成果在2016年6月提交到了 Oncotarget 杂志,并历经了几个月的审评。自此之后,这个团队做出了很多系统改善,并参与了一些领先医药公司的工作。

目前,无机分子库包含数以亿计的物质,其中的一小部分被用作医疗药物。制药的药理学方法通常具有继承的属性。例如,药理学家可能继续研究用作药物很多年的阿斯匹林,也许在阿斯匹林中添加一些东西就可以降低副作用或提高药效,并且阿斯匹林本身并无改变。今年早些时候,Insilico药业的科学家证明,运用深度神经网络缩小研究范围是可行的。但是现在他们正集中精力面对一个更具挑战性的问题:用数以百万的分子结构进行训练的深度神经网络有没有机会从概念上创造一种具有医疗属性的新分子?

生成对抗网络的扩展——生成对抗自编码(Generative Adversarial Autoencoder)架构作为基础,与已知的药物性能和用于系统训练的有效浓聚物进行了混合。混合类型的信息输入到了网络之中,随后做些调节,保证在输出中获得同样的数据。网络本身由三个结构元素组成:编码器、解码器和鉴别器,其中每一个在与另外两个的合作之中具有独特的角色。编码器和解码器一起工作压缩并储存母体混合物(parent compound)上的信息。同时辨别器的工作是使这个压缩更适用于随后的恢复。一旦网络学习了大量已知分子,编码器和辨别器关闭,网络运用解码器自动生成分子描述。

开发基于文本输入以产生高质量图像的生成对抗网络需要具备丰富的专业知识和长时间训练的高性能计算设备。但是,有了图像和影像,人类可以快速执行输出的质量把控。在生物学中,质量把控不能通过人类的肉眼观察来执行,并且需要大量的验证实验来产生大分子。

所有分子都表征为“SMILEs”或者是化学成份的图形注释,这样其结构就能够还原了。一般学院的教学是不适合这种网络的,但是 SMILE 也不能将此工作完成得十分有效,因为它们有从1个符号到200个符号的随机长度。神经网络的训练要求其向量维度要和描述长度(description length)相等。而分子的“指纹”将有助于解决这个难题,因为这种指纹包含了整个分子的全部信息。现在有很多方法来制造这种指纹,但是研究者使用的是最简单的166位二进制文件。因此研究者们可以将SMILE转化为指纹并用来训练神经网络,然后研究者们就可以将已知药物化合物的指纹作为神经网络的输入。

构建神经网络的目的是为了分配内部神经元之间的参数权重,所以由特定的输入才能产生特定的输出。该操作将会重复很多次,因为这种迭代涉及到怎样使用巨量数据训练神经网络。当开发者移除神经网络第一层,神经网络能够在遍历信息时再一次自动生成指纹,研究者们就创建了一个可以由特定输入产生特定输出的“黑匣子”。科学家因此而建立了7200万分子的指纹,然后再比较网络生成的指纹和基本指纹。分子的选择必须潜在拥有一些特性。

该研究的论文作者 Andrei Kazennov 和在 Insilico 药业工作的 MIPT 研究生评论道:“我们创造了一个再生性(reproductive type)的神经网络,即可以生成用于训练的相似对象。我们最终训练此网络模型以根据特定属性创建新的指纹。”

抗癌药物数据库可以用来检测网络。首先神经网络使用一半的药物分子指纹进行训练,然后使用剩下的进行检测。该模型的目的是进行预测已知但又未包含在训练集内的药物分子。该模型预测识别了69种分子,并且还有数百个分子在使用更强大的扩展方案进行开发中。

该研究的作者,Insilico 药业创始人和 MIPT 国际副教授 Alex Zhavoronkov 说:“与深度学习中的许多流行方法不同,生成对抗网络(GAN)直到最近2014年才由 Ian Goodfellow 和 Yoshua Bengio 团队提出来,并且科学家仍然在探索其在生成有意义的图像、视频和艺术音乐作品上的强大性能。现如今,研究的进程在加快,很快我们就会看到源自于将生成对抗网络和其他方法相结合而带来的巨大进步。但我们团队所做的一切都是为了让人类的生命更加长久、坚强和高效。当人类踏上火星,他们需要这些工具更有弹性地面对各种压力,并且能按需生成各种高效药物。我们团队就是致力于提供这些工具的人。”

Mail.Ru 集团搜索优化团队首席程序员、Insilico 药业独立科学顾问 Artur Kadurin 总结道:“生成对抗网络是神经科学的前沿。很明显,它不仅仅可以生成图像和音乐,还可以执行各种各样的任务。借助生物信息学与已知的大量成果,我们有幸能试验这种方法。”

相关推荐