医药行业的真实深度神经网络架构
未来十年,全球经济预计将翻番,新兴市场有30亿消费者。65岁以上人口的老龄人口正在稳步增加。预计到2050年该比例为16%,而2010年为8%。这推动了实现更快更好的药物开发技术以满足需求的需求。典型的药物开发周期需要15年,每种药物需要约26亿美元,即使我们可以在时间表和成本方面稍作改善,节省的潜力也很大。在本文中,我们将介绍机器学习(特别是深度神经网络)如何用于满足日益增长的需求并扰乱医药行业。
在本文中,我们将着重介绍机器学习可用于制药行业的三个领域,以解决当前的挑战。
药物发现
有许多危及生命的疾病尚未找到治疗方法,如癌症、艾滋病、老年痴呆症等。最近的一项研究发现,阿尔茨海默氏症和其他形式的痴呆症在5年内的平均花费超过28.7万美元,而听力疾病和癌症的发病率分别为17.5万美元和17.3万美元。在这条从研究到生产的医疗管道中,花费了大量的时间和金钱去寻找更好的可持续的治疗方法。机器学习,尤其是深度学习,是为了找到更好的治疗方法,实现更快的药物发现,最终降低治疗成本。
分子的不同可能性和它们在新药中的可能组合是一个复杂的数学问题,考虑到这些数据的大小和多样性。为了简单了解药物发现问题的规模,我们来看看https://dash-drug-explorer. ly/的交互式药物演示。
这个演示显示了药物和化学结构在分子水平上的列表,其中使用了一个三维图表,对溶解度,酸强度(pkA)和Log P进行了绘图.Log P是Lipinski's Rule of 5的一个组成部分(也是称为辉瑞公司的五项规则或RO5)。评估药物相似性或确定具有某种药理学或生物学活性的化合物是否具有使其成为人类可能的口服活性药物的性质,这是一条经验法则。
除了化学结构外,每种药物都有详细的表格,其中列出了所有的单个分子。关于这些不同分子如何根据它们的组成以及它们如何用于化学药物而有详细的分类。例如,对于左旋布比卡因药物,药物明细表位于https://www.drugbank.ca/drugs/DB01002
由于分子在药物发现过程中具有无数的可能性,因此时间表长得如 self-explanatory graphic。
下图展示了该临床管道的不同阶段。让事情更具挑战性的是,即使在动物实验成功后,90%的人类临床试验都失败了。
这个时间轴通常可以分为四个关键阶段:
研究医学文献:第一步是找出先前文献中发表的药物,疾病和蛋白质之间的关联,以找出当前的差距。这将有助于找到新的潜在药物的目标分子。
选择所需药物的性质:下一步是寻找具有类似结构骨架的药物(使用结构活性关系(SAR)和化学支架的方法发现),但具有可用于治疗正在考虑的疾病的改善的性质。
· 确定具有所需特性的分子:一旦我们确定了治疗某种疾病的药物特性,下一步就是确定一个与此特征密切相符的分子。这是计算复杂的一步。举个例子,一个标准数据库由7200万个不同的分子组成。如果考虑到所有分子的总体可能性,这个范围在10⁶3到10⁰⁰之间,合成一个新分子可能花费数万美元。
实验:一旦我们确定了所确定的一组分子,下一步就是通过临床试验对动物和人类进行药物FDA批准。
考虑到这种数量的数据在品种和数量上都很广泛,以及经历挑选分子的不同排列的时间和成本,可以使用AI和机器学习算法来选择可以用于药物期望特性的分子。对于实验步骤,在临床追踪过程中,可以利用AI和Deep Learning在仿真环境中进行利用。我们将看到深度学习如何被证明是有效的,因为他们使用可用的公共毒品数据集进行快速学习。这里有三个用于药物发现的模型的神经网络架构的例子。
使用递归神经网络(RNN)进行生物活性建模
有不同的符号来显示分子结构,其中之一被称为SMILES。它代表简化分子输入行输入规范(SMILES)。这是分子的线符号,SMILES字符串是由氢以外的元素符号表示的原子。例如,苯(C6H6)表示为c1ccccc1。正如您可以看出分子表示的重复性质(尤其是碳氢化合物)与机器学习中的序列数据类似。这是使用RNN或长期短期记忆(LSTM)网络的良好问题空间。
在本文中,化学语言模型在包含来自ChEMBL数据库的140万个分子的SMILES文件上进行了训练。该数据库中有一份药物清单,显示某种药物是否使疾病活跃或不活跃,这使得它成为监督分类机器学习用例。利用这些药物与疾病之间的映射数据,他们能够预测一种新药是否可用于治疗疾病。作者采用了三层叠加LSTM层的RNN,每层都有1024个尺寸,每个层都有一个压差比为0.2的压差层,以促进模型的更好学习。为了产生新颖的分子,从模型符号中抽取50,000,000个SMILES符号。架构如下所示。
结果:通过使用LSTM架构并筛选出重复,获得了847,955个新的分子。
使用卷积神经网络(CNN)预测小分子的生物活性
AtomNet是首个基于结构的深度CNN,旨在预测用于药物发现的小分子的生物活性。CNN很适合分类图像。当我们通过显微镜观察药物图像时,我们可以看到它的生物活性,即分子如何在某个方向上移动以及它们如何相互作用的模式。除此之外,我们还可以看到这些如何与某种疾病作出反应。以下是AtomNet的架构。
它由一个输入层,后面跟着多个3D卷积和全连接层组成,顶层是一个logistic-cost层,用于分配活动和非活动类别的概率。
结果:一旦我们了解了所有这些不同药物的图谱,一旦我们有了新的药物,我们就可能如何与某种疾病相互作用,就像我们在标准图像分类问题中所做的那样。
使用生成敌对网络(GAN)的ChemGan
最近有研究表明,ChemGAN的作者已经应用了生成对抗网络(GAN)来解决药物发现问题。GAN架构使用2个互相竞争的神经网络。在这种情况下,例如,我们有一个现有的药物数据库,发生器产生一种新的又名新。鉴别器从产生的药物中产生药物,并确定它是真正的药物还是假药。这个过程一直持续到发生器生成的数据点非常好,鉴别器不再能够区分“假货”和真正的假货。两者正在使用梯度下降进行更新,这是随着时间推移的优化策略。两人都在与时间学习,最终模型达到了纳什均衡。
ChemGAN的作者提出了一种基于GAN变体称为Adversarial Autoencoders(AAE)的生成铅分子的体系结构。这里的想法是学习从它们的潜在表示中生成对象。自动编码器是神经体系结构,它将一个对象作为输入,并尝试返回与输出相同的对象。在体系结构的中间,输入通过中间层学习潜在表示(最小的一组特征,以后续层可以解码对象的方式对输入进行编码)。以下是ChemGAN中使用的架构。
在这种架构中,自动编码器必须从输入中提取真正重要的功能。
结果:使用期望的药物性质作为条件训练模型以产生分子的指纹。然后可以在临床试验过程中测试这些新型药物组合的有效性。
药物基因组学
药物基因组学研究基因如何影响一个人对药物的反应。该领域将药理学(药物研究)和基因组学(基因研究及其功能)结合起来,开发有效和安全的药物和剂量,根据个体的基因构成为个体量身定制。目前的“一刀切”的药物管理方法并不适用于所有人。一些患者表现出良好的进展,而一些患者除了对药物的反应缓慢外,还表现出不利的副作用。药物基因组学为基于诊断测试中的基因型,作为伴随诊断(CDx)的价值以及药物发现和开发等应用提供了许多应用,例如药物优化。面临药物开发所需的成本和资源投资不断上升的制药公司,已经开始认识到基因组学在药物发现方面的潜力,并且在较小程度上认识到临床试验参与者的分层以减轻不良事件并提高疗效。通过药物基因组学可以改善表型驱动疗法的不同类型的收集数据的持续增长也对准确的治疗响应和结果预测提出了许多挑战,如下图所示。
药物基因组学的深度学习
从大型数据库中提取可用的知识需要先进的计算方法,可以找到模式,进行预测,检测和分类以及可视化数据分析。目前用于药物基因组学中知识提取的方法包括统计学方法,机器学习,以及最近的深度学习。因此,需要采用新的基于深度学习的预测分析方法来加速发现新的药物基因组学标记,预测分层群体患者的药物疗效,以尽量减少药物的潜在不良反应,并最大限度地提高治疗的成功率。
上图显示了一个理想化的药物基因组学深度学习应用示例。首先,在各种现有数据集和/或其组合上训练深度神经网络。根据数据的类型和手头的任务,数据集的预测结果可以是已知的(监督学习),部分已知(半监督学习),或者不知道所有(无监督学习)。由于体系结构的灵活性,神经网络能够进行多模式学习,即从多个不同的数据集和数据类型联合学习,而不需要明确定义共同特征
传染病控制
监测传染病过程的做法传统上严重依赖监测和专家意见。一旦收集到监测数据,公共卫生官员会与主题专家进行磋商,并设计并实施控制传染病爆发的适当措施。但是,这些行动并不总是有效地协调,并且不会快速发生,从而无法迅速作出可最大限度地降低发病率和死亡率的决策。建模是通过使用现有数据提供爆发轨迹的定量估计填补先发性传染病决策中的空白的工具。虽然建模是对标准文档的改进,但人工智能(AI)技术正在以非常快的速度发展。
季节性流感是影响全球许多人的重大全球健康问题。这里的模型显示了数据驱动的机器学习方法如何能够实现将气候因素和地理邻近度的影响相结合的实时流感预报。
由于其序列框架,该模型为时间序列预测问题提供了合适的架构。上图显示了由反向传播算法根据均方误差成本函数(训练准则)训练的展开LSTM单元组成的网络架构。在时间t-i的相应LSTM细胞接收由前驱细胞(ot-i-1)和输入xt-i计算的流感计数以计算在t-i,ot-i处的流感计数。对于模型中的所有LSTM单元重复该过程。LSTM单元的数量表示当前时间之前的时间步数T。为了计算当前状态下的流感计数t,使用来自前面T个时间步长的数据点。每个气候变量如湿度,日照,降水量,温度对地理区域流感传播有不同程度的影响。深度神经网络模型也会考虑这些变量。
所提出的方法为改进实时流感预测模型的性能提供了有希望的方向。此外,所提出的方法可能对其他严重的病毒性疾病如埃博拉病毒和寨卡病毒有用。在本文中,我们针对气候变量和地理空间近端变量实施了单独的学习组件
结论
本文展示了在适用于医药行业的三个关键领域中使用深度神经网络的最新尖端实际应用。目前学术界正在开展积极的研究来了解这些应用。当使用深度神经网络和机器学习的原理来解决这个领域的复杂问题时,医药行业的未来看起来很有希望。