Nature子刊主编谈AI+医疗的颠覆性潜力|腾讯AI Lab学术论坛演讲
腾讯AI Lab第二届学术论坛近期已结束,我们将在之后的文章陆续带来会上顶级嘉宾的演讲内容和相关的延伸阅读。本文是国际顶级科学期刊《自然·生物医学工程》资深编辑 Pep Pàmies带来的主题演讲。
3月15日,腾讯AI Lab第二届学术论坛在深圳举行,聚焦人工智能在医疗、游戏、多媒体内容、人机交互等四大领域的跨界研究与应用。全球30位顶级AI专家出席,对多项前沿研究成果进行了深入探讨与交流。腾讯AI Lab还宣布了2018三大核心战略,以及同顶级研究与出版机构自然科研的战略合作(点击这里查看详情)。
腾讯AI Lab希望将论坛打造为一个具有国际影响力的顶级学术平台,推动前沿、原创、开放的研究与应用探讨与交流,让企业、行业和学界「共享AI+未来」。
Pep Pàmies
国际顶级科学期刊《自然·生物医学工程》主编
在 16 日的「AI+医疗」论坛上,国际顶级科学期刊《自然·生物医学工程》主编 Pep Pàmies 做了主题为《人工智能在医疗领域的颠覆性潜力》的演讲。
Pep Pàmies是《自然》2017年1月新推出的子刊《自然-生物医学工程》主编,该杂志致力于传播人类健康和医疗保健技术的杰出研究成果。此前,他在《自然-材料学》从事了5年多的编辑工作,处理包括组织工程学、医学成像、再生医学、癌症治疗和诊断等在内的多个领域和主题的论文,推动生物材料学方面的科学传播。Pep Pàmies曾在美国哥伦比亚大学化学系、德国马克斯•普朗克胶体和界面研究所、荷兰原子与分子物理学研究所进行过计算软物质和生物物理方面的研究。他于2003年在西班牙的罗维拉-威尔吉利(RoviraiVirgili)大学获得化学工程博士学位。
演讲内容
人工智能即将大幅度改变临床医学。数据获取、调节和数字化方法、计算基础设施和算法训练方法的快速发展,预示着人工智能将在几乎所有医疗领域和疾病上得到应用。
本演讲将介绍最具颠覆可能性的医疗保健应用,以及一些可能会阻碍其发展的社会经济难题。
以下为演讲全文(为便于阅读进行过适当编辑整理):
非常感谢各位,我非常荣幸来到这里。
我想用一个小笑话来开始今天的演讲:为了让飞机飞起来,我们需要一台计算机、一位飞行员和一条狗。这台计算机的任务是控制飞机飞行,飞行员的任务是喂狗,而狗的任务则是在飞行员试图操作计算机时咬他。
当然这只是一个笑话,但我想说的有两点。第一,现在我们确实在用计算机帮助驾驶飞机,但我们可能并不认为那是 AI。我认为 AI 本身也是一个不断演进的目标,当计算系统或算法在我们的生活变得很常见时,我们就不再认为那是 AI 了。
第二,驾驶飞机的计算机很可靠和安全,整个行业都在使用。也许我们并不完全信任它们,但我们还是需要它们来驾驶飞机,因为飞机上的几百条生命都取决于它们的可靠运行和降落。
现在我们看到,AI 有可能变革很多领域,尤其是医疗领域。但现在我们还处在人工智能发展非常早期的阶段。和驾驶飞机一样,在医疗方面我们也还不能完全信任算法。我会给出一些例子来说明。
现在的可穿戴设备上配置了很多传感器,相关设备上也有分析这些传感器数据的算法。能查看这些数据当然很好,但我想看到更多信息,比如我的健康状况如何、心血管是否健康、身体状况是否有所改善。这些分析也许都需要用到 AI。所以要让可穿戴设备帮助我们实现更健康的生活,还有很长的路要走。
今天我会谈到这些内容。首先 AI 必将改变临床实践,但目前 AI 在临床上的成功案例还很少。我只知道一个案例刚刚得到了美国 FDA 和欧洲的批准,用机器学习算法分析心脏的核磁共振成像(MRI),帮助心脑血管疾病或心脏病的诊断和治疗。这只是一个案例,我们还有很长的路要走。然后我会讨论一下为什么 AI 技术的临床应用这么难,我主要会从社会经济和行为沉默(behavioural reticence)方面进行说明。最后我还会谈谈哪些医疗应用最有可能更早走向成熟,实现颠覆。
上个月我们杂志发表了我写的一篇社论。我谈了谈机器学习(我这里主要是指用于机器视觉的监督式卷积神经网络)对医疗的影响。到目前为止,各种文献上发表的有关医疗 AI 的论文主要是在疾病诊断上,尤其是眼科诊断方面效果很显著。为什么呢?因为获取用于诊断的视网膜照片比较容易,而且眼科领域在诊断相关疾病上已经有了一些标准的模式和方法。现在的算法能够利用已有的结构化信息来发现图像中的模式。这就是眼科诊断方面的不同之处。我接下来会介绍其中几篇论文。大家可能也知道,有些算法已经达到了医生乃至医生团队的水平。
大家可能知道上图中的这篇论文,因为很多媒体报道过。这是谷歌第一篇使用卷积神经网络预测糖尿病性视网膜病变(diabetic retinopathy)的论文。糖尿病性视网膜病变是由高血压导致的视网膜中的血管问题,这会发展成真正的出血问题,并可能最终导致失明。
这是典型的接受者操作特性(ROC)曲线。可以看到它的纵坐标表示灵敏度,横坐标表示特异度。其中一条线是神经网络算法的表现,这些点是不同医生的结果。可以看到算法的表现和医生的结果差不多好。所以这个算法能够诊断糖尿病性视网膜病变。
上图是另一个关于眼部疾病的研究,两周前刚发表在 Cell上。你也可以看到有类似的 ROC 曲线。
另外还有一篇我们几周前发布的论文,也是来自谷歌的研究成果。它也是利用了视网膜图像,但不是为了诊断眼病,而是为了诊断心血管疾病,尤其是五年发病风险。谷歌通过他们的深度学习方法可以预测心血管疾病的风险因素,比如血压、年龄、性别。虽然这方面还有更多工作要做,但这项工作表明这是有可能实现的,有望用来为公众进行疾病筛查。
这是试图打开黑箱的一项研究。大家知道,深度学习算法就像是黑箱一样,我们很多时候难以解读它们是如何得到结果的。使用显著图(saliency map),可以把确定年龄、性别、是否吸烟、HbA1c 等因素的关键信息点对应到原始图像上。图中绿色的标记就是其中的信息,比如年龄因素和血管的分布相当匹配,性别因素的关键信息主要在中间。这样的信息可以被医生用来对算法进行评价。
上图是我们一年前发表的一篇论文,是来自中国研究者的一篇出色论文。我相信这是人工智能算法在眼病上的第一次临床试验——具体而言是检测先天性白内障。先天性白内障是一种罕见疾病,他们只有几百张图像,但分布比较集中,因为先天性白内障是儿童甚至婴幼儿阶段检查到的疾病。
他们的算法的表现差不多接近执业眼科医生。图中蓝色方块是检测准确的结果,橙色和棕色是错误的结果。这种算法目前正在进行临床试验,这样既能给医生提供帮助,也能在医生的帮助下得到更好的训练。另外,这个系统是部署在云上的,实现了多家医院的合作。因为罕见病的数据本来很少,这样的合作能聚合多家医院的数据和医生,从而有助于更快地开发出更好的系统。
上图是《自然》去年发布的一篇关于检测黑素瘤的论文,这个算法的表现同样也接近医生。因为黑素瘤有不同的类型和阶段,所以有时候医生也难以判定。而这个算法能很好地识别不同类型的黑素瘤。
虽然我们这里看到的都是比较容易拍照检测的位置——眼睛和皮肤,但我们也可以使用算法来检测 X 光照片、超声图像等。
上图是一个与临床不相关的研究,是关于使用 CRISPR 进行基因编辑的。这项技术所面临的一个主要问题是脱靶效应(off-target effect)。脱靶效应是指用于编辑特定基因的蛋白可能偏离目标,破坏基因组中的其它基因,因为这些基因可能具有相似的模式。我们可以根据基因规则和模拟来预测脱靶效应发生的可能性。这里的 Elevation 方法使用了机器学习,可以看到表现优于其它方法。这是人工智能可以发挥作用的又一领域,而且预计 CRISPR 技术将在未来 5-10 年内得到临床应用。
上图的研究是关于病理学的,是我们去年发表的一篇论文。我们想从这些图像中了解有关病理的内容,这方面我们看到了图像系统的优势。一般来说,检测肿瘤时,首先会取一些未经处理的人体组织,然后在实验室中用化学方法进行检测,查看细胞的模式等等,但也可以使用图像系统来做这件事。可以看到,上面使用 SRH 的结果很接近下面的使用传统 H&E 方法的结果;但 SRH 的结果不需要在化学实验室中来做,实际上这是一种基于受激拉曼散射显微成像的方法。可以看到不同的细胞有不同的模式,可以用机器学习来进行识别;实际上他们也这么做了,实验结果也确实非常不错。
这些研究都很好,但绝大多数都没有在临床实践上得到应用,甚至都没有临床试验。因为所有这些算法都需要得到验证,而且验证的数据不能只来自某家医院,而需要多家不同医院的数据。因为不同医院的系统可能存在些许差异,比如有的系统可能噪声多一点。所以在实现这些系统的实际部署和应用上还有很多工作要做。
我们在部署这些系统上还面临着哪些社会经济难题呢?
首先,每当我们在一个体系中部署新系统时,都会有人反对。这些系统肯定会改变医疗行业的工作情况——影像科医生和病理医生等的工作都会改变。但并不是说算法会让这些医生失业,这些技术是无法取代临床医生的。而且我们不会一蹴而就地部署这些技术,我们会首先进行试点测试,然后逐步推广——因为我们也需要逐步得到人们的信任,这是非常重要的。此外,诊断和治疗非常注重背景信息,目前的算法在理解背景信息上还远远不行。所以就算放射科医生的工作确实会变化,那也是向更好的方向变化,让他们能免于那些重复的查看模式的任务——算法能在这些任务上做得更好,它们更有原则、不易出错、不知疲倦,而且还不领工资。
我们还需要合适的补偿框架——这些系统产生的利益是谁的?谁为之付费?这些系统应该会很便宜。
当然,必要的临床试用和测试流程也必不可少,在大规模应用之前必须确保系统有用。
还有监管机构方面的认证问题,不同的国家有不同的监管机构,比如中国的食品药监局、欧洲的 CE 认证。
此外,还有数据的共享和隐私问题。算法需要大量数据,但这些数据涉及人们的隐私,你不能公开共享这些数据,为此我们需要加密共享、区块链技术等等。
法律方面的问题也不能忽视。要让你设计的算法得到应用和产生影响,你必须和现有的系统合作,让你的算法得到信任。
最后是「行为沉默」方面,我们要让人们相信算法,否则就无法让这些算法得到应用。为此我们需要做到这几点——
第一点是可解释性。人工智能应该要能解释医疗行为背后的原因,我们需要理解算法是如何得到结果的。我们有一些能够做到这一点的方法,尤其是针对卷积神经网络而言。这是我在谷歌的 Distill 上找到的一个最新案例。他们试图解读深度学习网络的工作方式。这种功能在医疗领域有很重要的价值,能让医生理解这些算法得出特定结论的原因,比如出错的原因。这样有助于构建医生对算法的信任。如果没有这样的信任,算法不可能得到应用,毕竟这事关病人的生命。
第二点是人性问题。我们都认为算法是非常客观的,其实不一定,因为给算法编程的是我们人类,而人类是存在偏见的。而且我们不仅可以通过编程方式和网络结构选择来施加影响,数据集的选择也会产生重大影响。数据中的偏差和偏见也会反映在训练得到的模型上。
第三点是透明。这不仅仅关乎可解释性,因为这些算法直接影响的是病人,所以要让病人知道这些诊断结果和治疗方案来自于算法。要让病人理解这种医疗方式,得到他们的信任。
第四点是责任。谁为算法的决策负责?出了问题怎么办?实际上人工智能的很多不同领域都面临着法律和问责机制方面的问题。
第五点是公平。人工智能应该依据人类的价值观来进行行动,这一点非常重要。
接下来分享我的一点简单看法,我觉得人工智能将最可能首先在这些方面带来重大影响。
首先是图像分割。这方面已经有一些实际应用了。我们可以根据不同的参数,让算法对医疗图像进行分割。
其次是远程医疗。我发手机上就有一个这样的应用叫Babylon,是英国的一个健康系统。你可以在上面使用聊天机器人进行咨询,你也可以付费寻求医生的远程帮助。
第三是虚拟组织学(Virtual Histology)。通过算法对组织图像进行处理,可以得到高质量的可视化数据,从而帮助医生进行诊断。
最后是体外诊断。比如在液体活检方面,有时候难以找到合适的生物标志物,而且有时候一种生物标志物不足以确定某种疾病,而需要多种生物标记物的组合。这也是一种模式识别任务,可以使用机器学习解决。
那么我们现在处在哪个阶段呢?看看这个典型的技术炒作曲线(Hype Cycle),首先人们对一项技术感到兴奋;然后人们的期望达到顶峰,但最后发现实际情况没有这么好,这可能会导致资金撤出,人们的期望破灭。然后经过几年的沉寂,人们终于认清了现实,技术重新迎来发展并产出实际应用。我认为我们处在这个★的位置。在医疗领域,现在对于 AI 的能力有很多炒作的地方。
我们面临的风险是 AI 技术的市场份额不能有效地增长,最后反而衰退。
为什么会有这样的风险呢?《自然》两天前发表的一篇论文中谈到,我们要稳步谨慎地推进 AI 诊断的应用,注重验证和试验,要让用于实际诊断的算法真正有效,这样才能保证公众的接受,才能让投资者相信这是值得投资的而且我们确实能用人工智能来解决一些医疗问题。否则,公众可能会预期过高,但可能多年都没有出现成功的成果,公众就会开始认为这项技术不切实际,投资者也会失望,投资也会随之中断。所以我们要努力让这一领域更注重实际,而不是只着眼于过高的期望。
另外,《自然》将在明年 1 月份推出Nature Machine Intelligence子刊。当然,AI 是这一子刊的一大主要议题,另外还涉及机器人(主要是算法发展方面)以及基于神经科学等学科的智能理论和技术探索。敬请期待。
谢谢大家!