「AI全球大战医生」Hinton:5-10年内深度学习取代放射科医生
新智元报道 微信公众号:新智元(AI_era)
【新智元导读】2017年4月,Hinton在接受《纽约客》采访时说:“5年内深度学习就能超过放射科医生,从现在起就停止培训放射科医生”。此言论一出,再一次引发全球关于AI正在取代医生的焦虑讨论。IEEE Spectrum在2018新年伊始推出专刊“AI vs Doctors”,统计了从2016年5月至今,AI在医疗领域的进展,并对比各大细分领域AI与人类医生能力差距,人工智能正在医生的主场获取成功,哪些医疗诊疗行业已被AI超越?机器人医生是人类的未来吗?
2017年4月,Hinton在接受《纽约客》采访时说:“作为放射科医生你就像卡通里的歪心狼一样,你已经冲出悬崖很远,但还没有往下看,实际上你的脚下空空如也。”商用的深度学习乳腺癌检测系统已经在开发中,Hinton说:“很显然,5年内深度学习就能超过放射科医生,或许会用10年,我在医院里说过,结果反响很糟糕。”
实际上,Hinton在医院里说的是,“应该从现在起就停止培训放射科医生”。
Hinton告诉《纽约客》记者:“放射科医生的角色从做感知(perceptual)的事情演变而来,这可能由一只训练有素的鸽子完成。”Hinton对自动化医学未来的预测建立在一个简单的原则基础之上:“在有大量数据的地方,采取旧的分类问题,这将通过深度学习来解决。将有数以千计的深度学习应用。”
Hinton希望使用学习算法来读取各种X射线,CT扫描和MRI数据,这正是他认为的近期前景。
将来,“学习算法会做出病理诊断”,可能是读取巴氏涂片、听心音,或预测精神病患者的复发。
AI可以帮助医生、护士,减少他们的工作量。人类往往无法长时间处理大量的扫描影像和医疗数据,这导致有时候病变会被看漏,或者过了很久之后才被发现,AI正好可以解决这个问题,极有希望在不久的将来,在医疗领域掀起又一次技术革命。
肺炎:斯坦福大学的算法诊断肺炎好于医生
去年9月,美国国家卫生研究院曾发布一组数据,这给斯坦福大学教授吴恩达领导机器学习小组带来了启发。该组数据包含112,120个胸部X射线图像,标有14种不同的可能的诊断,以及一些初步的算法。研究人员要求四名斯坦福放射科医师对420张图像进行注释,以查找可能的肺炎迹象。
在一个星期内,斯坦福大学研究人员开发了一种名为CheXnet的算法,它能够比以前的算法更准确地发现原始数据集中的14种病理学中的10种。在经过大约一个月的训练之后,研究人员通过康奈尔大学图书馆发表的一篇论文中报告说,CheXnet比四位斯坦福放射科医师更能准确诊断肺炎。
在420张X光片上进行测试的ChexNet在灵敏度(正确识别阳性)和特异性(正确识别阴性)方面优于四名放射科医师。个人放射科医师用橙色X表示,他们的平均表现用绿色X表示,ChexNet用蓝色曲线表示。
斯坦福大学还创建了胸部X射线的热图,颜色代表最可能代表肺炎的图像区域,研究人员认为CheXnet可以极大地帮助人类放射科医生的工具。
AI比医生的标准方法更准确地预测心脏病发作和中风
目前而言,评估患者风险的标准方法依赖于美国心脏协会和美国心脏病学会制定的指南。医生使用这些指导方针,重点关注诸如高血压、胆固醇、年龄、吸烟和糖尿病等完善的风险因素,为他们的病人制定咨询和治疗方案。
英国诺丁汉大学的研究人员创建了一个AI系统,可以扫描病人的常规医疗数据,并预测哪些人在10年内会发生心脏病或中风。与标准预测方法相比,AI系统正确预测了355名患者的命运。
为了使系统做得更好,研究人员Stephen Weng及其同事为英国378256名病人测试了几种机器学习工具。这些记录追踪了2005年至2015年的患者及其健康状况,并包含了人口统计,医疗状况,处方药,医院访问,实验室结果等信息。
研究人员将75%的病历记录下来,并将其输入到机器学习模型中,以找出在10年内发生心脏病或中风的患者的显着特征。然后Weng的小组测试了另外25%的记录中的模型,看他们如何准确地预测心脏病发作和中风。他们还测试了该部分记录的标准指南。
如果使用1.0分表示100%的准确性,那么标准指导得分0.728,机器学习模型的范围从0.745到0.764,最好的分数来自一种称为神经网络的机器学习模型。
虽然机器评分听起来可能不是一个响亮的胜利,但当翻译成人类术语时,其意义就变得清晰了:神经网络模型预测,在7404例实际病例中,有4998例患者心脏病发作或中风,这超过标准355例方法。有了这些预测,医生可以采取预防措施,例如开药降低胆固醇。
自闭症:AI扫描婴儿脑部以预测自闭症
北卡罗来纳大学教堂山分校的一个研究小组发现了6个月大儿童大脑的变化与自闭症的关系,而深度学习算法能够使用数据,预测在24个月时自闭症高危儿童是否会被诊断为病症。
该算法正确地预测了高危儿童的最终诊断,准确率为81%,灵敏度为88%。与行为问卷相比算法的表现不错,因为问卷产生早期的自闭症诊断准确率只有50%。
这个研究小组的项目是由美国国家卫生研究院资助,项目招募了106名患有自闭症家族史的婴儿和42名无自闭症家族史的婴儿,并在孩子们6、12、24个月时扫描他们的大脑。算法仅使用三个变量 —— 脑表面积、脑容量和性别(男孩比女孩更可能有自闭症),算法确定了十个自闭症孩子中的八个。
研究人员发现,在6个月和12个月之间,婴儿的整体脑部发育没有任何变化,但后来被诊断为自闭症的高危儿童的脑表面积显着增加。表面积的增加与12至24个月之间发生的脑容量增长有关。换言之,在自闭症中,发育中的大脑首先在表面积上扩展了12个月,然后在整个体积中增加了24个月。
这个团队还在24个月的时候对孩子进行了行为评估,当时他们已经够大了,开始表现出自闭症的标志性行为,比如缺乏社会兴趣,语言延迟和重复的身体动作。研究人员指出,大脑过度生长越多,孩子的自闭症症状就越严重。
皮肉切割手术精准度,机器人击败了外科医生
在最近的一系列实验中,智能自主机器人STAR的发明者表明,它能比专家外科医生执行更精确的切割,并且对周围健康组织伤害更小。
STAR通过视觉追踪其预定的切割路径,切割工具并不断调整其计划以适应自身移动,最终完成工作。
对于这种视觉追踪,机器人依赖于研究人员事先在组织上放置的微小标记,这些标记显示在近红外摄像机上。研究人员因此将STAR称为半自主机器人。
机器人和外科医生都被要求切割直线5厘米的线。由于外科医生训练在已知标志之间切割组织,而不是切断绝对距离,因此在皮肤上绘制参考线。一些外科医生在开放式手术设置下进行了切割,而另一些外科医生进行了腹腔镜设置,这是日益普遍的手术操作,其中工具通过一个小孔插入。
机器人和人类都是根据它们偏离理想长度的理想切割线以及包围切口多少焦炭(受损的肉)来判断的。结果:STAR的切割长度接近5厘米,与理想的切割线偏离较少,并且导致焦点较少。
深度学习能帮助临床医生预测阿尔茨海默病(老年痴呆)吗?
阿尔茨海默病没有临床试验,因此医生通过评估患者的认知能力下降来诊断。但对于轻度认知功能障碍(MCI)的诊断特别困难,即症状不明显的早期痴呆阶段。而且更难预测哪些MCI患者会发展为阿尔茨海默病。
目前,哈佛大学领导的研究小组率先尝试将fMRI扫描和深度学习结合到一个能预测MCI患者发展为阿尔茨海默病的概览的项目中。静息时对患者进行fMRI扫描,与任何fMRI扫描一样,它们揭示了大脑中电信号的闪烁以及这些区域如何相互关联。
这种关系的术语是功能连接性,并且随着患者发展MCI而改变。这是因为信号依赖氧气流向神经元,但是阿尔茨海默病患者中tau蛋白的积累会扼杀这些神经元,导致脑部区域萎缩。
该小组想要看看他们是否可以使用功能连接的这些变化来预测阿尔茨海默病。他们从93名MCI患者和101名由阿尔茨海默病神经成像倡议提供的正常患者的数据开始。研究人员根据参与者大脑90个区域的130个fMRI测量结果的时间序列,可以确定信号在一段时间内闪烁的位置。
接下来,在一个关键的步骤中,这个小组处理这个数据集来创建这些信号在大脑区域相对于彼此的强度的二次度量。换句话说,他们构建了功能连接图,显示了哪些区域和信号彼此关系最密切。
最后,团队建立了一个深度学习计划,可以解释这些模式的强度,并结合有关年龄,性别和遗传风险因素的临床数据,预测一个人是否会发展为阿尔茨海默病,准确率高达90%。
机器人进行外科手术的多种尝试
如今,一些手术程序已经出现了智能机器的身影。机器人通常在一些程序中执行关键步骤,包括矫形膝关节置换,激光眼科手术和头发移植。这些手术的共同之处在于其目标的固定性质,因为在手术过程中可以固定腿骨,眼睛和头部。软组织手术更混乱,更难以自动化,因为身体的所有粉红色部分都转移并且很难追踪。
当前最先进的软组织手术机器人是Intuitive Surgical的da Vinci系统,但它并不是自动化的。达·芬奇是一个远程操作系统,外科医生坐在控制台上,操作灵巧操作的控制装置,通过患者体内的小工具进行模拟。
而上文所介绍的STAR,是通过整合一些不同的技术解决了软组织的挑战。其视觉系统依靠放置在肠组织中的近红外荧光(NIRF)标签;专门的NIRF相机跟踪这些标记,而3D相机记录整个手术区域的图像。综合所有这些数据,STAR能够把重点放在目标上。机器人为缝合工作制定了自己的计划,并在操作过程中随着组织的移动调整了计划。
一位外科手术机器人领域的外部专家称这项研究为一项突破,但也表示,其局限性是,自主机器人“不会很快进入手术室”。华盛顿大学自主外科手术机器人的先驱Blake Hannaford指出机器人所依赖的NIRF标签是由人类放置的。
治疗脑癌:时间与质量的权衡
在治疗脑癌时,时间至关重要。
2017年8月,发表在《神经学遗传学》(Neurology Genetics)杂志上的一项报告表明,在得到同样的测序信息后,IBM Watson用10分钟提出了一个治疗方案,而人家专家团队使用了160个小时。但是,这一结果并不能简单地看做是机器的胜利。
该案例中的患者是一名76岁的男子,他去看医生,抱怨头痛,行走困难。脑部扫描显示该男子脑部有恶性胶质母细胞瘤肿瘤,外科医生很快就该肿瘤切除。该名男子也接受了三周的放射治疗,开始了长期的化疗。但是,尽管得到了最好的照顾,他还是在一年内死亡。
虽然IBM Watson和医生都分析了病人的基因组,并且都提出了治疗方案,但等到手术的组织样本被测序之后,病人的身体已经衰退得太过厉害。
研究人员将IBM Watson进行的基因组分析结果,与NYGC的医学专家团队进行比较,后者由治疗肿瘤科医师,神经肿瘤专家和生物信息学家组成。
IBM Watson和专家团队都收到了病人的基因组信息,并确定了显示突变的基因,通过医学文献查看这些突变是否已经在其他癌症病例中发现,寻找药物治疗成功的报告,并检查这位患者有资格参加的临床试验。不过,人类专家团队做完这些,花了160个小时,而Watson则在10分钟之内做完。
但是,Watson的解决方案是最快提出的,但可能不是最好的。NYGC的临床医生确定了两个基因突变,综合考虑后,医生建议患者参加一个针对两种组合药物治疗的临床试验。而如果当时病人的身体条件允许,那么他将被纳入这个试验。
但是,Watson没有这样综合考虑这个信息,因此没有建议进行临床试验。
先天性白内障诊断,AI与人类医生打平
中山大学眼科医生Haotian Lin与西安电子科技大学Xiyang Liu的研究小组合作,开发了一种能诊断先天性白内障的AI程序CC-Cruiser,利用深度学习算法,预测疾病的严重程度,并提出治疗决策建议。
在计算机模拟中,CC-Cruiser能够以98.87%的准确度区分患者和健康个体。评估疾病严重程度时,在三个关键指标(晶状体混浊面积、密度和位置)上,准确度都超过了93%。不仅如此,系统提供的治疗建议的准确率,也达到了97.56%。
在临床试验中,CC-Cruiser的表现也十分出色:98.25%的识别准确率,所有三个疾病严重指标评估准确率超过92%,治疗建议准确率为92.86%。
但Lin强调,这种技术还“不足够”,因为目标是以100%的准确性来确定最佳的治疗过程。目前系统能做的,是帮助医生,给出识别和治疗建议,同时防止潜在的错误分类。
所以,CC-Cruiser并不会让眼科医生很快就失去工作。而且,人的交流和情感互动是医疗当中不可或缺的,而模拟人类的情感对于机器来说非常具有挑战性。
医患之间面对面的互动,将成为人类智能的最后堡垒之一。
皮肤癌诊断,AI算法与人类医生表现几乎相同
斯坦福大学的研究人员开发了一种深度学习算法,识别皮肤癌的准确率与专业的人类医生相当,相关研究论文被选为封面论文,在2017年2月的一期 Nature发表。
研究人员训练系统观看了近13万张痣、皮疹和其他皮肤病变的图像,覆盖了2000多种不同的疾病类型。他们使用这一数据集创建了图像库,并将其作为原始像素提供给算法,每个像素都带有标签,描述了相关疾病的附加数据。
为了测试算法的性能,研究人员找来斯坦福医学院的21名皮肤科医生。实验中,算法和人类医生需要完成三项任务:①角质细胞癌分类、②黑素瘤分类,以及③使用皮肤镜检查的结果对黑色素瘤进行分类。
在最后一项测试中,研究人员仅使用了高质量、经活检证实的恶性黑色素瘤和恶性癌的图片。研究人员让参与测试的人类医生观看这些图片,并询问他们是“进行活检、治疗,还是安慰病人”。算法在发现所有癌性病变和不得到假阳性结果两方面都表现良好,综合准确率为91%,与人类医生表现相当。
斯坦福大学的研究人员希望在不久的将来将他们的这项技术投入实用,让更多人获得更好的医疗服务。试想一台就在你智能手机里的皮肤癌检测仪,随时随地方便使用。
AI赋能显微镜能计算血液样本中的疟疾寄生虫
近日,一家中国制造商和由比尔·盖茨支持的风险投资公司将宣布计划将显微镜商业化,该显微镜使用深度学习算法在20分钟内自动识别和计数血液中的疟疾寄生虫。AI驱动的显微镜可以加速诊断,并实现标准化规模化检测。
AI赋能显微镜的实验版本已经显示,它可以很好地检测疟疾寄生虫,以达到世界卫生组织最高显微镜标准,称为能力等级1.该等级意味着它可以与训练有素的显微镜专家,尽管研究人员指出,一些显微镜专家仍然可以胜过自动化系统。
正在开发的EasyScan GO显微镜将结合明场显微镜技术和运行深度学习软件的笔记本电脑,该软件可以自动识别导致疟疾的寄生虫。人类实验室的工作人员大多将注意力放在制备血液样本的玻片上,在显微镜下观察并验证结果。
Intellectual Ventures在华盛顿贝尔维尤的首席研究员本·威尔逊(Ben Wilson)表示,疟疾寄生虫为深度学习算法提出了一个棘手的“罕见的对象问题”,通常需要大量的训练数据来准确地识别对象。
微小的疟疾寄生虫可能只会出现在血涂片的数百个显微镜图像中少数几次,在感染水平非常低的情况下,10万个红细胞中可能只有一个疟疾寄生虫。
该解决方案需要将深度学习和用于分割图像中感兴趣事物的传统计算机算法相结合。它还需要大量基于制备的显微镜载玻片的培训数据。
原型显微镜扫描每张幻灯片的速度大约与专家人类显微镜专家相当,每张幻灯片20分钟。但威尔逊预计最终能够将扫描时间缩短一半,每张幻灯片只需10分钟。
更重要的是,即使现有版本的显微镜可以补充有限数量的训练有素的显微镜可用于确定疟疾和追踪多药耐药性疟疾。 Motic公司的Nunnendorf说:“从本质上讲,这是一个巨大的效率提升,而不是实验室技术人员的机器人替代。
一般性诊断,医生绝对优势击败AI
根据Benton基金会2013年的研究,约三分之一的美国成年人已经通过访问在线网站来检查他们的症状。哈佛大学医学院的医生Ateev Mehrotra说:“APP和网站”是普通人士常用的诊断工具。
BMJ(以前称为“英国医学杂志”)在2015年发表的研究中,Mehrotra和他的研究小组为23例症状检查者提供了45例标准患者的症状,包括后来诊断为哮喘和疟疾的患者。该小组发现,约三分之一的时间,检查员列出了正确的诊断。
在新的实验中,研究人员将检查者的准确性与234名医生、研究人员和居民的准确性进行了比较。对于每一个案例,至少有20名医生提供了一个在线平台,列出排名前三名的诊断。
医生们给出正确的诊断结果正确率在72%,而应用程序则为34%。
原文地址:https://spectrum.ieee.org/static/ai-vs-doctors