斯坦福Nature论文新突破:深度学习皮肤癌诊断达专家水平
选自斯坦福
机器之心编译
为了让人们能获得更好的医疗,斯坦福大学的研究者已经成功训练了一个可以诊断皮肤癌的算法。该研究的相关论文《Dermatologist-level classification of skin cancer with deep neural networks》已经发表在 Nature 上。本文编译自斯坦福大学的官方介绍新闻,读者可在文末查看论文摘要和点击「阅读原文」查阅原论文。
预约一个医生帮你检查一颗痣是否会癌变已经非常可怕了,但想像一下,如果你住的地方又离最近的医生非常远,没有时间做检查或者没有钱跑那么远去做检查该怎么办?在这种情况下,通过手机诊断疾病会是一种救急的选择。
通常,皮肤科医生使用皮肤镜(dermatoscope)来观察皮肤,这是一种手持显微镜。斯坦福的计算机科学家创造了一个可以进行皮肤癌诊断的人工智能诊断算法,表现可媲美通过职业认证的皮肤科医生。
在计划创造皮肤癌人工智能诊断算法的时候,斯坦福的计算机科学家想的是能让治疗普遍可及。他们做了一个包含近 13 万张皮肤疾病图像的数据集,然后训练算法能在视觉上诊断潜在的癌症。在首次测试中,它就展现出了惊人的准确率。
「我们意识到这是可行的,而且可以做得很好,」斯坦福人工智能实验室副教授 Sebastian Thrun 说。「那时我们的思想改变了。那时我们会说,‘看,这不仅仅是一个学生的课堂项目,而是为人类做伟大事情的一个机会’。」
该项目最终的成果论文发表在 1 月 25 日的 Nature 杂志上,该结果已经过了 21 位认证皮肤科医生的对比测试。在该论文中的最常见的和最致命的皮肤癌的诊断上,该算法的表现已能媲美皮肤科医生。
为什么选择皮肤癌?
美国每年都有 540 万人患皮肤癌,在早期检测到的黑色素瘤的 5 年生存率在 97% 左右,如果晚期查出 5 年生存率将会下降 14%,皮肤癌的早期发现可能会对其结果产生巨大的影响。
皮肤癌的诊断始于视觉检查。医生通常用肉眼观看皮肤镜来检查可疑的病变。皮肤镜是一种手持式显微镜,可低倍率放大皮肤表面。如果这些方法都是不确定的,或者无法让皮肤科医生确定病变是癌变,那么下一步就要用到活检。将该算法纳入检测过程迎合了当下将视觉处理与深度学习相结合的计算趋势——深度学习是一种对大脑神经网络建模的人工智能。深度学习在计算机科学中已有几十年的历史,但最近才被应用到视觉处理任务上,并取得了巨大的成功。包括深度学习在内的机器学习的本质就是训练计算机来解决问题,而不是把答案编进程序。
「我们做了一个非常强大的机器学习算法,它能从数据中学习,」该研究相关论文的合作者、Thrun 实验室的研究生 Andre Esteva 说,「你让算法找出答案,而不是把要找的东西写入计算机代码。」
该研究相关论文的合作者、Thrun 实验室的研究生 Andre Esteva
该算法处理的是带有一个相关疾病标签的图像的原始像素。与其他训练算法的方法相比,该方法需要的处理非常少,也不需要在分类之前对图像进行分组,这允许算法处理种类更广泛的数据。
从猫狗识别到黑素瘤和癌症的诊断
研究人员并没有从头开始构建算法,而是从谷歌已经训练识别了 128 万张 1 千种类目标的算法基础上进行开发的。虽然谷歌这套系统是为识别猫和狗设计的,不过研究员需要它能学会区分良性脂溢性角化病(benign seborrheic keratosis)和恶性肿瘤。
这篇论文的主要联合作者,Thrun 实验室的研究生 Brett Kuprel 说:「现在情况是没有巨大的皮肤癌数据集来训练我们的算法,所以我们只能自己做了,我们从互联网收集数据,并与医学院合作对混乱数据(标签就含有多种语言,如德语、阿拉伯语、拉丁语等)进行良好的分类。」
Thrun 实验室的研究生 Brett Kuprel
经过必要翻译后,研究人员与斯坦福医学院皮肤科医生以及本论文的联合作者、斯坦福微生物学和免疫学教授 Helen M. Blau 合作处理影像资料。这个跨学科的团队一起对互联网上混乱的影像进行分类。其中很多影像资料并不像医疗专业人员拍摄的那样专业,而是从各个角度、焦距和照明下拍的。最后,他们累积了约 130,000 张皮肤病变的图像,这些图像展示了超过 2000 种不同的皮肤疾病。
在测试期间,研究者只使用了由爱丁堡大学和国际皮肤影像合作项目(International Skin Imaging Collaboration Project)提供的高质量和活组织检测证实(biopsy-confirmed)的影像,其代表着最常见最致命的皮肤癌:恶性肿瘤和恶性黑素瘤。这需要询问 21 个皮肤科医生他们通过每一张影像决定是进行活组织检测(biopsy)或治疗还是判断不是恶性疾病。因此研究人员评估了皮肤科医生在超过 370 张影像中能够正确诊断癌性和非癌性病变的准确程度。
算法的性能是通过构建敏感性(特异性曲线)进行衡量的,其中敏感性(sensitivity)代表着正确识别恶性病变的能力,特异性(specificity)代表着正确识别良性病变的能力。其是通过三个关键性诊断任务进行评估的:角化细胞癌的分类、黑素瘤的分类和通过皮肤镜检查的黑素瘤分类。在所有的三个任务中,该算法的表现媲美皮肤科医生,灵敏度曲线之下的区域达到整个曲线图区域的 91%。
该算法另外的优点是它的敏感性能进行调整,研究者可以根据他们想要评估的东西从而调整其响应度。这种改变敏感性的能力暗示着该算法的深度与复杂性。看似无关照片中潜藏的架构——包括猫和狗的图像,都有助于算法更好地评价皮肤病变影像。
通过智能手机实现的医疗
尽管该算法目前用于计算机,但团队希望未来它能够兼容于智能手机,让可靠的皮肤癌诊断触手可及。
「我意识到用在智能手机是多么的独特,那是我灵光乍现的一刻」Esteva 说,「每个人口袋中都有一个超级计算机,上面有大量的传感器,包括摄像头。如果我们把它用来筛查皮肤癌会怎么样?或其他疾病呢?」
虽然该团队相信把算法过渡到移动设备会相对简单,但仍需要在现实世界的临床试验上进行进一步的测试。
计算机辅助分类良性和恶性皮肤疾病的发展能够极大地帮助皮肤科医生改进对高难度疾病的诊断,并向病人提供更好的管理选择。」该论文的合作者、斯坦福癌症研究所 Pigmented Lesion & Melanoma 项目的负责人 Susan Swetter 教授说,「然而,在算法用于临床实践之前,还需要从业者与病人等进行严格的验证。」
即使面临着如此多的挑战,研究人员依然感觉很有希望:深度学习某天能够在多种医疗领域为视觉化诊断做出贡献。
该研究的其他合作者包括:皮肤病学、病理学临床助理教授 Robert Novoa,皮肤病学临床副教授 Justin Ko。
论文:用深度神经网络实现皮肤科医生水平的皮肤癌分类(Dermatologist-level classification of skin cancer with deep neural networks)
摘要:皮肤癌是人类最常见的恶性肿瘤,目前主要是通过视觉诊断的。一般首先是临床筛查,之后可能需要皮肤镜分析、活检和组织病理学检查。使用图像的皮肤病变自动分类是一个具有挑战性的任务,因为皮肤病变的外观是一种细粒度的变化。深度卷积神经网络(CNN)在多种细粒度对象分类的通用的及高度可变的任务中都显示出了潜力。在这里,我们展示了使用一个单一的深度卷积神经网络进行皮肤病变分类的过程,该网络仅使用像素和疾病标签作为输入,直接从图像中端到端地训练出来。我们使用 129450 个临床图像的数据集——大于以前的数据集两个数量级,包含了 2032 种不同的疾病——训练了一个深度卷积网络。我们使用两个关键的二进制分类用例:角质形成细胞癌(keratinocyte carcinomas)vs 良性脂溢性角化病(benign seborrheic keratoses);恶性黑色素瘤 vs 普通的痣,在 21 位经过认证的皮肤科医生的监督下,测试了它在活检证实的临床图像上的性能。第一例代表最常见的癌症的识别,第二例代表了最致命的皮肤癌的识别。深度卷积神经网络在这两个任务上的表现都达到了所有测试的专家的水平,证明了该人工智能的皮肤癌鉴定水平达到了媲美皮肤科医生的水平。配备该深度神经网络的移动设备可以让皮肤科医生的诊断拓展到临床之外。据预测,到 2021 年,将有 63 亿智能手机订阅该功能,实现低成本的重要诊断。