探索 | 机器学习可以达到放射科医生看胸片的水平么?(下文)

点击上方关注,All in AI中国

探索:利用对抗性网络实现人类水平的胸部x线胸片器官图像分割 。

探索 | 机器学习可以达到放射科医生看胸片的水平么?(下文)

这是由两部分组成的系列文章的第2部分。请参阅第1部分了解胸部x线(CXR)分割的挑战和临床应用,以及医学成像(尤其是CXR)为何迫切需要人工智能来扩展。

回顾第1部分

胸部X射线(CXR)分割的任务是识别CXR中的肺野和心脏区域:

探索 | 机器学习可以达到放射科医生看胸片的水平么?(下文)

左:日本放射学会CXR。右图:相同的CXR上覆盖着人类标记的左肺、右肺和心脏轮廓。

在许多临床应用中,肺分割直接导致一个关键的临床指标心胸比(CTR),从而导致心脏肥大的诊断。

设计解决方案

考虑到使用CXR的挑战(参见第1部分),我们首先设计了基于完全卷积网络(FCN)的分割模型。然后在结构校正对抗网络(SCAN)框架中增加了对抗训练,达到了人类的水平。

让我们深入研究设计的模型和思维过程。

使用完全卷积网络(FCN)进行分段

分割模型输入尺寸H x W x C(高、宽、通道)的图像,其中RGB值C = 3, CXR等灰度图像C = 1。然后,模型输出每像素类的概率H x W x T,其中T是类的数量。在我们的例子中,对于[左肺,右肺,心脏,背景]T= 4,当心脏分割标签不可用时(例如在一个数据集中)T=3。

我们设计的网络是完全卷积的,它用1x1卷积替换了完全连接的层。我们从类似于VGG的架构开始,大约有16个权重层和许多特征图(或卷积通道):第一个卷积中有64个特征图,最后一层翻倍到512个通道。所得到的模型具有较大的容量(>1亿个参数),能够较好地拟合训练数据,但在测试数据上表现较差。这清楚地表明,我们的数据集太小,无法支持这样的大型模型。

由于CXR图像是具有标准化结构的灰度图像,我们减少了滤波器的数量,发现使用8个特征图进行第一次卷积,而不是VGG中的64个,结果得到了很大的改善。然而,我们很快就遇到了模型容量限制。为了提高模型容量,我们进行了更深入的研究。最终我们得到了一个网络,有21层:

探索 | 机器学习可以达到放射科医生看胸片的水平么?(下文)

分割网络结构。

模型中参数总数为271k,比基于VGG的分割模型小500倍。

分割模型的性能

探索 | 机器学习可以达到放射科医生看胸片的水平么?(下文)

并集上的交集(IoU)的计算之间的地面真相面具和预测分割

由于模型非常小(很少有参数),我们可以在209个CXR示例上从零开始训练它。我们使用IoU指标来评估肺和心脏切片的质量。(见上图)IoU的范围在0到1之间。

我们使用日本放射学会(JSRT)的CXR数据集和另一项研究的标签来准备JSRT数据集,包括247个CXR(209个用于培训和验证,38个用于评估)。这个分割网络,我们称之为FCN的全卷积网络,性能非常好:

探索 | 机器学习可以达到放射科医生看胸片的水平么?(下文)

请注意,人类的表现并不完美,受限于内在的主观解释,需要划定界限。人类观察者开出的较低的心脏欠条表明心脏边界特别难以推断(参见第1部分中的挑战)。

FCN的失效模式

将性能较差的示例中发生的情况可视化并进行故障分析通常是有帮助的。下面我们将在JSRT数据集上训练的模型应用于JSRT和另一个数据集(我们称之为Montgomery):

探索 | 机器学习可以达到放射科医生看胸片的水平么?(下文)

每一列都是一个病人

左边两列是来自JSRT评估集的患者,他们的模型是在JSRT开发集上训练的。右边两列是来自Montgomery数据集,使用的模型只训练于完整的JSRT数据集(没有Montgomery数据),这是一个更具挑战性的场景。注意,只有JSRT dataset(左两列)有用于评估心脏区域IoU的心脏注释。

在上面的图片中,注意到不同数据集的cxr由于不同的设备、医疗操作人员和人口等因素看起来非常不同。因此,适应新的数据集域是一项更加困难的任务。在知道这一点的前提下,我们发现,没有看到来自该人群的图像,分割模型也在用于肺分割的Montgomery数据集上取得了令人惊讶的效果。

这些案例揭示了CXR图像在不同样本间对比度不同所带来的困难。例如,在上图中,最右侧患者的胸腔顶端被误认为是内部肋骨,导致面罩"出血"呈现黑色背景,其强度与肺野相似。纵隔周围的血管结构(两个肺之间的"白色物质")和前肋骨也可以有类似的强度和纹理作为外边界,导致严重的错误,如中间两列所示。

结构校正对抗网络(SCAN)

失败案例告诉我们,模型需要有全局结构的感觉,以避免像前面的例子那样出现严重的失败。例如,任何接受过基本训练的人都知道,心脏应该或多或少呈椭圆形,而肺野的顶端应该是平滑的,横膈膜与胸腔的夹角应该是尖锐的。但是我们应该如何将这些知识传授给FCN分割模型呢?

虽然对知识进行数学编码并不容易(例如,一个锐角到底有多大?),但是很容易判断预测的分割是否看起来自然。在机器学习术语中,这被称为二元分类问题。这自然导致以下对抗性框架:

探索 | 机器学习可以达到放射科医生看胸片的水平么?(下文)

该框架提出了结构校正对抗网络(扫描)框架的概述,在对抗设置下联合训练分割网络和critic 网络。分割网络产生逐像素类预测,批评者可以选择使用ground truth标签或分割网络的预测(可选使用CXR图像),并输出输入的是ground truth(训练目标1)还是分割网络预测(训练目标0)的概率估计。

这里增加的关键是,分割网络的预测不仅是通过每个像素损失(即预测的掩码与地面真实值逐像素匹配的程度)来评估的,而且通过批评者网络给出的"整体观感"评估。精明的读者可能会注意到,这与生成式对抗网络(GAN)非常相似。实际上,这个框架可以看作是条件GAN,我们根据输入CXR图像生成掩码,而不是原始GAN中的随机噪声向量。

在我们的工作中,我们设计的批评者网络在很大程度上反映了分割网络的架构。在本文中可以找到训练目标、模型超参数和实验设置等细节。

SCAN的性能

在深入研究这些数字之前,我们应该澄清一下SCAN中的评论网络只涉及到训练阶段。在测试过程中,我们只使用了与FCN架构相同的分割网络。换句话说,我们希望通过添加批评者网络,我们可以用某种方式更好地训练相同的分割网络,使用批评者网络的指导,鼓励相同的分割网络向着更"自然"的预测发展。考虑到这一点,我们重复对JSRT数据集的评估:

探索 | 机器学习可以达到放射科医生看胸片的水平么?(下文)

对JSRT数据集的评估。FCN只是分割模型。

注意,在不改变FCN架构的情况下,SCAN绝对提高了1.8%的FCN性能,达到人类水平,大约是94.6%的肺部IoU!让我们再来看看我们失败案例中的4位困难患者:

探索 | 机器学习可以达到放射科医生看胸片的水平么?(下文)

每一列都是一个病人

左边两列是来自JSRT评估集的患者,其中的模型是在JSRT开发集上训练的。右边两列是来自Montgomery数据集,使用的模型只训练于完整的JSRT数据集(但没有Montgomery数据),这是一个更具挑战性的场景。注意,只有来自JSRT数据集的两名患者(左两列)有用于评估心脏区域IoU的心脏注释。这些示例并不是精心挑选的结果,但实际上是更困难的情况。例如,请注意最左边一栏扫描到的91.4%肺IoU已经远远低于我们评估中平均94.7%的IoU(参见上面的评估表)。

正如你所看到的,所有4种情况都"固定"得相当令人满意。此外,请注意,与扫描相比,扫描在每个肺野的外下角(肋膈角)产生更真实的锐角。角通常不影响每像素的性能,但在下游诊断任务中可能很重要(例如,检测肋膈角变钝)。

在临床设置中,仅仅有一个良好的表现是不够的,但重要的是要避免预测中的严重错误,因为它们会影响医生对人工智能的信任。通过使用对抗性学习框架,SCAN改进了每个像素的度量以及预测的"整体外观和感觉"。这两者在临床环境中都很重要。

与现有的CXR分割技术进行比较

上面的评估表显示,我们的方法在CXR肺野分割("基于注册"的方法)方面大大优于现有的技术水平。由于我们的工作是CXR分割的第一个深度学习的解决方案,了解非深度学习解决方案的复杂性是很有帮助的:

探索 | 机器学习可以达到放射科医生看胸片的水平么?(下文)

用于(Candemir et. al., TMI (2014))的CXR肺分割管道

Candemir et. al.,TMI(2014)的方法包括sift特征提取、形态转换、寻找肺形态相似的患者作为候选CXR分割、图形切割等,从而得到最终的分割结果。每个阶段都需要不同的调优参数,由于预测是基于具有相似肺剖面的变形患者,当新患者的肺与现有训练数据有足够的差异时,性能就会受到影响,我们将在后面看到这一点。

Candemir et. al., TMI(2014)中的复杂管道与神经网络的简单性形成了鲜明的对比,神经网络可以自己学习特征和形状。手工制作的功能,如SIFT和一系列精细的形状操作的日子已经一去不复返了。

进行一些定性比较有助于理解SCAN如何优于Candemir等,TMI (2014):

探索 | 机器学习可以达到放射科医生看胸片的水平么?(下文)

左边两列来自JSRT评估集(使用基于JSRT开发集的模型),右边两列来自Montgomery集。

对于左边的两列扫描产生更现实的轮廓周围的尖锐的肋膈角。这在基于注册的模型中可能是一个挑战,因为检测和匹配肋膈角是困难的。对于右边的两列(Candemir et. al., TMI(2014)),由于测试患者肺剖面(来自Montgomery数据集)与JSRT数据集中现有肺剖面不匹配而导致的挣扎,导致了非自然的口罩形状。

最终的想法

关于人工智能对CXR的诊断准确性有很多传闻。然而,基于人工智能的CXR诊断可能充满了放射科医生的怀疑。虽然有一些令人兴奋的结果,但通常更容易进入相对来说改变较小的医院,如心肺比率(CTR)计算,可以从肺部分割得出(见第1部分)。自动的CTR计算很容易解释,而且通常非常准确。我们发现,有时更重要的是获得医生和领域专家的信任,通过使用强大的人工智能很好地支持他们现有的工作流,而不是使用不太成熟的人工智能解决方案更改工作流。希望本案例的研究能为其他医疗人工智能解决方案的开发提供最有益的借鉴。

相关推荐