ConvCRF：一种结合条件随机场与CNN的高效语义分割方法

TangowL

2018-05-27

语义分割等结构化预测任务可以从条件随机场等概率图模型获取很多优势，但由于条件随机场的训练速度及训练难度，目前研究者基本上都仅使用卷积网络进行处理。本文提出了一种卷积条件随机场，它能以卷积运算的方式解决 CRF 的两个大问题，并结合 CNN 实现更好的语义分割效果。

语义图像分割旨在为图像中的每个像素生成分类标签，是视觉感知中的一个重要任务。卷积神经网络已在解决语义分割任务上取得了很好的效果 [23,6,7,40]。虽然深层神经网络在提取局部特征和利用小感受野进行良好预测方面效果显著，但它们缺乏利用全局上下文信息的能力，无法直接建模预测之间的相互作用。因此，有人认为，简单的前馈卷积神经网络也许并不是完成类似语义分割等结构化预测任务的最佳选择 [40,20,41]。为了解决上述问题，一些研究者成功地将卷积神经网络的有效性与条件随机场的建模能力相结合，以获得更好的性能 [20,4,41]。尽管结构化模型的成功是无可争议的，但在最近的方法和研究成果却鲜有人问津 [37,7,40]。

我们认为，导致这一现状的主要原因是条件随机场的学习速度非常缓慢，且难以优化。如何为条件随机场等结构化组件学习特征仍然是一个开放性研究问题 [36,20]，许多方法完全依赖于手动设定的高斯特征 [17,41,31,6]。此外，条件随机场的推断比卷积神经网络的推断要慢两个数量级，这使得基于条件随机场的方法在许多实际应用中的运行速度很慢。而当前条件随机场较长的训练时间，也使得人们无法进行更加深入的研究和实验。

为了解决这两个问题，我们提出将条件独立性这一强假设添加到现有的全连接条件随机场（FullCRF）框架中 [17]。这使得我们可以将大部分推断重新表达为可以在 GPU 上高效实现的卷积操作，我们称之为卷积条件随机场（ConvCRF）。反向传播 [30] 可用于训练 ConvCRF 的所有参数，ConvCRF 中的推断可以在不到 10ms 的时间内完成。与 FullCRF 相比，可以获得一到两个数量级的速度提升。我们相信，训练和推断上的速度提升将大大有利于未来的研究，同时我们也希望它可以帮助条件随机场重新成为解决结构化任务的流行方法。

卷积条件随机场

卷积条件随机场（ConvCRF）用条件独立假设补充 FullCRF。如果两个像素 i，j 的曼哈顿距离 d 可以保持 d(i, j) > k 的关系，那么我们认为他们的标签分布是条件独立的。其中我们把超参数 k 称为滤波器尺寸。

局部性假设是一个非常有力的假设，它暗示所有距离超过 k 的像素，成对相关性为零。这极大地降低了潜在成对性的复杂性。因为卷积神经网络基于局部特征处理可以取得很好的效果，那么我们也可以认为该假定在卷积神经网络上也是有效的。这使得卷积条件随机场的理论基础看起来很有前景，因为强大而有效的假设构成了机器学习建模的重要力量。

卷积条件随机场中的高效信息传递

本文的主要贡献之一是证明信息传递在卷积条件随机场中是高效的。因此我们不需要使用 Permutohedral lattice 近似，从而可以进行高效的 GPU 计算和完整的特征学习。为了实现这个目标，我们将信息传递步骤重新配置为带截断高斯核的卷积，并注意到这非常类似于 CNN 中的常规卷积实现。

考虑形状为 [bs，c，h，w] 的输入 P，其中 bs，c，h，w 分别表示批大小，类别数量，输入高度和宽度。对于由特征向量 f_1 ... f_d 定义的高斯核 g，我们为它定义一个大小为 [bs, h, w] 的核矩阵：