开源人工智能算法一种新颖的超像素采样,网络深层特征估计超像素
开源人工智能算法一种新颖的超像素采样,网络深层特征估计超像素摘要: 超像素提供图像数据的有效低/中级表示,这极大地减少了后续视觉任务的图像基元的数量。 现有的超像素算法无法区分,因此难以集成到其他端到端可训练的深度神经网络中。 我们为超像素采样开发了一种新的可微分模型,利用深度网络来学习超像素分割。 由此产生的超像素采样网络(SSN)是端到端可训练的,它允许学习具有灵活损失功能的特定于任务的超像素,并具有快速运行时间。 大量的实验分析表明,SSN不仅在传统的分割基准测试中胜过现有的超像素算法,而且还可以学习其他任务的超像素。 此外,SSN可以轻松集成到下游深度网络中,从而提高性能。
开源人工智能算法一种新颖的超像素采样网络深层特征来估计任务特定的超像素简介:超像素是通过基于低级图像属性对图像[33]进行分组而形成的图像的过分割。它们提供了图像内容的感知上有意义的细分,从而减少了后续图像处理的图像基元的数量。由于它们具有代表性和计算效率,超像素已经成为一种既定的低/中级图像表示,并广泛应用于计算机视觉算法,如物体检测[35,42],语义分割[15,34,13],显着性估计[18,30,43,46],光流估计[20,28,37,41],深度估计[6],跟踪[44]等等。超像素尤其广泛用于传统能量最小化框架,其中少量图像基元极大地降低了优化复杂性。
近年来,对于广泛的计算机视觉问题采用深度学习的情况急剧增加。除了一些方法(例如,[13,18,34]),超像素几乎不与现代深度网络结合使用。这有两个主要原因。首先,形成大多数深层结构基础的标准卷积运算通常定义在规则网格上,并且当在不规则超像素网格上运算时效率低下。其次,现有的超像素算法是端到端可训练网络架构中的可区分模块。在这项工作中,我们通过提出一种用于超像素分割的新的深度差分算法来缓解第二个问题。我们首先回顾一下广泛使用的简单线性迭代聚类(SLIC)超像素算法[1]并通过放松最近邻居con将其转化为可微分算法SLIC中存在束缚。这种新的可区分算法允许端到端训练,并使我们能够利用强大的深度网络来学习超像素,而不是使用传统的手工制作功能。
开源人工智能算法一种新颖的超像素采样网络深层特征来估计任务特定的超像素贡献:这个组合了具有可微差分SLIC的深度网络构成了我们称为超像素采样网络(SSN)的端到端可训练超像素算法。图1显示了所提出的SSN的概述。给定的输入图像首先通过a深度网络在每个像素处产生特征。然后将这些深度特征传递到可微分SLIC上,SLIC执行迭代聚类,从而产生所需的超像素。整个网络是端到端的可训练的。 SSN的可区分性允许使用灵活的损失函数来学习特定于任务的超像素。图1显示了一些样本SSN生成的超像素。
包括BSDS500 [4],Cityscapes [10]和PascalVOC [11]在内的3种不同分割基准数据集的实验结果表明,所提出的超像素采样网络(SSN)对现有的主要超像素算法表现出色,同时也更快。我们还通过简单地将我们的SSN框架集成到使用超像素的现有语义分割网络[13]中来证明,实现了性能改进。此外,我们展示了SSN在学习其他视觉任务的超像素方面的灵活性。具体来说,在Sintel光流数据集[7]的概念验证实验中,我们演示了如何学习更好地与光流边界而不是标准物体边界对齐的超像素。
与现有的超像素算法相比,所提出的SSN具有以下有利特性:- 端到端可训练:SSN是端到端的可训练的,可以轻松集成到其他深层网络架构中。据我们所知,这是第一个端到端可训练的超像素算法。-Flexible和task-speciftc:SSN允许学习灵活的损失功能,从而学习特定任务的超像素。- 最先进的性能:对各种基准数据集的实验表明,SSN优于现有的超像素算法。- 有利的运行时间:SSN在运行时方面也有利于突出的超像素算法,使其适合在大型数据集上学习,并且对实际应用也有效。
深度聚类。受到监督任务深度学习成功的启发,有几种方法研究了深度网络在无监督数据聚类中的应用。最近,Greff等。人。 [17]提出神经期望最大化框架,他们使用的模型集群标签的后验分布深度网络并展开EM程序中的迭代步骤以进行端到端培训。在另一项工作[16]中,梯形网络[31]用于建模用于聚类的分层潜变量模型。好时等人。 [19]提出一个用于分离和分割音频的基于深度学习的聚类框架信号。谢等人人。 [40]提出了一个深度嵌入式聚类框架,用于同时学习特征表示和聚类分配。在最近的一份调查报告中,Aljalbout等。人。 [3]给出了基于深度学习的聚类方法的分类。在本文中,我们还提出了一个基于深度学习的聚类算法。与以前的工作不同,我们的算法是针对超像素分割任务而定制的,其中我们使用特定于图像的约束。此外,我们的框架可以轻松地结合其他视觉目标函数来学习任务特定的超像素表示。
预处理:SSN的核心是一种可区分的聚类技术,其灵感来自SLIC [1]超像素算法。在这里,我们在下一节描述我们的SSN技术之前简要回顾一下SLIC。 SLIC是最简单的,也是最广泛使用的超像素算法之一。它易于实现,具有快速运行时间,并且还可以生成紧凑且均匀的超像素。尽管SLIC算法有几种不同的变体[25,27],但在原始形式中,SLIC是在五维位置和颜色空间(通常是缩放的XY Lab空间)中对图像像素执行的k均值聚类。从形式上看,给定图像I Rn×5,在n个像素处具有5维XY Lab特征,超像素计算的任务是将每个像素分配给m个超像素中的一个,即,计算像素 - 超像素关联图H 0,1,...,m 1 n×1。 SLIC算法如下操作。首先,我们在5维空间中对初始聚类(超像素)中心S0 Rm×5进行采样。这种抽样通常是在像素网格上均匀地进行,并且基于图像梯度进行一些局部扰动。给定这些初始超像素中心S0,SLIC算法以迭代方式进行,在每次迭代t中具有以下两个步骤:
开源人工智能算法一种新颖的超像素采样网络深层特征来估计任务特定的超像素网络架构:图3显示了SSN网络架构。用于特征提取的CNN由一系列与批量标准化[21](BN)和ReLU激活交织的卷积层组成。我们使用max-pooling,在第2和第4个卷积层之后将输入下采样2倍,以增加感受野。我们对第4和第6卷积层输出进行双线性上采样,然后与第2卷积层输出连接,以传递到最终的卷积层。我们使用3 3个卷积滤波器,每层输出通道数设置为64,除了输出k 5个通道的最后一个CNN层。我们将此k 5通道输出与给定图像的XY Lab连接,从而产生k维像素特征。我们选择这种CNN架构的简单性和高效性。其他网络架构是可以想象的。得到的k维特征被传递到可微分SLIC的两个模块上,迭代地更新像素 - 超像素关联和超像素中心以进行v次迭代。整个网络是端到端的可训练的。