Adobe图像处理论文:开源iGAN到深度抠图和风格转换
机器之心报道
Adobe提出深度抠图:利用卷积网络分离图像前景与背景
抠图,一直是一件体力活,它需要大量的操作与时间。而传统抠图算法主要是以色彩为特征分离前景与背景,并在小数据集上完成,而这就造成了传统算法的局限性。在 Adobe 等机构新提出的论文中,其采用了大规模数据集与深度神经网络学习图像的自然结构,从而进一步分离图像的前景与背景。
论文地址:https://arxiv.org/abs/1703.03872
摘要
抠图(Image matting)是一项基本的计算机视觉问题,并拥有广阔的应用空间。当图像的前景(foreground)和背景颜色或复杂纹理类似时,早先的算法表现得差强人意。主要是因为:1. 只有低级特征(low-level features);2. 缺乏高层次上下图境(high-level context)。在本篇论文中,我们提出了一种基于深度学习的新算法,该算法可以解决这两个问题。我们的深度模型分为两个阶段。第一阶段是深度卷积编码-解码网络(deep convolutional encoder-decoder network),该神经网络将图像和相对应的三分图(trimap)作为输入,并预测图像的α蒙版(alpha matte)。第二阶段是一个小型卷积神经网络,该神经网络对第一个网络预测的α蒙版进行精炼从而拥有更准确的α值和锐化边缘。另外,我们还创建了一个大规模抠图数据集(large-scale image matting dataset),该数据集包含 49300 张训练图像和 1000 张测试图像。我们在抠图基准、测试数据集和各种真实图像上评估了我们的算法。实验结果清楚地表明了我们的算法比先前的方法更具优越性。
简介
抠图(Image matting),即在图像或视频中精确估计前景的问题,具有很重要的实用性。它是图像编辑和电影制作的关键技术,高效的自然图像抠图方法能极大地提升当前的图像视频处理流程的效率。并且这种技术是无约束场景(unconstrained scenes)下处理真实世界图像的必要方法。
然而,目前抠图算法还是具有很大的局限性:
首先第一个局限性就是目前用来求解抠图方程式(matting equation)的方法存在问题。
其中 Ii 是像素块 i 的 RGB 色彩,已知前景色彩 Fi,背景色彩 Bi,未知蒙版估计(matte estimation)αi。在这个方程式中,抠图问题形式化为两种颜色的线性组合,因此大多数现存的算法很大一部分都是将其近似求解色彩的问题。
另一个局限性就因为小数据集而产生。一般用于抠图的数据真值(ground truth)是很复杂的,而 alphamatting.com 数据集通过提供标记数据集对抠图研究做出了很重要的贡献。不过因为该数据集仅仅只由 27 张训练图像和 8 张测试图像组成,那么这样大小的数据集会带来自然偏差(nature biased),训练出来的算法也会很难进行泛化。
在这项研究中,我们提出了一种旨在克服这些局限性的方法。我们的方法就是使用深度学习在给定输入图像和三分图的基础上直接计算α蒙版(alpha matte)。我们的神经网络并不首要依赖于色彩信息,它会学习图像的自然结构,并将其反映到α蒙版中。例如毛发(通常需要将其抠出来)就拥有很强的结构和纹理图案,它们通常存在能抽取出的共同结构或α蒙版轮廓。并且由于低层次的特征并不会捕获这些结构,那么就需要深度神经网络去表征它们了。我们的两阶段神经网络包含了编码器-解码器阶段和使用小型残差网络进行精炼阶段。我们是第一个证明了在给定输入图像和三分图的情况下能采用端到端的方式学习到α蒙版。
如下图所示,实际上我们能在三分图(trimap)未知前景或背景的情况下产生很好的结果,而在这种情况下,大多数算法都返回不了什么内容。
图 1:我们的方法和封闭形式的抠图(Closed form matting)对比。第一张图像是从 Alpha Matting 基准而来,第二张图像是从我们千张测试图像中抽取的。
为了训练我们的深度神经网络,如下图所示,我们将识别目标(前景)抠取出来,并放入不同的背景而构建一个大型抠图数据集。
图 2:创建数据集。a) 一张手动抠图的前景图(拥有简单背景)作为输入。b) 经计算的α蒙版。c) 经计算的前景图像,可以作为对象放入到各种背景图像(d-f)中。
我们通过深度学习解决抠图问题。给定一个新的数据集(大规模抠图数据集),我们的神经网络能充分利用这些数据进行训练。并且该神经网络由以下两个阶段组成。
图 3:我们的神经网络由两阶段组成,编码-解码阶段(Sec. 4.1)和精炼阶段 (Sec. 4.2)
精炼图像的效果在图 4 中展示了。注意,该精炼网络并没有大规模改变α蒙版,只不过是精炼并锐化α值。
图 4:抠图精炼网络的效果。a) 输入图像。b) 编码-解码阶段的输出。c) 精炼阶段的输出结果
下一张图表明了在 SAD 度量(SAD metric)下的排名结果。
图 6:α蒙版预测使用「user」三分图的「Troll」和「small」三分图的「Doll」作为测试图像。第一列显示了测试图像。对于每一张测试图像,按照降序从第 2 列到第 6 列显示了 SAD 度量(SAD metric)下的排名结果(排名 1 到 5)。在这两个例子中,我们的方法都实现了最好的结果。
结论
为了泛化到自然图像中,抠图算法必须超越以色彩作为主要线索,并能利用更加结构性和语义性的特征(structural and semantic features)。在该项研究中,我们展示了一种神经网络,它有足够的能力捕捉到高层次特征(high-order features),并利用它们计算且提升抠图效果。实验还展示了我们的方法不仅在标准数据集上优于以前的方法,而且它在泛化到真实图像上也显著地比现存算法表现更优良一些。
论文:在自然图像流形上的生成式视觉操作(Generative Visual Manipulation on the Natural Image Manifold)
摘要:真实图像流形上的操作一直具有挑战性,因为它需要以一种用户可控的方式调整图像外貌,还要保留结果的真实性。除非用户有相当好的艺术技能,不然在编辑时候很容易减少自然图像的流形。在此论文中,我们提出使用生成式对抗网神经网络直接从数据中学习自然图像的流形。然后,我们定义了一类图像编辑操作,并依赖一直学习到的流形束缚它们的输出。该模型能自动调整输出,保持所有的编辑都是尽可能真实的。我们所有的处理方法都依据约束最优化来表达,几乎是实时的情况下被应用。我们在真实图像形状和颜色操作任务上评估该算法。该方法可进一步用于将一张图像改变为类似的一张,也可基于用户的涂鸦乱画生成新的图像。
论文:Deep Photo Style Transfer
摘要:
本论文介绍了一种实现照片风格迁移的深度学习方法,这种方法可以处理很多不同种类的照片内容,同时还能如实迁移参考风格。近期,我们研究了美术风格迁移,通过研究神经网络的不同层级将风格从图片内容中分离出来,本论文就是建立在这一研究基础上。过去的办法并不适合图像现实主义风格的迁移,即使输入和参考图片都是照片,但仍然会输出畸变(distortions)的结果。我们的贡献在于将输入到输入的变换限制为空间内的精确色彩变化,并将此约束表示为可以反向传播的自定义 CNN 层。我们的实验表明,这一办法成功地抑制了图片在各种不同场景下(包括一天的各个时间段,各种天气,季节以及艺术风格编辑)的风格扭曲,照片现实主义(photorealistic)风格迁移的效果也令人满意。
图 1:(a)是参考风格,(b)是输出的图像,我们希望输出的效果能仍然和输入一样,属于照片风格,不过风格是参照图片的风格。Neural Style 算法(C)虽然可以成功迁移颜色,不过输出效果会有些扭曲,看起来更像是画作,这并是不照片风格迁移想要的结果。对比之下,我们的结果(d)不仅可以成功迁移作为参照的风格图片,还可以维持输出的照片现实主义风格。右边(e)就是上面不同效果的集合对比。
图 2:在研究中,开发者向不同的模型输入图片(a),参考图片(e),对风格迁移效果进行了比较。相比 CNNMRF 等其他研究得出的结果,新模型(d)可以防止扭曲并正确地匹配纹理。
图 3:通过手动分割,可以让系统完成多种任务,如:为香水瓶(a)加入火焰效果(c),切换不同苹果(d,e)之间的纹理颜色。
图 4:用户反馈意见显示康奈尔大学和 Adobe 的新研究实现了目前最好的效果
结论
在本论文中,研究者通过自定义卷积神经网络层中的拉普拉斯抠图矩阵(Matting Laplacian)来限制输入到输出的变化,从而改善了风格转换中色彩变化的效果。而语义分割的引入带来了更多效果绝佳的风格迁移。在各种各样的场景中,包括不同时间,天气,季节和艺术风格,都能获得令人满意且逼真风格的转换。在未来,研究者们将继续探索神经网络自动语义匹配的方法,以消除目前图像分割算法的局限性。