这个模型脑补能力比GAN更强,ETH超分辨率模型SRFlow

近日,来自苏黎世联邦理工学院计算机视觉实验室的研究者提出了一种超分辨率模型 SRFlow。该模型具备比 GAN 更强的脑补能力,能够根据低分辨率输入学习输出的条件分布。该论文已被 ECCV 2020 收录。

超分辨率是一个不适定问题(ill-posed problem),它允许对给定的低分辨率图像做出多种预测。这一基础事实很大程度上被很多当前最优的深度学习方法所忽略,这些方法将重建和对抗损失结合起来,训练确定性映射(deterministic mapping)。

近日,来自苏黎世联邦理工学院计算机视觉实验室的研究者提出了一种新的超分辨率模型 SRFlow。该模型是一种基于归一化流的超分辨率方法,具备比 GAN 更强的脑补能力,能够基于低分辨率输入学习输出的条件分布

论文地址:https://arxiv.org/pdf/2006.14200.pdf

项目地址:https://github.com/andreas128/SRFlow?

研究者使用单个损失函数,即负对数似然(negative log-likelihood)对模型进行训练。SRFlow 直接解释了超分辨率问题的不适定性,并学习预测不同逼真度的高分辨率图像。此外,研究者利用 SRFlow 学到的强大图像后验来设计灵活的图像处理技术,能够通过传输其他图像的内容来增强超分辨率图像。

该研究展示了基于人脸图像以及其他超分辨率图像实验,结果表明 SRFlow 在 PSNR 和感知质量度量上都优于当前最优的 GAN 方法,同时 SRFlow 允许探索超分辨率解空间,以实现生成图像的多样性。

下图展示了基于 GAN 的 ProgFSR 与基于归一化流的 SRFlow 的对比结果:

SRFlow 方法简介

研究者将超分辨率公式化为:给定低分辨率(LR)输入图像,学习高分辨率(HR)图像的条件概率分布问题。该方法旨在通过捕获基于自然图像流形的所有可能超分辨率(SR)图像,来明确地解决超分辨率问题的不适定性。

为此,研究者设计了条件归一化流架构,使用基于对数似然的训练来学习丰富的分布。

用于超分辨率的条件归一化流

超分辨率的目标是通过生成缺失的高频细节,来预测给定低分辨率图像 x 的更高分辨率版本 y。大多数当前方法学习确定性映射 x→y,而该研究旨在获取与 LR 图像 x 对应的自然 HR 图像 y 的全条件分布。

这是一个颇具挑战性的问题,因为该模型必须捕获多种可能的 HR 图像,而不仅仅是预测单个 SR 输出。该研究的目的是在给定大量 LR-HR 训练对的情况下,以纯数据驱动的方式训练分布的参数 θ。

条件流层

流层(flow-layer)f^n_θ 的设计需格外精细,以确保 well-conditioned inverse 和易于处理的雅可比行列式。[10,11] 首次解决了该挑战,最近也有很多研究者对此感兴趣 [5,14,21]。

该研究从无条件 Glow 架构 [21] 开始,该架构本身基于 RealNVP [11]。这些架构使用的流层可以以直接的方式设置为有条件的 [3,49]。研究者对其进行了概述,并介绍了该研究提出的 Affine Injector 层。

架构

SRFlow 的架构如图 2 所示:

应用和图像处理

研究者将 SRFlow 网络用于多项应用和图像处理任务,该研究的技术利用了 SRFlow 网络的两个关键优势,而这是基于 GAN 的超分辨率的方法 [47] 所不具备的。

首先,该研究的网络对 HR 图像空间内的分布建模,而不仅仅是预测单个图像。因此,它通过捕获多个可能的 HR 预测而具有极大的灵活性。这就允许使用其它指导信息或随机采样来探索不同的预测。

其次,该流网络 f_θ(y; x) 是完全可逆的编码器 - 解码器。因此,任何 HR 图像都可以被编码成到潜在空间(latent space)中,并精确地重构为。这种双射的对应关系允许在潜在空间和图像空间中灵活操作。

随机超分辨率

给定 LR 图像 x,我们可以通过采样不同的 SR 预测,探索 SRFlow 学习到的分布。正如基于流的模型的观察结果那样,方差较小的采样可以实现最佳结果 [21]。因此,研究者使用具有方差 τ(也称为温度)的高斯分布。当 τ = 0.8 时,结果如下图 3 所示:

LR 一致性风格迁移

对 LR 图像 x 进行超分辨处理时,SRFlow 允许迁移现有 HR 图像的风格。

下图 4 展示了图像中面部特征、发色和眼睛颜色的风格迁移:

潜在空间归一化

研究者利用 SRFlow 网络 f_θ 的可逆性和学得的超分辨率后验,开发了更先进的图像处理技术。该方法的核心思想是将包含所需内容的任意 HR 图像映射到潜在空间,在该空间中对潜在统计量(latent statistics)进行归一化,使其与给定 LR 图像中的低频信息一致。令 x 为低分辨率图像,为任意高分辨率图像(不一定与 LR 图像 x 一致)。该研究的目标是获得 HR 图像 y,其包含的图像内容,并与 LR 图像 x 一致。

图像内容迁移

该研究旨在通过传输其他图像的内容来操纵 HR 图像。令 x 为 LR 图像,y 为对应的 HR 图像。如要处理超分辨率图像,则是 x 的 SR 样本。但,我们也可以通过将 x 设置为 y 的 down-scaled 版本,来操纵现有的 HR 图像 y。研究人员将其他图像的内容直接嵌入 y 的图像空间,进而操纵 y,如下图 5 所示:

图像恢复

研究者将学得的图像后验应用于图像恢复任务,进而其能力。注意,此处研究者采用了相同的 SRFlow 网络,该网络仅针对超分辨率进行训练。研究者探索了对图像中的高频信息产生主要影响的因素,如噪声和压缩伪影。

实验

研究者将其提出的方法与当前 SOTA 方法进行了对比,并执行了控制变量分析。

人脸超分辨率

该研究基于 CelebA 测试集中的 5000 张图像,评估了 SRFlow 在人脸超分辨率图像任务中的性能,并与 bicubic、RRDB [47]、ESRGAN [47] 和 ProgFSR [19] 进行了对比。

通用超分辨率

研究者在 DIV2K 验证集上评估了 SRFlow 在通用超分辨率任务中的性能,并与 Bicubic、EDSR 、RRDB、ESRGAN 和 RankSRGAN 进行了对比。

与基于 GAN 的方法 [47,56] 相比,SRFlow 实现了明显更好的 PSNR、LPIPS 和 LR-PSNR 结果,并在 PIQUE 和 BRISQUE 方面也得到了出色的结果。

图 8 中的可视化结果表明,EDSR 和 RRDB 的感知效果较差,这些结果几乎不会产生高频细节。相比之下,与 ESRGAN 相比,SRFlow 能够生成丰富的细节,实现了良好的感知效果。

如第一行所示,ESRGAN 生成的图像在多个位置存在严重的褪色伪影(discolored artifact)和振铃效应(ringing pattern)。而 SRFlow 能够生成更加稳定和一致的结果。

控制变量研究

此外,为了研究深度和宽度这两个因素的影响,研究者进行了控制变量实验。图 9 显示了在 CelebA 数据集上的结果:

相关推荐