不要“死磕”GaN了,灵活掌握GaN和LGAN的变换,你也能成“大神”
这是一篇摘自阿里巴巴学术文刊的论文,题目是《全球与局部地区之间生成的对抗性神经网络》,作者是齐国军、张立恒、胡浩、Marzieh Edraki、王景东和华先盛。这篇文章于2018年被CVPR所刊载。原文链接:https://arxiv.org/abs/1711.06020
几乎没有人会质疑,生成性对抗网络(GANS)的发展是近年来人工智能和深度学习领域最重要的进展之一这种说法。
生成性对抗网络由两个神经网络组成,即生成器网络和判别器网络。Goodfellow的原始模型认为这两个神经网络彼此相对。生成器网络通过不断捕捉训练库中的数据,从而产生与真实对应物没有什么区别的错误(或正确)数据样本。判别器则将样本与实际数据集进行比较,并可以学习区分数据样本是正确还是错误。生成器和判别器则会重复进行这一"活动",生成器不断提高生成的数据质量,判别器也相应地学习并改变它的区分能力。
但Goodfellow的GAN模型并非没有缺点,比如说它使用全局坐标图来参数化生成的数据。全球坐标图在多个方面是非常受限的。例如,结构上不同的物体,如人体和交通工具。他们具有不同的几何结构,不适合单一的全局坐标图。此外,流形上的点不能直接映射回它们的全局坐标,因为如果直接映射,由全局GAN生成的流形可能会在本地崩溃。
现在,佛罗里达大学机器感知和学习实验室(MAPLE)和阿里巴巴技术团队的一组研究人员共同设计了一个解决方案。该方案建立在GAN模型的基础上,并整合了局部的空间信息。
从GaN到LGAN
这个研究小组提出了一种局部生成对抗网络(LGAN)来解决全局GaN的局限性。LGAN是一种局部范式,它使用以不同数据点为中心的局部坐标图,形成一个流形来作为局部生成器的集合。同时,它参数化了流形上不同位置的局部几何数据。局部坐标系和全局坐标系之间的这种区别导致了LGAN和GaN模型在概念和算法上的差异。
LGAN有两个主要优势。首先,LGAN的局部特性使其能够直接访问局部几何结构,而无需在标准GAN中反转生成器以访问其全局坐标。如下图所示,本地生成器位于不同的数据点,因此不同局部生成器产生的数据可以连接在一起以覆盖整个流形。
此外,通过在局部切线上预先设置一个标准正交性,可以防止流形在局部崩溃,而由此产生的标准正交基跨越了一个全维切线空间。
LGAN在肖像画中的应用
下图演示了由LGAN生成的人脸,中间的红色框表示原始图像。结果表明,LGAN生成的人脸下巴更加明显,在面部表情、胡须、肤色、理发和姿势等方面也有所变化。
另外值得注意的是,在左侧的图中,LGAN将第一行和第六行中的女性面部改变为男性的面部。同样,在右侧的图中,第四和第五排的男性面孔变得更加女性化。这表明局部生成器不仅可以处理图像的属性,还可以根据输入做出不同的输出。
总结
我们的实验结果证明,本文中介绍的LGAN不仅产生了多种图像生成和变换,而且还提供了比其他模型更好的分类性能。