程序员的魔法——用Masking GAN让100,000人都露出灿烂笑容

liongxiong

2017-12-28

摘要：本文使用Masking GAN来对静态的图像中的人物图像进行处理，使其都露出灿烂笑容，堪称魔法。每个程序员都是一个魔法师，你玩过的魔法是什么呢？欢迎留言秀出各自的魔法。

继卷积神经网络（CNN）掀起深度学习的浪潮后，生成对抗网络（GAN）逐渐成为了计算机视觉领域的另一重点关注的神经网络。本文作者于一年前开始第一次尝试使用GAN来完成一些实验，但都会存在一个问题，那就是模型很难训练以及模型的结果不好评估。尽管存在上述的这些问题，GAN仍然在深度学习领域中占据一席之地，这是因为GAN不同于经典的机器学习任务，它能够给许多问题提供新的解决思路。

操作人脸属性（年龄、性别、表情）是一个最著名的语义处理问题。目前市面上有许多这样的应用客户端，大都能够在拍照后更改面部表情。实现这一操作的方法多种多样，但在我看来，GAN是表现最优的方法。

程序员的魔法——用Masking GAN让100,000人都露出灿烂笑容

上图选择的这些例子强调了一个问题——GAN也会改变无关的对象。如果你想裁剪一个图像部分，然后对部分图像进行修改后再粘贴回来，那样可能会与周围的背景无法很好地融合，此外这样操作起来也很困难。本文将针对这个问题，探讨解决方法和相关细节。

如何操作？

一种方法是训练另外一个分割模型，可以使用这个模型来生成一个分割掩码，并与生成图像块匹配（比如这篇文献）。当然，收集这样的标签是困难的，此外还必须假设应用语义变化后对象的形状不会发生改变。

另外的一种潜在方法是使用恒等损失函数约束生成器，迫使生成器减少变化。

本文尝试结合上述两种思想来设计一个实验模型，该模型具有以下特点：

使用内置分段的生成器结构；
通过分割掩码将原始图像与新的图像块混合；
整个网络的训练过程是个端到端的过程；
使用L1恒等损失约束生成器并减少改变；

程序员的魔法——用Masking GAN让100,000人都露出灿烂笑容

上图是方案框图，期待看到该模型制作出完美的掩膜。

工作情况如何？

程序员的魔法——用Masking GAN让100,000人都露出灿烂笑容

上图是挑选出来的一些结果样本，可以看到表现都还不错。在总的数据集中，超过80%及以上的图像表现都足够好。

此外，实验过程中还注意到了一些问题：

如果图像中一个人已经是微笑时，那么它就不需要做出任何的改变；
模型在处理一些极端的头角度时候表现较差；
模型有时候对一些不相关部分仍进行了操作；

程序员的魔法——用Masking GAN让100,000人都露出灿烂笑容

从上图可以看到，随着训练的进行，生成器能产生更多的变化。

在最初的迭代周期里，生成器会绘制出越来越逼真的图像。起初，脸部分割掩码近乎完美，但经过一段时间后，模型的结果开始产生显著变化，比如在上图中，模型改变了头发。

一些想法

对上述这种行为的直接感受是一旦生成器开始生成真实的面孔，它就迫使判别器忽略表情并集中于其他区域（微笑停止是主要特征）。

另外一种解释可能是判别器过拟合了（尽管训练集含有十万左右的图像），使用更强的正则化实验可能有助于更好地理解它。

在其它数据集（如马对斑马）上的实验表明了同样的注意力转移现象，生成器最终改变了整幅图像。

实现注意事项

本文实验中应该注意以下几点：

使用CycleGAN方式训练模型；
使用校准后的CelebA数据集；
使用PyTorch框架

使用3GB内存的GPU训练4到5天就可以重现本文实验结果（时间评估是基于GPU为GTX1080），本文项目地址：https://github.com/tgeorgy/mgan

作者信息

Georgiy Trofimov，机器学习工程师。

Linkedin: https://www.linkedin.com/in/georgtrof/

本文由阿里云云栖社区组织翻译。

gan 程序员

安科网

程序员的魔法——用Masking GAN让100,000人都露出灿烂笑容

liongxiong

如何操作？

工作情况如何？

一些想法

实现注意事项

liongxiong

相关推荐

这个模型脑补能力比GAN更强，ETH超分辨率模型SRFlow

当支持向量机遇上神经网络：SVM、GAN距离之间的关系

宅男大叔自学AI打造大师级水准，火爆推特

联想口红电源mini45W对比GaN氮化镓65W外观哪个好?

CNN、RNN、GAN都是什么？终于有人讲明白了

AAE对抗自编码器/GAN与VAE的区别

course | 李宏毅lecture1-GAN基础知识

轻松构建 PyTorch 生成对抗网络(GAN)

生成对抗网络--Generative Adversarial Networks (GAN)

520快手送“男朋友”GAN生成对抗网络助力单身狗“顺利脱单”

Gan(一) - 一份来自香港理工大学的Gans综述

GAN Compression - 1 - 论文学习

单张图像就可以训练GAN！Adobe改良图像生成方法 | 已开源

一个模型击溃12种AI造假，各种GAN与Deepfake都阵亡，已开源

paper | Generative Adversarial Network-Based Intra Prediction for Video Coding

GAN的数学原理

GAN的资料

搜索速度快9倍！Uber创建新的GAN网络，可媲美当前最好架构

Detecting GAN-generated Imagery using Color Cues

使用生成对抗网络（GAN）生成手写字

liongxiong