生成对抗网络简史

生成对抗网络简史

5年前,生成对抗网络(GAN)在深度学习领域掀起了一场革命。这次革命取得了一些重大的技术突破。生成对抗网络是由Ian Goodfellow等人在论文《Generative Adversarial Networks》中提出的,论文的地址是:https://arxiv.org/abs/1406.2661。学术界公开接受了GAN,业界也欢迎GAN。GAN的崛起是不可避免的。

  • 首先,GAN是无人监督的。GAN不需要标记数据,这使得GAN功能很强大,因为不需要进行枯燥的数据标签工作。
  • 其次,GAN的潜在用例有很多。他们可以生成高质量的图像,可以增强照片,可以从文本生成图像,可以将图像从一个领域转换为另一个领域,随着年龄的增长可以改变脸部图像的外观等等。这样的例子不胜枚举。我们将在本文中介绍一些广受欢迎的GAN架构。
  • 第三,围绕GAN的无休止的研究是如此令人着迷,以至于它吸引了其他行业的注意力。我们将在本文后面部分讨论重大技术突破。

诞生

生成对抗网络简称GAN,是由两个网络组成的,一个生成器网络和一个判别器网络。这两个网络可以是神经网络(从卷积神经网络、循环神经网络到自编码器)。在这个设置中,两个网络参与了一场竞争游戏,并试图超越对方,同时,帮助对方完成自己的任务。经过数千次迭代后,如果一切顺利,生成器网络在生成逼真的假图像方面变得完美,而判别器网络在判断显示给它的图像是假的还是真的方面变得完美。换句话说,生成器网络将一个随机噪声向量从一个潜在空间(不是所有的GAN样本都来自一个潜在空间)转换为一个真实数据集的样本。训练一个GAN是一个非常直观的过程。我们同时训练这两个网络,随着时间的推移,它们都会变得更好。

GAN有许多实际的用例,比如图像生成、艺术品生成、音乐生成和视频生成。此外,它们还可以提高图像的质量,使图像风格化或上色,生成人脸,还以执行许多更有趣的任务。

生成对抗网络简史

上图显示了vanilla GAN网络的架构。首先,从潜在空间采样D维噪声向量并馈送到生成器网络。生成器网络将该噪声向量转换为图像。然后将该生成的图像馈送到判别器网络以进行分类。判别器网络不断地从真实数据集和由生成器网络生成的图像获得图像。它的工作是区分真实和虚假的图像。所有GAN架构都遵循相同的设计。这是GAN的诞生。现在探讨GAN的青春期。

青春期

在其青春期,GAN产生了广泛流行的架构,如DCGAN,StyleGAN,BigGAN,StackGAN,Pix2pix,Age-cGAN,CycleGAN。这些架构展示了非常有前途的结果。让我们详细探讨这些架构。

DCGAN

这是第一次在GAN中使用卷积神经网络,并取得了令人印象深刻的结果。在此之前,CNN在监督计算机视觉任务方面取得了前所未有的成果,但在GAN中,卷积神教网络(CNN)尚未使用。DCGAN是由Alec Radford,Luke Metz,Soumith Chintala撰写的题为“Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks”一文中提出的。这是GAN研究的一个重要里程碑,因为它引入了主要的架构变化来解决训练不稳定,模式崩溃和内部协变量转换等问题。此后,在DCGAN体系结构的基础上引入了大量的GAN体系结构。

生成对抗网络简史

BigGAN

这是GAN在图像生成方面的最新发展。谷歌的一名实习生和谷歌的DeepMind部门的两名研究人员发表了一篇题为“Large Scale GAN Training for High Fidelity Natural Image Synthesis”的论文,可在https://arxiv.org/abs/1809.11096上找到。这篇论文是由herio - watt大学的Andrew Brock与DeepMind的Jeff Donahue和Karen Simonyan合作完成的实习项目。

生成对抗网络简史

这些图像是由BigGAN生成的,正如您所看到的,它们的质量令人印象深刻。GANs首次生成了高保真度的图像。之前最高的Inception 分数是52.52分,BigGAN获得了166.3分的Inception 分数,这比现有技术(SOTA)好100%。此外,他们还将Frechet Inception Distance (FID)的分数从18.65提高到了9.6。这些都是非常令人印象深刻的结果。最重要的改进是对生成器的正交正则化。

生成对抗网络简史

StyleGAN

StyleGAN是GAN研究的另一项重大突破。StyleGAN由Nvidia在题为“A Style-Based Generator Architecture for Generative Adversarial Network”的论文中介绍,可从以下链接https://arxiv.org/pdf/1710.10196.pdf获得。

生成对抗网络简史

StyleGAN创造了人脸生成任务的新纪录。该算法的核心是风格迁移技术或风格混合。除了生成人脸,它还可以生成高质量的汽车、卧室等图像。这是GAN领域的一个重大改进,也是深度学习研究人员的灵感来源。

StackGAN

StackGAN是由Han Zhang, Tao Xu, Hongsheng Li等人在他们的论文《StackGAN: Text to Photo-Realistic Image Synthesis with Stacked Generative Adversarial Networks》中提出的,该论文的链接如下:https://arxiv.org/pdf/1612.03242.pdf。他们使用StackGAN来探索文本到图像的合成,并取得了令人印象深刻的结果。StackGAN是一对网络,当提供文本描述时,它们可以生成逼真的图像。

生成对抗网络简史

正如您在上图中所看到的,StackGAN在提供文本描述时生成逼真的鸟类图像。文本到图像合成具有许多实际应用,例如从文本描述生成图像,将文本形式的故事转换为漫画形式,以创建文本描述的内部表示。

CycleGAN

CycleGAN有一些非常有趣的用例,例如将照片转换为绘画,反之亦然,将夏季拍摄的照片转换为冬季拍摄的照片,反之亦然,或将马的照片转换为斑马照片,反之亦然。CycleJANs由Jun-Yan Zhu,Taesung Park,Phillip Isola和Alexei A. Efros在题为“Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks”的论文中提出,该文章可从以下链接获得:https: //arxiv.org/pdf/1703.10593。CycleGAN探索不同的图像到图像翻译用例。

生成对抗网络简史

Pix2pix

对于图像到图像的转换任务,pix2pix也显示了令人印象深刻的结果。无论是将夜间图像转换为白天图像,还是将黑白图像着色,将草图转换为照片等等,Pix2pix在所有这些用例中都表现出色。pix2pix网络是由Phillip Isola, junyan Zhu, Tinghui Zhou, Alexei A. Efros在他们的论文中介绍的,他们的论文题目是“Image-to-Image Translation with Conditional Adversarial Networks”,网址是https://arxiv.org/abs/1611.07004。

生成对抗网络简史

这是一个交互式演示,能够从草图生成真实图像。

Age-cGAN(Age Conditional Generative Adversarial Networks)

面部老化有许多行业用例,包括跨年龄人脸识别,寻找失踪儿童和娱乐。Grigory Antipov,Moez Baccouche和Jean-Luc Dugelay在他们的题为“Face Aging with Conditional Generative Adversarial Networks”的论文中提出了使用条件GAN进行面部老化,该论文可从以下链接获得:https://arxiv.org/pdf/1702.01983 .PDF。

生成对抗网络简史

此图显示了Age-cGAN如何从源年龄转换为目标年龄。

这些是一些广受欢迎的GAN架构。除此之外,还有数以千计的GAN架构。这取决于您的需求。

崛起

GAN背后的想法是训练能够理解数据的网络。GAN现在开始理解这些数据,有了这些理解,他们开始创建逼真的图像。

Edmond de Belamy

由Generative Adversarial Networks创作的Edmond de Belamy在佳士得拍卖会上以432,500美元的价格成交出售。全世界第一次目睹了GAN及其潜力。在此之前,GAN主要局限于研究实验室,并由机器学习工程师使用。

生成对抗网络简史

这个人不存在

您可能熟悉https://thispersondoesnotexist.com网站。该网站由优步软件工程师Philip Wan创建。他根据英伟达发布的名为StyleGAN的代码创建了这个网站。每次你点击刷新,它都会生成一张新的假脸,这张脸看起来出奇地真实,却无法分辨它是不是假的。这是可怕的,同时具有破坏性。

生成对抗网络简史

Deep Fakes

DeepFakes是另一种可怕但具有颠覆性的技术。基于GANs,它可以将人们的脸换到视频中的目标人物身上。人们已经猜测出这项技术的缺点。但对人工智能研究人员来说,这是一个重大突破。这项技术有可能为电影行业节省数百万美元,因为在电影行业,需要花费数小时的剪辑工作才能让特技演员的脸和演员的脸进行互换。

生成对抗网络简史

趋势

StyleGAN目前是GitHub上第六大热门python项目。到目前为止,提出的命名GAN的数目达到了数千。这个存储库有一个受欢迎的GAN列表及其各自的论文https://github.com/hindupuravinash/the-gan-zoo

在现实世界中

GAN已被用于增强游戏图形。我对GAN的这种用例感到非常兴奋。最近,NVIDIA发布了一个视频,其中展示了如何使用GAN来对视频中的环境进行游戏化。

结论

在本文中,我们从GAN的诞生开始。然后,我们探索了一些广受欢迎的GAN架构。最后,我们目睹了GAN的崛起。GAN有很大的潜力来创造新的产业和就业机会。我们必须确保它不会落入坏人之手。

相关推荐