微软亚洲研究院CVPR论文DA-GAN，让计算机创造奇妙“新物种”

wangjunyi

2018-03-08

新智元推荐

来源：微软研究院AI头条

【新智元导读】还记得那个能自己写诗的微软小冰吗？很多人看到小冰的诗之后惊叹原来机器也有了创造力。最近，微软亚洲研究院研发的DA-GAN技术让机器绘画创造也成为了可能，只要人们用文字描述一下自己想要的画面，计算机便可以在几毫秒之内生成多个与描述吻合的形象。也许在不久的将来，DA-GAN技术将开启一个人人都是创造者的时代。

微软亚洲研究院CVPR论文DA-GAN，让计算机创造奇妙“新物种”

当人们用文字描述“我想要一只腹部、胸部为白色，头顶灰色，翅膀有白色翅斑的小鸟”时，计算机便可以通过DA-GAN在几毫秒的时间内生成多个与文字描述高度吻合的形象（如下图）。这些由计算机生成的鸟栩栩如生，完全符合人们期待的鸟的形象，不过它有可能是真实存在于现实世界中的，也有可能是系统根据鸟类特征和文字描述“创造”出来的一只“鸟”。

微软亚洲研究院CVPR论文DA-GAN，让计算机创造奇妙“新物种”

DA-GAN生成的“腹部、胸部为白色，头顶灰色，翅膀有白色翅斑的鸟”（注意：该图片中的鸟在现实世界中并不存在）

DA-GAN的最大创新——“隐空间”

DA-GAN研究团队的技术突破得益于特征表达技术的发展。以往的特征表达工作，多是让机器理解图片并抽取特征，然后再对图片进行分类；而DA-GAN则有些反向思维的意味，在提取图片特征后，将特征在人类的视觉空间中还原出来。

以上文所列举的鸟为例，系统首先要能够根据现实世界的鸟，总结出鸟的结构和特征，然后再根据用户的需求，输出他们所需要的鸟。之所以选择鸟类作为研究对象，是因为鸟类的特征非常丰富，仅头部就有几十种特征，鸟类专家就是利用这些细微的差别来判断鸟的种类，而特征丰富就意味着可以更好地去验证模型的生成能力。

微软亚洲研究院研究员傅建龙表示，“在训练DA-GAN系统时，我们先让它‘见’过很多种类的鸟，就如同一个人认识了红苹果后，看到绿色的苹果，也可以从它的外形中判断出这是苹果一样。DA-GAN依据所接触的鸟类图片，学会了判断鸟的经验性常识。”

与传统的数据训练模式需要pair data（数据对）不同，DA-GAN不需要将文本与真实的鸟一一对应，而是将原始图片分割成不同的部分（暂称该部分的样本为T），例如头部、身体、尾巴、姿势等，不同的部分分别投射到一个“隐空间”（暂称该部分的生成样本为T’），然后通过大量的图片训练，去验证T-T’对应的精确程度，也就是去不断验证该“隐空间”的好坏，从而不断迭代，确保从T-T’的过程并非随机产生，而是保持一定的规则，进而让“隐空间”的模型逐步趋于完善。这个过程可谓是DA-GAN系统最为核心的创新所在，也是它能够更加智能、真正具有举一反三学习能力的关键点。

微软亚洲研究院CVPR论文DA-GAN，让计算机创造奇妙“新物种”

DA-GAN深度注意力编码流程图

接下来，DA-GAN就可以基于该模型创作用户想要的鸟类了，正如文章开头所描述的，输入你的需求，一只栩栩如生的鸟就会相应生成。它可能是一只自然界里真实存在的鸟，也可能是一只拥有A种鸟类的头部特征、B种鸟类的身体特征、C种鸟类的尾部特征以及任意姿态的一只“想象中的鸟”，而在现实世界里并没有这样的鸟类，但它看上去就是一只真正的“鸟”。

微软亚洲研究院CVPR论文DA-GAN，让计算机创造奇妙“新物种”

(a) 文字到图像生成 (b) 物体类别变换

傅建龙表示，“目前，我们只将鸟类分成了4个部分，这是我们计算出来的映射相对合理，同时系统代价较小的可行的方式。当然也可以将鸟分为10个、30个部分，那样模型会越来越精确，但系统代价可能也会成倍增加。”

开启人人都是创造者的时代

除了鸟类，DA-GAN还可以用于任何与图片相关的创作，例如此前风行的基于真实人脸生成卡通人脸的小程序，其实大部分只是将纹理附着到了原始照片上，如果利用DA-GAN，则可以做得更像是艺术家的现场漫画写生，它可以是梵高风格、莫奈风格、漫画风格等等，用户可以进行任意转换。

对于DA-GAN来说，最重要的是早期的数据训练，图片越多质量越高。而且其分辨率已经从其他相关技术能够达到的64*64升级到了256*256，分辨率的提高，意味着图片每个部分所包含的细节信息更加完善，也正因为细节的丰富，才使得DA-GAN的表现在与真实世界的对比中优于同类技术。

与此同时，DA-GAN生成的众多新的图片，又可以反哺给该系统，从而让它拥有更多的学习数据。也就是说，只要基于少量的原始数据，DA-GAN就可以产生更多“真实”的练习数据，大大改善某些领域真实数据缺乏的问题。利用DA-GAN的这一优势，研究团队实现了业内首次在鸟类数据集中增加生成数据，并将系统的准确度提升了两个百分点。

微软亚洲研究院CVPR论文DA-GAN，让计算机创造奇妙“新物种”

数据增强结果

微软亚洲研究院CVPR论文DA-GAN，让计算机创造奇妙“新物种”

姿态变换任务图中每组图片的第一列是source，第二列是target，第三列是DA-GAN生成的鸟

在可触摸的未来，或许，DA-GAN技术将开启一个人人都是创造者的时代。只要你的需求输入它能够读懂，哪怕是你脑海中幻想出来的物体和场景，它都能“画”出来。而由DA-GAN所描绘出来的虚拟世界，可能一点都不比文学家、艺术家创作出来的场景逊色。

不仅如此，让已经灭绝的动植物，通过记载文字的描述重新跃然纸上；为安防领域提供更真实的犯罪嫌疑人画像；帮助人们贴合自身的情况试穿网络售卖的衣物等等，还有更多DA-GAN技术的应用场景，等待大家去想象。同时，傅建龙也表示，未来随着技术的不断发展，更多可以生成逼真图片和影像的技术将会诞生，如何辨别真伪也是需要科研人员以及大众思考和解决的问题。

论文链接：

https://arxiv.org/pdf/1802.06454.pdf

本文经授权转载自“微软研究院AI头条”，点击阅读原文查看原文

【加入社群】

新智元 AI 技术 + 产业社群招募中，欢迎对 AI 技术 + 产业落地感兴趣的同学，加小助手微信号: aiera2015_1 入群；通过审核后我们将邀请进群，加入社群后务必修改群备注（姓名 - 公司 - 职位；专业群审核较严，敬请谅解）。

cvpr 微软亚洲研究院电脑 gan

安科网

微软亚洲研究院CVPR论文DA-GAN，让计算机创造奇妙“新物种”

wangjunyi

DA-GAN的最大创新——“隐空间”

开启人人都是创造者的时代

wangjunyi

相关推荐

学术盛宴：微软亚洲研究院CVPR 2017论文分享会全情回顾

斯坦福AI Lab主任、NLP大师Manning：我的第一次CVPR

计算机视觉不是智能，只是记忆：CVPR 2019程序主席开炮

CVPR 2019：北邮提出新AI模型压缩算法，显著降低计算复杂度

CVPR 2019：微软最新提出ObjGAN，输入一句话秒生成图片

你说话时的肢体动作，AI仅凭声音就能预测 | CVPR 2019

CVPR！你凭什么收录我3篇论文！？

CVPR 2019 | 夺取6项冠军的旷视如何筑起算法壁垒

104篇CVPR 2019论文列表追踪谷歌、Facebook、英伟达研究课题

CVPR声明力挺华为：同属IEEE，论文评审、参加会议无限制

微软提出高分辨率深度神经网络HRNet | CVPR 2019

斯坦福&Adobe CVPR 19 Oral：全新通用深度网络架构CPNet

腾讯58篇论文入选CVPR 2019，两年增长超200%

CVPR 2019 ：百度17篇论文入选，AI巨头都在关注什么？（附下载）

CVPR 2022大会主席、港科大教授权龙：计算机视觉的现状与未来

苹果机器学习博客解读CVPR论文：通过对抗训练从模拟的和无监督的图像中学习

腾讯AI Lab多篇论文入选CVPR、ACL及ICML等顶级会议（附论文下载）

CVPR 2019 | PointConv：在点云上高效实现卷积操作

旷视联合智源发布全球最大物体检测数据集，举办CVPR DIW2019比赛

CVPR 2019审稿第一满分论文：机器人也能问路的视觉语言导航方法

wangjunyi