DeepMind提出SPIRAL：使用强化对抗学习，实现会用画笔的智能体

hhycsdn

2018-03-29

近日，DeepMind 发布博客，提出一种结合了对抗训练和强化学习的智能体 SPIRAL。该智能体可与绘图程序互动，在数位画布上画画、改变笔触的大小、用力和颜色，并像街头艺人一样画画。也就是说，通过向 SPIRAL 提供人类用于描绘周围世界的工具，它们也可以生成类似的表征。

人类眼中的世界不只是角膜映射出的图像。比如，当我们看一幢建筑，赞美其设计精巧复杂时，我们能够欣赏到它的精巧工艺。通过创造事物的工具来解读事物是帮助我们理解世界的一项重要能力，也是人类智能的重要组成部分。

DeepMind 希望其系统能够按类似的方式构建对世界的丰富表征。例如，当系统观察一幅画的图像时，它们能够理解画家使用的笔触，而不只是看到屏幕上呈现的像素。

在《Synthesizing Programs for Images using Reinforced Adversarial Learning》研究中，DeepMind 给人工智能体配备了用于生成图像的工具，并展示了智能体可以推断出数字、字符和画像被创造出来的过程。关键是，它们学会这么做完全是出于自觉，没有使用人类标注的数据集。这与最近的研究《A Neural Representation of Sketch Drawings》恰恰相反，后者目前仍依赖于从人类演示中学习，是一个时间密集型的过程。

DeepMind提出SPIRAL：使用强化对抗学习，实现会用画笔的智能体

DeepMind 设计了一种深度强化学习智能体，该智能体可与计算机绘图程序（http://mypaint.org/）互动，在数位画布上画画、改变笔触的大小、用力和颜色。最初，这一未经训练的智能体下笔随意，其涂鸦没有明显的内容或结构。为了解决这个问题，DeepMind 不得不提出一种方式来奖励智能体，鼓励它生成有意义的涂鸦。

为此，DeepMind 训练出第二个神经网络，叫作判别器（discriminator），旨在预测特定画作是智能体生成的，还是来自现实照片数据集。绘画智能体所接受的奖励决定于它多大程度上能够「欺骗」判别器，使之认为其画作是真的。换言之，智能体的奖励信号是由自己学习而来。这和生成对抗网络使用的方法类似，但也有不同，因为 GAN 中的生成器通常是一个可以直接输出像素的神经网络。而 DeepMind 的智能体通过写图形程序与绘画环境互动，来生成图像。

DeepMind提出SPIRAL：使用强化对抗学习，实现会用画笔的智能体

在第一组实验中，智能体被训练来生成类似 MNIST 数字的图像，只对智能体显示数字，而没有数字生成的过程。通过尝试生成欺骗判别器的图像，智能体学会控制笔触，并绘制适合不同数字的风格，这种技术叫作视觉程序合成（visual program syhthesis）。

DeepMind 还训练它来重现特定图像。这里，判别器要确定重现出的图像是目标图像的复制，还是由智能体生成的。判别器判断二者的难度越大，智能体得到的奖励就越多。

关键是，该框架具备可解释性，因为它能生成一系列控制模拟画刷的动作。这意味着该模型可以将其学得的东西应用到模拟绘图程序上，以在其他类似环境中重新创建字符，如在模拟或真实的机械臂上。

DeepMind提出SPIRAL：使用强化对抗学习，实现会用画笔的智能体

也可以将该框架扩展到真实数据集上。在训练智能体绘制名人人脸时，它能够捕捉人脸、色调、发型的主要特征，就像一个寥寥几笔绘制人像的街头画家一样。

DeepMind提出SPIRAL：使用强化对抗学习，实现会用画笔的智能体

从原始感知中找到结构化表征是人类拥有且经常使用的能力。该研究显示通过向智能体提供人类用于描绘周围世界的工具，它们也可以生成类似的表征。这样，它们学会生成可简练表达因果关系的视觉程序。

尽管该研究只能代表朝灵活程序合成迈进的一小步，但 DeepMind 期望类似的技术可以赋予人工智能体类人感知、生成和交流的能力。

论文：Synthesizing Programs for Images using Reinforced Adversarial Learning

DeepMind提出SPIRAL：使用强化对抗学习，实现会用画笔的智能体

论文链接：https://deepmind.com/documents/183/SPIRAL.pdf

摘要：近年来，深度生成网络的进展带来了令人瞩目的成绩。但是，此类模型通常把精力浪费在数据集细节上，可能是因为其解码器的归纳偏置较弱。这样图形引擎就有了用武之地，因为图形引擎将低级别细节抽象化，并将图像表示为高级别程序。当前结合了深度学习和渲染器的方法受限于手动制作的相似度或距离函数、对大量监督信息的需求，或者将推断算法扩展至更丰富数据集的难度。为了缓解这些问题，我们提出了 SPIRAL，一种对抗训练的智能体，可以生成由图形引擎来执行的程序，以解释和采样图像。该智能体的目标是欺骗判别器网络（分辨真实数据和渲染数据），该智能体在分布式强化学习环境中进行训练，且训练过程无需任何监督。令人惊讶的是，使用判别器的输出作为奖励信号是使智能体获得期望输出渲染的关键。目前，这是在难度较高的现实世界数据集（MNIST、OMNIGLOT、CELEBA）和合成 3D 数据集上的第一次端到端、无监督和对抗逆图形（adversarial inverse graphics）智能体演示。

deepmind 强化学习机器学习

hhycsdn

0 关注 0 粉丝 0 动态

相关推荐

DeepMind发布神经网络、强化学习库，网友：推动JAX发展

DeepMind今日发布了Haiku和RLax两个库，都是基于JAX。而此次发布的两个库，分别针对神经网络和强化学习，大幅简化了JAX的使用。Haiku是基于JAX的神经网络库，允许用户使用熟悉的面向对象程序设计模型，可完全访问 JAX 的纯函数变换。RL

XuFangfang0 2020-02-21

大脑也在用分布式强化学习？DeepMind新研究登上《Nature》

分布式强化学习是智能体在围棋、星际争霸等游戏中用到的技术，但 DeepMind 的一项研究表明，这种学习方式也为大脑中的奖励机制提供了一种新的解释，即大脑也应用了这种算法。这一发现验证了分布式强化学习的潜力，同时也使得 DeepMind 的研究人员越发坚信

专注坚持 2020-01-16

102页PPT，DeepMind强化学习最新进展，含图文、公式和代码

本文提供涵盖了强化学习RL基础概念、策略梯度、动态规划以及D4PG、R2D3等RL算法的资源。[ 导读 ]在DeepMing任职的Nando de Freitas在KHIPU 2019上做了关于强化学习的教程，102页ppt。在KHIPU 2019上，在D

trillionpower 2019-11-23

DeepMind 开源 Spriteworld，灵活，可配置的强化学习环境

Spriteworld是一个基于python的RL环境，由一个可以自由移动的简单形状的二维竞技场组成。该环境是为文章“COBRA：基于数据有效模型的RL通过无监督对象发现和好奇心驱动的探索”中介绍的COBRA代理开发的。环境的动机是为程序生成多对象场景提供

专注坚持 2019-11-03

DeepMind一次性开源3个新框架！深度强化学习应用落地即将迎来春天？

本文转自雷锋网，如需转载请至雷锋网官网申请授权。深度强化学习一直是近年来人工智能的一些重大突破的核心。然而，尽管 DRL 有了很大的进步，但由于缺乏工具和库，DRL 方法在主流解决方案中仍然难以应用。就在最近，DeepMind 发布了一系列新的开源技术，包

luchi00 2019-09-20

DeepMind,哈佛造出了 AI「小白鼠」:从觅食,击球窥探神经网络奥秘

在一篇 ICLR 2020 Spotlight 论文中，DeepMind 和哈佛大学的研究者构建了一个基于 AI 的虚拟小鼠，能够执行跑、跳、觅食、击球等多项复杂任务。他们还尝试用神经科学技术来理解这个「人造大脑」如何控制其行为。或许这一成果可以为我们提供

天行九歌 2020-04-29

Alphabet 的 DeepMind 损失在 2018 年飙升至5.7亿美元

根据英国公司大楼登记处周三提交的文件显示，负责创建人类级人工智能的谷歌人工智能公司 DeepMind 在2018年度过了昂贵的一年。其 2018 年的税前亏损额从 2017 年的 3.41 亿美元和 2016 年的 1.54 亿美元增长至 5.7 亿美元。

芋头 2019-11-03

DeepMind向星际玩家们下了战书！你的对手可能是AI，而你毫不知情

欧洲的星际争霸玩家们即日将有机会和Deepmind AI打场比赛了！出战的AI是由DeepMind和暴雪联合培养的，经过了“特别的训练方式”，在星际争霸界 II 早有过赫赫战绩，连续在10场比赛中击败了人类职业选手。另外10场比赛，代表人类出战的是职业选手

引力空间万物互联 2019-07-11

这部关于 AI 的纪录片，还是值得一看的

纪录片《 AlphaGo 》，是由 Google 与 DeepMind 团队出品，纪录片导演 Greg Kohs 和团队精心制作完成。讲述了 DeepMind 团队带领 AlphaGo 与人类顶尖棋手展开对决的几场关键性比赛。这部纪录片在去年自各个影展上小

ZLXiong 2019-06-28

Reddit热议！DeepMind最新研究解决灾难性遗忘难题

当遇到序列任务时，神经网络会遭受灾难性遗忘。DeepMind研究人员通过在函数空间中引入贝叶斯推理，使用诱导点稀疏GP方法和优化排练数据点来克服这个问题。今天和大家分享这篇Reddit高赞论文。该方法被称为用于持续学习的函数正则化，通过在底层任务特定功能上

panrenlong 2019-06-23

超越BigGAN，DeepMind提出「史上最强非GAN生成器」VQ-VAE-2

能生成逼真图像的不只有 GAN。去年 9 月，BigGAN 横空出世，被誉为「史上最强 GAN 生成器」，其逼真程度众多研究者高呼「鹅妹子嘤」！相关论文也被 ICLR 2019 接收为 Oral 论文。今年 2 月，BigGAN 的一作又发布了更新版论文，

xmdxcsj 2019-06-05

DeepMind游戏AI登上Science:雷神之锤多智能体合作，超越人类玩家

去年年中，DeepMind 介绍了其在游戏智能体方面的新进展，聚焦于雷神之锤 III 竞技场的夺旗模式。当时，DeepMind 设计的为 FTW 智能，达到了人类水平，能够与其它智能体或人类相互合作。今年，DeepMind 继续发力，提出基于 self-p

wesay 2019-06-03

结合符号主义和DL:DeepMind提出端到端神经网络架构PrediNet

DeepMind 最近的一项研究将符号人工智能和深度学习结合起来，提出了一种新型端到端神经网络架构 PrediNet。符号主义和连接主义是人工智能领域中的两大流派。连接主义，又称为仿生学派或生理学派，其主要原理为神经网络及神经网络间的连接机制与学习

hexianhao 2019-05-29

DeepMind论文：深度压缩感知，新框架提升GAN性能（附链接）

本文介绍一种将压缩感知和GAN联系起来的创新框架。[ 导读 ] DeepMind提出一种全新的“深度压缩感知”框架，将压缩感知与深度学习相结合，显著提高了信号恢复的性能和速度，并提出一种改进GAN的新方法。压缩感知是一种优雅的框架，用于从压缩信号中恢复稀疏

刀刀鱼 2019-06-01

DeepMind揭秘雷神之锤3背后AI真相：碾压人类只是个开始

虽然人类已经无望在电子竞技中打败AI多智能体，但DeepMind的研究仍在继续往前推进。最近他们公布了在强化学习方面的最新进展，并对未来进行了展望。AI智能体的能力还会继续提高吗？DeepMind的科学家也想知道。他们最近更新了博客，以雷神之锤为例，为我们

zourzh 2019-05-31

DeepMind论文：深度压缩感知，新框架提升GAN性能

DeepMind提出一种全新的“深度压缩感知”框架，将压缩感知与深度学习相结合，显著提高了信号恢复的性能和速度，并提出一种改进GAN的新方法。例如，CS可以利用自然图像的结构，仅从少量的随机测量中恢复图像。CS具有灵活性和数据效率高的优点，但由于其稀疏性和

tryhl 2019-05-23

没有地图也能导航？DeepMind用街景来认路

在童年记忆中，你是如何沿着路线去朋友家、学校或者商店的？那时候没有地图，只是简单的记住街景和沿途转向。因此，导航是一种很重要的认知任务，人类或者动物不需要地图就能够在复杂的世界中进行远距离穿越。请注意，这项研究适用于一般导航而不是汽车驾驶，在这里，我们既没

hello小工 2018-04-08

DeepMind科学家：AI对战《星际争霸》胜算几何？

AI科技大本营1月29日消息，在《麻省理工科技评论》与深科技举办的新兴科技峰会上，谷歌DeepMind科学家Oriol Vinyals在会上发表了主题为《AI对战星际争霸胜算几何？》的演讲。在加入谷歌AI团队之后，Oriol Vinyals参与了机器翻译、

yuyin 2018-01-29

学术 | DeepMind最新研究：使用更简单的环境就能检测AI是否安全

随着人工智能系统在现实生活中变得通用和实用，确保系统的安全运行变得越来越重要。迄今为止，大部分技术人工智能安全研究都集中在，对不安全行为的性质和原因的理论学习上。这九个环境被称为gridworlds。每一个都由一个类似棋盘的二维网格组成。除了标准的激励函数

coverse 2017-11-29

城会玩！DeepMind新AI竟然自己学会跑酷了

DeepMind在通用人工智能的道路上越走越远。最近，他们通过电脑动画和生物力学，让人工智能自己学会了如何在动画环境中运动，包括步行、跑动、跳跃、攀爬。另外，为了抗衡Google在通用人工智能方面的影响力，微软研究院在其雷德蒙总部成立了全新的人工智能实验室

脑极体 2017-07-13

hhycsdn

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号