102页PPT，DeepMind强化学习最新进展，含图文、公式和代码

trillionpower

2019-11-23

102页PPT，DeepMind强化学习最新进展，含图文、公式和代码

来源：专知

本文多图，建议阅读9分钟

本文提供涵盖了强化学习RL基础概念、策略梯度、动态规划以及D4PG、R2D3等RL算法的资源。

[ 导读 ]在DeepMing任职的Nando de Freitas（原牛津大学教授）在KHIPU 2019上做了关于强化学习（RL）的教程，102页ppt。涵盖了强化学习RL基础概念、策略梯度、动态规划以及D4PG、R2D3等RL算法，并介绍了RL的应用。

在KHIPU 2019（Latin American Meeting In Artificial Intelligence）上，在DeepMing任职的Nando de Freitas做了教程《Reinforcement Learning》，用图文、公式等详细地介绍了强化学习的基础和一些进阶算法。

Nando de Freitas 简介

Nando出生在津巴布韦，曾是莫坎比克战争的难民，患有疟疾。他的父母借钱给他买一本护照，让他能够生活在葡萄牙马德拉的一个火山岩小屋，没有水和电，父母忙着偿还债务也不在身边，这种情况一直持续到欧盟到达那里。

102页PPT，DeepMind强化学习最新进展，含图文、公式和代码

他在威特沃特斯兰德大学(University of the Witwatersrand)获得了电气工程理学学士学位和控制理学硕士学位，后获得剑桥大学三一学院(Trinity College, Cambridge University)神经网络贝叶斯方法博士学位，这要归功于慈善人士提供的奖学金。

他在加州大学伯克利分校(UC Berkeley)获得了人工智能的博士后学位，并于2001年成为加拿大不列颠哥伦比亚大学(University of British Columbia)的教授，随后在2013年成为英国牛津大学(University of Oxford)的教授。2017年，他以首席科学家的身份加入了DeepMind的全职工作，帮助解决智能问题的愿景，让未来几代人能够过上更好的生活。Nando也是加拿大高级研究所的高级研究员，并获得了一些学术奖项。

主页介绍：

https://khipu.ai/03_nando_de_freitas/

《Reinforcement Learning》教程的内容

强化学习概念

策略梯度
动态规划
深度Q网络
分布式强化学习
D4PG（Distributed Distributional Deep Deterministic Policy Gradients）
PPO（Proximal Policy Optimization）和MPO（Maximum aposteriori Policy Optimisation）
R2D3（Recurrent Replay Distributed DQN from Demonstrations）
强化学习应用：
- AlphaX
- Batch强化学习

后台私信回复“20191122” 获取本文PPT

教程部分截图如下所示：

102页PPT，DeepMind强化学习最新进展，含图文、公式和代码

102页PPT，DeepMind强化学习最新进展，含图文、公式和代码

102页PPT，DeepMind强化学习最新进展，含图文、公式和代码

102页PPT，DeepMind强化学习最新进展，含图文、公式和代码

102页PPT，DeepMind强化学习最新进展，含图文、公式和代码

102页PPT，DeepMind强化学习最新进展，含图文、公式和代码

102页PPT，DeepMind强化学习最新进展，含图文、公式和代码

102页PPT，DeepMind强化学习最新进展，含图文、公式和代码

102页PPT，DeepMind强化学习最新进展，含图文、公式和代码

102页PPT，DeepMind强化学习最新进展，含图文、公式和代码

102页PPT，DeepMind强化学习最新进展，含图文、公式和代码

102页PPT，DeepMind强化学习最新进展，含图文、公式和代码

102页PPT，DeepMind强化学习最新进展，含图文、公式和代码

102页PPT，DeepMind强化学习最新进展，含图文、公式和代码

102页PPT，DeepMind强化学习最新进展，含图文、公式和代码

102页PPT，DeepMind强化学习最新进展，含图文、公式和代码

102页PPT，DeepMind强化学习最新进展，含图文、公式和代码

102页PPT，DeepMind强化学习最新进展，含图文、公式和代码

102页PPT，DeepMind强化学习最新进展，含图文、公式和代码

102页PPT，DeepMind强化学习最新进展，含图文、公式和代码

后台私信回复“20191122” 获取本文PPT

参考链接：

https://khipu.ai/program/

https://khipu.ai/03_nando_de_freitas/

https://drive.google.com/file/d/1kPc3fyOzt0I3Sdwt5EgHH5Bsn1Ng-h11/view?usp=sharing

编辑：黄继彦

校对：王欣

— 完 —

关注清华-青岛数据科学研究院官方微信公众平台“THU数据派”及姊妹号“数据派THU”获取更多讲座福利及优质内容。

deepmind 强化学习机器学习动态规划

trillionpower

0 关注 0 粉丝 0 动态

相关推荐

DeepMind发布神经网络、强化学习库，网友：推动JAX发展

DeepMind今日发布了Haiku和RLax两个库，都是基于JAX。而此次发布的两个库，分别针对神经网络和强化学习，大幅简化了JAX的使用。Haiku是基于JAX的神经网络库，允许用户使用熟悉的面向对象程序设计模型，可完全访问 JAX 的纯函数变换。RL

XuFangfang0 2020-02-21

大脑也在用分布式强化学习？DeepMind新研究登上《Nature》

分布式强化学习是智能体在围棋、星际争霸等游戏中用到的技术，但 DeepMind 的一项研究表明，这种学习方式也为大脑中的奖励机制提供了一种新的解释，即大脑也应用了这种算法。这一发现验证了分布式强化学习的潜力，同时也使得 DeepMind 的研究人员越发坚信

专注坚持 2020-01-16

DeepMind 开源 Spriteworld，灵活，可配置的强化学习环境

Spriteworld是一个基于python的RL环境，由一个可以自由移动的简单形状的二维竞技场组成。该环境是为文章“COBRA：基于数据有效模型的RL通过无监督对象发现和好奇心驱动的探索”中介绍的COBRA代理开发的。环境的动机是为程序生成多对象场景提供

专注坚持 2019-11-03

DeepMind一次性开源3个新框架！深度强化学习应用落地即将迎来春天？

本文转自雷锋网，如需转载请至雷锋网官网申请授权。深度强化学习一直是近年来人工智能的一些重大突破的核心。然而，尽管 DRL 有了很大的进步，但由于缺乏工具和库，DRL 方法在主流解决方案中仍然难以应用。就在最近，DeepMind 发布了一系列新的开源技术，包

luchi00 2019-09-20

DeepMind,哈佛造出了 AI「小白鼠」:从觅食,击球窥探神经网络奥秘

在一篇 ICLR 2020 Spotlight 论文中，DeepMind 和哈佛大学的研究者构建了一个基于 AI 的虚拟小鼠，能够执行跑、跳、觅食、击球等多项复杂任务。他们还尝试用神经科学技术来理解这个「人造大脑」如何控制其行为。或许这一成果可以为我们提供

天行九歌 2020-04-29

Alphabet 的 DeepMind 损失在 2018 年飙升至5.7亿美元

根据英国公司大楼登记处周三提交的文件显示，负责创建人类级人工智能的谷歌人工智能公司 DeepMind 在2018年度过了昂贵的一年。其 2018 年的税前亏损额从 2017 年的 3.41 亿美元和 2016 年的 1.54 亿美元增长至 5.7 亿美元。

芋头 2019-11-03

DeepMind向星际玩家们下了战书！你的对手可能是AI，而你毫不知情

欧洲的星际争霸玩家们即日将有机会和Deepmind AI打场比赛了！出战的AI是由DeepMind和暴雪联合培养的，经过了“特别的训练方式”，在星际争霸界 II 早有过赫赫战绩，连续在10场比赛中击败了人类职业选手。另外10场比赛，代表人类出战的是职业选手

引力空间万物互联 2019-07-11

这部关于 AI 的纪录片，还是值得一看的

纪录片《 AlphaGo 》，是由 Google 与 DeepMind 团队出品，纪录片导演 Greg Kohs 和团队精心制作完成。讲述了 DeepMind 团队带领 AlphaGo 与人类顶尖棋手展开对决的几场关键性比赛。这部纪录片在去年自各个影展上小

ZLXiong 2019-06-28

Reddit热议！DeepMind最新研究解决灾难性遗忘难题

当遇到序列任务时，神经网络会遭受灾难性遗忘。DeepMind研究人员通过在函数空间中引入贝叶斯推理，使用诱导点稀疏GP方法和优化排练数据点来克服这个问题。今天和大家分享这篇Reddit高赞论文。该方法被称为用于持续学习的函数正则化，通过在底层任务特定功能上

panrenlong 2019-06-23

超越BigGAN，DeepMind提出「史上最强非GAN生成器」VQ-VAE-2

能生成逼真图像的不只有 GAN。去年 9 月，BigGAN 横空出世，被誉为「史上最强 GAN 生成器」，其逼真程度众多研究者高呼「鹅妹子嘤」！相关论文也被 ICLR 2019 接收为 Oral 论文。今年 2 月，BigGAN 的一作又发布了更新版论文，

xmdxcsj 2019-06-05

DeepMind游戏AI登上Science:雷神之锤多智能体合作，超越人类玩家

去年年中，DeepMind 介绍了其在游戏智能体方面的新进展，聚焦于雷神之锤 III 竞技场的夺旗模式。当时，DeepMind 设计的为 FTW 智能，达到了人类水平，能够与其它智能体或人类相互合作。今年，DeepMind 继续发力，提出基于 self-p

wesay 2019-06-03

结合符号主义和DL:DeepMind提出端到端神经网络架构PrediNet

DeepMind 最近的一项研究将符号人工智能和深度学习结合起来，提出了一种新型端到端神经网络架构 PrediNet。符号主义和连接主义是人工智能领域中的两大流派。连接主义，又称为仿生学派或生理学派，其主要原理为神经网络及神经网络间的连接机制与学习

hexianhao 2019-05-29

DeepMind论文：深度压缩感知，新框架提升GAN性能（附链接）

本文介绍一种将压缩感知和GAN联系起来的创新框架。[ 导读 ] DeepMind提出一种全新的“深度压缩感知”框架，将压缩感知与深度学习相结合，显著提高了信号恢复的性能和速度，并提出一种改进GAN的新方法。压缩感知是一种优雅的框架，用于从压缩信号中恢复稀疏

刀刀鱼 2019-06-01

DeepMind揭秘雷神之锤3背后AI真相：碾压人类只是个开始

虽然人类已经无望在电子竞技中打败AI多智能体，但DeepMind的研究仍在继续往前推进。最近他们公布了在强化学习方面的最新进展，并对未来进行了展望。AI智能体的能力还会继续提高吗？DeepMind的科学家也想知道。他们最近更新了博客，以雷神之锤为例，为我们

zourzh 2019-05-31

DeepMind论文：深度压缩感知，新框架提升GAN性能

DeepMind提出一种全新的“深度压缩感知”框架，将压缩感知与深度学习相结合，显著提高了信号恢复的性能和速度，并提出一种改进GAN的新方法。例如，CS可以利用自然图像的结构，仅从少量的随机测量中恢复图像。CS具有灵活性和数据效率高的优点，但由于其稀疏性和

tryhl 2019-05-23

没有地图也能导航？DeepMind用街景来认路

在童年记忆中，你是如何沿着路线去朋友家、学校或者商店的？那时候没有地图，只是简单的记住街景和沿途转向。因此，导航是一种很重要的认知任务，人类或者动物不需要地图就能够在复杂的世界中进行远距离穿越。请注意，这项研究适用于一般导航而不是汽车驾驶，在这里，我们既没

hello小工 2018-04-08

DeepMind科学家：AI对战《星际争霸》胜算几何？

AI科技大本营1月29日消息，在《麻省理工科技评论》与深科技举办的新兴科技峰会上，谷歌DeepMind科学家Oriol Vinyals在会上发表了主题为《AI对战星际争霸胜算几何？》的演讲。在加入谷歌AI团队之后，Oriol Vinyals参与了机器翻译、

yuyin 2018-01-29

学术 | DeepMind最新研究：使用更简单的环境就能检测AI是否安全

随着人工智能系统在现实生活中变得通用和实用，确保系统的安全运行变得越来越重要。迄今为止，大部分技术人工智能安全研究都集中在，对不安全行为的性质和原因的理论学习上。这九个环境被称为gridworlds。每一个都由一个类似棋盘的二维网格组成。除了标准的激励函数

coverse 2017-11-29

城会玩！DeepMind新AI竟然自己学会跑酷了

DeepMind在通用人工智能的道路上越走越远。最近，他们通过电脑动画和生物力学，让人工智能自己学会了如何在动画环境中运动，包括步行、跑动、跳跃、攀爬。另外，为了抗衡Google在通用人工智能方面的影响力，微软研究院在其雷德蒙总部成立了全新的人工智能实验室

脑极体 2017-07-13

神经网络也能解数学题，DeepMind发布千万数学题海数据集

从中学数学到高数微积分，我们需要做大量数学题。知识点看懂了并不算懂，能解题才是王道。那么神经网络是不是也能理解数学题，并解出这些题目呢？因为从数据上来说，数学题也就是一个序列而已，神经网络说不定能将这个序列映射到正确的答案。为了促进这方面的研究，DeepM

yanaoyong 2019-04-04

trillionpower

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号