AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

小白将

2018-10-01

关注关注

来源：新智元

本文共多图，建议阅读10分钟。

为你分享Dave Silver在Deep Learning Indaba活动的主题演讲中归纳出的强化学习中要注意的10大要点。

AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

[ 导读 ]近日，谷歌DeepMind强化学习研究团队负责人、AlphaGo项目首席研究员Dave Silver在Deep Learning Indaba活动的主题演讲中归纳出了强化学习中要注意的10大要点。一起来看看，也许能少走点弯路。

近日，在南非斯泰伦博斯举行的Deep Learning Indaba活动上，谷歌DeepMind强化学习研究团队负责人、AlphaGo项目首席研究员Dave Silver在主题演讲中归纳出强化学习中要注意的10大要点。

活动主办方将Dave Silver演讲的PPT截图和文字要点发在了推特上，引发了广泛讨论。

Silver的演讲中提出的强化学习10大要点涵盖涉及算法评估、状态控制、建模函数等方面的心得和建议，非常值得开发者和机器学习爱好者参考学习。一起看看他是怎么说的吧！

AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

1、在评估中产生进步

客观、量化的估计会产生进步，对评估尺度的选择会决定进步的方向。这可能是项目推进过程中做出的最重要的决定。

目标驱动型研究：确认评估标准与最终目标密切相关。避免主观评估

假设驱动型研究：提出假设，在宽泛的条件下验证假设，与相似结果对比，而不是与最先进的结果对比。重要的是对结果的理解，而不是追求排名。

AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

2、算法的可扩展性决定是否成功

算法的可扩展性是指其性能随资源的梯度变化。这里的资源可能是计算、存储和数据。算法的可扩展性决定了能否项目能否成功，它几乎永远比算法的起点重要。最终，好的算法总是无限资源条件下的最优解决方案。

AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

3、稳定算法的通用性

算法通用性是指算法在不同深度学习环境下的表现。应避免对当前任务的过拟合。积极寻求可以适用于未来未知环境下的算法。

结论：要广泛验证，建立现实的机器学习环境。

AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

4、信任智能体的经验

经验（包括观察、动作、奖励）是指深度学习的数据。信任这些经验，将其作为唯一知识来源。尽管这些经验看上去不可学习，但最终长期来看，经验终将取得成功。

AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

5、状态是主观的

智能体应该基于经验建立自身的状态，智能体的状态是关于其先前状态和新观察数据的函数。任何时候不要定义某一环境下的“真实”状态。

AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

6、控制数据流

智能体处于大量数据流传感器环境中，智能体的行为会对数据流造成影响。

控制特征——控制数据流——控制未来——实现任何回报的最大化。

AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

7、价值函数可以对世界建模

价值函数是对未来的高效归纳和缓存。多关注固定时间段的查找，而非指数级的前瞻。可以独立计算和学习。利用多价值函数可以在不同时间范围内，对世界各个方面进行高效建模。

应避免使用原始的时间步长对世界进行建模。

AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

8、从想象的经验中进行学习

想象接下来会发生什么，从想象的经验中进行学习，同时关注在当前时刻的值函数估计。

AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

9、加强函数逼近器

差异化网络架构是一种有力工具，可以用来:以丰富的方式表示状态，实现差异化存储、差异化规划、层级控制。

将算法的复杂性融入网络架构，可以降低算法的复杂度，增加网络架构的可表达性。

AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

10、要学习“如何学习”

人工智能的发展史呈现出一条清晰的发展脉络。

第一代：“美好的”老式人工智能。手动控制预测，不学习任何内容。

第二代：浅度学习。手动控制特征，学习预测。

第三代：深度学习。手动控制算法（优化器、目标、架构），学习特征和端对端预测。

第四代：Meta学习。无手动环节，学习算法、特征和端对端预测。

参考链接：https://twitter.com/DeepIndaba/status/1040234486250782721

研究员强化学习黄金法则机器学习

小白将

0 关注 0 粉丝 0 动态

关注关注

研究员准备让智能设备用AI来判断你的声音来自哪里

虽然这个想法让隐私保护主义者感到害怕，但智能音箱的开发者们正在努力让他们的设备在没有听到用户唤醒词的情况下也能启动。我们知道谷歌已经在研究这项技术，但现在，卡内基梅隆大学那边的人也在跟进，研究人员已经开发出了一种机器学习模型，利用人工智能的力量精确判断某人

机器之心 2020-11-06

融合与发展：数据科学研究院RONG研究员首次工作汇报会圆满结束

2019年11月08日上午，数据科学研究院RONG研究员工作汇报会首次会议于双清大厦成功举办。数据院院长俞士纶、执行副院长韩亦舜与来自于不同领域的五位RONG研究员相互交流，共同探讨，就数据挖掘、传统行业的工业互联网应用、大数据创新方法、医疗大数据、交通大

shizhaofan 2019-11-12

格拉斯哥大学研究员开发监督机器人，督促小朋友洗手预防疾病

10月15日是全球洗手日。虽然早已养成了洗手的习惯，但即使是现在，对很多儿童来说，洗手仍然是一件奢侈的事。根据调查，全球每年大概1300名儿童因为腹泻和呼吸道感染丧生，而用肥皂洗手就能有效预防40%相关疾病。除此之外，由于发展中国家存在的水和卫生的疾病，全

wxljjfcyl 2019-11-05

谷歌高级研究员Nature发文：避开机器学习三大「坑」

算法分析已经成为科学研究的重要方法，生物学家、高能物理学家、病理学家等许多领域的研究者都正在广泛采用机器学习算法来发现新配方和新方法，但是谷歌 Accelerated Science 团队高级研究员 Patrick Riley 近日在 Nature 上

sayhaha 2019-08-01

阿里巴巴研究员刘国华：阿里巴巴智能运维体系建设

摘要：本文整理自刘国华在2018年开放数据中心峰会开幕式上的演讲。在演讲中，刘国华介绍了智能化给阿里巴巴未来基础设施带来的三大价值：数据驱动决策、全局优化和变革。基于智能化，阿里巴巴重塑了运维体系。通过智能化建设，基础设施的交付效率提升了247%，需求预

bengsa 2019-06-28

抢人大战中，那些选择留在高校的AI研究员们

AI人才需求的不断增长，为科研人员在学术机构和商业公司间跨界工作创造机会。加拿大蒙特利尔的软件提供商Element AI在4月份发布的一份报告显示，在过去一年中， LinkedIn上具有人工智能专业知识的博士毕业生人数增加了66％。在顶级机器学习会议上发

红色石头 2019-05-20

微软资深研究员详解基于交错组卷积的高效DNN｜公开课笔记

卷积神经网络在近几年获得了跨越式的发展，虽然它们在诸如图像识别任务上的效果越来越好，但是随之而来的则是模型复杂度的不断提升。越来越深、越来越复杂的卷积神经网络需要大量存储与计算资源，因此设计高效的卷积神经网络是非常重要和基础的问题，而消除卷积的冗余性是该问

FromZerotoHero 2018-07-11

微软资深研究员详解基于交错组卷积的高效DNN

yuyin 2018-07-11

CVPR PAMI青年研究员奖Andreas Geiger：自动驾驶中的计算机视觉

机器之心原创,作者：邱陆陆。在今年 6 月召开的 CVPR2018 上，德国图宾根大学及马克斯·普朗克研究所自动视觉组负责人 Andreas Geiger 教授摘得了 PAMI Young Researcher Award，该奖项颁发给 7 年内获得博士学

herrkun 2018-08-03

前微软亚洲研究院资深研究员梅涛博士加盟京东

计算机视觉和多媒体领域的杰出科学家梅涛博士日前正式加入京东，出任京东集团 AI 平台与研究部 AI 研究院副院长，并担任计算机视觉与多媒体实验室主任。他将负责创建计算机视觉与多媒体实验室，以及京东 AI 平台与研究部在该领域的研究、创新和应用，向该部门负责

ibelieveican0 2018-01-25

Dota2人类被吊打，为啥人类研究员还总是着迷于游戏？

北京时间 8 月 6 日凌晨，OpenAI的AI系统又跟人类打了三场Dota 2比赛，最终2：1 战胜了人类队伍！据 OpenAI 官网介绍，他们的平均水平超过了 99.95% 的 Dota2 玩家，不过5人并没有在一起训练过，默契程度有限。与一个多月前的

tjulmy 2018-08-06

资讯｜前微软首席研究员俞栋加盟腾讯AI Lab，担任副主任

昨天，腾讯正式宣布张潼出任腾讯 AI Lab 实验室主任。同时，前微软研究院的首席研究员、顶级语音专家俞栋也已加入了腾讯 AI Lab，担任副主任一职。俞栋是语音识别和深度学习领域的著名专家。此前于 3 月 18 日西雅图举办的 AI Next Tech

lengzhao 2017-03-24

刚刚结束的ICLR上，谷歌研究员再批当前AI炼金术通病

在刚过去的ICLR会议中，谷歌人工智能研究员Ali Rahimi批评了整个机器学习行业对经验法则、试错法和迷信的过分依赖。去年12月，谷歌公司的人工智能研究员Ali Rahimi在NIPS大会的演讲中批判了自己的研究领域，他说，计算机通过尝试和错误进行学习

NeverStop 2018-05-07

谷歌研究员再批：机器学习慢慢变成新时代的炼金术

最近，谷歌的AI研究人员、 "Test of Time Award"得主Ali Rahimi指出，计算机通过尝试错误法进行学习的机器学习算法已经成为“炼金术”的一种形式。Rahimi说，如果不深入了解构建和训练新算法所需的基本工具，研究

无风而起 2018-05-10

阿里搜索事业部研究员徐盈辉：剖析阿里背后的强化学习技术

2013 年，DeepMind 在 NIPS 大会上发表的一篇深度强化学习的文章，一举惊艳了学术界。2016 年 1 月，AlphaGo 在一场围棋大赛中击败李世乭吸引全世界的目光，其背后的强大武器正是深度强化学习技术。同年年底，2016NIPS 最佳论文

atbjss 2017-03-14

为什么谷歌、Facebook的AI研究员都坐在CEO身边？

如果你想了解一家科技公司的发展重点，可以先看看这家公司的座位表。在谷歌的硅谷总部，首席执行官Sundar Pichai与谷歌大脑在同一楼层工作。即使是位于盐湖城地区的在线零售商Overstock.com，现在也组建了一支名为OLabs的小型研发团队。通过O

qpzmal 2018-03-08

阿里云智能视觉研究员华先胜：大数据智能分析、识别和搜索

在这些场景中，对图像/视频数据进行智能分析、挖掘其中的内容以及对其中的事件进行实时的分析并非易事。视觉智能发展朝向两个方向：云上智能和端上智能。云上的智能是指复杂的计算是在云上完成；端上智能则是在终端完成的，例如手机或摄像机本身自带的计算能力、自动驾驶等等

rfunnyyoda 2016-09-21

轮胎后的大脑--斯坦福大学AI研究员正在教会汽车思考

Drive.ai是一个由斯坦福大学人工智能研究员创建的备受关注的创业公司，这些研究员们想要教会汽车思考，于是公布了一个由软件驱动，可将传统汽车转变成无人驾驶汽车的配套工具包发布计划，由此使其研究成果商业化。但是，驾驶AI并没有打算披露此系统的价格和上市时间

zhujianing 2016-09-12

DeepMind高级研究员：重新理解GAN，最新算法、技巧及应用（PPT）

本文是DeepMind高级研究科学家Balaji Lakshminarayanan在SF AI Meetup上演讲的slides，总结了他以及 Ian Goodfellow，Shakir Mohamed, Mihaela Rosca等人最新的GAN工作。G

AndyViky 2018-02-05

腾讯安全平台部专家研究员胡育辉：千亿黑产背后的破局之道

背景：5月23-24日，以“焕启”为主题的腾讯“云+未来”峰会再广州召开，广东省各级政府机构领导、海内外业内学术专家、合作伙伴及行业大咖悉数到场，共话云计算与行业数字化新发展。腾讯安全平台部专家研究员胡育辉，在24日下午的安全分论坛上，就打击黑产等业务安全

StubbornAnt 2018-05-30

安科网

AlphaGo首席研究员亲授！10张PPT介绍10大强化学习黄金法则！

小白将

小白将

相关推荐

研究员准备让智能设备用AI来判断你的声音来自哪里

融合与发展：数据科学研究院RONG研究员首次工作汇报会圆满结束

格拉斯哥大学研究员开发监督机器人，督促小朋友洗手预防疾病

谷歌高级研究员Nature发文：避开机器学习三大「坑」

阿里巴巴研究员刘国华：阿里巴巴智能运维体系建设

抢人大战中，那些选择留在高校的AI研究员们

微软资深研究员详解基于交错组卷积的高效DNN｜公开课笔记

微软资深研究员详解基于交错组卷积的高效DNN

CVPR PAMI青年研究员奖Andreas Geiger：自动驾驶中的计算机视觉

前微软亚洲研究院资深研究员梅涛博士加盟京东

Dota2人类被吊打，为啥人类研究员还总是着迷于游戏？

资讯｜前微软首席研究员俞栋加盟腾讯AI Lab，担任副主任

刚刚结束的ICLR上，谷歌研究员再批当前AI炼金术通病

谷歌研究员再批：机器学习慢慢变成新时代的炼金术

阿里搜索事业部研究员徐盈辉：剖析阿里背后的强化学习技术

为什么谷歌、Facebook的AI研究员都坐在CEO身边？

阿里云智能视觉研究员华先胜：大数据智能分析、识别和搜索

轮胎后的大脑--斯坦福大学AI研究员正在教会汽车思考

DeepMind高级研究员：重新理解GAN，最新算法、技巧及应用（PPT）

腾讯安全平台部专家研究员胡育辉：千亿黑产背后的破局之道

小白将