灵魂一问：深度强化学习终到尽头？

NeverStop

2019-04-28

灵魂一问：深度强化学习终到尽头？

【新智元导读】近日，Reddit一位网友根据近期OpenAI Five、AlphaStar的表现，提出“深度强化学习是否已经到达尽头”的问题。此问题一出便引起了众网友的热烈讨论，观点向一边倒：根本没到尽头！

深度强化学习已经达到了尽头？

前几日，OpenAI Five摆擂三天，以99%的胜率秒杀人类玩家。但值得注意的是，OpenAI Five是接受了45000年的训练，而人类只通过一天的时间便找到了战胜它的策略。

灵魂一问：深度强化学习终到尽头？

OpenAI Five和AlphaStar都是深度强化学(DRL)最大规模、最精细的实现方式。但即便是AlphaStar上场，估计结果都是一样的。

Reddit网友便针对此现象，抛出了这样一个问题：

灵魂一问：深度强化学习终到尽头？

有很多研究正在进行，以使DRL更具数据效率，并使深度学习对于分布不均和对抗性的例子更加强大，但与人类的差距是如此极端以至于我怀疑是不是快要达到深度学习的极限了？亦或还是有希望能够推动范式的发展？

许多网友比较倾向的观点是：根本没有达到所谓的极限，而只是可能到了人们不再用“智能”这样的词来谈论DRL的地步。

网友hobbesfanclub认为：

灵魂一问：深度强化学习终到尽头？

我觉得我们才刚刚开始。每天都有很多东西被释放出来，我甚至都跟不上。几天前我认为是最先进的技术突然间就不存在了，因为在这个领域里有大量的工作要做。对于我们这些在这一领域工作的人来说，这些进步仍然是令人难以置信的，在我看来，真正令人印象深刻的是，这些技术在整体上仍然非常年轻……

网友adventuringraw认为：

这是一个很有趣的问题，关于深度学习本身也有类似的讨论——我们已经达到神经网络的极限了吗？如果没有根本性的范式转变，是否更不可能？

但是你看，在神经网络上有各种各样的方法，这些方法在2012年可能会让一些人大吃一惊。很明显，GAN、VAE、神经风格迁移、深度强化学习本身就属于神经网络范畴内，与其说深学习被取代了，不如说它被置于“堆栈”之下了。它是一个组成部分，一个解决问题的策略，一种思考方式。即使是深度网络自己，也是建立在过去各种进步和见解的基础上的。

我个人的想法是：这似乎是无模型方法的一个基本问题。你需要在特征空间中进行密集的覆盖，或者换句话说，你知道在一个已经完全探索过的领域里该做什么，但你不一定能够推断和推理出新的环境，你需要一个全局模型来进行推理。

我之前看过基于Google Brain的'SimPLe'模型的RL论文，开始向基于模型的RL过渡并不是一个全新的概念。但是在我们得到一个能够在空间中进行抽象推理的智能体之前，还有一些严重的问题有待解决：

它如何学习空间中相关的独立实体、动作、等等？
它能在无人监督的情况下完成吗?
它如何将当前的世界理解压缩为一个更低的维度表示，从而完美地捕捉到解决当前问题最需要的维度?
它能学会周围环境的地图吗?
创建分层长期计划的最佳方法是什么？
......

即使只使用图像分类，我们仍然很难提取基于形状的特征而不是基于纹理的特征。一般来说，局部模式似乎比全局模式更容易获取，所以我想OpenAI Five更容易利用局部模式所采用的策略，这使得它很容易受到具有正确洞察力的玩家的攻击。

我一直在读Judea Pearl的《因果关系》(Causality)，有一些有趣的东西是值得思考的。我不认为他的因果关系模型是我们需要让智能体明确地向世界学习什么东西，但是若是让一个智能体能够完全适应新环境并在宏观规模上进行规划的整体似乎是需要它能够反事实地推理，并对它自己的世界有一个强有力的理解。

考虑到我们才刚刚开始了解创建一个鲁棒的图像分类器需要什么(即使是在有监督的环境中，更不用说无监督的环境了)，我认为在深度强化学习完全成长之前，我们已经有了一些基础理论。

但非常疯狂的事情是，我们似乎正在逐步消除了这些障碍。而另一方面，却出现了一个可以玩Dota2、学会合作、学会对世界进行推理的无监督系统，这似乎让人觉得我们快要到达技术的顶尖了，但实际上并没有。所以我对于OpenAI没有到达那个点并不感到惊讶。但对于接下来即将发生的事情还是抱有很大的期待的。

该问题似乎在reddit的讨论热度很高，但是纵观网友们的评论，可以很容易看出对这个问题的看法是向一边倾倒的：

深度强化学习远未及极限，还有很长的一段路要走。

“寒冬论”四起，荣耀属于熬过寒冬的人

但其实，人们不仅会对深度强化学习提出“寒冬论”的言论，深度学习亦是如此。

多年来，深度学习一直处于所谓的人工智能革命的最前沿，许多人相信深度学习将带领我们进入通用AI时代。在2014，2015，2016年，很多事件每每推动人们对 Ai的理解边界。例如Alpha Go等。特斯拉等公司甚至宣称：全自动驾驶汽车正在路上。

但是现在，2018年中期，事情开始发生变化。从表面上看，NIPS会议仍然很火，关于AI的新闻也很多，Elon Mask仍然看好自动驾驶汽车，而Google CEO不断重申Andrew Ng的口号，即AI比电力作出了更大的贡献。但是这些言论已经开始出现裂纹。裂纹最明显的地方是自动驾驶 - 这种现实世界中的实际应用。

当ImageNet有了很好的解决方案（注意这并不意味着视觉问题得到已经解决），该领域的许多杰出研究人员（甚至包括一直保持低调的Geoff Hinton）都在积极地接受采访，在社交媒体上发布内容（例如Yann Lecun，吴恩达，李飞飞等）。他们的话，可以总结为：世界正处在一场巨大的AI革命中。然而，好几年已经过去了，这些人的Twitter信息变得不那么活跃了，比如 Andrew Ng：

2013年 - 每天0.413推文

2014 年- 每天0.605条推文

2015 -每天0.320条推文

2016 -每天0.802推文

2017 -每天0.668推文

2018 -每天0.263推文（至5月24日）

也许这是因为Andrew 的某些夸张言论，在当下会被进行更详细的审查，如下面的推文所示：

灵魂一问：深度强化学习终到尽头？

不可否认，深度学习的热度已经大大下降，赞美深度学习作为AI终极算法的推文少得多了，而且论文正在变得不那么“革命”，现在大家换了个词，叫：进化。

自从Alpha Zero以来，DeepMind已经许久没有产出令人惊叹的东西了。OpenAI更是相当的低调，他们最近一次出现在媒体的报道上，是他们做了一个自动打Dota 2的机器人 [我一开始以为，这是跟 Alpha Go 一样的伟大，然后后来证明，并不是]。

从某些文章来看，貌似Google实际上并不知道如何处理Deepmind，因为他们的结果显然不如原先预期的那么实际......至于杰出的研究人员，他们一般都为了funding 在各种政府机构间游走，Yann Lecun甚至从 Facebook的AI首席科学家的位置上下台了。

像这种从富有的大公司向政府资助的研究机构的逐渐转变表明，这些公司对这类研究的兴趣（我认为是谷歌和Facebook）实际上正在慢慢消失。这些都是早期迹象，没有人大声的宣扬，但这些行动就像肢体语言，也能传达某种意思。

深度学习的一个重要口号是它可以轻松的扩展。我们在2012年拥有60M参数的AlexNet，现在我们已经有至少1000倍的数量的模型了吗？好吧，我们可能会这样做，但问题是 - 这些东西有1000x的能力提升吗？100倍的能力？openAI的研究派上用场：

灵魂一问：深度强化学习终到尽头？

因此，就视觉应用而言，我们看到VGG和Resnets在计算资源应用的一个数量级上饱和（就参数数量而言实际上较少）。Xception是谷歌Inception架构的一种变体，实际上它在ImageNet上的表现只是略微优于其他模型，因为AlexNet基本上解决了ImageNet。

因此，在比AlexNet计算量提高100倍的情况下，我们在视觉方面已经有了近乎饱和的体系结构，换句话说，图像分类的精确已经提不动了。

神经机器翻译是所有大型网络搜索玩家(google, baidu, yahoo 等)的一大努力，难怪它有多少机器就用多少机器（尽管谷歌翻译仍然很糟糕，虽然已经在变得更好了）。

该图上的最新三点有趣地显示了Deep Mind和OpenAI应用于游戏的强化学习相关项目。特别是AlphaGo Zero和稍微更通用的Alpha Zero需要大量计算，但不适用于真实世界的应用程序，因为需要大量计算来模拟和生成这些数据来供这些模型使用。

好的，现在我们可以在几分钟内完成AlexNet的训练，但是我们可以在几天内训练一个比AlexNet大1000倍，质量更好的模型吗？显然不是。

迄今为止，对深度学习的声誉打击最大的事件来自自动驾驶领域。一开始人们认为End-to-End的深度学习可以以某种方式解决自动驾驶问题 (Nvidia特别推崇这一理念)。现在我觉得地球上应该没有人还相信这一点（尽管我可能是错的）。

看看前年加州车辆管理局DMV给各个厂商的自动驾驶车辆人为干预报告，Nvidia的自动驾驶汽车在缺少人为干预的情况下，连开10英里都做不到。

自2016年以来，特斯拉自动驾驶系统发生了几起事故，其中一些事件是致命的。可以说，特斯拉的自动驾驶辅助技术不应该与自动驾驶混淆起来虽然在核心上它依赖于同一种技术。

都到今天了，它仍然不能自动停在路口，不能识别交通信号灯，甚至不能通过环形交叉路口。那是在2018年5月，在承诺特斯拉将自动驾驶从西海岸开到东海岸的几个月后（尽管传言是他们已经尝试过但是在小于30次人工干预的情况下无法实现）。几个月前（2018年2月），伊隆马斯克（Elon Musk）在一次电话会议上被问及海岸到海岸的行驶问题时重复说到：

“我们本可以实现海岸到海岸的驾驶，但它需要太多的专门代码来有效地进行游戏；或者使代码变得脆弱一些，这样它只适用于一个特定的路线，这不是通用的解决方案。

我对神经网络方面取得的进展感到非常兴奋。但是看起来并没有太多的进展。它会觉得这是一个蹩脚的司机。就像…好吧，这是一个非常好的司机。像“Holy Cow！”

因此，有许多人开始对深度学习提出“寒冬论”：

预测人工智能的冬天就像是猜测股市崩盘一样——不可能精确地知道发生的时间，但几乎可以肯定会在某个时刻发生，就像股市崩盘之前，有迹象表明会发生危机，但在当时的环境中，却很容易被大家忽视。在我看来，深度学习已经出现了明显的下降迹象。我并不知道这个冬天会有多“深度”，我也不知道接下来会发生什么，但我可以肯定，这个冬天一定会来临，并且只会来的比想象的要早。

然而，上个月2018年图灵奖公布，深度学习三巨头：Yoshua Bengio、Geoffrey Hinton、Yann LeCun获奖，三人瓜分100万美元奖金。

灵魂一问：深度强化学习终到尽头？

Yann LeCun、Geoffrey Hinton、Yoshua Bengio

去年，”深度学习寒冬论“频起，三位大神也在多个场合对”寒冬“做出了回应。实际上，三人对“寒冬”早有抗体，在上世纪八十年代，Geoffrey Hinton等人坐了数年的冷板凳，直到本世纪AI的再度爆发。

不仅如此，Geoffrey Hinton还提出新的神经网络模型Capsule Network（胶囊网络），试图找到解决深度学习缺陷的新方法，这位71岁的老人熬过最冷的AI冬天，并且认定下一个“冬天”不会到来。

事实证明，荣耀是属于熬过寒冬的人。

参考链接：

https://www.reddit.com/r/MachineLearning/comments/bgvefd/d_have_we_hit_the_limits_of_deep_reinforcement/

NeverStop

0 关注 0 粉丝 0 动态

相关推荐

强化学习到底是什么，它如何运作？

强化学习是一种行为学习模型，由算法提供数据分析反馈，引导用户逐步获取最佳结果。不同于使用样本数据集训练机器模型的各类监督学习，强化学习尝试通过反复试验掌握个中诀窍。强化学习与人类在婴幼儿时期的学习过程非常相似。这是一种基于经验的学习流程，机器会不断尝试、不

83153251 10评论 2020-11-06

AlphaGo原来是这样运行的，一文详解多智能体强化学习

在这篇综述性文章中，作者详尽地介绍了多智能强化学习的理论基础，并阐述了解决各类多智能问题的经典算法。此外，作者还以 AlphaGo、AlphaStar为例，概述了多智能体强化学习的实际应用。近年来，随着强化学习在多个应用领域取得了令人瞩目的成果，并且考虑到

87133658 15评论 2020-11-04

Menger:大规模分布式强化学习架构

简单来说，RL基础架构就是数据采集和训练的循环，Actor根据环境收集样本数据，然后将其传输给Learner来训练和更新模型。当前大多数RL实现都需要对环境中成千上万个样本进行多次迭代，以学习目标任务，如Dota 2每2秒要学习成千上万帧样本。这样，RL

richermen 2020-10-15

Science 好文：强化学习之后，机器人学习瓶颈如何突破？

本文转自雷锋网，如需转载请至雷锋网官网申请授权。在过去的十年里，机器学习确实取得了巨大的突破，计算机视觉与语言处理方面也因此出现了许多改变世界的重要应用。她认为，造成这一现象的一个关键因素在于：机器人学习的数据只能通过在现实世界的操作中获得，成本非常高昂。

码农的小得小感 2020-09-02

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了

本节概述机器学习及其三个分类。首先，与机器学习相关的术语有人工智能、机器学习、强化学习、深度学习等，这里对这些术语进行简单的整理。AI意味着人工智能，其定义因研究人员而异。实现AI的方法之一是机器学习。机器学习可以简单地描述为“向系统提供数据并通过数据自动

hhycsdn 2020-08-16

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了

本节概述机器学习及其三个分类。首先，与机器学习相关的术语有人工智能、机器学习、强化学习、深度学习等，这里对这些术语进行简单的整理。AI意味着人工智能，其定义因研究人员而异。从广义上讲，它指“像人类一样具有智能的系统和配备这种系统的机器人”。实现AI的方法之

LuqiangShi 2020-08-14

几行代码实现强化学习

在过去的一年中，强化学习已经取得了重大进步，最新技术每两个月发布一次。我们已经看到AlphaGo击败了世界冠军围棋选手Ke Jie，Multi-Agents玩了捉迷藏，甚至AlphaStar在星际争霸中也拥有自己的实力。实施这些算法可能会非常具有挑战性，

快乐的鱼儿学敲码 2020-08-10

强化学习

强化学习不同于监督、非监督学习，与环境产生交互，产生最优结果的动作序列。Model-free：不尝试去理解环境, 环境给什么就是什么，一步一步等待真实世界的反馈, 再根据反馈采取下一步行动。它比 Model-free 多出了一个虚拟环境，还有想象力。Po

83153251 2020-07-22

无梯度强化学习：使用Numpy进行神经进化

学习统计学你会学到很多关于基于梯度的方法，但是不久前我读了Uber AI的人写的一篇非常有趣的文章，他表明在解决Atari游戏时，简单的遗传算法与最复杂的基于梯度的RL方法是挺有竞争力的。首先，对于那些还不知道的人，神经进化描述了进化和遗传算法在训练神经网

83153251 2020-06-21

强化学习 --- 马尔科夫决策过程详解（MDP）

马尔科夫性某一状态信息包含了所有相关的历史，只要当前状态可知，所有的历史信息都不再需要，当前状态就可以决定未来，则认为该状态具有马尔科夫性。马尔科夫过程又叫做马尔科夫链,它是一个无记忆的随机过程，可以用一个元组<S, P>表示，其中。P是状态转

wilbertzhou 2020-06-06

5种用于Python的强化学习框架

从头开始编写自己的Reinforcement Learning实施可能会花费很多工作，但是您不需要这样做。有许多出色，简单和免费的框架可让您在几分钟之内开始学习。可悲的是，对于强化学习并非如此。并不是说没有框架，事实上，有很多RL框架。问题是尚无标准，因此

shengge0 2020-06-05

李宏毅的强化学习视频用于梳理翻阅（4）奖励、模仿

curiosity模型中，在原来DQN的基础上，建立了Network1，用于在??的条件下预测输出的下一个状态，与实际在MDP的一个片段上输出的，下一个状态之间求差，将差作为奖励r的一部分，以鼓励探索不同的状态。引入了Network2，将输入的两个状态进行

wilbertzhou 2020-05-31

《AutoDL论文解读（一）：基于强化学习的开创性工作》

==> 有钱，无脑瞎烧 GPU。自动化机器学习最近变得越来越火，是机器学习下个发展方向之一。其中的神经网络结构搜索是其中重要的技术之一。人工设计网络需要丰富的经验和专业知识，神经网络有众多的超参数，导致其搜索空间巨大。自2017年谷歌与MIT各自在I

专注坚持 2020-05-17

卡耐基梅隆大学（CMU）元学习和元强化学习课程 | Elements of Meta-Learning

Introduction & overview of the key methods and developments.[Good starting point for you to start reading and understanding

83153251 2020-05-15

你该知道的深度强化学习相关知识

不过，深度神经网络系统往往需要大量的训练数据，以及已知答案的带标签样本，才能正常地工作。并且，它们目前尚无法完全模仿人类学习和运用智慧的方式。几乎所有的AI专家都认为：仅仅增加基于深度神经网络系统的规模和速度，是永远不会产生真正的“类人”AI系统的。因此，

机器学习菜鸟 2020-05-12

【论文研读】强化学习入门之DQN

最近在学习斯坦福2017年秋季学期的《强化学习》课程，感兴趣的同学可以follow一下，Sergey大神的，有英文字幕，语速有点快，适合有一些基础的入门生。今天主要总结上午看的有关DQN的一篇论文《Human-level control through d

wilbertzhou 2020-04-18

告别炼丹，Google Brain提出强化学习助力Neural Architecture Search | ICLR2017

论文为Google Brain在16年推出的使用强化学习的Neural Architecture Search方法，该方法能够针对数据集搜索构建特定的网络，但需要800卡训练一个月时间。虽然论文的思路有很多改进的地方，但该论文为AutoML的经典之作，为后

kingzone 2020-03-27

DeepMind发布神经网络、强化学习库，网友：推动JAX发展

DeepMind今日发布了Haiku和RLax两个库，都是基于JAX。而此次发布的两个库，分别针对神经网络和强化学习，大幅简化了JAX的使用。Haiku是基于JAX的神经网络库，允许用户使用熟悉的面向对象程序设计模型，可完全访问 JAX 的纯函数变换。RL

XuFangfang0 2020-02-21

<强化学习> on policy VS off policy

强化学习迭代过程中，policy-evaluation是获取agent按照当前policy会产生的所有感觉，即获取Qpai ；off policy是我做了这个行为a之后，后继以别人的眼光别人的策略来固定； td_target = r + la

专注坚持 2020-02-20

<强化学习>基于采样迭代优化agent

　　| 　　　　　　　　　　　　　　　　　　　 ====》 policy evaluation使用采样求均值的方法。　　| 　　　　　　　　　　　　　　　　　　　　　　　　　　|____ OFF-POLICY TD

sxyhetao 2020-02-14

NeverStop

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号