解读：如何使用强化学习训练自主驾驶汽车？

勿于浮沙筑高台

2018-10-23

点击上方关注，All in AI中国

作者：Jerry Qu

解读：如何使用强化学习训练自主驾驶汽车？

研究表明，到2040年，销售的新车中95％将是完全自主驾驶的汽车。

而以下是汽车行业产生革命性变革的两个原因：

乘坐自主驾驶汽车每年避免的交通事故可以挽救125万人的生命。
自主驾驶汽车在运输途中节省的时间相当于为乘客的一生增加了3年的时间。

https://offthethrottle.com/blog/2018/04/09/much-time-spend-cars/

由于这些影响，自主驾驶汽车将成为一个价值数万亿美元的行业。增加3年的时间能做多少事情？这是推动特斯拉公司和谷歌公司等技术领导者创新的动机之一。但在人们可以应用之前，需要了解使这一切成为可能的技术：强化学习。

那么，强化学习是如何工作的呢？

想象一下，一个机器人（也称为代理）试图拿起一支笔，但它失败了，然后再试一次，又失败了。如此重复这个过程1000次后，最终获得成功。代理现在已经学会了如何拿笔。简而言之，这就是强化学习，它与生物学习的方式非常相似。

强化学习有三个关键术语

状态（State）：描述当前的情况。（例如在迷宫中的位置）
行动（Action）：代理在其状态下可以做些什么（例如，向右移动）
奖励（Reward）：反馈特定状态的特定行动是好还是坏

让我们看一个简单的例子。

解读：如何使用强化学习训练自主驾驶汽车？

在这个图像中，有一个机器人在位置（1, 1），在迷宫中。这个位置就是状态。机器人有一组可以执行的向上移动或向右移动的行动。最后要注意的是，机器人只要采取行动就会收到奖励。奖励由程序员定义。

以下我们将定义奖励。

奖励：

进入空心方块：+1
碰到墙面：-1
找到出口方块：+100

每当机器人采取行动（a）时，在状态下，它都会接收奖励（r）。在它的头脑中，它不断更新其在这些状态下采取某些行动的奖励记忆。这就是所谓的政策。该政策基本上是代理如何做出决策。所有决定都基于预测的奖励。让我们假设机器人头脑中有一张巨大的表。该表存储所有状态，包括所有可能的操作，以及该状态，并预测该状态动作对的奖励。在训练开始时，所有预测奖励设置为0。

解读：如何使用强化学习训练自主驾驶汽车？

机器人开始采取随机行动，因为它还没有经验。然而，在经过多次迭代的随机动作之后，它慢慢学会准确地预测每个动作的奖励。它通过每次调整特定状态，对动作正确所接收奖励的预测奖励来实现这一点。这些预测的奖励正式称为Q值。Q值基本上定义了某个状态的"好"程度以及代理想要进入该状态的程度。

解读：如何使用强化学习训练自主驾驶汽车？

现在，机器人可以简单地寻找最高Q值，并采取该行动。它已经学会了！

然而，事情并不是那么简单

我们的模型现在有两个问题。一个大，一个小。我们将从小问题开始。

1.利用（Exploitation）vs探索（Exploration）

解读：如何使用强化学习训练自主驾驶汽车？

让我们假设代理刚刚开始学习，所以所有的Q值都是零。代理正试图达到目的，这意味着它的目标是选择具有最高Q值的动作。由于都从0开始，每个人有25％的机会被选中。假设代理商最终选择向右移动。该政策现在看起来像这样：

解读：如何使用强化学习训练自主驾驶汽车？

但是有一个问题。下一次代理重置为状态（1,1）时，它将始终选择该行动。代理从未有机会探索其他行动。这称为贪婪策略，代理总是选择最高的Q值。代理人正在"利用"它的先验知识，因此被利用。另一个潜在的政策是随机选择一个行动，从而进行探索。在实践中，许多因素会影响我们的政策（我们如何选择采取哪种行动）。

你的代理是否在模拟中运行，在没有影响的情况下犯错？或者代理是否实时运行？

前者将受益于更多的探索，更快地学习，而后者将受益于更高的利用，以减少损失。通常使用利用和探索的组合，具体取决于问题。（例如，利用占70％的时间，探索占30％的时间）

2.未来的奖励

解读：如何使用强化学习训练自主驾驶汽车？

我们的代理现在面临的最大问题是，我们只能领先一步。例如，在状态（1,1），代理已经知道两个动作都将导致+1奖励。我们可以看一下迷宫，看看向上移动不是一个理想的行动，因为它会将是死路一条。我们需要一种方法将未来的奖励与当前的奖励联系起来。 采及贝尔曼方程可以解决！

解读：如何使用强化学习训练自主驾驶汽车？

未来累计折扣奖励

上面的等式被称为未来累积折扣奖励。它是贝尔曼方程的一部分，它允许我们考虑过去状态t+1的未来奖励。在这个等式中：

这些是变量所代表的含义：

（t）：当前状态
（Rt）：状态t的累积折扣奖励（更新我们的Q值）
（r）：奖励
（γ）：贴现率（介于0和1之间）
（k）：收到奖励的未来步骤数

对于那些不喜欢一堆数学方程式的人来说，这个等式实际上取当前奖励的总和加上所有未来的奖励，用数字γ打折，数量γ以指数方式减少k倍（收到奖励的未来步骤数）。使用此功能，我们不仅可以根据下一个行动更新Q值，还可以根据以下所有行动更新Q值。

应用γ= 0.9，我们得到：

解读：如何使用强化学习训练自主驾驶汽车？

每个状态的Q值（γ=0.9）

在最终状态，只有当前的奖励（100）。但对于之前的状态，我们采取下一个奖励的折扣加上当前的奖励（100* 0.9+1 = 91）。然后对于之前的状态，除了当前奖励（100 * 0.9 * 0.9 +1*0.9+1= 82.9）之外，我们对最终奖励加下一个奖励的折扣提供更大的折扣。在更远的将来，从逻辑上讲，奖励应该得到更大的折扣，因为当前行动在产生奖励方面的作用较小。

我们做到了！

解读：如何使用强化学习训练自主驾驶汽车？

我们的代理现在有充分的学习经验！它将探索迷宫数千次。每次稍微调整其Q值为（Rt）（累积折扣奖励）。只有少量，因为更大的变化会使学习太混乱。经过数千次迭代后，代理将学会近似的Q值，然后它可以利用贪婪的策略来采取具有最高Q值的行动，并使其到达迷宫的尽头！

但等等，还有最后一个问题！

我保证，这是最后一个。

解读：如何使用强化学习训练自主驾驶汽车？

我们如何学习宇宙中每一个点的Q值？

让我们来玩一个游戏

想象一下，尝试在现实世界中使用这种形式的强化学习。以自主驾驶汽车为例。我们面临的问题是，我们的世界过于复杂，无法为每个状态存储Q值。想象一下，这需要为地球上的每个坐标点存储一个值。此外还要添加其他因素：例如天气状况，代理面临的方向，以及不断变化的道路情况。因此不可能解决这个问题！

表示"坚持非常重要。除非你被迫放弃，否则你不应该放弃。"—伊隆·马斯克

我们以前一直使用的解决方案可以与强力方法进行比较，我们的代理为每个状态存储Q值。但是，如果我们使用机器学习（神经网络）来预测每个动作的Q值，并将状态作为输入，那该怎么办呢？这将彻底改变游戏。

欢迎采用深度Q-Learning

在许多现实世界的问题中，我们的状态中存在与Q值相对应的模式。例如，如果自主驾驶汽车感觉到停在它前面的一辆汽车，那么自驾车必须停下来！无论自驾车在哪里，天气如何，或任何其他因素，这种方法都适用。如果要继续驾驶，汽车将会发生碰撞，导致非常负面的回报（由机器学习工程师定义）。因此，不可能创建每个可能条件（天气、位置等）的表格，神经网络可以简单地知道如果汽车停在代理前面，则采取名为"减速"的行动。

神经网络在一件事情上是惊人的，学习模式！

深度Q-Learning使用神经网络来学习状态和Q值之间的模式，使用奖励作为预期输出。这些被称为深度Q网络。

现在我们了解强化学习，我们可以讨论一下为什么它如此独特。

在传统的神经网络中，我们需要标记所有输入。这就是神经网络学习的方式。（如果你需要复习，请查看我关于神经网络的上一篇文章。）

然而，在自主驾驶汽车的情景中，我们如何定义每个时间间隔的预期值？我们需要说，将车轮向左转0.5度，将速度提高到每小时50公里。在不到一秒的时间内，我们需要为新输入添加新标签！而制作这个标签需要数年时间！

解读：如何使用强化学习训练自主驾驶汽车？

在Deep Q-Networks中，我们不是定义每个单独的值（方向盘角度、速度），而是将行动与Q值相关联。例如，将方向盘向左转5度是一个潜在的动作。因此可以向右4度，改为每小时50公里，然后再改变为每小时30公里。然后我们定义奖励。这完全取决于工程师，当我们尝试采用不同的值时，这里肯定会有一些发挥作用。撞车显然是坏事，必须避免。所以，也许我们给它奖励-1000000的分数。另一方面，为了不撞车，我们每秒将给予代理1分的奖励，并且为了更接近目的地，而每秒奖励10分。在这种方法中，提供对我们环境固有的反馈（奖励）。我们现在只是将反馈映射到导致反馈的行为。这就是强化学习之美。我们不再需要标记我们的数据！

而且还有更多......

到目前为止，我们还没有完成强化学习，现在就有更多的进步！机器学习是一个新兴的流动领域。一些最大的进步包括：

体验重播
分布式强化学习
独立目标网络（双深度Q-Learning）

我会很快跳过这些，因为它们对于强化学习的理解并不是必不可少的。体验重播采用不实时训练神经网络的方法。相反，它执行许多行动，接收一批行动、状态、奖励这个三重奏，并随机采样这个三重奏来训练神经网络。这允许采用更加通用的模型，因为数据的顺序是随机的。

分布式强化学习是一种较新的发展，我们不是将每个动作的神经网络优化为单个Q值，而是根据每个动作的Q值范围概率进行训练。例如，我们的神经网络的输出将变为：

行动的Q值的概率a为1-5
行动的Q值概率a为6-10
行动的Q值的概率b为1-5
行动的Q值的概率b为6-10

这解决了当Q值具有多个峰值时出现的问题。通常在多次迭代后，将这些多个峰值进行平均，但是这种新方法允许代理单独考虑每个峰值。在实践中，研究人员证明，这种模式使玩Atari游戏的代理的训练速度提高了一倍！

因此，我创造了一辆虚拟自主驾驶汽车

我不得不用我新发现的知识做点什么。请继续关注我在下一篇文章中如何将强化学习应用于虚拟自驾车！

但是，就像所有美好的事物一样，都要有一个警告。

强化学习是抽象标签数据的需要。但是，其结果我们失去了一点准确性。想象一下需要告知如何驾驶汽车，驾驶，撞车和学习之间的区别。

"事实证明，强化学习是一种机器学习，其对数据的渴望甚至超过了有监督的学习。获得足够强化学习算法的数据是非常困难的。"—Andrew Ng

尽管如此，强化学习是迈向新世界的踏脚石。通过直接从环境中获取反馈，它使我们更接近通用人工智能。我们已经在机器交易和自动驾驶汽车等领域证明了强化学习的价值。但这仍然是一个新领域，不断改进和颠覆。所以需要坚持下去。一般来说，强化学习和机器学习仍然存在！

解读：如何使用强化学习训练自主驾驶汽车？

勿于浮沙筑高台

0 关注 0 粉丝 0 动态

相关推荐

强化学习到底是什么，它如何运作？

强化学习是一种行为学习模型，由算法提供数据分析反馈，引导用户逐步获取最佳结果。不同于使用样本数据集训练机器模型的各类监督学习，强化学习尝试通过反复试验掌握个中诀窍。强化学习与人类在婴幼儿时期的学习过程非常相似。这是一种基于经验的学习流程，机器会不断尝试、不

83153251 2020-11-06

AlphaGo原来是这样运行的，一文详解多智能体强化学习

在这篇综述性文章中，作者详尽地介绍了多智能强化学习的理论基础，并阐述了解决各类多智能问题的经典算法。此外，作者还以 AlphaGo、AlphaStar为例，概述了多智能体强化学习的实际应用。近年来，随着强化学习在多个应用领域取得了令人瞩目的成果，并且考虑到

87133658 2020-11-04

Menger:大规模分布式强化学习架构

简单来说，RL基础架构就是数据采集和训练的循环，Actor根据环境收集样本数据，然后将其传输给Learner来训练和更新模型。当前大多数RL实现都需要对环境中成千上万个样本进行多次迭代，以学习目标任务，如Dota 2每2秒要学习成千上万帧样本。这样，RL

richermen 2020-10-15

Science 好文：强化学习之后，机器人学习瓶颈如何突破？

本文转自雷锋网，如需转载请至雷锋网官网申请授权。在过去的十年里，机器学习确实取得了巨大的突破，计算机视觉与语言处理方面也因此出现了许多改变世界的重要应用。她认为，造成这一现象的一个关键因素在于：机器人学习的数据只能通过在现实世界的操作中获得，成本非常高昂。

码农的小得小感 2020-09-02

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了

本节概述机器学习及其三个分类。首先，与机器学习相关的术语有人工智能、机器学习、强化学习、深度学习等，这里对这些术语进行简单的整理。AI意味着人工智能，其定义因研究人员而异。实现AI的方法之一是机器学习。机器学习可以简单地描述为“向系统提供数据并通过数据自动

hhycsdn 2020-08-16

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了

本节概述机器学习及其三个分类。首先，与机器学习相关的术语有人工智能、机器学习、强化学习、深度学习等，这里对这些术语进行简单的整理。AI意味着人工智能，其定义因研究人员而异。从广义上讲，它指“像人类一样具有智能的系统和配备这种系统的机器人”。实现AI的方法之

LuqiangShi 2020-08-14

几行代码实现强化学习

在过去的一年中，强化学习已经取得了重大进步，最新技术每两个月发布一次。我们已经看到AlphaGo击败了世界冠军围棋选手Ke Jie，Multi-Agents玩了捉迷藏，甚至AlphaStar在星际争霸中也拥有自己的实力。实施这些算法可能会非常具有挑战性，

快乐的鱼儿学敲码 2020-08-10

强化学习

强化学习不同于监督、非监督学习，与环境产生交互，产生最优结果的动作序列。Model-free：不尝试去理解环境, 环境给什么就是什么，一步一步等待真实世界的反馈, 再根据反馈采取下一步行动。它比 Model-free 多出了一个虚拟环境，还有想象力。Po

83153251 2020-07-22

无梯度强化学习：使用Numpy进行神经进化

学习统计学你会学到很多关于基于梯度的方法，但是不久前我读了Uber AI的人写的一篇非常有趣的文章，他表明在解决Atari游戏时，简单的遗传算法与最复杂的基于梯度的RL方法是挺有竞争力的。首先，对于那些还不知道的人，神经进化描述了进化和遗传算法在训练神经网

83153251 2020-06-21

强化学习 --- 马尔科夫决策过程详解（MDP）

马尔科夫性某一状态信息包含了所有相关的历史，只要当前状态可知，所有的历史信息都不再需要，当前状态就可以决定未来，则认为该状态具有马尔科夫性。马尔科夫过程又叫做马尔科夫链,它是一个无记忆的随机过程，可以用一个元组<S, P>表示，其中。P是状态转

wilbertzhou 2020-06-06

5种用于Python的强化学习框架

从头开始编写自己的Reinforcement Learning实施可能会花费很多工作，但是您不需要这样做。有许多出色，简单和免费的框架可让您在几分钟之内开始学习。可悲的是，对于强化学习并非如此。并不是说没有框架，事实上，有很多RL框架。问题是尚无标准，因此

shengge0 2020-06-05

李宏毅的强化学习视频用于梳理翻阅（4）奖励、模仿

curiosity模型中，在原来DQN的基础上，建立了Network1，用于在??的条件下预测输出的下一个状态，与实际在MDP的一个片段上输出的，下一个状态之间求差，将差作为奖励r的一部分，以鼓励探索不同的状态。引入了Network2，将输入的两个状态进行

wilbertzhou 2020-05-31

《AutoDL论文解读（一）：基于强化学习的开创性工作》

==> 有钱，无脑瞎烧 GPU。自动化机器学习最近变得越来越火，是机器学习下个发展方向之一。其中的神经网络结构搜索是其中重要的技术之一。人工设计网络需要丰富的经验和专业知识，神经网络有众多的超参数，导致其搜索空间巨大。自2017年谷歌与MIT各自在I

专注坚持 2020-05-17

卡耐基梅隆大学（CMU）元学习和元强化学习课程 | Elements of Meta-Learning

Introduction & overview of the key methods and developments.[Good starting point for you to start reading and understanding

83153251 2020-05-15

你该知道的深度强化学习相关知识

不过，深度神经网络系统往往需要大量的训练数据，以及已知答案的带标签样本，才能正常地工作。并且，它们目前尚无法完全模仿人类学习和运用智慧的方式。几乎所有的AI专家都认为：仅仅增加基于深度神经网络系统的规模和速度，是永远不会产生真正的“类人”AI系统的。因此，

机器学习菜鸟 2020-05-12

【论文研读】强化学习入门之DQN

最近在学习斯坦福2017年秋季学期的《强化学习》课程，感兴趣的同学可以follow一下，Sergey大神的，有英文字幕，语速有点快，适合有一些基础的入门生。今天主要总结上午看的有关DQN的一篇论文《Human-level control through d

wilbertzhou 2020-04-18

告别炼丹，Google Brain提出强化学习助力Neural Architecture Search | ICLR2017

论文为Google Brain在16年推出的使用强化学习的Neural Architecture Search方法，该方法能够针对数据集搜索构建特定的网络，但需要800卡训练一个月时间。虽然论文的思路有很多改进的地方，但该论文为AutoML的经典之作，为后

kingzone 2020-03-27

DeepMind发布神经网络、强化学习库，网友：推动JAX发展

DeepMind今日发布了Haiku和RLax两个库，都是基于JAX。而此次发布的两个库，分别针对神经网络和强化学习，大幅简化了JAX的使用。Haiku是基于JAX的神经网络库，允许用户使用熟悉的面向对象程序设计模型，可完全访问 JAX 的纯函数变换。RL

XuFangfang0 2020-02-21

<强化学习> on policy VS off policy

强化学习迭代过程中，policy-evaluation是获取agent按照当前policy会产生的所有感觉，即获取Qpai ；off policy是我做了这个行为a之后，后继以别人的眼光别人的策略来固定； td_target = r + la

专注坚持 2020-02-20

<强化学习>基于采样迭代优化agent

　　| 　　　　　　　　　　　　　　　　　　　 ====》 policy evaluation使用采样求均值的方法。　　| 　　　　　　　　　　　　　　　　　　　　　　　　　　|____ OFF-POLICY TD

sxyhetao 2020-02-14

勿于浮沙筑高台

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号