帮你理解强化学习中的策略网络vs数值网络（附链接）

aliceyangxi

2018-11-27

关注关注

作者：SAGAR SHARMA

翻译：张恬钰

校对：王威力

本文1000字，建议阅读5分钟。

本文为你解释强化学习中的策略网络和数值网络。

在强化学习中，智能体（agent）在环境中进行一些随机的抉择，并从很多选择中选择最优的一个来达到目标，实现优于人类的水平。在强化学习中，策略网络和数值网络通常一起使用，比如蒙特卡洛树搜索。这两个网络是探索蒙特卡洛树搜索算法中的一个整体部分。

因为他们在迭代过程中被计算了很多次，所以也被叫做策略迭代和数值迭代，。

接下来我们一起来理解这两个网络在机器学习中为什么如此重要，以及它们之间有什么区别。

什么是策略网络？

考虑这个世界上的任何游戏，玩家在游戏中的输入被认为是行为a，每个输入（行为）导致一个不同的输出，这些输出被认为是游戏的状态s。

从中我们可以得到一个不同状态-行动的配对的列表。

帮你理解强化学习中的策略网络vs数值网络（附链接）

代表哪个行动导致哪个状态。同样的，我们可以说S包括了所有的策略网络中的策略。

策略网络是，给定特定的输入，通过学习给出一个确定输出的网络。

帮你理解强化学习中的策略网络vs数值网络（附链接）

图1 策略网络（动作1，状态1），（动作2，状态2）

比如，在游戏中输入a1导致状态s1（向上移动），输入a2会导致状态s2（向下移动）。

并且，有些行动能增加玩家的分数，产生奖赏r。

帮你理解强化学习中的策略网络vs数值网络（附链接）

图2 状态获得奖赏

来看一些强化学习中常用的符号：

帮你理解强化学习中的策略网络vs数值网络（附链接）

为什么我们使用贴现因子

帮你理解强化学习中的策略网络vs数值网络（附链接）

它是为了防止奖赏r达到无穷大的预防措施（通常小于1）。一个策略无穷大的奖励会忽略掉智能体采取不同行动的区别，导致失去在游戏中探索未知区域和行动的欲望。

但我们在下一次行动到达什么状态才能通往决赛呢？

帮你理解强化学习中的策略网络vs数值网络（附链接）

图3 如何决策下一个动作

什么是数值网络？

通过计算目前状态s的累积分数的期望，数值网络给游戏中的状态赋予一个数值/分数。每个状态都经历了整个数值网络。奖赏更多的状态显然在数值网络中的值更大。

记住奖赏是奖赏期望值，因为我们在从状态的集合中选择一个最优的那个。

帮你理解强化学习中的策略网络vs数值网络（附链接）

接下来，主要目标是最大化期望（马尔科夫决策过程）。达到好的状态的行动显然比其他行动获得更多奖赏。

因为任何游戏都是通过一系列行动来获胜。游戏中的最优化策略

帮你理解强化学习中的策略网络vs数值网络（附链接）

由一系列的能够帮助在游戏中获胜的状态-行动对组成。

获得最多奖赏的状态-行动对是最优化的策略。

最优化的策略的等式通过最大化语句来写出：

帮你理解强化学习中的策略网络vs数值网络（附链接）

因此，最优化的策略告诉我们采取哪个行动能够最大化累计折扣奖励。

通过策略网络学习到的最优化的政策知道当前状态下应该采取哪个行动来获得最大化的奖赏。

帮你理解强化学习中的策略网络vs数值网络（附链接）

如果你有任何疑问或者需求，在下面评论或者推特我。

鼓掌……分享它！在Medium上关注我来获得相似的有趣内容。

在推特上关注我来获得及时的提醒。

原文标题：

Policy Networks vs Value Networks in Reinforcement Learning

原文链接：

https://towardsdatascience.com/policy-networks-vs-value-networks-in-reinforcement-learning-da2776056ad2

译者简介

帮你理解强化学习中的策略网络vs数值网络（附链接）

张恬钰，上海交通大学本科物理专业，Emory University生物统计硕士在读。以后想继续在生物统计方向深造。希望能留在美国学习和工作。希望能和广大的数据爱好者做朋友！

— 完 —

关注清华-青岛数据科学研究院官方微信公众平台“THU数据派”及姊妹号“数据派THU”获取更多讲座福利及优质内容。

强化学习机器学习

aliceyangxi

0 关注 0 粉丝 0 动态

关注关注

强化学习到底是什么，它如何运作？

强化学习是一种行为学习模型，由算法提供数据分析反馈，引导用户逐步获取最佳结果。不同于使用样本数据集训练机器模型的各类监督学习，强化学习尝试通过反复试验掌握个中诀窍。强化学习与人类在婴幼儿时期的学习过程非常相似。这是一种基于经验的学习流程，机器会不断尝试、不

83153251 10评论 2020-11-06

AlphaGo原来是这样运行的，一文详解多智能体强化学习

在这篇综述性文章中，作者详尽地介绍了多智能强化学习的理论基础，并阐述了解决各类多智能问题的经典算法。此外，作者还以 AlphaGo、AlphaStar为例，概述了多智能体强化学习的实际应用。近年来，随着强化学习在多个应用领域取得了令人瞩目的成果，并且考虑到

87133658 15评论 2020-11-04

Menger:大规模分布式强化学习架构

简单来说，RL基础架构就是数据采集和训练的循环，Actor根据环境收集样本数据，然后将其传输给Learner来训练和更新模型。当前大多数RL实现都需要对环境中成千上万个样本进行多次迭代，以学习目标任务，如Dota 2每2秒要学习成千上万帧样本。这样，RL

richermen 2020-10-15

Science 好文：强化学习之后，机器人学习瓶颈如何突破？

本文转自雷锋网，如需转载请至雷锋网官网申请授权。在过去的十年里，机器学习确实取得了巨大的突破，计算机视觉与语言处理方面也因此出现了许多改变世界的重要应用。她认为，造成这一现象的一个关键因素在于：机器人学习的数据只能通过在现实世界的操作中获得，成本非常高昂。

码农的小得小感 2020-09-02

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了

本节概述机器学习及其三个分类。首先，与机器学习相关的术语有人工智能、机器学习、强化学习、深度学习等，这里对这些术语进行简单的整理。AI意味着人工智能，其定义因研究人员而异。实现AI的方法之一是机器学习。机器学习可以简单地描述为“向系统提供数据并通过数据自动

hhycsdn 2020-08-16

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了

本节概述机器学习及其三个分类。首先，与机器学习相关的术语有人工智能、机器学习、强化学习、深度学习等，这里对这些术语进行简单的整理。AI意味着人工智能，其定义因研究人员而异。从广义上讲，它指“像人类一样具有智能的系统和配备这种系统的机器人”。实现AI的方法之

LuqiangShi 2020-08-14

几行代码实现强化学习

在过去的一年中，强化学习已经取得了重大进步，最新技术每两个月发布一次。我们已经看到AlphaGo击败了世界冠军围棋选手Ke Jie，Multi-Agents玩了捉迷藏，甚至AlphaStar在星际争霸中也拥有自己的实力。实施这些算法可能会非常具有挑战性，

快乐的鱼儿学敲码 2020-08-10

强化学习

强化学习不同于监督、非监督学习，与环境产生交互，产生最优结果的动作序列。Model-free：不尝试去理解环境, 环境给什么就是什么，一步一步等待真实世界的反馈, 再根据反馈采取下一步行动。它比 Model-free 多出了一个虚拟环境，还有想象力。Po

83153251 2020-07-22

无梯度强化学习：使用Numpy进行神经进化

学习统计学你会学到很多关于基于梯度的方法，但是不久前我读了Uber AI的人写的一篇非常有趣的文章，他表明在解决Atari游戏时，简单的遗传算法与最复杂的基于梯度的RL方法是挺有竞争力的。首先，对于那些还不知道的人，神经进化描述了进化和遗传算法在训练神经网

83153251 2020-06-21

强化学习 --- 马尔科夫决策过程详解（MDP）

wilbertzhou 2020-06-06

5种用于Python的强化学习框架

从头开始编写自己的Reinforcement Learning实施可能会花费很多工作，但是您不需要这样做。有许多出色，简单和免费的框架可让您在几分钟之内开始学习。可悲的是，对于强化学习并非如此。并不是说没有框架，事实上，有很多RL框架。问题是尚无标准，因此

shengge0 2020-06-05

李宏毅的强化学习视频用于梳理翻阅（4）奖励、模仿

curiosity模型中，在原来DQN的基础上，建立了Network1，用于在??的条件下预测输出的下一个状态，与实际在MDP的一个片段上输出的，下一个状态之间求差，将差作为奖励r的一部分，以鼓励探索不同的状态。引入了Network2，将输入的两个状态进行

wilbertzhou 2020-05-31

《AutoDL论文解读（一）：基于强化学习的开创性工作》

==> 有钱，无脑瞎烧 GPU。自动化机器学习最近变得越来越火，是机器学习下个发展方向之一。其中的神经网络结构搜索是其中重要的技术之一。人工设计网络需要丰富的经验和专业知识，神经网络有众多的超参数，导致其搜索空间巨大。自2017年谷歌与MIT各自在I

专注坚持 2020-05-17

卡耐基梅隆大学（CMU）元学习和元强化学习课程 | Elements of Meta-Learning

Introduction & overview of the key methods and developments.[Good starting point for you to start reading and understanding

83153251 2020-05-15

机器学习菜鸟 2020-05-12

【论文研读】强化学习入门之DQN

最近在学习斯坦福2017年秋季学期的《强化学习》课程，感兴趣的同学可以follow一下，Sergey大神的，有英文字幕，语速有点快，适合有一些基础的入门生。今天主要总结上午看的有关DQN的一篇论文《Human-level control through d

wilbertzhou 2020-04-18

告别炼丹，Google Brain提出强化学习助力Neural Architecture Search | ICLR2017

论文为Google Brain在16年推出的使用强化学习的Neural Architecture Search方法，该方法能够针对数据集搜索构建特定的网络，但需要800卡训练一个月时间。虽然论文的思路有很多改进的地方，但该论文为AutoML的经典之作，为后

kingzone 2020-03-27

DeepMind发布神经网络、强化学习库，网友：推动JAX发展

DeepMind今日发布了Haiku和RLax两个库，都是基于JAX。而此次发布的两个库，分别针对神经网络和强化学习，大幅简化了JAX的使用。Haiku是基于JAX的神经网络库，允许用户使用熟悉的面向对象程序设计模型，可完全访问 JAX 的纯函数变换。RL

XuFangfang0 2020-02-21

<强化学习> on policy VS off policy

强化学习迭代过程中，policy-evaluation是获取agent按照当前policy会产生的所有感觉，即获取Qpai ；off policy是我做了这个行为a之后，后继以别人的眼光别人的策略来固定； td_target = r + la

专注坚持 2020-02-20

<强化学习>基于采样迭代优化agent

　　| 　　　　　　　　　　　　　　　　　　　 ====》 policy evaluation使用采样求均值的方法。　　| 　　　　　　　　　　　　　　　　　　　　　　　　　　|____ OFF-POLICY TD

sxyhetao 2020-02-14

安科网

帮你理解强化学习中的策略网络vs数值网络（附链接）

aliceyangxi

什么是策略网络？

什么是数值网络？

aliceyangxi

相关推荐

强化学习到底是什么，它如何运作？

AlphaGo原来是这样运行的，一文详解多智能体强化学习

Menger:大规模分布式强化学习架构

Science 好文：强化学习之后，机器人学习瓶颈如何突破？

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了

几行代码实现强化学习

强化学习

无梯度强化学习：使用Numpy进行神经进化

强化学习 --- 马尔科夫决策过程详解（MDP）

5种用于Python的强化学习框架

李宏毅的强化学习视频用于梳理翻阅（4）奖励、模仿

《AutoDL论文解读（一）：基于强化学习的开创性工作》

卡耐基梅隆大学（CMU）元学习和元强化学习课程 | Elements of Meta-Learning

你该知道的深度强化学习相关知识

【论文研读】强化学习入门之DQN

告别炼丹，Google Brain提出强化学习助力Neural Architecture Search | ICLR2017

DeepMind发布神经网络、强化学习库，网友：推动JAX发展

<强化学习> on policy VS off policy

<强化学习>基于采样迭代优化agent

aliceyangxi