离散空间中的强化学习

83153251

2018-07-04

关注关注

什么是强化学习（RL）？

强化学习(reinforcement learning)，又称再励学习、评价学习，是一种重要的机器学习方法，在智能控制机器人及分析预测等领域有许多应用。

目标是通过让代理与环境进行交互（采取行动）并在途中收集奖励来教导代理完成任务。

请注意，这些奖励并不总是“奖励”，也可能是负面的，即您不需要它们。但问题是，在采取行动之前，你的代理不会知道这是一个坏的奖励还是一个好的奖励。

所以：

代理
一个环境
我们的代理可以处于的一组状态
我们的代理可以采取的一系列操作

让我们举一个冷冻湖游戏的例子，代理需要穿过湖泊，但湖泊在某些地方被薄冰覆盖，如果代理踩到它，它就会死亡！它因安全而获得0分，如果它死亡则获得-1，如果达到目标则获得+1。如果代理死亡，游戏将重新启动。

离散空间中的强化学习

深蓝色是薄冰层

解决方案

我们定义了代理可以作为状态的每个块，以及它可以作为动作进入的每个方向。

策略被定义为一个函数，返回在给定状态下应该采取的动作A

我们代理的目的是使预期的未来回报最大化。

价值函数(Value Function):价值函数V(s)定义为从状态s开始并从状态s开始发挥最佳作用的期望回报

动作函数(Action Function):动作函数Q(s,a)定义为从状态起始开始采取动作a的期望效用，然后进行最优的动作

如果我们知道转移概率（transition probability）(T)和回报函数（reward function）(R)

T(s,a,s‘) =如果代理在s中采取行动a，则代理将在状态s'中行动的概率

R(s,a,s’) =当它在s中采取行动a时，s'得到的回报。

我们可以用bellman方程求出最优策略

离散空间中的强化学习

V *和Q *是最佳值函数

基于模型的学习

解决RL问题的一种方法是通过基于经验学习模型（动态的），然后求解价值函数，就像模型是正确的一样。

离散空间中的强化学习

我们可以直接评估每个状态的政策价值，而不是找到模型，即直接平均奖励以找到预期的奖励总和。

离散空间中的强化学习

Q Learning

Q Learning是一种非策略性技术，它使用时间差异方法通过直接与环境交互来学习。这里是步骤：

离散空间中的强化学习

样本被定义为一个元组，其中包含状态s'我们的代理人在从状态s采取动作a并接收奖励r之后去目的地。

在我们的状态和行动是离散的情况下（比如我们的冰湖游戏），我们可以定义一个Q表，告诉我们从给定状态我们可以采取的所有不同行动的累积预期奖励。

离散空间中的强化学习

左边是我们的冰湖状态（区块）以及可以从状态（北，南，东，西）采取的行动

目标是终极状态，游戏在那里结束。

Q表将包含每个状态（1,2，...，9）每个行动的价值（北，南，东，西）

贴现率：由于当前奖励的价值超过了我们未来可能获得的奖励，因此未来的奖励可以通过贴现率Gamma（γ）来折现。

我们使用最大值是因为我们希望在遵循行为策略的同时收敛到贪婪的策略（我们的目标策略）。

最后，我们用我们的估计值和实际值的一小部分误差更新我们先前对Q（s，a）的估计。该分数称为学习率（在0和1之间）并保持低水平，以便我们不会超过目标。

import numpy as np

import gym

import random

import math

#environment

env = gym.make('FrozenLake-v0')

env.reset()

#In this frozen lake we have 16 states and at each state we have

#4 directions(actions) to take so are Q-table is of 16x4

Q_table = np.zeros([16,4])

#discount factor to scale future rewards gamma

gamma = 0.95

#learning rate alpha

alpha = 0.8

#number of episodes to train

total_episodes = 10000

# Exploration parameters

epsilon = 1.0 # Exploration rate

max_epsilon = 1.0 # Exploration probability at start

min_epsilon = 0.01 # Minimum exploration probability

decay_rate = 0.01 # Exponential decay rate for exploration prob

#maximum function

def maximum(list_of_values):

maximum = list_of_values[0]

for value in list_of_values[1:]:

if(value > maximum):

maximum = value

return maximum

#update Q_table function

def updateQTable(existing_table, new_state_observations, last_state, last_action):

#find the maximum Q value of the new state we reached among all the possible actions

new_state = new_state_observations[0]

reward_of_last_action = new_state_observations[1]

maxQ = maximum(existing_table[new_state, :])

existing_table[last_state, last_action] = (1-alpha)*existing_table[last_state, last_action] /

+ alpha*(new_state_observations[1] + gamma*maxQ)

for episodes_elapsed in range(0, total_episodes):

#print('******************NEW ROUND**************************')

#print('Round Number = ', episodes_elapsed)

env.reset()

#start the episode

episode_end = False

current_state = 0

while_count = 0

while(not episode_end):

while_count += 1

#finding the action to take next from present state

#generate a random number in [0,1)

# if random_number < epsilon => take random action

# else take an action given by max Q value at that state

random_number = random.uniform(0,1)

if(random_number <= epsilon):

#take random step

action = math.floor(random.uniform(0,4))

observations = env.step(action)

updateQTable(Q_table, observations, current_state, action)

current_state = observations[0]

episode_end = observations[2]

else:

#take step told by Q table

'''if two values are same this will always pick the action corresponding to the first value'''

action = np.argmax(Q_table[current_state, :])

observations = env.step(action)

updateQTable(Q_table, observations, current_state, action)

current_state = observations[0]

episode_end = observations[2]

#exploitation vs exploration epsilon-greedy technique

epsilon = min_epsilon + (max_epsilon - min_epsilon)*np.exp(-decay_rate*episodes_elapsed)

#rint(epsilon)

#print(while_count)

print(Q_table)

我们的Agent现在可以使用学习过的Q表来穿越湖泊并希望达到目标。

强化学习

83153251

0 关注 0 粉丝 0 动态

关注关注

强化学习到底是什么，它如何运作？

强化学习是一种行为学习模型，由算法提供数据分析反馈，引导用户逐步获取最佳结果。不同于使用样本数据集训练机器模型的各类监督学习，强化学习尝试通过反复试验掌握个中诀窍。强化学习与人类在婴幼儿时期的学习过程非常相似。这是一种基于经验的学习流程，机器会不断尝试、不

83153251 10评论 2020-11-06

AlphaGo原来是这样运行的，一文详解多智能体强化学习

在这篇综述性文章中，作者详尽地介绍了多智能强化学习的理论基础，并阐述了解决各类多智能问题的经典算法。此外，作者还以 AlphaGo、AlphaStar为例，概述了多智能体强化学习的实际应用。近年来，随着强化学习在多个应用领域取得了令人瞩目的成果，并且考虑到

87133658 15评论 2020-11-04

Menger:大规模分布式强化学习架构

简单来说，RL基础架构就是数据采集和训练的循环，Actor根据环境收集样本数据，然后将其传输给Learner来训练和更新模型。当前大多数RL实现都需要对环境中成千上万个样本进行多次迭代，以学习目标任务，如Dota 2每2秒要学习成千上万帧样本。这样，RL

richermen 2020-10-15

Science 好文：强化学习之后，机器人学习瓶颈如何突破？

本文转自雷锋网，如需转载请至雷锋网官网申请授权。在过去的十年里，机器学习确实取得了巨大的突破，计算机视觉与语言处理方面也因此出现了许多改变世界的重要应用。她认为，造成这一现象的一个关键因素在于：机器人学习的数据只能通过在现实世界的操作中获得，成本非常高昂。

码农的小得小感 2020-09-02

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了

本节概述机器学习及其三个分类。首先，与机器学习相关的术语有人工智能、机器学习、强化学习、深度学习等，这里对这些术语进行简单的整理。AI意味着人工智能，其定义因研究人员而异。实现AI的方法之一是机器学习。机器学习可以简单地描述为“向系统提供数据并通过数据自动

hhycsdn 2020-08-16

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了

本节概述机器学习及其三个分类。首先，与机器学习相关的术语有人工智能、机器学习、强化学习、深度学习等，这里对这些术语进行简单的整理。AI意味着人工智能，其定义因研究人员而异。从广义上讲，它指“像人类一样具有智能的系统和配备这种系统的机器人”。实现AI的方法之

LuqiangShi 2020-08-14

几行代码实现强化学习

在过去的一年中，强化学习已经取得了重大进步，最新技术每两个月发布一次。我们已经看到AlphaGo击败了世界冠军围棋选手Ke Jie，Multi-Agents玩了捉迷藏，甚至AlphaStar在星际争霸中也拥有自己的实力。实施这些算法可能会非常具有挑战性，

快乐的鱼儿学敲码 2020-08-10

强化学习

强化学习不同于监督、非监督学习，与环境产生交互，产生最优结果的动作序列。Model-free：不尝试去理解环境, 环境给什么就是什么，一步一步等待真实世界的反馈, 再根据反馈采取下一步行动。它比 Model-free 多出了一个虚拟环境，还有想象力。Po

83153251 2020-07-22

无梯度强化学习：使用Numpy进行神经进化

学习统计学你会学到很多关于基于梯度的方法，但是不久前我读了Uber AI的人写的一篇非常有趣的文章，他表明在解决Atari游戏时，简单的遗传算法与最复杂的基于梯度的RL方法是挺有竞争力的。首先，对于那些还不知道的人，神经进化描述了进化和遗传算法在训练神经网

83153251 2020-06-21

强化学习 --- 马尔科夫决策过程详解（MDP）

wilbertzhou 2020-06-06

5种用于Python的强化学习框架

从头开始编写自己的Reinforcement Learning实施可能会花费很多工作，但是您不需要这样做。有许多出色，简单和免费的框架可让您在几分钟之内开始学习。可悲的是，对于强化学习并非如此。并不是说没有框架，事实上，有很多RL框架。问题是尚无标准，因此

shengge0 2020-06-05

李宏毅的强化学习视频用于梳理翻阅（4）奖励、模仿

curiosity模型中，在原来DQN的基础上，建立了Network1，用于在??的条件下预测输出的下一个状态，与实际在MDP的一个片段上输出的，下一个状态之间求差，将差作为奖励r的一部分，以鼓励探索不同的状态。引入了Network2，将输入的两个状态进行

wilbertzhou 2020-05-31

《AutoDL论文解读（一）：基于强化学习的开创性工作》

==> 有钱，无脑瞎烧 GPU。自动化机器学习最近变得越来越火，是机器学习下个发展方向之一。其中的神经网络结构搜索是其中重要的技术之一。人工设计网络需要丰富的经验和专业知识，神经网络有众多的超参数，导致其搜索空间巨大。自2017年谷歌与MIT各自在I

专注坚持 2020-05-17

卡耐基梅隆大学（CMU）元学习和元强化学习课程 | Elements of Meta-Learning

Introduction & overview of the key methods and developments.[Good starting point for you to start reading and understanding

83153251 2020-05-15

机器学习菜鸟 2020-05-12

【论文研读】强化学习入门之DQN

最近在学习斯坦福2017年秋季学期的《强化学习》课程，感兴趣的同学可以follow一下，Sergey大神的，有英文字幕，语速有点快，适合有一些基础的入门生。今天主要总结上午看的有关DQN的一篇论文《Human-level control through d

wilbertzhou 2020-04-18

告别炼丹，Google Brain提出强化学习助力Neural Architecture Search | ICLR2017

论文为Google Brain在16年推出的使用强化学习的Neural Architecture Search方法，该方法能够针对数据集搜索构建特定的网络，但需要800卡训练一个月时间。虽然论文的思路有很多改进的地方，但该论文为AutoML的经典之作，为后

kingzone 2020-03-27

DeepMind发布神经网络、强化学习库，网友：推动JAX发展

DeepMind今日发布了Haiku和RLax两个库，都是基于JAX。而此次发布的两个库，分别针对神经网络和强化学习，大幅简化了JAX的使用。Haiku是基于JAX的神经网络库，允许用户使用熟悉的面向对象程序设计模型，可完全访问 JAX 的纯函数变换。RL

XuFangfang0 2020-02-21

<强化学习> on policy VS off policy

强化学习迭代过程中，policy-evaluation是获取agent按照当前policy会产生的所有感觉，即获取Qpai ；off policy是我做了这个行为a之后，后继以别人的眼光别人的策略来固定； td_target = r + la

专注坚持 2020-02-20

<强化学习>基于采样迭代优化agent

　　| 　　　　　　　　　　　　　　　　　　　 ====》 policy evaluation使用采样求均值的方法。　　| 　　　　　　　　　　　　　　　　　　　　　　　　　　|____ OFF-POLICY TD

sxyhetao 2020-02-14

安科网

离散空间中的强化学习

83153251

什么是强化学习（RL）？

解决方案

基于模型的学习

Q Learning

83153251

相关推荐

强化学习到底是什么，它如何运作？

AlphaGo原来是这样运行的，一文详解多智能体强化学习

Menger:大规模分布式强化学习架构

Science 好文：强化学习之后，机器人学习瓶颈如何突破？

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了

几行代码实现强化学习

强化学习

无梯度强化学习：使用Numpy进行神经进化

强化学习 --- 马尔科夫决策过程详解（MDP）

5种用于Python的强化学习框架

李宏毅的强化学习视频用于梳理翻阅（4）奖励、模仿

《AutoDL论文解读（一）：基于强化学习的开创性工作》

卡耐基梅隆大学（CMU）元学习和元强化学习课程 | Elements of Meta-Learning

你该知道的深度强化学习相关知识

【论文研读】强化学习入门之DQN

告别炼丹，Google Brain提出强化学习助力Neural Architecture Search | ICLR2017

DeepMind发布神经网络、强化学习库，网友：推动JAX发展

<强化学习> on policy VS off policy

<强化学习>基于采样迭代优化agent

83153251