深度强化学习入门难？这份资料手把手教会你

meizhulei

2019-07-11

机器之心整理

参与：一鸣

深度强化学习在机器学习领域的热度一直很高。最近，GitHub 开源了一份深度强化学习的教程，总结了从 DQN 到彩虹模型的理论和代码实现。读者朋友可以根据需要学习研究。教程代码基于 PyTorch，可在 Colab 中运行。

深度强化学习是强化学习中的重要研究领域。这一技术使用深度神经网络，提升智能体在训练中的表现。而目前深度强化学习教程较为零散，使得入门这一领域较为困难。近日，两位来自韩国的机器学习研究员整理了深度强化学习的相关教程和代码，并在 GitHub 上开源。代码基于 PyTorch，用户可以在 Colab 中运行。这一项目在 Reddit 上获得高赞。

教程地址：https://github.com/Curt-Park/rainbow-is-all-you-need

教程里有什么

根据 GitHub 页面的介绍，教程总共分为八个章节，从 DQN开始，逐渐深入，最终一章为彩虹模型。每个章节都包括理论介绍和面向对象的实现。

以第一章的 DQN 代码为例：

1. 定义一个由三个全连接层组成的网络，将这一网络作为智能体的主体：

class Network(nn.Module): def __init__(self, in_dim: int, out_dim: int):
 """Initialization."""
 super(Network, self).__init__()
 self.layers = nn.Sequential(
 nn.Linear(in_dim, 128), 
 nn.ReLU(),
 nn.Linear(128, 128), 
 nn.ReLU(), 
 nn.Linear(128, out_dim)
 )
 def forward(self, x: torch.Tensor) -&gt; torch.Tensor:
 """Forward method implementation."""
 return self.layers(x)

2. 定义智能体等，其中「select_action」函数定义选择策略的方式，「step」定义每一步智能体和环境交互获得的 reward，「update_model」定义梯度下降的方法。

class DQNAgent: def select_action(self, state: np.ndarray) -&gt; np.ndarray:
 """Select an action from the input state."""
 # epsilon greedy policy
 if self.epsilon &gt; np.random.random():
 selected_action = self.env.action_space.sample()
 else:
 selected_action = self.dqn(
 torch.FloatTensor(state).to(self.device)).argmax()
 selected_action = selected_action.detach().cpu().numpy()
 if not self.is_test:
 self.transition = [state, selected_action]
 return selected_action
 def step(self, action: np.ndarray) -&gt; Tuple[np.ndarray, np.float64, bool]:
 """Take an action and return the response of the env."""
 next_state, reward, done, _ = self.env.step(action)
 if not self.is_test:
 self.transition += [reward, next_state, done]
 self.memory.store(*self.transition)
 return next_state, reward, done
 def update_model(self) -&gt; torch.Tensor:
 """Update the model by gradient descent."""
 samples = self.memory.sample_batch()
 loss = self._compute_dqn_loss(samples)
 self.optimizer.zero_grad()
 loss.backward()
 # gradient clipping
 # https://pytorch.org/docs/stable/nn.html#torch.nn.utils.clip_grad_norm_
 clip_grad_norm_(self.dqn.parameters(), 1.0, norm_type=1)
 self.optimizer.step()
 return loss.item()

教程目录

1. DQN

2. DoubleDQN

3. 优先经验回放（PrioritizedExperienceReplay）

4. DuelingNet

5. NoisyNet

6. CategoricalDQN

7. N-步学习（N-stepsLearning）

8. 彩虹模型（Rainbow）

安装方法

怎样使用这份教程呢？首先，用户需要从 GitHub 克隆代码并进入项目目录：

git clone https://github.com/Curt-Park/raibow-is-all-you-need.git

cd rainbow-is-all-you-need

接下来安装项目依赖即可：

make dep

强化学习教程

安科网

深度强化学习入门难？这份资料手把手教会你

meizhulei

meizhulei

相关推荐

强化学习到底是什么，它如何运作？

AlphaGo原来是这样运行的，一文详解多智能体强化学习

Menger:大规模分布式强化学习架构

Science 好文：强化学习之后，机器人学习瓶颈如何突破？

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了

几行代码实现强化学习

强化学习

无梯度强化学习：使用Numpy进行神经进化

强化学习 --- 马尔科夫决策过程详解（MDP）

5种用于Python的强化学习框架

李宏毅的强化学习视频用于梳理翻阅（4）奖励、模仿

《AutoDL论文解读（一）：基于强化学习的开创性工作》

卡耐基梅隆大学（CMU）元学习和元强化学习课程 | Elements of Meta-Learning

你该知道的深度强化学习相关知识

【论文研读】强化学习入门之DQN

告别炼丹，Google Brain提出强化学习助力Neural Architecture Search | ICLR2017

DeepMind发布神经网络、强化学习库，网友：推动JAX发展

<强化学习> on policy VS off policy

<强化学习>基于采样迭代优化agent

meizhulei