<强化学习>基于采样迭代优化agent
前面介绍了三种采样求均值的算法
——MC
——TD
——TD(lamda)
下面我们基于这几种方法来 迭代优化agent
传统的强化学习算法
||
ν
ν
已经知道完整MDP——使用价值函数V(s)
没有给出完整MDP——使用价值函数Q(s,a)
可见我们的目标就是确定下来最优策略和最优价值函数
|
|——有完整MDP && 用DP解决复杂度较低
| ====》 使用贝尔曼方程和贝尔曼最优方程求解
|——没有完整MDP(ENV未知) or 知道MDP但是硬解MDP问题复杂度太高
| ====》 policy evaluation使用采样求均值的方法
| |—— ON-POLICY MC
| |—— ON-POLICY TD
| |____ OFF-POLICY TD
1. ON-POLICY 和OFF-POLICY
on policy :基于策略A采样获取episode,并且被迭代优化的策略也是A
off policy :基于策略A采样获取episode,而被迭代优化的策略是B
2.为什么ε-greedy探索在on policyRL算法中行之有效?
相关推荐
83153251 2020-11-06
87133658 2020-11-04
richermen 2020-10-15
码农的小得小感 2020-09-02
hhycsdn 2020-08-16
LuqiangShi 2020-08-14
快乐的鱼儿学敲码 2020-08-10
83153251 2020-07-22
83153251 2020-06-21
wilbertzhou 2020-06-06
shengge0 2020-06-05
wilbertzhou 2020-05-31
专注坚持 2020-05-17
83153251 2020-05-15
机器学习菜鸟 2020-05-12
wilbertzhou 2020-04-18
kingzone 2020-03-27
XuFangfang0 2020-02-21
专注坚持 2020-02-20