<强化学习> on policy VS off policy
默认价值函数为Q(s,a),策略迭代更新为pai <—— epsilon-greedy(Q)
policy是agent的属性,决定了agent面对某状态s时会选择哪个行为a
value是agent的感觉,代表着agent对某个(s,a)的感觉,感觉它好感觉它不好
强化学习迭代过程中,
policy-evaluation是获取agent按照当前policy会产生的所有感觉,即获取Qpai ;
policy-improvement是根据感觉Q生成一个更好的policy
on policy和off policy是policy_evaluation过程中区分的两种方式
Q(s,a) <——r + lamda * Q(s‘,a‘)
on policy是我做了这个行为a之后,后继的所有收获都以我的策略我的眼光来估定;td_target = r + lamda * Q(s‘,a‘) ,(s‘,a‘)产自我的policy
off policy是我做了这个行为a之后,后继以别人的眼光别人的策略来固定; td_target = r + lamda*Q(s‘,a‘) , (s‘,a‘)产自别人的policy
相关推荐
83153251 2020-11-06
87133658 2020-11-04
richermen 2020-10-15
码农的小得小感 2020-09-02
hhycsdn 2020-08-16
LuqiangShi 2020-08-14
快乐的鱼儿学敲码 2020-08-10
83153251 2020-07-22
83153251 2020-06-21
wilbertzhou 2020-06-06
shengge0 2020-06-05
wilbertzhou 2020-05-31
专注坚持 2020-05-17
83153251 2020-05-15
机器学习菜鸟 2020-05-12
wilbertzhou 2020-04-18
kingzone 2020-03-27
XuFangfang0 2020-02-21
sxyhetao 2020-02-14