强化学习迭代过程中,policy-evaluation是获取agent按照当前policy会产生的所有感觉,即获取Qpai ;off policy是我做了这个行为a之后,后继以别人的眼光别人的策略来固定; td_target = r + la
安科网(Ancii),中国第一极客网
Copyright © 2013 - 2019 Ancii.com
京ICP备18063983号-5 京公网安备11010802014868号