lamda_安科网

# lamda

<强化学习> on policy VS off policy

强化学习迭代过程中，policy-evaluation是获取agent按照当前policy会产生的所有感觉，即获取Qpai ；off policy是我做了这个行为a之后，后继以别人的眼光别人的策略来固定； td_target = r + la

专注坚持 2020-02-20

加载中...

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号-5 京公网安备11010802014868号