机器不学习:强化学习(二)马尔科夫决策过程(MDP)
MDP小结
MDP是强化学习入门的关键一步,如果这部分研究的比较清楚,后面的学习就会容易很多。因此值得多些时间在这里。虽然MDP可以直接用方程组来直接求解简单的问题,但是更复杂的问题却没有办法求解,因此我们还需要寻找其他有效的求解强化学习的方法。
下一篇讨论用动态规划的方法来求解强化学习的问题。
相关推荐
83153251 2020-11-06
87133658 2020-11-04
richermen 2020-10-15
码农的小得小感 2020-09-02
hhycsdn 2020-08-16
LuqiangShi 2020-08-14
快乐的鱼儿学敲码 2020-08-10
83153251 2020-07-22
83153251 2020-06-21
wilbertzhou 2020-06-06
shengge0 2020-06-05
wilbertzhou 2020-05-31
专注坚持 2020-05-17
83153251 2020-05-15
机器学习菜鸟 2020-05-12
wilbertzhou 2020-04-18
kingzone 2020-03-27
XuFangfang0 2020-02-21
专注坚持 2020-02-20