机器不学习:强化学习(二)马尔科夫决策过程(MDP)

机器不学习:强化学习(二)马尔科夫决策过程(MDP)

机器不学习:强化学习(二)马尔科夫决策过程(MDP)

机器不学习:强化学习(二)马尔科夫决策过程(MDP)

机器不学习:强化学习(二)马尔科夫决策过程(MDP)

机器不学习:强化学习(二)马尔科夫决策过程(MDP)

机器不学习:强化学习(二)马尔科夫决策过程(MDP)

MDP小结

MDP是强化学习入门的关键一步,如果这部分研究的比较清楚,后面的学习就会容易很多。因此值得多些时间在这里。虽然MDP可以直接用方程组来直接求解简单的问题,但是更复杂的问题却没有办法求解,因此我们还需要寻找其他有效的求解强化学习的方法。

下一篇讨论用动态规划的方法来求解强化学习的问题。

相关推荐