在行动中学习-强化学习

在机器学习的实际应用中,我们还会遇到另一种类型的问题:利用学习得到的模型来指导行动。比如在下棋,股票交易或商业决策等场景中,我们关注的不是某个判断是否准确,而是行动过程中能否带来最大的收益。为了了解这类问题,人们提出了一个不同的学习方式,称为强化学习

在行动中学习-强化学习

强化学习的目标是要获得一个策略去指导行动。比如在围棋行动中,这个策略可以根据盘面形势指导每一步应该在哪里落子;在股票交易中,这个策略会告诉我们在什么时候买入、什么时候卖出。与监督学习不同,强化学习不需要一系列包含输入与预测的样本,他是在行动中学习。

一个强化学习模型一般包含如下几个部分:

一组可以变化的状态。比如,围棋盘上黑白子的部分位置,市场上每只股票的价格。

一组可以选取的动作。比如对于围棋手来说,就是可以落子的位置;对于股票交易来说,就是每个时间点,买入或者卖出的股票以及数量。

一个可以和决策的主体进行交互的环境。这个环境会决定每个动作后状态如何变化。比如,围棋博弈中的对手,或者股票市场。在强化学习中,为了降低学习代价,很多时候我们会使用一个通过机器模拟的环境,而不是以真实的场景作为环境。

在行动中学习-强化学习

回报规则,当决策主体通过行动使状态发生变化时,它会获得回报或者受到惩罚。

强化学习会从一个初始的策略开始。通常情况下,初始策略不一定很理想,在学习过程中,决策主体通过行动和环境进行交互,不断获得反馈,并根据反馈调成优化策略。这是一种非常强大的学习方式。持续不断的强化学习甚至获得比人类更优的决策机制。在2016年击败围棋冠军李世石九段的阿尔法狗,其令世人震惊的博弈能力就是通过强化学习训练出来的。

相关推荐