独家｜一文了解强化学习的商业应用

necrazy

2018-11-09

关注关注

独家｜一文了解强化学习的商业应用

作者：Aishwarya Srinivasan

翻译：Cream

校对：王雨桐

本文约4000字，建议阅读10分钟。

本文介绍了强化学习的应用场景、基本概念和数学模型。

DeepMind开发的AlphaGo（用于下围棋的AI系统）的出现引起了强化学习的热潮。从那之后，许多公司开始投入大量的时间、精力来研究强化学习。目前，强化学习是深度学习领域中的热点问题之一。大多数企业都在努力寻找强化学习的应用实例或者将其应用在商业中的方法。目前来说，此类研究只在零风险、可观测并且易模拟的领域展开。所以，类似金融业、健康行业、保险业、科技咨询公司这样的行业不愿冒险去探索强化学习的应用。此外，强化学习中的“风险管理”部分给研究带来了很大压力。Coursera的创始人Andrew Ng曾表示：“强化学习在机器学习中，对数据的依赖远超过有监督学习。我们很难获得足够多的数据来应用强化学习算法。因此，将强化学习应用到商业实践中仍有许多工作要完成。”

基于这样有些悲观的想法，本文的第1部分将从技术层面深入地探讨强化学习。在第2部分，我们将介绍一些潜在的商业应用。基本上，强化学习是一种复杂的算法，用于将观察到的实际情况和度量（累计奖励）映射到动作集合中，以实现短期或长期的奖励最优化。强化学习的智能体（agent）通过和环境的互动不断学习策略，策略一个动作（以奖励为导向的）序列。事实上，强化学习关注的是即时奖励和随后步骤的奖励（延迟的奖励），因为奖励值是决定智能体改变策略的主要依据。

强化学习的模型包含一个智能体（agent），该智能体在每个环境状态下，通过执行一个动作，改变其状态，这个动作产生的影响用奖励函数来表示。该智能体的目标是要实现长期累计的奖励最大化，在每一个动作执行后，将反馈传递给智能体，智能体可以评估在当前环境最优的下一个动作。通过历史相似情况下的最佳行动，系统会从中学习经验。

独家｜一文了解强化学习的商业应用

图 1 强化学习模型

从数学的角度，我们可以把强化学习看作一个状态模型，特别是一个完全可观测的马尔可夫决策过程（MDP）。为了理解MDP背后的概率理论，我们首先要了解马尔可夫的性质，如下：

“未来只依赖于当前，与过去无关。”

此性质用于这样的环境：不同行为产生的结果的概率与历史状态无关，只依赖于当前状态。有人用“无记忆性”来描述这个性质。在需要用过去状态来推测未来结果的情形下，马尔可夫性质不适用。

这个模型的环境是有限的随机过程，输入智能体的动作，以产生的奖励为输出。总奖励函数（长期累积奖励函数）包含即时奖励和长期折扣的奖励两部分。即时奖励是在智能体执行了一个动作到达某种状态所得到的量化的奖励。长期折扣奖励表示的是这个动作对未来状态的影响。

长期折扣奖励采用折扣因子γ，0<γ<1。折扣因子越大，这个系统越倾向于长期奖励；折扣因子越小，这个系统倾向于即时奖励。Χt表示t时刻的状态，At表示t时刻智能体的动作。

状态转移概率函数：智能体在当前状态Χt-1，执行动作A，产生的状态之间的转移概率：

独家｜一文了解强化学习的商业应用

智能体是模拟为一个随机过程的有限状态的机器，输入当前状态，输出下一步执行的动作。St是t时刻的状态，是t-1时刻执行了At动作后达到的状态。At是在长期累计奖励最大化的策略模型下t时刻的策略。

独家｜一文了解强化学习的商业应用

状态转换函数：智能体向一个状态的转变是与环境互动的结果。也就是说智能体某一时刻的状态是关于上一时刻状态、奖励、动作的函数。

独家｜一文了解强化学习的商业应用

策略函数：策略是在状态St下，以奖励最优化为目标，要执行的动作。

独家｜一文了解强化学习的商业应用

智能体的目标是找到满足长期累计折扣奖励最大化的策略Ppi

独家｜一文了解强化学习的商业应用

智能体在马尔可夫决策过程中试图从当前状态出发，获得最大的总奖励期望。因此，需要得到最优值函数。Bellman方程用于值函数，分解为当前奖励和下一个状态值的贴现值。

独家｜一文了解强化学习的商业应用

希望你们能够从本文中获得关于强化学习的技术知识！！

原文标题：Reinforcement Learning: The Business Use Case, Part 1原文链接：https://www.kdnuggets.com/2018/08/reinforcement-learning-business-use-case-part-1.html

译者简介

独家｜一文了解强化学习的商业应用

王power，求职狗，在香港科技大学学习大数据科技。感觉数据科学很有难度，也很有意思，还在学（tu）习（tou）中。一个人肝不动的文献，来数据派follow大佬一起肝。

— 完 —

关注清华-青岛数据科学研究院官方微信公众平台“THU数据派”及姊妹号“数据派THU”获取更多讲座福利及优质内容。

商业机器学习强化学习人工智能

安科网

独家｜一文了解强化学习的商业应用

necrazy

necrazy

相关推荐

人工智能和自动化在商业世界中的变革作用

人工智能如何在2020年改变商业

商业论证中的常用财务测量指标

机器狗的烦恼：网红练习生容易，商业实习生好难

2020年商业中十大AI趋势人工智能技术正以惊人的速度增长

数据分析在商业中的作用

领创智信首推数据标注业务，打造AI商业化闭环

人工智能对商业影响深远 AI可以为中小企业提供五大优势

在商业中，如何与人工智能建立共生关系？

人工智能如何配合商业采购策略？

钉钉开放与商业化团队前端大量招人

你真的懂商业分析是什么吗？

【央广网】盘石RockySaaS致力打造全球商业SaaS生态开放平台

马云谈：2020即将迎来最新商业，为更多人创造机会，你了解了吗？

【华理师说】人工智能的内涵—技术和商业视角的认知

AI和IoT助力现代商业和零售

麦肯锡报告翻译：《超越狂欢：区块链的商业战略价值是什么？》

一张报表改写的企业经营史——兴隆大家庭商业集团案例

智能商业大会构造信息化交流平台

微信公众号的黑色商业链揭秘

necrazy