「学术报告」南开大学郭宪:强化学习基本理论概述

不到现场,照样看最干货的学术报告!

嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。


2018年8月4月,由北京理工大学大数据创新学习中心与中国科学院人工智能联盟标准组联合主办的“2018深度强化学习:理论与应用”学术研讨会,学界与业界顶级专家济济一堂,共同分享深度强化学习领域的研究成果。

南开大学郭宪老师以强化学习基本理论概述为主题进行报告,以下分享内容根据嘉宾口头分享整理。

「学术报告」南开大学郭宪:强化学习基本理论概述

强化学习基本理论概述

「学术报告」南开大学郭宪:强化学习基本理论概述

郭宪 南开大学自动化与智能科学系

此次报告主要是从更宏观的角度讲一讲强化学习到底是怎么回事。报告主要从8个Topic进行阐述。

「学术报告」南开大学郭宪:强化学习基本理论概述

这里的8个Topic是从陌生人接触一个新的学科认知过程逐层深入,每个Topic都是层层相扣的。我们需要了解一个新的技术,首先要知道该技术能够解决什么问题,对于自己现在从事的研究项目如果不能用强化学习来解决,却非要用强化学习算法解决肯定是解决不好的,所以第一个Topic是非常关键的,要看Insight是什么。因为强化学习不是万能的,虽然现在是比较热,但也有自己适用的范围,任何算法包括监督学习和无监督学习都有自己适用的范围。

其次,需要了解强化学习与其他机器学习的区别和联系。现在大部分人都说机器学习很火,深度学习当中最火的是监督学习,那么强化学习和监督学习之间有什么联系和区别呢?这个topic也非常关键,因为很多人都有监督学习的基础。从学习的过程来看,新的知识和旧的知识是两个不相关的东西,能够建立之间的联系就会学得非常迅速,也容易融会贯通,因此了解强化学习和其它知识学习的联系和区别非常关键。

然后,在知道它们之间的联系和区别的基础上,需要知道强化学习是怎么解决这些问题的,学习一门新技术,最关键的是把握它的核心,也就是我们所说的精髓。就像练太极拳一样,太极拳最重要的就是重意而不重招式,如果知道了强化学习的精髓,再看各种各样五花八门的强化学习算法就一目了然了。

再者,需要了解强化学习的算法历史及发展趋势。大家了解到强化学习可能是从Alpha-Go得来,因其下了几盘围棋以后就火了。其实强化学习算法是一点点逐步提升的,提升到了一定程度以后,解决了一些比较好的问题,这才引起了大家的注意。所以要和大家讲一下它的算法历史及发展趋势,明确强化学习不是一下子冒出来的,而是有发展历史的,要想了解最新的强化学习算法就要从它的根上去思考怎么一步一步发展起来的,并且从这些算法当中吸收一些灵感。

最后,强化学习这门课程需要循序渐进地去学习,网上是有很多资料可以看,但看了一个月以后还会是一头雾水,因为学习什么东西都是有一个过程的,楼梯要一个一个台阶地上,一下子上五个台阶肯定是要摔下去的,所以强化学习也是应该有路线的,这里也会和大家分享强化学习的路线图,了解了这些东西以后再听相关的报告,比如秦老师的先进算法和赵老师的英文讲述就会清楚了解讲者讲述的内容了。

「学术报告」南开大学郭宪:强化学习基本理论概述

对于强化学习能够解决什么问题?首先是双级倒立板的问题,这是一个典型的非线性控制问题。图示是双级倒立板,黑色小方块是台车,可以控制台车左右运动。台车左右受力,目的是让这个摆达到平衡位置,就是一个竖直的位置。传统的非线性控制方法是建模和设置控制器就能解决问题,而强化学习的方法是通过数据不断试错学到最优的控制。

第一个问题如果能够用模型的方式解决,第二个问题最优控制就解决不了,因为视频游戏的运动学和动力学很难建立,只能通过学习的方法得到。接下来是Alpha-Go和机器人学走路,强化学习从根源上是行为心理学,就是模仿人的学习过程,机器人学走路经常摔倒,然后在摔倒的过程当中不断调整自己,最后就学会了走路。强化学习可以解决很多问题,除了非线性控制、视频游戏、下棋、机器人,还可用于人机对话、无人驾驶、机器翻译、文本序列预测等领域。如果用一句话概述这些可以解决的问题,那就是强化学习能够解决智能决策的问题,而且是序列决策的问题。

「学术报告」南开大学郭宪:强化学习基本理论概述

深度学习针对的是什么问题?深度学习针对的是智能感知的问题,例如:图像识别感知到了一幅图像,就是看到了图像就感知到了它是什么。而智能决策就不一样了,需要考虑的事情很多,看到当前的砖块分布形式以及小球的位置,包括当前拍子的位置,需要进行深度的思考,所以深度学习是深度表示,强化学习是深度思考,虽然都是两个深度,但深度的地方不一样。

强化学习解决的是智能决策,因为要决策的话要智能决策,需要思前想后,想得很多才叫智能决策,如果有一个人没有多少智慧,只看眼前的话就是一般决策,如果想得很多就需要智能决策,强化学习也是智能决策算法,想得很多,不光是看眼前图片,还要考虑后期的状态,就是要做规划,所以强化学习和Planning有关。

深度学习针对的是监督学习,强化学习针对的是智能决策,但二者是有联系的,即都要从数据当中进行学习。人刚生下来不是很智能的人,需要通过学习才能变得很有智慧,才会走路唱歌跳舞。我们来看一下它的共同点,监督学习当然也需要学习,认识图片是什么,相同点就是从数据当中学习,不同点就是学习方法不一样。

监督学习是给一个数据集构建神经网络,所以学习的数据集是静态数据集,就是给了一堆数据和网络,加上一些计算资源就可以学出来,强化学习其实需要的是交互的数据,什么是交互的数据?就是机器人要走路,刚开始的时候是很没有智能的机器人,所以经常会摔倒,摔倒的数据是有意义的,根据摔倒的数据学习调整自己,然后不断地智能起来。

强化学习比监督学习有意思,伯克利的abbeel曾经说过,强化学习最有意思的是看到了一个智能体,然后从非常不智能的东西变成很智能的智能体,这个过程是非常快乐的,也是很神奇的,就像一个小孩成长的过程。强化学习是需要交互的数据,根据交互的数据不断调整自己,这是它们之间不同的地方。

那么强化学习到底是怎么解决问题的呢?我们需要掌握的核心就是通过什么来学习的。强化学习是在交互数据当中产生的,交互的数据最基本的单元是什么?

「学术报告」南开大学郭宪:强化学习基本理论概述

首先是当前的状态,然后给了一个动作,环境又给了一个回报,所以强化学习最基本的单元必须要包含两个因素:首先要有交互的数据,交互体现在当前的状态和下一个状态,如果监督学习最基本的数据是数据集和标签,强化学习不一样,需要当前的状态和下一个状态,这是最基本的单元。如果数据当中只有S0、S1、S2,没有回报的话其实是没有信息的,因为没有环境的回报信息,我们在做强化学习的时候一定要注意我们要采集的是带有回报的交互数据,所有的算法最最本质的精髓是什么?就是用我的回报去调动作,要在r当中进行学习。

强化学习中最核心的是用回报函数r调整动作,我们从强化学习的历史上来看一看,历史上是怎么用回报函数的。

「学术报告」南开大学郭宪:强化学习基本理论概述

1998年之前有一个基本理论的框架,为什么以1998年为分界线?因为当时出了一本书叫做《强化学习导论》,现在第二版已经出来了。第一版出现以后基本理论框架已经形成了,这个时候算法是怎么用回报的?就是把这种回报放到值函数里面,包括最典型的Q-Learning,把回报r放到值函数里面。

然后是1998年到2013年,值函数的方法一直在发展,但异军突起的是1998年到2013年基于直接策略搜索的方法,其中一种就是策略基数的方法,最大的缺点就是补偿问题没法解决。其后还有基于回归的方法和模型的方法。

由于深度学习技术的积累和发展,最核心的就是它的表示能力很强大,可以表示很多自动学习特征,这是深入学习的核心。把深度学习用来表示特征,然后和强化学习结合,这个时候就是深入强化学习。为什么深度强化学习这么火?因为到了这个阶段,深度学习有了很多深度网络,CNN网络对图像的表示非常强,可以自动抽取很多特征,RNN网络的数据抽取也非常好,把这些深度网络抽取特征和强化学习结合就可以有很强大的表示能力和决策能力,这样就可以超过人类。

接着我们来看一看强化学习的分类:根据是否依赖模型分为:基于模型的强化学习和无模型的强化学习;根据策略更新的方法可以分为直接策略搜索以及2017年和2018年比较火的结合策略和提升算法的方法,根据回报是否已知可以分为正向和逆向,包括分层的强化学习和原强化学习。

「学术报告」南开大学郭宪:强化学习基本理论概述

对于强化学习的发展趋势,主要从以下四点阐述:首先是强化学习和深入学习的结合会更加紧密,因为现在我们看到的Alpha-Zoro的成功离不开CNN网络和策略网络;其次,强化学习和专业知识的结合也会更加紧密,还是要看Alpha-Zero的成功,纯粹的强化学习可能不好使,这个时候就要和专业知识结合起来,结合得好就可以取得比较大的突破;还有就是理论算法也会更稳定更高效,因为深入学习和机器学习每次大的成功都离不开脑科学和认知科学,尤其是记忆,强化学习和机器学习的联合是非常有前景的方向。

贝叶斯强化学习是融合了推理能力,分层强化学习可以解决大规模的学习问题,元强化学习解决的是多任务的强化学习,多智能体强化学习将会在博弈领域有新的突破。

「学术报告」南开大学郭宪:强化学习基本理论概述

学习资源方面需要关注国际上比较重要的Deep Mind, OpenAI以及异军突起的Uber,还有斯坦福、剑桥和MIT的研究成果。推荐书籍首选的肯定是《强化学习导论》,然后是我自己写的书,大家可能也都看过。我们还在准备实战编程,因为学计算机的对这种公式不敏感,直接上手练习就好,所以实战编程的书籍我们也请了很多人在做,请及时关注该书动态。

最后给大家看一看学习的路线图,这也是我自己的个人观点,强化学习应该怎么入门?

「学术报告」南开大学郭宪:强化学习基本理论概述

首先需要弄清楚这个概念,很多论文在Introduction和导言当中都会讲决策过程。强化学习也有基本方法,包括策略评估和策略改进,所有的强化学习算法都是这两个过程循环迭代,也就是说所有的强化学习算法都可以归结为这两个部分。如果想做创新的话可以做其中一个,常用的包括值函数和策略搜索方法,基于模型和记忆的强化学习等。

获取完整PPT,请后台回复:学术报告

供稿人:白佳喜

「学术报告」南开大学郭宪:强化学习基本理论概述

精彩的学术报告背后,是一群优秀的学术人才。都说搞学术的人需要“超凡脱俗”,需要耐得住清贫寂寞,其实……芯君想说:完全不需要这样啊!比如,马上申请2018百度奖学金——是的,百度为每位具有AI才能的“潜力股”学术精英们提供了广阔的平台资源和发展空间,为其提供20万研究资金支持,帮助优秀学子全身心投入科研工作,心无旁骛地进行科学探索。

还等什么,你——未来的学术之星,赶快申请报名吧!

「学术报告」南开大学郭宪:强化学习基本理论概述

素材来源:搜狐科技、雷锋网、新浪科技等

如需转载,请后台留言,遵守转载规范

相关推荐