CNCC2018 分论坛(17)|深度强化学习落地的困难有哪些?
强化学习旨在实现可自主与环境交互并提升自身性能的智能体,被DeepMind认为是实现其“通用人工智能”理想的主要途径之一,并且在AlphaGo到AlphaGo Zero的演进中扮演着越来越重要的角色。
然而,强化学习技术应用门槛高,在落地应用上还有不少的局限。本次中国计算机大会(CNCC2018)邀请了六位来自知名企业和高校的强化学习专家,介绍深度强化学习的进展与应用以及面临的挑战,现在跟随芯君来听听专家们都说了什么吧~
宋乐:迭代算子可参数化
人物小贴士:
宋乐,蚂蚁金服AI部门首席科学家,佐治亚理工大学计算科学与工程系终身教授,机器学习中心副主任。研究方向是机器学习的大规模算法和高效系统。历任ICML,NIPS,AISTATS,AAAI,IJCAI等机器学习和AI顶尖会议的研究领域主席,也是机器学习顶尖杂志JMLR及IEEE PAMI的副主编。
宋乐教授举了3个例子,分别是预测分子的效能,用户购买商品,广告商在网络上投放广告问题。解决这些问题都有一个共同的特点,即先把节点表示成某种表征,通常是向量表征(一维或多维),然后基于问题图的连通性进行迭代算法的设计。
“在现实生活中,有很多这样类似的问题结构,只是数据的不同,那我们能不能设计出一种学习算法来自动学习?”宋乐教授提出,我们可以参数化迭代算子,学习这个向量表征,然后通过强化学习的手段把算法的迭代步骤学习出来。
基于这种idea,对于前面“广告商在网络上投放广告”问题,其实是个最小点覆盖的问题,我们可以采取这样的方式:①定义问题图;②初始各个节点的向量表征;③设计state-action value function;④通过强化学习进行训练模型。其中第④步,是参数化迭代算子,把节点的邻居节点的向量表征和自身属性的向量表征作为参数化的两部分。这样我们就把算法分成一个可以学习的函数,当W1,W2发生变化时,函数也发生变化,然后通过强化学习的手段进行参数的学习。
通过对比实验发现,这种方法在前期的效果不如Node Greedy和Edge Greedy好,但是在后期会反超,主要的原因是Node Greedy和Edge Greedy把问题分成很多子问题。最后,宋乐教授也提出,对于图神经网络,也可能会遭到攻击破坏,比如通过和邻居“搞好关系”来增加自己的信用度。
苏航:融合知识引导的深度强化学习
人物小贴士:
苏航,清华大学计算机系助理研究员,中国计算机学会计算机视觉专家委员会委员,中国人工智能学会机器学习专委会委员。主要研究方向可理解人工智能理论、计算机视觉和强化学习等相关领域。
深度学习在围棋上取得的成功引起了计算机界的广泛关注。但是在不确认性、信息不完全、动态博弈等情况下,强化学习面临着许多问题,如决策空间巨大,奖励函数设计困难等问题。FPS(第一人称射击游戏)游戏是一个很符合上述存在的问题的环境,在FPS中遇到的挑战有:①在很少或者延迟的奖励情况下的学习策略问题;②信度分配很难实现。苏老师团队设计一个星形网络结构,Manager负责管理各个子目标,为智能体设计一套宏指令(动作)。
从这个结构中可以发现,在“导航”这块加上了感知深度这个策略,这样更符合人在寻路时的判断,可以有效降低陷入死角的概率。宏指令中包括,攻击,向前,向后,转弯,旋转等动作。智能体每隔一段时间进行360°旋转来检测是否周围有敌人,这个策略也有效的提高了比赛成绩。最后,苏老师对未来的展望:希望能把人的知识以一种更加好的方式进行表现和编码;希望智能体的在探索过程中更加鲁棒和高效。
张伟楠:面向海量智能体系统的深度强化学习技术
人物小贴士:
张伟楠,上海交通大学计算机系和约翰.霍普克罗夫特研究中心担任助理教授,研究方向为深度强化学习、无监督学习及其在数据挖掘问题中的应用。
近年来,机器学习的落地场景有两个发展方向,意识预测到决策的范式拓展;从单智能体到多智能体的场景推广。这次报告张伟楠博士主要向我们介绍面向海量智能体系统的深度强化学习技术。
多智能体学习(MAL)的主要困难在于,智能体不仅需要和环境进行交互,还要和其他的智能体进行交互。如果只对单智能体进行Q-learning,把其他智能体作为环境的一部分,这样可能会引起算法不收敛。基于序列的决策有三种,
Markovdecision processes只有一个决策者,有多个状态;Reapeated games只有一个状态,但是有多个决策者; Stochastic game不仅有多个决策者,而且有多个状态。多个智能体的情况对应的就是Stochastic game(下面简称SG)。
如果对每个个体直接进行Q-learning,假设对手没有学习,这样做的问题是会出现不会收敛的情况。在SG中通常的一个做法是寻找纳什均衡点,当各个个体寻找到对自己来说的比较好的policy,然后每个个体都不改变自己policy,最终系统达到均衡的状态。在SG中,通过Nash Q-learning可以得到纳什均衡点,但是对于每个状态都需要找纳什均衡点计算量很大,而且要获得其他个体的policy是很困难的。而且当智能体个数增加时,reward function和transition probability的空间会变大,这样我们就需要更多的数据去学习,所以以之前的算法来做的话是非常困难的。从鸟群、鱼群的移动中得到启发,把其他的智能体作为一个整体,提出Mean field Multi-Agent learning,把周围的智能体建立成一个分布,把周围action做一个均值,对原来的Q function做泰勒二阶展开。通过这个方法,可以证明能够收敛到纳什均衡点,算法的效果比之前的Nash Q-learning要好很多。
吕强:无人驾驶汽车中的前方车辆变道预测
人物小贴士:
吕强,博士,纽迈科技(上海)有限公司研发总监、规划决策部门负责人。主要从事人工智能、机器学习、自动规划与调度研究。
传统的自动驾驶方案采用的是一种稳定的策略,即设定一些规则,这样的问题是汽车就无法应对一些突发的情况和不能处理一些不正确的信息。而纽迈科技采用的是一种分层的规划,从上到下分别是:深度强化学习,不确定规划,运动规划,稳定策略。这样可以根据路况信息自动生成适应性强的行为,保证行车顺利。
汽车在正常行驶过程中可能遇到各种情况,在变道这个问题上,纽迈科技设计了一种基于行为预测的强化学习,通过预测前方车辆是否在未来变道以及变道的时刻来解决变道问题。另一个常见的问题是路上有障碍物怎么办?纽迈科技通过LSTM对障碍物的行为进行预测。但是这其中也存在一些问题,如根据轨迹无法准确判断是否为障碍物,视觉直接在图片上计算车辆边缘离车道线距离,以该距离作为RNN网络的输入。
薛贵荣:城市大脑中的深度强化学习
人物小贴士:
薛贵荣,天壤智能创始人及CEO,原阿里巴巴旗下阿里妈妈大数据中心负责人、阿里妈妈首席数据科学家、阿里云资深总监。研究方向主要是深度强化学习、迁移学习、互联网搜索等。
城市的规模越来越大,也带了很多问题,如环境污染,交通拥堵等。拿交通拥堵这个作为例子,单纯靠人力去调节交通信号灯效果是有限的,依靠机器学习的话,没有足够的标定数据。而对于强化学习,智能体对城市(环境)做一个Action,然后城市(环境)反馈一个Reward,这样不断地迭代更新来提升城市的智能。
城市中每个信号灯都是一个智能体,这么多智能体如何优化控制呢?这就需要一个系统级的解决方案。系统需要鲁棒的支持大规模的强化学习,天壤科技对此做了一个深度强化学习平台,具有丰富的监控,自动调参的功能,这样可以全程自动化训练强化学习模型。
当神经网络很深的时候效率是一个让人头疼的问题,天壤科技采用伴随训练的方法。简单来说先用一个小网络去获取数据,然后不断地向更大的网络迭代。这套系统在杭州进行测试,在解决交通拥堵上取得不错的效果。最后,薛老师也提了几点未来面临的挑战,如机器如何学习一些常识概念(如上班族、快递员),机器需要更新并记忆对城市状态的预测等。
曾天祥:电商场景下强化学习建模与应用
人物小贴士:
曾天祥,阿里巴巴资深算法专家,淘宝搜索创始人之一,专注于大规模机器学习,在线学习,深度强化学习等技术在电商环境中的大规模实际应用。
在阿里的移动电商平台中,人机交互的便捷,页面切换的串行化,用户的轨迹需要这个系统能够对用户行为和外部环境进行建模。比如用户在购买商品一般会是以下的步骤:先在搜索框输入商品名,在显示的待选商品中,选择某个商品,查看详情,接着是购买,或者返回继续看其他的商品。在这个过程中,用户对商品信息给予反馈,然后系统再进行调整对商品的排序,这样就可以进行一个强化学习的建模。
阿里在原有的DPG算法上进行一个改进,加入对各个状态倒转的估计,在离线的系统上取得了不错的效果。
在训练强化学习时需要大量的样本,对于一个线上的系统来说,直接在实际环境进行训练代价是非常高的。针对这个问题,淘宝在这方面上设计一个虚拟淘宝,在模拟器上进行算法训练,大大降低了成本。
现场小记者:吕永杰
如需转载,请后台留言,遵守转载规范