David Silver深度强化学习课程「中文字幕」共同学习
David Silver 博士是 AlphaGo 的最主要研发人员。众所周知,AlphaGo 是第一个战胜人类顶级围棋高手的计算机围棋程序。AlphaGo 底层核心技术包括深度学习(deep learning)、强化学习(reinforcement learning),和蒙特卡洛搜索树(Monte Carlo tree search)。
在这门强化学习的课程中,Silver 博士从简介、马尔科夫决策过程(Markov Decision Processes)、免模型预测(Model-free Prediction)、免模型控制(Model-free Control)、值函数近似(Value Function Approximation)、策略梯度算法(Policy Gradient)、集成学习和计划(Integrating Learning and Planning)、探索与利用(Exploration and Exploitation)、游戏等方面深入浅出地介绍强化学习。课程中也涉及最近的热点:深度强化学习。
强化学习不同于监督学习。强化学习没有像监督学习中那样明确的标识,比如分类问题中的类别。同时,强化学习考虑序列决策(sequential decision making)问题,当前的决策就需要进行全局考虑,也会影响以后的决策。而监督学习则只考虑一步决策问题。Silver 博士有一个断言:AI=DL+RL, 就是说深度学习与强化学习的结合,提供了实现强人工智能的途径。
Silver 博士曾经为了研究围棋,从英国到加拿大,到位于阿尔伯塔大学(University of Alberta)读博士,师从强化学习之父 Richard Sutton 和计算机围棋专家 Martin Muller。阿尔伯塔大学有众多国际知名机器学习专家,是强化学习的大本营,也有世界上最强的计算机游戏研究组。Silver 博士在 University College London 任职后加盟 Deepmind,做出了 AlphaGo 等很有影响的工作。
除了这门课以外,还有一些很好的强化学习资源。Richard Sutton 与 Andrew Barto 合著的《Reinforcement learning: an introduction》是强化学习方面必读的参考书;在 Richard Sutton 的网站上可以找到他们正在更新的第二版。在蒙特利尔举办的 Deep Learning Summer School 提供了很多很好的学习资料,今年更是增加了 Reinforcement Learning Summer School。加州大学伯克利分校和卡内基梅隆大学正在开设 Deep Reinforcement Learning 课程。Silver 博士在 2016 年国际机器学习大会 ICML 上做了 Deep Reinforcement Learning 的教程。Yuxi Li 最近在 arXiv 上发表 Deep Reinforcement Learning: An Overview 综述论文,总结了最近的进展。
学习形式
我们将在每周推出一节由 AI100 翻译制作的课程,大家可在加入下方学习小组后进行讨论学习。此外,我们还将在每周末设置“Ask Me Anything”答疑环节。
>>>>获取第一课视频
关注“AI100”微信公众号,回复“第一课”获取视频链接。
添加管理员微信:765491606,加入学习小组。
关于AI100
AI100致力于打造人工智能技术和产业社区。为人工智能开发者提供信息和技术交流的平台;为人工智能创业者提供行业数据及智能应用的商业场景;为行业提供人工智能化的技术商业应用。请快快关注AI100吧!