David Silver深度强化学习课程-中文字幕 10

专注坚持

2017-04-30

David Silver 博士是 AlphaGo 的最主要研发人员。众所周知，AlphaGo 是第一个战胜人类顶级围棋高手的计算机围棋程序。AlphaGo 底层核心技术包括深度学习（deep learning）、强化学习（reinforcement learning），和蒙特卡洛搜索树（Monte Carlo tree search）。

在这门强化学习的课程中，Silver 博士从简介、马尔科夫决策过程（Markov Decision Processes）、免模型预测（Model-free Prediction）、免模型控制（Model-free Control）、值函数近似（Value Function Approximation）、策略梯度算法（Policy Gradient）、集成学习和计划（Integrating Learning and Planning）、探索与利用（Exploration and Exploitation）、游戏等方面深入浅出地介绍强化学习。课程中也涉及最近的热点：深度强化学习。

本周我们继续为大家带来该系列课程的第三课。课程资源获取方式如下：

>>>>获取第三课视频

关注“AI100”微信公众号，回复“第三课”获取视频链接。

学习形式

我们将每周推出两节由 AI100 翻译制作的课程，大家先添加管理员微信：765491606，申请加入学习小组进行讨论学习。此外，我们还将在每周末设置“Ask Me Anything”答疑环节。

关于AI100

AI100致力于打造人工智能技术和产业社区。为人工智能开发者提供信息和技术交流的平台；为人工智能创业者提供行业数据及智能应用的商业场景；为行业提供人工智能化的技术商业应用。请快快关注AI100公众号吧！

强化学习机器学习

安科网

David Silver深度强化学习课程-中文字幕 10

专注坚持

>>>>获取第三课视频

学习形式

关于AI100

专注坚持

相关推荐

强化学习到底是什么，它如何运作？

AlphaGo原来是这样运行的，一文详解多智能体强化学习

Menger:大规模分布式强化学习架构

Science 好文：强化学习之后，机器人学习瓶颈如何突破？

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了

几行代码实现强化学习

强化学习

无梯度强化学习：使用Numpy进行神经进化

强化学习 --- 马尔科夫决策过程详解（MDP）

5种用于Python的强化学习框架

李宏毅的强化学习视频用于梳理翻阅（4）奖励、模仿

《AutoDL论文解读（一）：基于强化学习的开创性工作》

卡耐基梅隆大学（CMU）元学习和元强化学习课程 | Elements of Meta-Learning

你该知道的深度强化学习相关知识

【论文研读】强化学习入门之DQN

告别炼丹，Google Brain提出强化学习助力Neural Architecture Search | ICLR2017

DeepMind发布神经网络、强化学习库，网友：推动JAX发展

<强化学习> on policy VS off policy

<强化学习>基于采样迭代优化agent

专注坚持

David Silver深度强化学习课程-中文字幕 10

&gt;&gt;&gt;&gt;获取第三课视频

学习形式

关于AI100

相关推荐

>>>>获取第三课视频