日本研究者新算法：让机器人通过多模态深度强化学习获得社会智能

云科技时代

2017-02-28

选自arXiv.org

机器之心编译

参与：吴攀

我们一直在期待机器人能在我们的日常生活中发挥重要的作用，而作为机器人强国的日本也一直是这一领域的领导者之一。近日，日本大阪大学和日本科学枝术振兴机构（JST）ERATO ISHIGURO 共生人机交互项目（Symbiotic Human-Robot Interaction Project）的研究者在 arXiv 提交了一篇论文，介绍了他们在机器人的社会智能上的研究成果。另外值得一提的是，他们的实验用到了著名的 Pepper 机器人。

日本研究者新算法：让机器人通过多模态深度强化学习获得社会智能

摘要

要让机器人与人类在类似我们社会那样的社会世界中共存，它们需要掌握类似人类的社交技能，这是很关键的。通过编程的方式来让机器人掌握这些技能是很艰难的。在这篇论文中，我们提出了一种多模态深度 Q 网络（MDQN：Multimodal Deep Q-Network），可以让机器人通过试错的方法来学习类似人类的交互技能。这篇论文的目标是开发能够在与人类的交互过程中收集数据并且能够使用端到端的强化学习从高维度传感信息中学习人类交互行为的机器人。本论文表明，机器人在经过了与人类的 14 天交互之后，可以成功学会基本的交互技能。

日本研究者新算法：让机器人通过多模态深度强化学习获得社会智能

图 1：机器人向人学习社交技能

算法介绍

这里提出的算法由两个独立工作的流组成：一个用于处理灰度帧（grayscale frame），另一个用于处理深度帧（depth frame）。

下面的 Algorithm 1 概述了这个算法。因为该模型有两个流，因为其参数 θ 和 θ- 是由两个网络的参数构成的。和 DQN [10] 不同，我们将数据生成阶段和训练阶段分开了。每一天的实验都对应于一个 episode，在这期间，算法要么执行数据生成阶段，要么执行训练阶段。

日本研究者新算法：让机器人通过多模态深度强化学习获得社会智能

本研究所提出的算法的伪代码

以下是这两个阶段的简述：

数据生成阶段（data generation phase）：在数据生成阶段，系统使用 Q 网络 Q(s, a; θ) 来与其环境进行交互。该系统会观察当前场景（由灰度帧和深度帧构成），并使用 ε-greedy 策略来采取行动。该环境又会反过来提供标量的奖励（reward）（请参阅 5(2) 节了解奖励函数的定义）。交互经历是

日本研究者新算法：让机器人通过多模态深度强化学习获得社会智能

其被存储在重放记忆 M 中。重放记忆 M 会保存 N 个最近的经历，然后这些经历会在训练阶段被用于更新该网络的参数。

训练阶段（training phase）：在训练阶段，该系统会利用存储在重放记忆 M 中的数据来对网络进行训练。超参数 n 表示经历重放的数量。对于每一次经历重放，都会从有限大小的重放记忆 M 中随机采样出一个包含 2000 次交互经历的迷你缓存器 B。该模型会在从缓存器 B 中采样出的 mini batch 上进行训练，该网络的参数会在 bellman targets 的方向上迭代式地更新。这个对重放记忆的随机采样会打破样本之间的相关性，因为标准的强化学习方法假定样本是独立的且完全分布式的。将该算法分成两个阶段的原因是为了避免延迟——如果该网络在交互期间同时进行训练就会产生这种延迟。该 DQN [16] 代理在一个循环中工作，其中它首先会与环境进行交互，然后会将这个转变存储到重放记忆中，然后其会从该重放记忆中采样出 mini batch，并在这个 mini batch 上训练该网络。这个循环会不断重复，直到终止。这个交互和训练的顺序过程在 HRI 之外的领域也许是可以接受的。在 HRI 领域，代理必须基于社会规范来和人类进行交互，因此机器人的任何停顿和延迟都是不可接受的。因此，我们将该算法分成了两个阶段：在第一个阶段，机器人通过与人类进行有限时间的交互来收集数据；在第二个阶段，其进入阶段。在这个休息阶段，训练阶段激活从而对该多模态深度 Q 网路（MDQN）进行训练。

实现细节

这个模型由两个流（stream）构成，一个用于灰度信息，另一个用于深度信息。这两个流的结构是完全相同的，每个流都由 8 个层组成（包括输入层）。整体模型架构如图 2 所示。

日本研究者新算法：让机器人通过多模态深度强化学习获得社会智能

图 2：双流式卷积神经网络

该多模态 Q 网络的 y 信道和 depth 信道的输入分别是灰度图像（198 × 198 × 8）和深度图像（198 × 198 × 8）。因为每个流都使用 8 帧输入，因此，来自对应相机的最新的 8 帧是被预处理后堆叠到一起，构成该网络的每个流的输入。因为这两个流是完全一样的，所以我们在这里只讨论一个流的结构即可。198 × 198 × 8 的输入图像首先被传递给第一个卷积层（C1），其以 3 的步幅卷积计算 9×9 的 16 个滤波器，后面则跟着一个整流线性单元（ReLU）函数并得到每个大小为 64×64 的 16 个特征图（我们将其记为 16@64×64）。这个来自 C1 的输出然后会被送入下采样层 S1，其以 2×2 的步幅应用 2×2 的最大池化（max-pooling）。第二（C2）和第三（C3）个卷积层分别卷积计算 32 和 64 个滤波器，其大小为 5×5，使用了 1 的步幅。C2 和 C3 的输出通过非线性 ReLU 函数，然后分别被送入下采样层 S2 和 S3。最后的隐藏层是带有 256 个整流单元的全连接层。输出层则是一个全连接的线性层，带有 4 个单元，每一个单元对应一个合法动作。

日本研究者新算法：让机器人通过多模态深度强化学习获得社会智能

图 3：成功和不成功的握手示例

日本研究者新算法：让机器人通过多模态深度强化学习获得社会智能

图 4：在经过了一系列的 episode 之后，MDQN 在测试数据集上的表现

机器人强化学习深度学习智能算法人工智能机器学习

云科技时代

0 关注 0 粉丝 0 动态

相关推荐

当教练、做监工…… 人机协同下的AI更懂你

看起来枯燥、高冷的算法，在经过不断迭代升级之后，如何变成可感知外界的人工智能，成为辅助人类决策的工具?在本届进博会上，这一过程有了生动的展示。人工智能可以是“读心”的乒乓球机器人，可以是灵活装配、节省成本的生产线“魔术师”，也可以是瞬间读懂人体密码的“灵魂

机器人智力研究 2020-11-18

聊天机器人已成过去式：无法摆脱的命定结局……

笔者并不是指用来打发时间的那种聊天机器人，而是那些能满足高级需求的机器人。你创建聊天机器人的那一刻，就代表着允许客户和你的品牌直接对话。所以聊天机器人的创建不应该是一键默认，而应该是有意识的设置。在已有用户的平台上，聊天机器人能发挥出最大作用。笔者并非是想

quyunfei 2020-11-19

尾款人的双11焦虑症：配送机器人能解？

随着今年双11高潮落幕，尾款人也进入了等快递的煎熬时期。近日，多处快递网点停运的事件，更是让尾款人感到焦虑。而像双11这样的包裹量高峰时期，快递行业人力短缺的问题更加严重，由此导致从配送网点到客户手中的“最后一公里”配送滞后问题愈加严峻。这无疑对用户体验、

聊天终结者机器人 2020-11-18

ROS控制Turtlebot3移动机器人的基础教程

需要注意的是ROS需要IP地址在turtlebot和远程PC之间进行通信

风诰工作手记 2020-11-09

机器狗走梅花桩？自行车能自平衡？腾讯 Robotics X 实验室研究首次“开箱”

11月20日，腾讯公布了其在移动机器人研究方面的新进展：四足移动机器人 Jamoca 和自平衡轮式移动机器人首次对外亮相。这两项进展均来自腾讯 Robotics X 实验室，属于移动方向上的技术突破，也是机器人最基础的能力之一。腾讯 Robotics X

txq0 2020-11-20

诺和诺德携手微软，共创糖尿病智能问答机器人

全球领先的生物制药公司诺和诺德与微软在第三届中国国际进口博览会现场共同宣布，将充分利用诺和诺德在糖尿病预防及治疗领域的丰富知识、能力和经验，结合微软智能云Azure及人工智能技术，共同研发能够提供全中文服务的糖尿病科普知识智能问答机器人——小诺老师，以帮助

zCSDN 2020-11-09

军事机器人可自行决定用轮子还是腿越过障碍物

机器人在环境中移动的最有效方式之一是车轮在相对平稳的地形上移动。然而，当涉及到克服某些类型的障碍物时，轮子并不是最有效的旅行方式。德克萨斯A&M大学的科学家与DARPA合作，为军事应用制造机器人，能够在有或没有人类干预的情况下，确定轮子还是腿更适合

机器人智力研究 2020-11-05

擎朗机器人带您切身感受进博会“黑科技”

浦江潮涌，第三届中国国际进口博览会拉开序幕!“人工心肺”、“88克拉黑钻”、“黑色口香糖”、“抗疫机器人”……除了一些酷炫的展览，今年进博会面积更大、参展企业更多、企业质量更高，话不多说，先睹为快!尽管受到全球新冠肺炎疫情等不利因素影响，但各国企业参展积极

ARMOTO机器人 2020-11-06

人口普查，思必驰AI机器人率先“入户”

“您好,这里是泰达街道人普办。”当前,第七次全国人口普查正如火如荼,天津市滨海新区泰达街道的居民已率先接到了来自思必驰AI机器人的宣传电话,通知辖区居民为即将全面进行的人口普查做好各项准备。对于拥有25万居民、要在30天内完成信息上门采集工作的泰达街道来说

txq0 2020-11-06

破解宇宙奥秘，为何人工智能是关键？

千百年来，人类对于宇宙一直抱有极大的好奇心。仰望天空，你会不禁感叹宇宙之大，那里有太多的东西需要人们去探索和发现。浩瀚宇宙，美丽如斯，宇宙学家和天体物理学家都在尽力揭开宇宙的神秘面纱。卫星每年传送下来数百兆字节的信息，智利正在建设的一台望远镜每晚将产生15

遇见人工智能 2020-11-03

AI与约会：机器如何使我们相遇？

交友APP或许很多人都用过。约会AI的基本目标是为客户配对，直到他们找到理想的伴侣。在很久以前，这个程序还没有这么现代化。通过这种方式，不经了解就与聊天机器人谈话似乎是可行的。报告“机器时代的人类”证实，63%的人倾向于和使用聊天机器人的品牌或企业沟通。如

聊天终结者机器人 2020-11-02

8500万个工作岗位将被取代，工人如何保住“饭碗”？

2020年初，突如其来的疫情让不少工厂面临着“无人可用”的境地，而一些工厂因为机器人的大量使用，却没有受到很大影响，早早的复工复产，生产秩序稳定。从劳动密集型脱胎换骨，走向智能制造，制造业“机器换人”已成为无法逆转的趋势。随着智能制造技术的发展和“机器换人

clliuhust 2020-10-30

机器人技术如何改变医疗行业

机器人技术在医疗保健领域变得越来越普遍，在生物医学工程领域中，用于医疗机器人的资金也正在增加。它们可以执行超出人类活动范围的精确任务，并在电池允许的情况下持续工作。基于这些原因，医疗机器人可以帮助医务人员从日常和琐碎的工作中解脱出来，并可以使医疗程序更精确

yatou0 2020-10-29

与人工智能做同事，你准备好了吗？

如今在岗学习面临挑战。复杂分析技术、人工智能和机器人突然闯入了职场的方方面面，从根本上颠覆了这一由来已久的有效学习方式。我将这一广泛存在且非正式的流程称为“暗中学习”。我发现了获取所需技能的四大普遍障碍，这些障碍触发了暗中学习。暗中学习者经常意识到他们的做

雨燕 2020-10-29

AI和ML在网络安全中的用例

随着网络攻击在性质和目标上变得越来越多样化，网络安全人员是否有正确的可见性来确定如何解决漏洞是至关重要的，而人工智能将可以帮助提出人类无法单独解决的问题。“网络安全就像是一盘国际象棋，”Palo Alto网络公司的EMEA首席安全官Greg Day表示。

nodid 2020-10-29

机器取代人类不是“天方夜谭”，3个岗位“首当其冲”，需警惕

随着科技的不断发展，很多行业都用上了“机器人”，不仅提高了效率，而且节约了人工成本。这里所说的的机器人并不像我们在科幻电影上看到了“仿人类”物件，可能只是一个机械吊臂，或者程序控制的机器装置，依托于提前设定好的程序，可以24小时不间断的进行工作，不仅安全而

yatou0 2020-10-29

95%的消费者在购物时不想和机器人交谈

据backendnews报道，Oracle公司与市场研究公司Wakefield Research和总部位于纽约的零售咨询公司 The Retail Doctor合作开展的一项新研究显示，人们在店内或网上购物时不想与机器人交谈。在这项调查中，针对整个零售环

zCSDN 2020-10-27

为什么说，机器人创业的机会在B端？

技术变革之快，总是超乎保守者的想象。尽管在劳动力人口占比下降，人力成本不断上扬，机器人单价日渐下调等合力作用下，几年前开始中国就已成为全球最大机器人销售市场，但在很多人看来，相较于已初步产业化的工业机器人，当前中国机器人创业的先机会发生在服务领域。从中国电

dhyddy 2020-10-27

扫地机器人开口说话了人工智能助手正向家居六大领域发力

目前，有150多个品类、近5000款具备AI能力的智能家居产品供消费者选购。库伟说，AI助手引入多模态交互模式后，消费者执行某一个任务时，不需要重复某一个唤醒词。你的嘴唇、眼神、语音都可以实现，AI助手越来越接近于跟人之间的持续交互方式。

聊天终结者机器人 2020-10-26

在Python中用遗传算法优化垃圾收集策略

遗传算法是一个优化技术，在本质上类似于进化过程。这可能是一个粗略的类比，但如果你眯着眼睛看，达尔文的自然选择确实大致上类似于一个优化任务，其目的是制造出完全适合在其环境中繁衍生息的有机体。在本文中，我将展示如何在Python中实现一个遗传算法，在几个小时内

oXiaoChong 2020-10-26

云科技时代

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号