腾讯张正友:攻克可进化机器人,6个研究趋势与7大技术突破点
11月2日,机器人及多媒体技术专家、腾讯Robotics X实验室主任张正友博士,在2018年腾讯全球合作伙伴大会的人工智能分论坛上,展示了腾讯在机器人领域的思考。包括:
- 腾讯将人工智能(AI)、机器人(RoBotics)和量子计算(Quantum Computing)作为全新ABC组合。
- 人机共生的未来,是机器通过感知-行动-规划-学习范式,从自动走向自主,成为可进化的机器人的未来。
- 目前机器人本体研究存在六大趋势,分别为仿生化、灵巧操控、精准触觉、多机器人协同、人机交互和医疗辅助等。
- 腾讯Robotics X的主要任务是攻克A到G的7大技术突破点:一是攻克“ABC”基础能力,即人工智能(AI)、机器人本体(Body)与自动控制(Control);二是探索“DEFG”机器智能,包括进化学习(Developmental Learning)、情感理解与拟人(EQ)、灵活操控(Flexible Manipulation)等能力,最终实现成为人类守护天使(Guardian Angel)的终极目标。
让AI+机器人做“数字化助手”标配
活动前一天,腾讯高级执行副总裁汤道生在大会上发布了腾讯新一轮架构调整后,扎根消费互联网、拥抱产业互联网的战略路线图。而在前沿科技如何助力“两张网”的发展上,机器人是腾讯的重要布局。腾讯副总裁姚星认为:“腾讯将立足脚下,利用好人工智能(AI)、大数据(Big Data)和云计算(Cloud Computing),即ABC科技,构建新型基础设施,做‘数字化助手’的标配,形成科技创新与产业应用相互促进的良性循环,这在医疗、安防、零售、交通与娱乐行业已经有所体现。同时,腾讯也将放眼未来,在核心技术上推进前沿、原创和开放性的基础研究,并在关键性技术上前瞻性布局,比如人工智能(AI)、机器人(RoBotics)和量子计算(Quantum Computing)的全新ABC组合,从现在开始思考下一代标配的组成。”AI+机器人的“双基础”布局,将有利于真正连接虚拟与现实世界,从而真正达到腾讯所致力于攻克的终极难题——通用人工智能(AGI),让机器具有真正的人类智能。
人机共生时代即将来临
计算能力的演进,从最早的大型计算机、到PC个人电脑和智能手机的普及,再到可穿戴和陪伴设备的兴起,是从固定的时间、地点和程序,到无时无刻、无处不在和无微不至的个性化的过程。而Sensor(传感器)也在体积、重量和功能上不断进化,手机上的摄像头、麦克风、GPS定位系统等,有很大潜能还未被开发。如果把传感器从手里、口袋中解放出来,下一代机器人的雏形也随之浮现而出。这都导致了一个必然的结果:人机共存、共创和共赢的时代即将来临。
机器人的现在与未来
机器人由六大部分组成:本体、运动执行器、动力系统、感知、交互和决策系统。
机器人6个组成部分
以往的工业机器人强调自动化,就是在已知环境里,完成精确控制、事先编程和重复性一系列动作,而现在逐渐走向在不确定环境中,自学习、自适应与自演化的自主型机器人。
反应式与有意识的自主
自主分为两类:踢到了石头,还能保持平衡,叫“反应式自主”;遇到障碍物有意识地避开,比如机械狗遇到门,会去规划一个“开门”动作,就是“有意识的自主”。
自主如何实现,张博士提出了“SLAP打耳光理论”:
SLAP范式
第一步,让感知(Sense)和行动(Act)相连,先得到反应式自主。在上层规划后,做到长期自主去规划(Plan),就是有意识的自主。
第二步,整个过程中,机器人还需要不断学习(Learn),在学习中与外界交互,与自身交互,让机器能力越来越强。这个SLAP范式,在英文里也有打耳光的意思,这就是它名字的由来。
当机器人进过SLAP范式进化后,智能化程度变高,就有丰富的应用场景,从操作复杂工艺,到陪伴和护理儿童与老年人,到更复杂的人机合作。
机器人本体研究六大趋势
腾讯Robotics X在大量调研后发现,目前全球机器人的本体研究上有以下六大方向与趋势:
- 仿生化:如蛇形机器人,让机器人能适应复杂工作环境;
- 灵活操控:实现灵活准确的抓取和操控,才能做更有用、更复杂的运动;
- 触觉技术:机器人需要实时反馈、精确的感知操控反馈,才能得到更有效的自主;
- 多机器人协同:机器人之间要避免碰撞,高效协调机器人间协作;
- 人机交互:机器人与人要能达到非常自然的情感交流和安全的交互;
- 医疗辅助:机器要能增强人的体能,帮助残障人士重获生活便利。
腾讯Robotics X 简介
虽然机器人领域已经有长时间的发展,但人和机器人共存的时代还未到来。在互联网进入技术驱动的下半场时,腾讯成立Robotics X实验室,就是为了迎接智能机器人与人机共存时代的到来。这包括了四方面考虑:
- 技术趋势:机器人是能代表未来的前沿技术
- 公司战略:腾讯是一家强调技术驱动的科技公司;
- 社会责任:拥有庞大体量的腾讯,要肩负起更多科技和社会责任,如何让前沿科技驱动传统产业升级,如何应对老龄化等社会问题,都在腾讯的思考范围之内。
- 公司文化:“以人为本”无论微信、QQ还是游戏,都是和人打交道的。机器人是人很自然的延伸。
我们同时也请到CDC,就是腾讯用户研究和体验设计部设计了实验室Logo。这个设计在理念上,突出了机器不断突破极限,自我深化,自我迭代的过程。Logo的字母跟机器一般,能拆成更小的部件、框架和支架。并能根据需要替换和重组,得到新的字母,这个过程就像机器人的研发过程 - 从研发、调试、优化、拆解、重构,不断循环往复,生生不息。
腾讯Robotics X实验室Logo
ABCDEFG:
智能机器人时代七大技术突破点
机器人由自动走向自主、人机共生成为大势的“智能机器人”时代,公司应该着力于哪些突破点?张博士提出A-G7大技术突破点理论:首先是攻克ABC基础能力——人工智能(AI)、机器人本体(Body)与自动控制(Control)能力;其次要继续探索代表机器人智能趋势的D到G能力——进化学习(Developmental Learning)、情感理解与拟人(EQ)、灵活操控(Flexible Manipulation);最后,实现成为人类守护天使(Guardian Angel)的终极目标。
Robotics X主攻技术突破点
ABC:机器人的基础能力
ABC代表了机器人的基础能力,包括:AI人工智能,代表机器人必须要能看、听、说、思考;Body本体:机器人本体至关重要,且不同的本体代表不同技术;最后是Control控制力。
攻克ABC 机器人的基础能力
我们最近为新开放的腾讯总部展厅,做了几个小Demo,包括围棋AI机器人绝艺、桌上冰球机器人和机器狗Jamoca。
完美机器人是什么样的?
那在ABC的基础上,一般大家会问,完美的机器人本体(Body)是什么样的?
很多人认为人形机器人将是终极目标,我持有不同看法:人会有直立双足,是经过几百万年在荒野生存而演化出来的。但目前的环境,大部分是平面,加上楼梯、电梯、稍微不平的地面,与此前的荒野有了很大不同。因而,现代化的最佳本体,我觉得不止“人形”一个标准答案。
我觉得评判ABC的标准,就跟人类相似:力、巧、快、准、美。
对ABC的评估标准
D到G:探索机器人的智能与进化
探索D-G机器人的智能
- 进化学习Developmental Learning:如SLAP范式所提,机器人要不断学习才能提升能力。
- 情感EQ:机器要对人深入了解,才能做出适当回应。机器也要有合适的表现方式,让人能理解机器要做的事情。
- 灵活操控Flexible manipulation:机器人要有精准灵活的操控执行,才能做有用的事。钢盔铁甲看起来很有力,但在人机共存时,可能会给人带来伤害。我们要考虑如何设计柔性机械臂,加上很多的传感器。
- 守护天使Guardian Angel:机器人要全方位的来保护人类,所以他不应该是一个孤立的个体,应该和智能的环境结合,还要和云结合,只有把这些东西作为同一个整体,才能保护人类。
进化学习(Developmental Learning)的意义
屏幕上的机器人是仿照4岁小孩制作的机器人,我们此前将他用来作可进化机器人的研究。小孩从一出生就和父母,和周围环境不断交互探索。有时小孩故意把东西扔在地上听声音,这些交互会让小孩学习社会能力、机械能力和交互能力。但目前机器人完全不是这样学习,而都是预先设计和编程好。如果机器人用深度学习去学一个技能,机器人只能按照编程行动,目前还不能通过和外界交互得到越来越强的能力,所以我们研究一个方向是要让机器人可进化,发育,通过和外界交互使得它的能力越来越强。
可进化的机器人
腾讯Robotics X的未来
在最后,我们希望与学界和行业开放合作,共同创建人机共存、共创、共赢的未来。这个使命包括四个部分:增强人的智力,发挥人类体能潜力、关怀人的情感,最后通过人机协作,完成人类所需任务。
张正友博士
腾讯Robotics X实验室主任
机器人及多媒体技术专家
张正友博士,ACM Fellow(国际计算机学会院士)和 IEEE Fellow(国际电气电子工程师学会院士),是世界著名的计算机视觉和多媒体技术的专家,于2018年3月加入腾讯,担任腾讯机器人实验室“Robotics X”主任,负责整个实验室的筹备、管理与运营。
张正友博士在立体视觉、三维重建、运动分析、图像配准、摄像机自标定、人脸表情识别,机器人导航,语音增强与识别,沉浸式远程交互,视频会议系统等方面都有开创性的贡献,参与了多项欧洲及微软的计算机视觉和机器人重大项目。在国顶顶尖会议(CVPR、ICCV、Siggraph,ACM Multimedia等)和国际顶尖杂志(IEEE T-PAMI, IEEE T-MM, IJCV 等)上发表论文250余篇,Google Scholar论文引用次数近44000,单篇最高引用次数超过11000次,9篇文章引用次数超过1000次。拥有近200项专利,他发明的平板摄像机标定法在全世界被普遍采用,被称之为“张氏方法”。除了学术贡献,张正友带领的微软研究团队在微软很多产品里都有贡献,比如Windows、Office、Xbox、Kinect、Skype for Business、Office Lens等。张正友是国际顶级会议CVPR 2017大会共同主席,担任多个国际顶级期刊主编副编委和国际著名会议大会主席和程序委员会主席。
张正友博士是前美国微软公司合伙人,微软研究院首席研究员和研究经理。张正友于1985毕业于浙江大学获得学士学位,1987年获得法国南锡大学硕士学位,1990年获得巴黎第十一大学博士学位,1994年获得巴黎第十一大学国家博士导师资格。在法国国家计算机和自动化研究院(INRIA)学习工作近十二年,担任高级研究员。1997年在日本先进技术研究院(ATR)学术休假一年,任特邀研究员,在世界上第一个用神经网络研究人脸表情识别。1998年3月加入微软研究院美国本部,研究工作了二十年。