阿里鄢志杰博士：“达摩院”要做下一代颠覆性的人机交互

yise001

2017-10-30

摘要： 近日，飞象网记者对阿里iDST (Institute of Data Science and Technologies) 智能语音交互团队总监鄢志杰博士进行了专访，从阿里iDST发展战略、平台建设、自然人机交互技术等多角度揭开阿里智能语音交互的神秘面纱。

人机之间的自然交互一直是人工智能领域的一个美好愿景，而语音是人机交互中最重要的手段之一。随着人工智能的迅速崛起，新一轮语音技术变革已经跃然眼前，成为科技巨头们争相攻下的堡垒。

近日，飞象网记者对阿里iDST (Institute of Data Science and Technologies) 智能语音交互团队总监鄢志杰博士进行了专访，从阿里iDST发展战略、平台建设、自然人机交互技术等多角度揭开阿里智能语音交互的神秘面纱。

“达摩院”要做下一代颠覆性的人机交互

PC时代，人们与机器通过键盘和鼠标交流，与机器“沟通”需要学会打字、按键操作；移动互联网时代，人们与智能手机通过触摸屏幕交流，只需滑一滑手指即可完成任务；未来智能时代，机器将更像人类的一员，与它之间的交互方式将更趋同于与人之间交互。而要做到像“人”一样交流，机器就必须具备语音识别技术。

因此，语音识别将是未来人机交互的入口，如果没有这个入口的话，你可能反而会觉得这台机器不够“智能”。为了能够在这个即将到来的生态系统中抢占制高地，各大科技巨头越来越重视语音技术发展，Google有Assistant，亚马逊有Alexa，微软有Cortana，Facebook有ParlAI，无不在加大语音识别的研发力度。

作为国内BAT三巨头之一，阿里在今年的云栖大会上宣布千亿元成立“达摩院”，研究领域包括：量子计算、人工智能、机器学习、视觉计算、自然语言处理、下一代人机交互等。而鄢志杰博士所在的IDST，则被外界称为阿里最神秘的部门，它是达摩院在下一代颠覆性人机交互技术和用户体验方面的核心团队，其中还包括鄢志杰博士负责的智能语音交互。

鄢志杰博士看来，达摩院要做的是面向未来10年、20年后的下一代的人机交互，将是突破现有“一问一答”层面的全新一代交互，人机交互会越来越自然，而实现这一突破的关键在于“多模态和主动交互两大技术的融合”。

“相比传统单一的交互模式，阿里IDST更重视多模态和主动交互技术的融合，它主要基于传感器技术，融合了视觉、听觉、触觉、嗅觉等多种交互方式，机器可以更象人，表达效率和表达的信息完整度更高，是智能交互的发展趋势。”

鄢志杰博士举了一个例子，通过传感器技术可以感知我们所处环境的温度，比如天气热时室内温度比较高，机器就会帮我们把空调打开，而现在的智能家居，还只能被动的接受指令。

这样的应用场景看似简单，但实现起来还是有诸多技术难点需要解决的。鄢志杰博士表示，要做到下一代的人机交互体验，还需要解决三大问题：

1、怎么把传感器采集到的信号进行融合，从而产生融合以后的交互体验，这个是有距离的。因为现在传感器收集的信息是割裂的，比如摄像头在做人脸识别，麦克风在做语音设别，真正融合的还没看到。

2、传感器采集的信息还处于感知层面，相对还是比较浅层的，真正认知层面还是有距离的。

3、交互形式单一，现在无非是屏幕或TTS（从文本到语音），怎么把视觉、听觉、触觉、嗅觉等多种交互方式融合到人机交互中还没有突破。

鄢志杰博士表示，人机交互其实就是用户获取服务的过程，而阿里智能语音交互扮演的是中间桥梁的作用，它通过语音连接多端，跟互联网上广泛的服务对接，为用户提供所需的服务。

通过阿里云输出语音能力

阿里的iDST部门除了负责建立自然语音交互平台，另外一个重要任务是通过阿里云输出语音能力，帮助阿里及其合作伙伴去做具体业务。

“我们最开始做这样的能力，完全是从阿里内部客服中心的需求来出发的，因为阿里每天淘宝、天猫和支付宝每天都有上百万次的客服电话，而且这一数字还在快速增长。所以，当我们把语音能力引入到电话客服呼叫中心，就可以把语音转换文字，做服务质量的质检，并将一些自动化的规则和模型引入进去，使得服务质量能够保证。目前，通过阿里语音质检系统已经输出有1.2亿个电话，客服机器也有超过1亿的处理量，阿里的语音能力已经把传统的客服呼叫中心，打造成智能的呼叫中心。”

鄢志杰博士表示，阿里整套AI的能力就是帮助传统行业提升效率，而且原来在比拼准确识别率，而阿里要比拼的是大规模低成本的定制能力，能够对各个垂直领域进行定制，并和其他的模态进行融合，形成例如电话客服系统或庭审系统，来提升整体的生产效率。

此外，针对直播网站，阿里语音还在业内一个推出了语音审核的产品，和图像审核是放在一起的，主要来监测视频内容是否违规或有不良的内容，这一技术可以帮助视频网站节省70%的人工成本。在政府部门，阿里语音技术也有广泛应用，例如司法系统，有这样的生产力工具可以大大提升效率。

在2C领域，通过Link-Voice平台将语音能力进行输出，鄢志杰博士表示，“我们是站在端和云的中间，端就是各类终端，包括电视、汽车、音箱、IOT设备等，云端就是阿里过往布局的互联网内容和服务，Link-Voice配合阿里云IoT的智能生活开放平台，使得厂商在设备智能化过程中能一站式地集成语音交互，极大地缩短了开发周期，帮助厂商占据市场先机。”

目前阿里云IoT团队和iDST团队已经深度共建从设备端的唤醒、拾音到云端的语音识别、语义理解及服务执行和语音合成整体语音交互解决方案，并通过Link-Voice平台把能力开放给所有合作伙伴。

在平台建设方面，Link-Voice平台已经具备完善的生态产业链，已覆盖音乐、智能家居控制、生活服务、个人助手等核心高频服务及内容。拥有Rokid、LinkPlay、芯中芯、庆科等行业内经验丰富的合作伙伴，产出了单麦、双麦、四麦、六麦等一站式软硬件一体解决方案。传统音箱及其他家电厂商可以快速基于Link-Voice平台的体系完成智能语音交互升级。

据了解，阿里云IoT平台的设备出货量在国内排名第一，已经覆盖一百多个品类，合作一千多家品牌，已经有20余款音箱产品及跑步机、按摩椅、家庭中控屏幕等产品使用Link-Voice的服务进行售卖，出货量达千万规模。

智能家居需要“统一语言”来交流

近两年，亚马逊Echo的出现引爆了智能音箱市场。据统计，亚马逊Echo在2016年销售量超过650万台，预计2017年超过1000万台，继亚马逊之后，谷歌发布Google Home智能音箱，苹果也发布了HomePod智能音箱。与此同时，阿里、京东、联想、喜马拉雅等也纷纷入局。

巨头们的杀入以及中小厂商的蜂拥而上，一度提升了智能音箱市场成为风口的可能性。对此，鄢志杰博士表示，智能音箱的火爆是因为在美国市场Echo取得了优异的成绩传导到国内市场的结果，我们也希望在国内市场能智能音箱行业能尽快取得爆发式增长，目前各大巨头都已经布局该领域，我们不排斥竞争，这个市场需要大伙一起来培养和教育。

除了智能音箱，鄢志杰博士认为传统设备的语音交互升级也是个巨大的市场。“用户可能很难为一个类似智能音箱的新物种买单，但容易接受以稍高一些的价格购买带有语音交互的传统家电设备。比如我们在云栖大会前夕发布的智能语音跑步机，在市场上就取得非常好的反馈。”

但是，智能语音也面临一些挑战。目前智能家居平台各自为战，拥有各自的通讯协议，用户购买不同平台的设备就要安装各自新的App，很难集合各家平台到统一的控制中心。阿里云IoT拥有国内最大的智能家居平台，并主导成立ICA互联互通联盟，目前已经有100余家厂商加入该联盟，越来越多的设备正在采用统一的“语言”来交流，这为语音控制家居打下了非常好的基础。

人机交互阿里人工智能人机交互系统

安科网

阿里鄢志杰博士：“达摩院”要做下一代颠覆性的人机交互

yise001

“达摩院”要做下一代颠覆性的人机交互

通过阿里云输出语音能力

智能家居需要“统一语言”来交流

yise001

相关推荐

华大学领衔，99 页报告揭秘人机交互的发展状况及未来发展趋势

【python系统学习05】input函数——实现人机交互

iOS开发：人机交互界面设计的五大原则

Kinect人机交互开发实践

清华AI研究院里程碑：成立智能人机交互研究中心发布四大开放平台

阿里iDST人机交互新进展——LFR-DFSMN语音识别声学模型介绍

出门问问携手中科院自动化研究所，共建语言智能与人机交互实验室

腾讯俞栋：定义下一代智能人机交互，从目标、挑战到实现路径

中科院软件所戴国忠:智能时代人机交互的一些思考

苹果iOS人机交互界面开发指南

实体按键消亡的背后，是一段人机交互的发展史

百度宣布开放4项语音技术吴恩达称或将彻底改变人机交互

微软年度研究大盘点：ML突破将到来，人机交互更真实，惜别沈向洋

老龄化社会有解？这些服务机器人有望填补中国劳动力缺口

【大咖来了第6期】面向交互的人工智能

解读！10篇人机交互领域高引论文合集

UI 即 User Interface( 用户界面 ) 的简称

拍照技术烂？实时在线AI构图模型VPN，让你变身摄影大神

刷脸支付、人机交互、大数据：我们该如何定义AI收银机

解放双手，人机交互真的只需要一张嘴吗？

yise001