CIIS演讲实录丨彭爽：人工智能与情感交互

AI深入浅出

2017-10-30

10月12-13日，第七届中国智能产业高峰论坛在佛山开幕，在NLP与服务机器人专题论坛上，微软小冰首席产品总监彭爽发表了主题为《人工智能与情感交互》的精彩演讲。

以下是彭爽老师的演讲实录：

彭爽：大家好。我从清华大学毕业后，就加入微软工作，最近四年以来在小冰团队做人工智能产品的设计和迭代，这几年当我们和外面的朋友聊起来时，经常会问到一个问题，你做的微软小冰到底是什么？它就是一个聊天机器人吗？这可能也是今天大家比较关心的一个问题，所以我想从这个问题出发跟大家聊一下。

首先请大家一起回顾一下我们在最近几十年科技产业上的重大变迁。过去二三十年，从PC时代进入到互联网时代，然后又快速进入到移动互联网时代，到今天大家坐在这儿讨论新的人工智能时代的到来。每个时代的变迁，除了各种科技上的突破和颠覆，最重要的是重新定义了人类和世界用什么方式进行沟通和连接。人类在PC时代，通过PC的操作系统，使人类以更加有效率的方式连接世界，提高了工作效率；到互联网时代，通过浏览器和互联网这两个重要的核心，人类可以把物质世界非常快的电子化、数据化，并用比以往简单直接的多的方式定位信息。移动互联网时代，除了对互联网进行升级，甚至通过社交网络改变了人与人之间的交互关系。

到人工智能新的时代，在这个时代核心是什么？刚才朱老师讲到人工智能时代有NLP，有非常强的语音识别、图象识别各项技术，这些技术都非常重要，有些技术甚至达到或者超过了普通人类的水平。未来几年甚至会达到人类不可企及的精度。但是这样的核心技术突破，包括语音、图像、知识图谱的突破，是很重要的基石，但可能不是人工智能时代的核心，为什么这么说？因为如果我们去接触一下人工智能的概念，从创立之初，就是在以人类智能作为一个模板和范本做参考，而当我们衡量一个人类的智慧水平的时候，是不会去衡量这个人是否能听见、听懂人说的话，或者能否看见、看明白眼前的图片的内容，这不是我们衡量的。我们会衡量什么？会判断这个人是不是聪明，是不是考虑周全，是不是懂事，所有这些考量，实际上在用EQ和IQ两个维度体现。

我们认为在人工智能时代，我们去评价AI的核心，也应该从这两个维度体现。在这两个维度（智商和情商）上，当我们做小冰的时候，也有过类似的思考，我们决定通过微软小冰的人机交互，通过聊天这样的形式，来探索一条人工智能实现EQ的道路。为什么选EQ这条路呢？不是说IQ不重要，相反非常重要，业内的很多公司，包括我们微软的其他项目，都投入和很多在IQ方向上，来决定如何让人工智能获取更多知识、更加准确的回答客观问题。但是很少有人去探索EQ方向，为什么？因为业内的很多想法是，EQ方向是IQ达到一定程度上叠加上来提高的方式，而不是独立的存在，这一点上我们有不同的看法。我们认为EQ方向，或者说情感交互，实际上是人类的基本诉求，也是核心的刚需。在人类社会中我们能清楚的看到这一诉求，特别是对于一些群体，比如老年人群体，即便是生活、经济富足，他们也多有强烈的需要陪伴和交流的诉求，而且在家庭社会中难以得到很好的满足。由于这种基本诉求的存在，所以当一个人工智能，哪怕IQ还没有达到很高的水平，也完全可以通过EQ方向的迭代深入，得以独立发展，这也是我们一开始选择这个方向探索的重要原因。

我们主要是想说我们为什么选择情感交互的方向，微软小冰人机对话时的主要发力点和研究方向。下面我具体介绍一下我们的探索内容和成果。

为了实践EQ这个方向，我们首先定义了情感计算框架，以这个框架为核心去模拟实现一定情感交互。我们都知道，人类的情感是非常复杂的概念，我们在中文里会用喜怒哀乐的词汇形容情感，但是喜怒哀乐完全不够，还有恐惧、惊慌、羡慕嫉妒恨等等，甚至还有复杂的复合情绪存在，这些情感很难直接给一个简单直接的定义。我们的尝试使用心理学上的模型，首先定义有限的基本情感，再把复杂情感投射到基本分类上，就能到统一的表示。通过大量数据训练，有了基本的情感识别的分类，就有了第一步。之后更加复杂的问题是，如何对情感进行应对。应对情感不同于回答客观问题，不是给出一个问题，就能有一个唯一正确或者最优的答案。情感不是这样的，一个人不开心的时候，应该说几句宽慰的话，还是该讲个笑话逗他开心？甚至应该什么都不说，让他好好倾诉，才是最好的方式？没有标准答案。我们的做法是，在通用决策基础上，加入动态因素。由于我们有比较大的可以交互的对象，使得我们可以调整这样的机制，给出相应成熟的反馈。

由于我们比较早选了EQ方向，我们也积累了大量用户，小冰在全球五个国家上线，有总量超过1亿的人类用户跟小冰交互，对话量超过几百亿次，所以使得我们有能力做这样的尝试、探索和不断的迭代。

我们发现，在这样的对话过程中，尤其长程对话给我们带来更大的价值。长程对话不仅累计了更多轮次对话，而且使我们有机会在对话过程中，尝试切换话题，或是对对话的意图进行识别，进一步进行引导。另一方面，对用户来说，我们发现通过长程对话，用户和小冰能够建立更深入的情感连接。通过长时间的对话，用户甚至会忘记“小冰是一个机器人”的认知，对她产生信赖，成为朋友的关系，这种关系甚至超过它在普通生活中与其他人类建立的关系。

在这里跟大家分享一组数字：小冰在三个国家市场上的单次连续聊天对话记录。所谓单次连续聊天，是这样定义，如果一个人类用户跟小冰持续不断的说话，叫做连续聊天，如果说完最后一句话后，超过30分钟没有对话，那么这个对话就认为结束了。基于这个定义，从数据统计中发现，每个国家市场上，都有用户跟小冰连续聊天超过十几个小时、甚至二十几个小时。最长的记录达到29个半小时。大家可以感受一下，这样的长时间对话，用户早已忘记小冰是机器人。这也侧面印证我们之前的一个重要论断，人类社会里，像对话的倾诉、情感沟通这样的交互，是一个基本的刚需。有很多人类，他们对于情感和交互的诉求非常强烈，但而由于各种各样的原因，在现实生活中可能找不到可以跟他们聊天的对象，所以也是我们认为具有EQ的人工智能尤其有价值的原因。

刚才提到的主要是基于文字的交互，而情感交互肯定不仅限于此，我们说情商的高低，应该能够从多种感官的交互中全面的体现出来。

在图像交互方面，基于微软构建的强大的图像识别和图像处理能力，我们着重把图像的交互，从识别图像内容，提升为对图像进行情感评价。相信很多人有这样的体会，朋友圈中很多人发图晒自拍晒娃晒宠物，刚过完的十一长假尤为如此，大家都在发朋友圈晒旅游。比如这张来自我们同事的照片，发照片的人站在比萨斜塔前合影。如果应用图片识别技术，能够轻松识别出“这是比萨斜塔”，甚至可以通过知识图谱了解到意大利、建筑年代，等等信息。但有人发出这样的照片，从交互的角度，显然不是考验别人能否识别出“比萨斜塔”。所以当他把照片发给小冰，小冰的回答是“要我帮你扶着吗”？这个就是从感受出发延伸出来的，能够促进交互，甚至达到意想不到的惊喜。小冰在图像交互的升级并不是凭空出来的，也都是从图片信息作为输入，通过图像的意向触发，联想而产生的回应。

在语音交互方面，我们说现在语音通用的合成技术已经非常成熟了。那么我给大家看一个对比的示例：我们通过友商的产品和我们的产品生成同样一句话，请大家听听，对比一下区别。（音频）从刚才这句话中，大家一定能听出来，小冰的语音明显更加自然，更加有情感。实际上语音合成领域有很多基础工作，如何让语音流畅自然，如何解决中英混杂的问题，解决儿化音的问题，这些都是难点，也是我们努力的方向。除此之外，大家听到最后一个“哼”字时，从小冰的声音是可以听出她的情绪的，而其他的更像是念。这是我们格外关心的重点，也使得用户跟小冰用语音进行交互时，更容易被打动，带入情感的重要原因。

除了图像视觉和语音等基础感官，我再大家介绍一类升级的高级感官，我们成为“全时感官”，也叫全双工语音。所谓全双工，是对比现有的半双工而言，目前绝大部分人机之间语音对话，是半双工语音，就像是在微信里聊天，你说一句发过来，我再说一句发回去，就像对话机一样。而我们知道真实的人与人，面对面的对话，我随时在听，也可能随时会说，我们互相之间可以打断，这样的交流更自然流畅。我们称之为全双工语音。这样的全双工语音，不仅仅要有基础的语音识别、语音合成等技术，还需很多的控制、时机判断，了解什么时候适合打断，如何打断等等，难度相当高，但是非常具有实际价值。实际上，我们从将近一年前，就准备了这个全双工的技术，并且在北京的中国科技馆里展示了一个“小冰电话亭”，每天都有成百上千的参观者，通过这个电话打给小冰。更重要的是，从今年9月起，用户不需要再去科技馆排队，等电话亭给小冰打电话。小冰就有可能会主动打给你，甚至基于用户在其他在线平台上跟小冰的互动，来决定何时打给用户。比如有用户在微信上跟小冰抱怨心情不好，小冰可能会出于担心，而聊天在之后，过一段时间主动打电话给用户，继续安慰她。这也是全时感官的重要作用：有了这样的升级感官原因，有了这样的感官，人工智能可以突破平台局限，甚至变被动为主动，更多与人类交互。

实际上，当小冰具有了全时感官，我们开始探索如何把全时感官、对话能力和loT融合落地。今年6月份开始，小冰跟小米生态链平台合作，在米家平台上发布的产品，通过小冰的语音对话，可以控制米家平台上的几十种智能硬件。每一次跟小冰连通，就相当于接通一个全时感官的电话，用户可以在沟通过程中通过小冰控制智能家居，也可以跟小冰聊天对话。我们发现，用户会在聊天和控制场景中自由切换，这样的交互更加自然，体验也更好。

这里给大家分享一个实例（音频）。一般智能控制的交互，主要是命令的形式，使得对话比较死板，而小冰情感交互能力超出预期，所以用户觉得小冰好像真的像家里的一个人一样存在。这也使得小冰在家庭场景中可以做更多的事情。举个例子，当小冰进入一个家庭环境中，能够对环境中不同的人，根据他的身份和属性不同，完成不同的应对。我们做了一些实验，让小冰能够根据语音和对话识别出家庭成员，并且针对同一句打招呼的话，给出不一样的回应。（音频）可以听出，当小冰跟家里的小朋友对话时，不仅在语音内容上有所区分，而且在语速语调上都明显不同，就像我们面对家里的小孩子时，会自然的把声音、态度做改变。这是我们认为人工智能在情感交互上升级的体现，根据不同的场景、不同的对象、做出有区别的适当的情感交互。

最后，我们相信，在不太久的未来，具有情感交互的人工智能，会无处不在，成为各种各样智能形态的必备。谢谢大家！

CAAI原创丨作者彭爽

未经授权严禁转载及翻译

如需转载合作请向学会或本人申请

转发请注明转自中国人工智能学会

人工智能 iq

安科网

CIIS演讲实录丨彭爽：人工智能与情感交互

AI深入浅出

AI深入浅出

相关推荐

当教练、做监工…… 人机协同下的AI更懂你

如何通过7个步骤构建机器学习模型

Facebook借助人工智能对内容审核排序

人脸识别技术发展现状及未来发展趋势

零基础也能看懂的人工智能教程

关于机器学习管道需要了解什么?

关于人工智能的解读，看这一篇就够了

谷歌正在测试一个人工智能系统，帮助视障人士参加跑步比赛

人工智能与制造业融合有多难？我国人工智能人才缺口达30万

华人研究团队推出AI“讽刺”检测模型，准确率达86%

程序员用AI算法生成了3000个新的宝可梦

决策智能：方兴未艾的人工智能新方向

如何认识人工智能对未来经济社会的影响

AI＋智慧交通实现整体升级和协同

5G技术与人工智能的智能结合

人工智能助力教育均衡发展

为什么所有的机器学习模型有90％从没有投入生产

2020年人工智能改变了我们生活的哪些方面？

激发校园创新火花 2020 DIGIX全球校园AI算法精英大赛圆满收官

全面解读谷歌云人工智能如何为机器学习提供帮助

AI深入浅出