GMIS 2017大会俞凯演讲:迈向智能认知型对话交互
全球机器智能峰会(GMIS 2017),是全球人工智能产业信息服务平台机器之心举办的首届大会,邀请了来自美国、欧洲、加拿大及国内的众多顶级专家参会演讲。本次大会共计 47 位嘉宾、5 个 Session、32 场演讲、4 场圆桌论坛、1 场人机大战,兼顾学界与产业、科技巨头与创业公司,以专业化、全球化的视角为人工智能从业者和爱好者奉上一场机器智能盛宴。
5 月 28 日,机器之心主办的为期两天的全球机器智能峰会(GMIS 2017)进入第二天,全天议程中最受关注的是多位重要嘉宾出席的领袖峰会,包括《人工智能:一种现代方法》的作者 Stuart Russell、第四范式联合创始人兼首席科学家杨强、科大讯飞执行总裁兼消费者事业群总裁胡郁、阿尔伯塔大学教授及计算机围棋顶级专家Martin Müller、Element AI 联合创始人 Jean-Sebastien Cournoyer 等。
上午,上海交通大学教授、思必驰联合创始人、首席科学家俞凯教授发表了主题为《迈向智能认知型对话交互》的演讲,他探讨分享了目前语音领域的机遇和挑战,以及如何迈向智能认知型对话交互,以下是该演讲的主要内容:
近期Gartner发了一个报告,2017年全世界物联网设备的数量首次超过了人类的数量,达到了80多亿,全世界人类数量大概是75亿,预计2020年整个的数量会到204亿。这些新兴的物联网设备中最重要的特点是小屏、无屏,而且是大量,这种情况下想要进行复杂的信息交互,传统的手段就变得非常有限,而语音和语言就变成最主要的手段之一,这也就是为什么近年来口语对话交互得到非常重大的发展,智能对话助理的蓬勃发展也验证了这一点。
俞凯的演讲从这件当下非常热的事情入手,具体讲述目前对话交互领域已经解决的问题有哪些,尚未解决的难点是什么,以及背后的理论是怎样的。
俞凯认为,对话交互,无论是研究还是工程都是要解决一个问题,就是「端到端的非配合的自然口语交互系统」,这当中与之前相比更值得关注的是「非配合」,俞凯谈到,这三个字实际上是所有难点的源头。
在整个系统的架构里边,要解决的无非就是两大类问题,一类是感知,一类是认知。感知是以识别为代表的,认知则是以决策,包括知识处理为代表的。
最先讲到的是感知的语音识别。从精度的角度来看,去年微软发布了一个重要突破,在著名的对电话语音识别的任务上,首次机器的系统达到了人的水平,达到了5.9,基本上逼近了人类的水平。而俞凯团队在上海交通大学做到的另外一个突破是在抗噪语音识别上。在国际通用的测试集上,2015年、2016年在单系统上已经到了7.1。这个抗噪识别是比较低的。所以精度上,如果不考虑任何其他的条件,录好的东西,切好了,让机器去算,其水平其实已经快接近人类了。
从速度方面来看,如果这些系统不考虑是不是实时系统,即1秒钟的语音可以花超过5倍、10倍的时候计算它,但真正做语音识别的时候不得不考虑实时的问题。
两三年前,业界提出了一种新的模型,叫做CTC。这种模型很重要的一个特点是,它会出现所谓的后验处理的尖峰。俞凯教授表示,「这种尖峰给了一个启示,在实际搜索中,右边这个图上面大家能看到,上面红色的部分是以马尔可夫链模型的结果,下面的是CTC的结果。最大的不同就是在大的识别点上面其实我们完全可以把这些体系彻底的抛弃。」
之前的语音识别办法都是逐帧的进行搜索,现在能在监控上进行搜索,和以前的结果相比,这种办法大概把语音识别的速度提升了3—4倍,所以在语音识别的速度上得到了很大的提升。
语音识别取得了巨大的进展,然而目前仍然存在着非常多的问题。目前最难解决的问题是「非配合」。
在哪些方面的「非配合」呢?第一类是信号,实时的语音识别的转写系统,都有一个条件,需要环境是来进行配合。俞凯举例说到,比如讲话时麦克风放在讲话者的嘴边,但是如果去进行远场的识别、去进行较大噪音情况下的语音识别,这时声音定位远场处理就变得非常重要。另外,语音识别过程中会涉及到语言范围,假如在预先知道别人想要说什么,在这种配合式的状态之下,语言模型会非常好,语音识别的效果也非常好。通用的语音识别,转写效果可能非常好,但遇到很专业的东西时转写效果可能就会不佳。
俞凯认为,「对话交互的最大难点在于认知,认知最大的问题是,到底这个问题是什么,我们并不确切的知道。」认知智能很难找到确切的方向,拿口语交互为例子。从对话分解的角度上来说,按照说话交互的伦次以及结构化语义引入的程度来分别,大概有四种,命令式的、线条式的、问答式的、任务式的。
线条式的,基本上一问一答,不太在乎背后的结构的语义是什么,只要求看起来像是人说的就可以。任务式,主要解决具体的推介问题,比如任务型的东西需要寻找一个导航的结果、需要买一个咖啡,是任务型,必须解决多轮交互上的问题,需要把知识嵌入进去。所以几种方式目前解决方案是不一样的,目前还没有完全的框架来解决它。认知过程中不单包括了静态的理解,还包括了动态的交互控制,它要解决的事情就是决策的过程。
现在大数据和深度学习能否把遇到的问题都解决掉?首先,在自然语言处理界,在做认知的过程当中,最广泛应用的一种就是深度序列学习,尤其是基于注意力机制的这样的深度序列学习,这种在机器翻译包括问答上面已经取得了非常好的效果,但是它真的是通过了理解去做问答吗?举一个很著名的例子,微软研究院提出的任务SQuAD,就是阅读理解的任务,给一段话让机器去读,提问一些问题,机器需要在给定的阅读材料中找到答案。一般想到这件事情听起来是需要人理解的,看似在最好的系统里面已经非常接近人的指标了,几乎跟人找到的答案是非常一致的。但这是否证明已经达到了人的水平?
俞凯解释说,「几乎所有最好的模型,都会把这个问题建模成另外一件事,会建模成我根本不去理解你,我是要去预测,我把所有的文字编号,我预测我要回答的这个答案开始的这个编号,比如第5个词,以及结束的编号,比如第7个号,通过机器学习的影射,通过一系列的算法,通过给定的问题我们预测它的答案,开始的编号和结束的编号,这个东西没有办法解释的,还是黑箱的东西。」俞凯希望做到这些事情可解释,可解释的最大好处是能够控制它。
此外,在俞凯看来,强化学习是未来机器可以学的更好,非常重要的发展方向。其实强化学习在人机交互中已经被认为是一个大方向,但无论是研究机构还是工业机构,没有任何一家有全强化学习的系统,能够直接在线上服务,而都是一些混合一点的或者主要以规则为主的。在现实当中是存在问题的,第一个问题,冷启动的问题。AlphaGo在第二个版本上面是通过队列变得越来越好的,而对话能不能队列,如果对话想要队列的话,除了有回答的机器人,还有要有像用户问题的机器人,需要造两个机器人,难度是非常大的。所以很多强化学习训练的离线系统,没有办法达到现在通过规则、通过其他的方式高度优化的在线商业系统的水平,要真上线就会影响用户的体验,所以冷启动是特别大的问题。
第二个问题,在现有的强化系统里面往往都是对特定领域的,如果换一个领域怎么办,如果深挖一些问题怎么办,对于语音识别相对好一点,对语音强化领域的策略需要解决策略进化的问题,这种进化在线上进化,又不影响用户体验,现在还处在摸索当中。
除 “深度学习+大数据”解决未来对话交互的问题,俞凯还认为交互的时机非常重要。他分析到,「当两个人说话的时候,很多时候不用等你说完就知道你说什么了,或者等你说了半句对方已经可以知道答案,就直接告诉你,我要打断你。打断你的时候不单单是语音识别的问题,我切断了你的语义,并且还要预测你的语义才能去回答。」这个过程当中什么时间切入最为自由,什么时间切入最为恰当,就变成了交互时机的问题。「如果之前我们所研究的主要范畴是What to answer,现在我们要研究的范畴是When to answer」俞凯说。
另外一个问题是用户异常的处理,在交互过程当中难免会有语音识别的错误、语音理解的错误,甚至交互策略的错误,这样的事情在现有的深度学习的框架下面还没有办法解决。
除了“深度学习+大数据”是现在流行的东西,大数据之外还有什么?就是小数据,这是未来研究发展和业界发展的趋势。
第一个比较热的方面,就是所谓的自适应。
在这个里面,尤其在对话交互当中,语义理解的自适应要远比语音识别的自适应来得重要,而自适应当中对于一般被称为Text这样的自适应,不如对所谓的本体自适应,就是你想要理解的范围它的扩充或者它的计划这样的自适应来的重要,所以这方面的迁移学习是最近在学界也比较热、在产业界也是大家都盯着的一个非常重要的点。
另外,大数据不能解决所有的问题。人类的知识是在更多的大数据的基础之上,经过了人类这种思考和沉淀积累所得的这样的结晶,这样的结晶就会变成我们来进行进一步处理的,尤其是在进行非结构化小数据处理的关键,所以如何去开发知识与数据联合驱动这样的模型,这是大数据之外我们所要去面临的挑战,也是真正未来能够产生下一波最大红利的一个挑战。
俞凯整个演讲提出这样一个观点,就是「智能的感知+认知的进化」,是未来人机口语对话系统发展的重要方向