互联网时代,信息的发展离不开语音识别
大数据文摘作品
大数据文摘记者 刘涵 魏子敏
“自然语言技术的未来,其关键点是“自然”两个字。”
11月最后一天,思必驰联合创始人、首席科学家俞凯博士在清华x-lab主办的人工智能研习社第七课上,如此评价自然语言处理,并与现场听众一起畅想了这一潜力巨大的技术将走向哪里。
图:11月30日,思必驰联合创始人俞凯在清华做了题为《认知型口语对话智能》的讲座。 刘涵 摄
在这场题为《认知型口语对话智能》的讲座上,俞凯认为认知交互面临的最主要的挑战一定不是语音,因为从语音识别的角度上来说,问题明确,只要专门向这个领域去做,绝大部分都可以优化的很好。
他认为其最大的挑战还是对话的过程,例如针对抑郁症患者治疗的这类场景,语音对话更像是有目的的聊天,如果没有很强的数学背景在后面做支持,是很难的,只有在一个垂直领域积累更多的数据,才能做得更好。
大数据文摘整理的俞凯博士本次讲座内容如下,在不改变原意的前提下有删改:
今天的题目叫认知型口语对话智能,核心点是两个字:“对话”。
这两个字不单单包含语音,还包含语言。从人机变迁讲起来,我在清华待了八年时间,在这八年当中,我们经历了人和机器在不同时代交互的几个变迁。
我们为什么开始关心口语对话智能
今天第一个要讲的问题,就是我们为什么开始关心口语对话智能。
刚开始的时候我们使用的是Windows图形交互界面,通过机器图形交互界面使得人和信息可以进行交流,我们奇迹般的看到了打印出来很工整的排版。而到了现在,在2011年开始,手机变成智能手机,使用开始变的非常广泛,这个时代自然的语言(手动输入、语音)逐渐形成了我们现在的交互手段。再往后我们发现通过口语沟通是未来智能信息获取最核心的东西,而移动互联网的时代,最关键的是这一类沟通产生了一种新的模式,那就是交互。
讲座现场图 刘涵 摄
在上世纪出现Google、百度等搜索引擎的时候,交互还是单向的,但出现智能手机之后我们的交互变成了双向。比如苹果的交互史,在刚开始做出来第一代iPhone的时候并没有语音交互的能力,但经过市场调研之后发现有75%的用户都希望有语音控制。于是,在后面两代iPhone加入了语音控制,但到后面发现实际使用的用户竟然不到5%,苹果经过总结之后发现不仅仅是语音,还必须有自然语言交互。于是在iPhone4S上面出现了SiRi,再次经过市场调研之后发现,大概有87%的用户至少在一个月会使用一次SiRi。
而且,他们还发现了一件事情,这87%的用户使用SiRi的时候基本上都是在调戏SiRi,并不做其它的事情,这导致苹果并不能赚到钱。这也促使了苹果在2015年收购了一家做统计对话交互的公司Vocallq,这会让技术语音识别和语义连在一起形成完整的闭环,SiRi就可以为我们提供新的功能了。
讲座现场图 刘涵 摄
现如今大家都说是互联网时代,那么如今的信息发展到什么程度了呢?有一个统计显示,到2017年年底,全世界物联网智能设备的总数将首次超过人类总数。而且这些智能设备绝大部分是没有或者拥有很小的屏幕,并没有办法进行很复杂的操作,这些设备如果想要去访问最核心抽象复杂的信息,只能是语音或者对话的形式。这也是众多巨头从2014年的音箱开始出现一系列智能音箱的原因。从技术上讲,这件事情不仅仅是要解决框架的问题,还包括了对话管理、识别、合成以及我们的理解。
语音识别存在的问题和机遇
我们会碰到什么样的问题,以及在这个过程中有多少和我们的应有相关的机会。
首先是语音识别。
语音识别是感知技术这一类里面前沿的技术,当许多人看到语音识别,第一个会想到的问题就是语音识别似乎已经被解决了,当我们使用一个包罗万象的语音识别系统的时候,我讲“疏影横斜水清浅,暗香浮动月黄昏”这样的东西都可以比较完整的出来。但尽管采用了深度学习的技术,仍然避免不了错误,它也会偶尔的有一些语音识别的错误出现,而我们的任务就是使得它像人一样,在有错误的时候,完整的去进行人机交互,修正错误,这需要感知技术和认知技术相互的帮助来实现。
第二是计算能力。
语音识别的解决是与计算能力有关的,举一个例子,刚才我在做演示的时候,这个演示的应用背后早期使用的深度神经网络,共有7层,每层有2048个节点,输入是1320,输出是将近1万,这大概有4500万的参数,在做语音识别的时候我们是把每秒钟的语音切成100份,每一份提取1320个向量,大家想象我在一秒钟要让特征向量经过100次深度神经网络计算,之后还要在数以亿计节点的搜索网络里再去搜它,所以这个运算是非常非常复杂的。曾经有过统计,整个语音识别会分成搜索的速度和做神经网络前向传递的速度,这两个速度的比例,在传统系统里面前向传递的速度占30%-40%,后面在各种各样的语言空间搜索的速度大体占60%-70%。所以,在技术上必须突破速度的问题。
现场听众提问 刘涵 摄
感知智能另外一件事是如何把它做得更小。整个信息技术的变化和推进一定是和技术基础的推进有关,性能抗噪能不能达到90%、能不能在手机手表上面也做到大词汇等新的挑战不断应运而生,随着在智能物联网方面我们做出各种各种的优化之后,这样的挑战开始被一个个的克服掉。
认知这个事情更加麻烦。人机对话并不是大家想象那样,对话也是分成很多种形态的,有的可以很好的解决,有的却毫无头绪。如果以不同的轮回次数来分类,大概可以分为下面几种。第一种是模式最少的,单轮模式,既我说一句它回答一句,而且没有什么特定的结构化语义,这种情况基本上是命令式的,十分简单。复杂一点的则是问答,现在的经典深度学习技术很多是用来解决问答这个问题的,因为问答基本上是一问一答,你说一句它会给你一个答案,偶尔会带有一点上下文,这并不是真正意义上多轮的东西。还有一类是闲聊,比如微软小冰,你不停的说,它就不停的跟你聊天。闲聊的准则就是以聊得时间来定义的,曾经有一位用户,聊了好几个小时依然在继续。但这里面是没有什么目标意义的,所以闲聊要考虑的是如何把一些比较有趣的东西融入进去。
但是里面究竟有什么意义,机器是不会去关注的,只要有用户黏性跟它一直聊下去,特点是多轮,没什么结构化的东西。偶尔会加一些知识,现在希望把这个东西融合起来,这是方向,本质上没有什么结构化的东西。所以闲聊这一类事情实际上更多的是怎么样能够把一些比较有趣的东西融进去。实事求是来讲目前还缺乏一套比较扎实的理论体系,能够让真正在理论上解决掉。
最后一类是任务型的多轮对话,这类对话是有比较扎实的数学基础的,把对话看做是一个序列决策过程。
这一技术的三个层面
如果从认知层级的结算上来讲,我们会把认知技术分为三个层面。
第一种是静态层面,我随便说一句话,自然语言能不能理解,能不能映射到正确的意思上面去。
第二类是交互决策,意思是我在说话的时候如何进行反馈,比如我对一个机器说我要找到餐馆,它要明白我想去哪、吃什么。
第三是进化,我想要便宜的东西,它却以为我想要贵的,当它发现错了之后下一次一定要更新自己的反馈策略,进化出自己的认知。
聊一件和各位相关的事情:大规模可定制对话智能。在讲整个对话智能的时候,我们会发现在整个流程里面,每一个环境都看起来很美好,但一到专业领域的环节就会变得不一样了。比如做对话模式,做购物的场景与金融、家庭的场景所理解的东西完全不一样,这个时候就要看做出来的模型是否每一个场景都能识别,是否能很好的支持。在细节上面,还有很多个性化需求,例如唤醒。当我们喊小乐给我放一首歌的时候,这个小乐就是一种唤醒。但有的时候我们希望它有好几个名字,这种需要多唤醒词的需求在未来会出现更多。
当我们真正去做的时候,会希望在我们所使用的口语对话系统上的支撑可以定制。而大规模可定制是我们提出的新概念,在2013年我们发布了一个叫“对话工场”的平台,2017年升级到大规模可定制的“Dialogue User Interface”,DUI,其本质上是把图形界面和语音界面在对话交互的框架下结合在一起。
定制性的语音交互技术可以做什么?
这时候,我们会好奇,这些定制技术能做什么呢?比如可以在做实时语音识别和大词汇语音识别的时候,做出来一个功能,当语义改变的时候,语音识别会对我们自动添加的词做自动识别,比如我们添加了“泷泽萝拉”四个字,语音识别系统能自动把它加入词表并具有识别的能力,继而在实现理解和交互。
我们想要做一件事情,在一个车载的系统里面,自动选择一些声音添加进去,当想要林志玲甜甜声音的时候,喊一声林志玲出来,绝对不会再出来郭德纲的声音,让它回去它就会切换为原本的郭德纲声音。我们希望这样的事情可以很自由的来回切换。更进一步,我们要支持对理解和对话进行相应的定制。
在这个过程里,在我们真正背后的技术上来说,已经不再是一般的语音的和对话的交互,不再仅仅是前面我们提到的感知和认知的独立框架。在这里要解决的问题是所谓大规模可定制的一些新技术。比如说在识别里,要解决所谓的自适应的问题。比如说话人和环境的自适应、领域主题的自适应等这些东西可以及时的去改变它,可以使得对话有很多的自适应。如果实现这些自适应规模化的话还需要有相应的系统支持。在这个过程里需要有具体的技术拆借、需要有模型定制,能够使得它规模化的扩展,并且在个性的基础之上去进行进化,这一类东西里会有很多新型的技术出现,但这些技术都需要技术基础的支撑。