【大咖来了 第6期】面向交互的人工智能

语音使人机交互更加便捷

 

什么是交互?交互是指 A 和 B 之间的一系列动作和行为,语出《京氏易传·震》:“震分阴阳,交互用事”。

那什么是人机交互呢?人机交互是一门研究系统与用户之间的互动关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互重点研究用户与计算机之间的接口,既包括人类与计算机的交互方式,也包括设计技术,使人类以新颖的方式与计算机交互。人机交互与人机界面是两个有着紧密联系而又不尽相同的概念。

在计算机时代,人机交互的发展历程如下图所示:

【大咖来了 第6期】面向交互的人工智能

从键盘+鼠标到使用触摸屏,再到语音交互,人机交互在不断地演进,由面向机器的人机交互,演变为面向用户自身的交互。语音是非常低成本的沟通手段和工具,为我们带来非常大的便利。

语音交互的优势在于:其一是速度,每分钟可以说120到150个字。其二是释放双手,做饭时通过语音可以完成一些期望做的事。其三是直觉性,语言是人类的天赋,也是人类交际沟通的自然手段。其四是同理心,语音中包含了语气、音量、语调和语速,这些特征传达了大量的信息。

语音交互离不开人工智能技术,在语音交互中所涉及的人工智能技术如下图所示:

【大咖来了 第6期】面向交互的人工智能

如今,智能语音交互正在为我们服务,背后有一整套完整的技术和流程,从语音唤醒到自动语音识别,再到自然语言理解,最终通过自然语言生成以及语音合成技术形成反馈,整套流程背后又有很多细分的AI技术在支持,如对话管理、深度学习,DNN、CNN、NLP、TTS等。

面对涉及如此之广的AI技术, 我们怎样才能应用到工作和生活之中呢?这和我们有了计算机之后,如何使用计算机是类似的。计算机上的操作系统及其API为程序员们打开了计算机世界的大门。面向智能交互的AI系统, 我们同样需要一个类似的操作系统,才能方便而且高效地构建我们的人工智能交互应用。

面向语音交互的DuerOS操作系统

百度的DuerOS是一个面向语音交互的对话式人工智能操作系统,在包含了语音交互的整套流程的同时,还提供开放能力平台,如SDK、工具、编程接口和设备等,如下图所示:

【大咖来了 第6期】面向交互的人工智能

DuerOS操作系统有三个层面,分别是智能设备开放平台(应用层)、对话核心系统(核心层)和技能开放平台(能力层)。下面我们进一步从基于DuerOS的智能语音设备、智能语音设备的工作原理、智能语音交互的交互流程和智能语音应用的开发流程等方面了解DuerOS操作系统。

了解一个操作系统主要是看有哪些语音设备,基于这些设备才能进行具体的应用开放,DuerOS的智能语音设备有很多,部分的小度系列产品如下图:

【大咖来了 第6期】面向交互的人工智能

DuerOS广泛适用于音箱、电视、冰箱、手机、机器人、车载、可穿戴、玩具等多种场景及设备,这些智能语音设备的工作原理是怎样的呢?

【大咖来了 第6期】面向交互的人工智能

相比传统设备,智能语音设备是面向交互的,通过语音、触屏进行输入,利用TTS、麦克风、信号处理等手段,把本地能力转移到云端,再利用云端ASR、TTS、NLU、NLG等具体的AI技术实现智能语音,最后把业务引擎、业务资源和技能服务进行融合,这样就可以通过语音完成一系列服务,如下图所示。

【大咖来了 第6期】面向交互的人工智能

技能开放平台包含很多层次,如底层基础能力、BOT-SDK、配置服务、协议开放、平台开放、周边工具等。下面介绍一下智能语音交互应用的交互流程。

【大咖来了 第6期】面向交互的人工智能

这里,我们以询问天气意图为例,当用户发出语音指令后,智能音箱本地做用户唤醒词识别,然后通过音箱把语音流传到DuerOS平台,DuerOS平台进行语音识别、语义理解、发送结构化数据给技能服务器。技能服务器处理请求,向DuerOS平台返回文本或可视化的结果,DuerOS平台收到后,TTS服务器处理返回的文本,将播报流发送给智能音箱,如果是有屏音箱的话,也可将可视化结果在设备上进行展示。

那么,我们如何在DuerOS开发一个智能语音交互的应用呢?

智能语音交互应用的开发流程一般分为六个步骤,分别是注册、创建技能、建立交互模型、编写代码部署、调试与验证和技能上线商用,如下,为具体步骤图解。

第一步,访问https://dueros.baidu.com/dbp, 注册成为DuerOS的开发者。

【大咖来了 第6期】面向交互的人工智能

第二步,创建技能,和我们在Android或iOS上创建应用是类似的。

【大咖来了 第6期】面向交互的人工智能

进入技能控制台,选择“从头开始”创建自定义技能。技能名称是2~50个字符,调用名称是2~15个字符。调用名称是技能服务的入口,打开+调用名称。不建议使用生僻词汇、中英文混合及数字与汉字混合。技能创建后会生成一个技能ID,是技能服务在DuerOS系统中的唯一标识。

第三步,建立交互模型,这可能是智能语音应用与App,小程序,web之类应用的最大的不同点。

【大咖来了 第6期】面向交互的人工智能

用户询问的核心在这里称为意图,建立交互模型就是创建多种用户意图的过程。意图的标识就相当于具体事件的编号。交互模型的建立实际上是一种面向接口的设计方式,明确的交互的意图就是在一定程度上确定了技能服务的功能。

第四步,编写代码并部署。

【大咖来了 第6期】面向交互的人工智能

DuerOS 提供了高效安全的百度云服务免费使用,开放平台的在线编辑器提供了对Python 和Node 的语言支持,编码主要是对交互模型中的意图进行匹配和处理。在线编辑器中的代码将自动部署在百度云的CFC,CFC是百度云FaaS无服务架构的具体应用。当然,技能代码的编写还可以通过Java,PHP等其他语言进行编写,也可以部署在自己的服务器或者其他云服务上。

第五步,对技能服务进行测试与验证。

【大咖来了 第6期】面向交互的人工智能

DuerOS开放平台提供了两种测试方式:模拟器和真机调试。在真机调试时,要保证技能开发账号和设备登录账号一致,对设备说“开启技能调试模式”即开启了“技能调试模式”功能,需要注意的是同一时间仅支持一个技能测试。

第六部,技能应用的上线商用。

【大咖来了 第6期】面向交互的人工智能

类比来看,发布上线与App在安卓市场或者苹果商店上的上线发布过程是类似的。至此,我们可以基于DuerOS的开放平台开发符合用户需求的各种智能语音交互应用。同时, DuerOS 还提供了零编程的智能语音交互应用实现方式。应用的种类丰富多彩,可以为我们的生活带来更多的便利和乐趣!

基于智能语音交互服务的一天

相关推荐