阿里入局智能音箱,争夺智能家居语音交互入口
机器之心原创
作者:吴欣
亚马逊、微软、三星、谷歌、苹果等公司都在争夺智能家居交互入口的跃进道路上,巨头围猎之下,中国的大小公司所面临的竞争激烈程度可见一斑,而更残酷的可能是,到最后这会是一场 AI 技术之战。
「整个科技的变革带来新一次红利,我们也在思考是否有比触屏更好的交互方式,经过一段时间的研究,我们认为语言是下一代交互的自然方式。」阿里巴巴人工智能实验室负责人浅雪(本名陈丽娟)在发布会上说,「另一方面,智能音箱是一个产品线很长的产品,任何一个环节出现问题,整个音箱的体验都会很差,这是阿里自己做音箱的重要原因。」
阿里巴巴人工智能实验室负责人浅雪
7 月 5 日,在位于北京鼓楼的时间博物馆,阿里巴巴 Ai Labs 举办「未来,开口即来」新品发布会,宣布推出该部门第一款自主开发的智能音箱「天猫精灵 X1」,其售价仅为 499 元。如此前机器之心的报道,它能够理解中文语音指令,通过语音交互实现购物、播放音乐音频内容、玩游戏、查天气、问百科、充话费、控制天猫魔盒等功能,短期内仅面向中国市场发售。
作为淘宝网第一代产品经理,浅雪特别谈到开发音箱的产品设计理念:「在家庭环境下使用的一款产品,不应该是外观很大、只有大声音的智能设备,这是我们对这款产品的第一个思考,另一方面,语音交互这种方式将无所不在,做得越来越小,才是语音交互助手终极追求方向。」
阿里巴巴智能音箱技术揭秘
根据现场介绍,天猫精灵 X1 采用了首颗为智能语音行业开发的定制芯片,在解码、降噪、声音处理、多声道的协同等方面做了专门的优化处理。针对 AliGenie 需要进行大量音频处理、声音合成的工作环境,定制芯片加入了独立的 NEON 处理单元,NEON 技术可加速音频和语音处理、电话和声音合成等,从而带来更优秀的语音识别及音频处理效果。值得一提的是,这款芯片面积减少 25%,功耗降低 32%,效率提高了 25%。
系统软件方面,采用了一键声波配网技术,这让天猫精灵 X1 不到 10 秒就能连上网络。而配网对智能家居来说,非常有挑战性,目前大部分产品配网时间平均大于 30 秒。
收音方案则采用了六麦克风收音阵列技术。在顶部的六颗高灵敏麦克风有助于收集来自不同方向的声音,从而更容易在周围的噪音中识别出有用的信息,来达到更好的远场交互效果。据了解,思必驰作为项目合作方,在这款音箱中提供了环形六麦阵列、语音识别、语音合成、回声消噪及语音增强等前端技术解决方案。
作为提升天猫精灵 X1 理解力、执行力和进化力的关键系统 AliGenie,集成了阿里巴巴积累多年的自然语言处理、人机交互等技术。浅雪介绍称,「AliGenie 拥有用户画像、语境和上下文、同义词、反义词、上下位、口语化表达能力。我们通过数据算法格式,以计算、算法、数据三方面来呈现。计算层面使用了 FPGA 云端硬件定制化逻辑电路加速,进行前端云端联合优化。在算法方面,具备语音特征表达能力,并首创了混合神经网络,AliGenie 也学习了强化和随机策略。」从数据上看,凭借阿里巴巴积累起来的一批独有、海量的中文语料,AliGenie 目前认识的中文实体已经超过一亿,但在维基百科上的中文实体还不到 1000 万。
不久前,为天猫精灵 X1 提供技术支持的团队也首次曝光了其自然语言处理成果。据了解,目前通过深度机器学习,天猫精灵 X1 已兼容 20 个领域的自然语义理解。
基于声纹识别技术,天猫精灵 X1 实现了不少功能。首先,音箱能够在家庭使用场景中识别 6 个人,并保证身份指向性,以提供良好的私密性。其次,用户在发起购物、充值等需求时说出声纹密码,音箱就可以启动声音识别系统进行身份验证,并在确认后完成交易。与亚马逊 Echo 购物功能不同的是,前者支持用户把商品加进购物车,而天猫精灵 X1 可以通过声纹验证直接支付。根据官方信息,阿里人工智能实验室正在对声纹识别、声纹购、NLP 中文对话引擎等核心技术申请专利。
下一代交互入口陷入混战
至此,这场由亚马逊带动起来的语音交互中国巷战,已经聚齐中国互联网巨头。除了通过自主研发与合作方式推出产品,也纷纷开放自己的技术与服务实施生态化圈地运动。
AliGenie 系统不仅支持天猫精灵 X1,还拥有一个开发者平台,将对开发者开放深度学习、自然语言处理、搜索 / 推荐算法、知识表示及推理问答系统四个方面的核心技术。在分成方面,开发者可以获得全部收益,平台在推广期间不参与分成。
AliGenie 平台主要面向四种类型的开发者,包括内容开发者、应用开发者、智能家居开发商和硬件生产商。不同的开发者,可以通过 AliGenie 创建技能,提供更多的语音服务,如现场展示的应用 Keep。
事实上,阿里巴巴的优势也包括内容和应用端,从淘宝网、天猫到支付宝等平台可支持的日常商业服务众多。目前,该系统除了包括音乐音频、儿童教育、家居控制等方面的应用入驻,该系统也接入 5 家酒店,并与美国最大玩具厂商美泰达成战略合作,在智能家电方面支持 100 多个品牌。在这之后,阿里还会推出相关的阿里 AI 创新开发者计划。
不久前,腾讯云也推出腾讯云小微智能服务系统,包含了硬件、skill、智能服务三大平台。与几大巨头中最早推出音箱产品叮咚的京东、更专注于开放语音交互底层技术的 DuerOS 相比,腾讯云小微不仅仅聚焦在语音层面,服务于包括智能音箱在内的各类硬件产品以及机器人等,几乎对标于 Amazon 的 Alexa。在此前机器之心的采访中得知,除了飞利浦电视、亲见家庭语音助手等已经亮相的产品外,其平台已经有 200 多家合作伙伴已经在陆续接入,在腾讯云小微第一期「毕业生」中将有 30 多款针对不同场景的智能音箱与耳机、20 多款人形机器人、车载 HUD、大家电等产品,同时还有超市智能管理、楼宇监控对讲等应用。而在腾讯公司执行董事刘炽平在接受《The Information》采访时透露,腾讯正在研发一款智能音箱,或在八月份发布。
一批仍然不可忽视的玩家,也都在不断加码。利用先发优势,京东与科大讯飞于 2015 年 8 月合作推出的京东叮咚也已经接入 100 多项互联网服务并且拥有自主的开发者平台,服务伙伴包括中通快递、e 袋洗、百度地图、京东通信、JIMI 机器人、有道云笔记。此外,叮咚还接入智能硬件平台——京东微联,从而使用户通过叮咚音箱的语音交互控制平台上的家电产品,包括生活电器、厨房电器、空调、可穿戴设备等。在 2017 年 6 月的亚洲消费电子展上,京东发布了叮咚智能音箱 Top 和叮咚二代,相比第一代产品,新产品新增了自定义唤醒词、声纹识别、第三方音箱扩展、多种发音人等功能。
除了互联网巨头,传统 IT 厂商联想集团也进军智能音箱领域,在 2017 年 1 月,联想在 2017 年国际消费类电子产品展览会上发布智能音箱,共配置了八个 360 度远场麦克风,并采用噪声抑制与回声消除技术,使其能够接收 16 英尺(5 米)以外用户的语音命令。联想的智能音箱拥有两个版本,国内版采用联想研究院与思必驰共同研发的中文自然语义理解系统,能进行多轮语言自然互动。海外版则集成 Amazon Alexa 云语音服务。
亚马逊、微软、三星、谷歌、苹果等公司也都在争夺智能家居交互入口的跃进道路上,巨头围猎之下,中国的大小公司所面临的竞争激烈程度可见一斑,而更残酷的可能是,到最后这会是一场 AI 技术之战。