“讯飞输入法之父”翟吉博为你解读背后的故事

82632713

2016-10-23

据说，看了锤子手机发布会的人，印象最深的就是老罗演示讯飞语音输入那一段（从视频的第100分钟开始）。很多人表示自己受到了深深的震撼。但“震撼”之余，我们也应该冷静下来，清醒地认识到语音输入的春天，在科技史上已经来过 N 次了。究竟是什么，让2016年的语音输入变得不一样，让讯飞的语音输入变得不一样？

为了解答这个问题，雷锋网请来了讯飞输入法产品总监，或者用时髦的说法“讯飞输入法之父”，为大家解解馋。

嘉宾简介

翟吉博，讯飞输入法产品总监。2009年以码农的身份加入科大讯飞，2010年创建讯飞输入法并担任产品总监至今，参与了讯飞输入法从0发展到4亿用户的全过程，曾经3天时间就写出了讯飞输入法的Demo，目前讯飞输入法月活跃用户超过1亿。

“讯飞输入法之父”翟吉博为你解读背后的故事

背景介绍：

湖北黄冈人，毕业于上海交大

2009年，以码农身份入职科大讯飞

2010年创建讯飞输入法，并担任产品经理至今

也许是最会写代码的产品经理

问答精华回顾：

雷锋网：很多大公司的重要产品，起初可能只是几个员工的小尝试，比如 Google 的很多产品是这么诞生的。那么对于讯飞来说，做输入法的契机是什么，这个产品是怎么诞生的？

讯飞翟吉博：关于讯飞输入法的诞生，这里给大家讲一段故事。2010年的时候，当时我在讯飞研究院，我记得iPhone4发布的当天晚上，我跟我上级，就iPhone4 做了一个讨论，我们认为，iPhone上基于触屏的全键盘输入体验，不太好。原因在于屏幕太小，而手指又像，一根萝卜那么粗。经过脑暴，我们考虑到，把讯飞的语音技术结合到输入上来。完了我就自己动手开始做，很快就出了一个demo，因为我原来是做过手写识别，还有拼音的这个技术，所以这个demo也包含了，语音手写还有拼音的功能。

这个demo拿出来给他老大看，他觉得，不能仅仅是做个demo，后面我们就对市场进行，研究和分析，写了一个立项书，而且在公司层面也获得了通过，其实我们组建几人的小团队在杭州封闭开发了三四个月，然后在10月28号，我们对外发布了第一个版本。

雷锋网：外界看来，讯飞是一家toB业务为主的公司，做 toC 的产品，最需要突破的地方是什么？

讯飞翟吉博：我认为最需要突破的地方，还是在思维方式以及配套的团队体系方面。从面向行业客户到直接面向消费者的，需要更多的去考虑用户的需求。然后整个团队的开发运营推广的流程和体系需要重新构建。

在 2011年的时候，讯飞，面向消费者成立了一个移动互联事业部。现在，讯飞输入法就在这个部门下面。我们部门其他的产品还有，灵犀语音助手（前身叫讯飞语点）、在几年前iPhone上推出的一款叫讯飞口讯的，也风靡一时当时曾经，在app store的排行首位。讯飞输入法的团队，在这几年也有一个很大的发展从最早，只有几个人的，小的开发团队，现在发展到包含了从前到后，完整的职能，一共接近二百人。

雷锋网：讯飞输入法早期的用户群和使用场景有什么特点？

讯飞翟吉博：我们早期的种子用户，有个典型特征都是偏极客的，他们对语音技术关注度比较高，有不少用户提到他们原来在电脑上，就体验使用过IBM的语音技术。然后他们，会全天候的，不停的来测试我们的系统，并且提出各种各样的设想和改进意见。

雷锋网：讲真，这次讯飞的语音输入法被老罗猛推了一把，你和你的小伙伴们是一种怎样的感受？

讯飞翟吉博：其实我们事先真没想到，老罗是以这样的一种演示方式，足足给了我们这么长的时间，从现场，观众的热烈响应，还有网络上的，热烈反响，给了我们团队充分的信心。

至于数据嘛，这个请大家看一下，app store的排行榜，短短几天，我们现在已经在（免费）总榜上，冲到了第三，在工具（免费）榜上已经，排在了第一。在华为，小米等应用商店下面，也看到很多用户的评论，都是和老罗的发布会有关。

雷锋网：一些懂行的人告诉我们，其实老罗在台上演示的两段内容输入，还是非常有局限性的，说的几乎都是常用语，换言之就是机器最容易识别的东西。里边没有任何专有词汇，中英混杂，同音字等等等等。你们怎么看？

讯飞翟吉博：其实老罗现场也提到了在那样的一个环境下做语音输入的演示，本来就是一件很有挑战的事情，因为环境的噪声还有回声的干扰，对于技术来说，是比较困难的一个问题。另外大家可以关注到老罗的一个非常即兴的方式，它的语料是很开放的，而且语速也很快。这种方式相比封闭的，比如说绕口令的，这种语料，难度其实大很多。

当然对于专有词汇还有中英文混合这些，也会加大识别的难度。我理解老罗，也是想保证现场的效果，所以，在即兴的语料上，没有加大这方面的难度。

雷锋网：所以，语音输入的春天真的又来了吗？我们报道科技很多年，其实每隔几年人们就会提语音输入的突破，但到头来会发现，路还很长，需要技术的突破也需要整个大环境的变化。你们在语音输入的一线，讲讲你们的感觉吧？

讯飞翟吉博：那根据我们现在的理解，目前的语音技术的应用，可能还是主要分为这几个场景：

第一个是在即时通讯应用里边。作为比较实用的就是把语音转成文字；

第二个是语音搜索，他和前者的区别，更多的是一些关键词的匹配；

第三个就是在类似siri这样的语音助手中，做上下文的对话以及理解。

那其实我们输入法在第一种应用，当中可以看到，整个的语音用户占比的发展趋势，从最早的每天几个百分点，到现在接近20%，有些语音用户已经养成非常稳定的使用习惯，而且这个趋势仍然在增长中。我认为这个比例现在还没有到达，应有的用户覆盖。不过另一方面，我们认为基于手机这种触屏为主的设备，语音不会是完全主流的，那在下一个万物互联和VR设备流行的时代，我相信语音技术的春天会，真正到来。

雷锋网：语音输入的技术突破有多大？给详细讲讲。

讯飞翟吉博：从这几年发展来回顾，语音输入技术可以分为几个阶段：

第一个阶段。在我们，10年刚推出的时候，整个的识别率是初步的达到了使用门槛，字正确率只有70%多还不到80%；

第二个阶段。那随着用户越来越多积累了大量的数据，通过大数据的训练来驱动，使得整个的识别效果稳步的提升，能够到达90%出头。

第三个阶段。2012、13年的时候，那我们，使用了深度学习算法之后，再结合大数据的训练，使得正确率又有了，更大的突破。

其实，老罗发布会上宣传了97%这个数字，我们达到这个数字其实已经有一两年时间了。

雷锋网：讯飞的语音输入强在哪儿？

讯飞翟吉博：首先要说，深度学习算法出来并相继普及之后，对于安静的环境下，日常的句子，大家的语音技术基本都达到了实用的水平。讯飞相对深入的地方表现在，三个方面：

第一，对于口音的适配。我们知道，在中国说普通话的口音是非常广泛的，那对于不同的口音语音识别的效果，影响很大，讯飞对于各地的口音都有很好的适用，而且对于一些典型的纯正的方言也能够识别；

第二，对于抗环境的干扰方面。比如说在开车的时候，如果开着窗户，那个噪声是非常大的，讯飞是目前通过国际大车厂测试唯一达到实用水平的，技术提供商；

第三，对于网络的依赖方面。我们能够提供在线和离线无缝结合的方案，而且在离线的识别上面，也达到了很高的识别效果。

雷锋网：讲一个你和你的小伙伴得意的，关于产品细节的思考吧？

讯飞翟吉博：还是说一下刚才提到的关于在线离线无缝结合的方案吧，那其实我们刚开始推出离线语音的时候就考虑到，在线语音的优势是足够精准，离线语音的优势是比较可靠，我们能不能在用户网络不太稳定的时候，能智能地做一个识别和判断，把两者的优势有一个很好的结合，所以我们现在在产品上，会实现一个从在线到离线智能切换的策略，这也算是一个比较贴心的细节。

雷锋网：iPhone 平台和 Android 平台，在产品设计上，有怎样不同的考虑？另外，那个牌子的手机更能发挥讯飞的语音能力？

讯飞翟吉博：首先考虑的是在视觉和交互的规范上，我们会遵循iPhone和安卓系统特定的规范，比如说在iPhone系统上保留的地球键，又比如说视觉的风格，这些我们不会，强制去做，两个平台的完全统一，其次也要考虑系统的能力和特性上的区别，比如说iPhone系统对于输入法键盘的录音权限做了限制，所以我们现在迫不得已也只能采用，跳转的方式来实现语音输入，当然iPhone也有它的优势，比如我们可以利用3d touch，来实现利用输入法键盘做很方便的光标移动，这个功能在需要定位修改文字的时候比较方便。

语音输入对于不同手机来说，更多的是看录音质量的区别，现在很难笼统地说哪个牌子的手机效果好基本上，采用了双mic或者是多麦克，然后降噪效果做的不错的手机，对语音输入效果都有很大的帮助。

雷锋网：语音输入若想起到更大的作用，被更广泛地使用，你觉得还应该在哪些方面有所突破？

讯飞翟吉博：首先，在市场教育和用户习惯培养方面，我觉得罗老师给了我们很好的启发，比如说从大家比较熟悉的，用微信发语音的场景，让大众明白通过语音输入文字和直接发语音的区别。

另外，在产品和技术本身，我们觉得在个性化方面有很大的发展空间，因为现在每个人或多或少都有独特的发音习惯和用词习惯，未来的语音输入可以为每个人量身打造越用越好，我们现在已经在输入法里，通过个人账号实现了，通讯录人名和定制词库的个性化识别，将来还将实现，更深入的个性化功能。

雷锋网：最后分享一下你的语音输入使用习惯吧？

讯飞翟吉博：我个人使用语音的过程，也大概经历了几个阶段，可能也代表了不少用户的路径。

第一个阶段。主要还是在克服自己的心理障碍，一开始总是觉得用语音对着手机说话，感觉有点傻，只敢一个人的时候用。

第二个阶段。那后面在大街上也经常看到有人用对着微信发语音，好像大家也习以为然了，所以心里的障碍慢慢的有所克服，这个阶段更多的是对语音识别效果的调校，自己想想怎么样能说得更准，而且怎么样能有一些方面的修改。

第三个阶段。也就是现在的阶段，可以说已经达到一个老司机的水平了，可以相对比较得心应手的使用，特别是在移动的状态下，基本上就靠用语音了。

讯飞讯飞语音输入法

安科网

“讯飞输入法之父”翟吉博为你解读背后的故事

82632713

嘉宾简介

82632713

相关推荐

讯飞英语通值得入手吗 AI陪练口语专家讯飞英语通详细评测

讯飞输入法启动方言保护计划，用AI留下五彩乡音

语音识别首次全平台比拼，讯飞依图BAT各家算法差异巨大

2018讯飞输入法媒体见面会暨AI方言发音人招募启动

「智能金融音箱问世」讯飞京东金融兴业银行联手布局物联网金融

中国AI出征CES，BAT华为讯飞亮点聚焦，华尔街最关心无人驾驶

讯飞翻译机新品成博鳌论坛官方唯一指定引领AI创新风向

讯飞语音JavaWeb语音合成解决方案

央视新闻联手讯飞智声 AI定制主播原声拜年祝福

讯飞输入法地铁广告惊喜又暖心乡音带你回家过年

讯飞输入法新版方言保护计划上线爱家乡也爱家乡的声音

讯飞输入法安装包全面瘦身10% 带来轻快的输入体验

讯飞输入法首届校园表情包创意大赛落幕内心戏新鲜出炉！

百度搜狗讯飞语音识别准确率达到97% 他们是怎么做到的？

刷了一周朋友圈的讯飞输入法，恰恰带来个坏消息

除了老罗推荐的讯飞输入法，科大讯飞还有个新鲜玩意儿

锤子M1满血发布讯飞输入法语音输入有速度更有情怀！

盘点2019年占主导地位的10种人工智能技术

讯飞产投凭什么抓住AI独角兽？|1024圆桌论坛

在Python中使用科大讯飞Web API进行语音合成

82632713