“讯飞输入法之父”翟吉博为你解读背后的故事
据说,看了锤子手机发布会的人,印象最深的就是老罗演示讯飞语音输入那一段(从视频的第100分钟开始)。很多人表示自己受到了深深的震撼。但“震 撼”之余,我们也应该冷静下来,清醒地认识到语音输入的春天,在科技史上已经来过 N 次了。究竟是什么,让2016年的语音输入变得不一样,让讯飞的语音输入变得不一样?
为了解答这个问题,雷锋网请来了讯飞输入法产品总监,或者用时髦的说法“讯飞输入法之父”,为大家解解馋。
嘉宾简介
翟吉博,讯飞输入法产品总监。2009年以码农的身份加入科大讯飞,2010年创建讯飞输入法并担任产品总监至今,参与了讯飞输入法从0发展到4亿用户的全过程,曾经3天时间就写出了讯飞输入法的Demo,目前讯飞输入法月活跃用户超过1亿。
背景介绍:
湖北黄冈人,毕业于上海交大
2009年,以码农身份入职科大讯飞
2010年创建讯飞输入法,并担任产品经理至今
也许是最会写代码的产品经理
问答精华回顾:
雷锋网:很多大公司的重要产品,起初可能只是几个员工的小尝试,比如 Google 的很多产品是这么诞生的。那么对于讯飞来说,做输入法的契机是什么,这个产品是怎么诞生的?
讯飞翟吉博:关 于讯飞输入法的诞生,这里给大家讲一段故事。2010年的时候,当时我在讯飞研究院,我记得iPhone4发布的当天晚上,我跟我上级,就iPhone4 做了一个讨论,我们认为,iPhone上基于触屏的全键盘输入体验,不太好。原因在于屏幕太小,而手指又像,一根萝卜那么粗。经过脑暴,我们考虑到,把讯 飞的语音技术结合到输入上来。完了我就自己动手开始做,很快就出了一个demo,因为我原来是做过手写识别,还有拼音的这个技术,所以这个demo也包含 了,语音手写还有拼音的功能。
这个demo拿出来给他老大看,他觉得,不能仅仅是做个demo,后面我们就对市场进行,研究和分析,写了一个立项书,而且在公司层面也获得了通过,其实我们组建几人的小团队在杭州封闭开发了三四个月,然后在10月28号,我们对外发布了第一个版本。
雷锋网:外界看来,讯飞是一家toB业务为主的公司,做 toC 的产品,最需要突破的地方是什么?
讯飞翟吉博:我认为最需要突破的地方,还是在思维方式以及配套的团队体系方面。从面向行业客户到直接面向消费者的,需要更多的去考虑用户的需求。然后整个团队的开发运营推广的流程和体系需要重新构建。
在 2011年的时候,讯飞,面向消费者成立了一个移动互联事业部。现在,讯飞输入法就在这个部门下面。我们部门其他的产品还有,灵犀语音助手(前身叫讯飞语 点)、在几年前iPhone上推出的一款叫讯飞口讯的,也风靡一时当时曾经,在app store的排行首位。讯飞输入法的团队,在这几年也有一个很大的发展从最早,只有几个人的,小的开发团队,现在发展到包含了从前到后,完整的职能,一共 接近二百人。
雷锋网:讯飞输入法早期的用户群和使用场景有什么特点?
讯飞翟吉博:我们早期的种子用户,有个典型特征都是偏极客的,他们对语音技术关注度比较高,有不少用户提到他们原来在电脑上,就体验使用过IBM的语音技术。然后他们,会全天候的,不停的来测试我们的系统,并且提出各种各样的设想和改进意见。
雷锋网:讲真,这次讯飞的语音输入法被老罗猛推了一把,你和你的小伙伴们是一种怎样的感受?
讯飞翟吉博:其实我们事先真没想到,老罗是以这样的一种演示方式,足足给了我们这么长的时间,从现场,观众的热烈响应,还有网络上的,热烈反响,给了我们团队充分的信心。
至于数据嘛,这个请大家看一下,app store的排行榜,短短几天,我们现在已经在(免费)总榜上,冲到了第三,在工具(免费)榜上已经,排在了第一。在华为,小米等应用商店下面,也看到很多用户的评论,都是和老罗的发布会有关。
雷锋网:一些懂行的人告诉我们,其实老罗在台上演示的两段内容输入,还是非常有局限性的,说的几乎都是常用语,换言之就是机器最容易识别的东西。里边没有任何专有词汇,中英混杂,同音字等等等等。你们怎么看?
讯飞翟吉博:其 实老罗现场也提到了在那样的一个环境下做语音输入的演示,本来就是一件很有挑战的事情,因为环境的噪声还有回声的干扰,对于技术来说,是比较困难的一个问 题。另外大家可以关注到老罗的一个非常即兴的方式,它的语料是很开放的,而且语速也很快。这种方式相比封闭的,比如说绕口令的,这种语料,难度其实大很 多。
当然对于专有词汇还有中英文混合这些,也会加大识别的难度。我理解老罗,也是想保证现场的效果,所以,在即兴的语料上,没有加大这方面的难度。
雷锋网:所以,语音输入的春天真的又来了吗?我们报道科技很多年,其实每隔几年人们就会提语音输入的突破,但到头来会发现,路还很长,需要技术的突破也需要整个大环境的变化。你们在语音输入的一线,讲讲你们的感觉吧?
讯飞翟吉博:那根据我们现在的理解,目前的语音技术的应用,可能还是主要分为这几个场景:
第一个是在即时通讯应用里边。作为比较实用的就是把语音转成文字;
第二个是语音搜索,他和前者的区别,更多的是一些关键词的匹配;
第三个就是在类似siri这样的语音助手中,做上下文的对话以及理解。
那 其实我们输入法在第一种应用,当中可以看到,整个的语音用户占比的发展趋势,从最早的每天几个百分点,到现在接近20%,有些语音用户已经养成非常稳定的 使用习惯,而且这个趋势仍然在增长中。我认为这个比例现在还没有到达,应有的用户覆盖。不过另一方面,我们认为基于手机这种触屏为主的设备,语音不会是完 全主流的,那在下一个万物互联和VR设备流行的时代,我相信语音技术的春天会,真正到来。
雷锋网:语音输入的技术突破有多大?给详细讲讲。
讯飞翟吉博:从这几年发展来回顾,语音输入技术可以分为几个阶段:
第一个阶段。在我们,10年刚推出的时候,整个的识别率是初步的达到了使用门槛,字正确率只有70%多还不到80%;
第二个阶段。那随着用户越来越多积累了大量的数据,通过大数据的训练来驱动,使得整个的识别效果稳步的提升,能够到达90%出头。
第三个阶段。2012、13年的时候,那我们,使用了深度学习算法之后,再结合大数据的训练,使得正确率又有了,更大的突破。
其实,老罗发布会上宣传了97%这个数字,我们达到这个数字其实已经有一两年时间了。
雷锋网:讯飞的语音输入强在哪儿?
讯飞翟吉博:首先要说,深度学习算法出来并相继普及之后,对于安静的环境下,日常的句子,大家的语音技术基本都达到了实用的水平。讯飞相对深入的地方表现在,三个方面:
第一,对于口音的适配。我们知道,在中国说普通话的口音是非常广泛的,那对于不同的口音语音识别的效果,影响很大,讯飞对于各地的口音都有很好的适用,而且对于一些典型的纯正的方言也能够识别;
第二,对于抗环境的干扰方面。比如说在开车的时候,如果开着窗户,那个噪声是非常大的,讯飞是目前通过国际大车厂测试唯一达到实用水平的,技术提供商;
第三,对于网络的依赖方面。我们能够提供在线和离线无缝结合的方案,而且在离线的识别上面,也达到了很高的识别效果。
雷锋网:讲一个你和你的小伙伴得意的,关于产品细节的思考吧?
讯飞翟吉博:还是说一下刚才提到的关于在线离线无缝结合的方案吧,那其实我们刚开始推出离线语音的时候就考虑到,在线语音的优势是足够精准,离线语音的优势是比较可靠,我们能不能在用户网络不太稳定的时候,能智能地做一个识别和判断,把两者的优势有一个很好的结合,所以我们现在在产品上,会实现一个从在线到离线智能切换的策略,这也算是一个比较贴心的细节。
雷锋网:iPhone 平台和 Android 平台,在产品设计上,有怎样不同的考虑?另外,那个牌子的手机更能发挥讯飞的语音能力?
讯飞翟吉博:首 先考虑的是在视觉和交互的规范上,我们会遵循iPhone和安卓系统特定的规范,比如说在iPhone系统上保留的地球键,又比如说视觉的风格,这些我们 不会,强制去做,两个平台的完全统一,其次也要考虑系统的能力和特性上的区别,比如说iPhone系统对于输入法键盘的录音权限做了限制,所以我们现在迫 不得已也只能采用,跳转的方式来实现语音输入,当然iPhone也有它的优势,比如我们可以利用3d touch,来实现利用输入法键盘做很方便的光标移动,这个功能在需要定位修改文字的时候比较方便。
语音输入对于不同手机来说,更多的是看录音质量的区别,现在很难笼统地说哪个牌子的手机效果好基本上,采用了双mic或者是多麦克,然后降噪效果做的不错的手机,对语音输入效果都有很大的帮助。
雷锋网:语音输入若想起到更大的作用,被更广泛地使用,你觉得还应该在哪些方面有所突破?
讯飞翟吉博:首先,在市场教育和用户习惯培养方面,我觉得罗老师给了我们很好的启发,比如说从大家比较熟悉的,用微信发语音的场景,让大众明白通过语音输入文字和直接发语音的区别。
另 外,在产品和技术本身,我们觉得在个性化方面有很大的发展空间,因为现在每个人或多或少都有独特的发音习惯和用词习惯,未来的语音输入可以为每个人量身打 造越用越好,我们现在已经在输入法里,通过个人账号实现了,通讯录人名和定制词库的个性化识别,将来还将实现,更深入的个性化功能。
雷锋网:最后分享一下你的语音输入使用习惯吧?
讯飞翟吉博:我个人使用语音的过程,也大概经历了几个阶段,可能也代表了不少用户的路径。
第一个阶段。主要还是在克服自己的心理障碍,一开始总是觉得用语音对着手机说话,感觉有点傻,只敢一个人的时候用。
第二个阶段。那后面在大街上也经常看到有人用对着微信发语音,好像大家也习以为然了,所以心里的障碍慢慢的有所克服,这个阶段更多的是对语音识别效果的调校,自己想想怎么样能说得更准,而且怎么样能有一些方面的修改。
第三个阶段。也就是现在的阶段,可以说已经达到一个老司机的水平了,可以相对比较得心应手的使用,特别是在移动的状态下,基本上就靠用语音了。