将科幻变成现实,谷歌百度用神经机器翻译践行人类「巴别塔之梦」

机器之心

作者:iCombinator


机器翻译之梦

今天,当我们很自然的拿出手机,选择一个谷歌、百度或微软的翻译 app ,轻而易举的完成文字翻译、拍照翻译和实时语音翻译时,我们可能不会意识到由于深度学习的出现和数据量的积累,研究数十年的机器翻译问题已经变得可用并走入了我们的生活,给我们带来了极大便利。

将科幻变成现实,谷歌百度用神经机器翻译践行人类「巴别塔之梦」

1954年,计算机科学家第一次公开发布了一款可以翻译人类语言的机器。后来这被称为乔治城-IBM实验:一个能将句子从俄语翻译成英语的「电子大脑」(electronic brain)。 当时,科学家相信,一旦通用翻译器被开发出来,不仅可以让美国在国家安全上领先苏联,还能消除语言障碍,从而促进世界和平。 他们还相信,这种进步马上就要实现了:乔治城语言学专家Leon Dostert与IBM创始人Thomas Watson共同发起了这个项目。他们认为,5年后(甚至不到5年的时间内),人们就可以用电子翻译器在若干种语言之间进行翻译。结果,事实证明,这个进步非常缓慢。60多年后,实时的通用翻译器(如《星球大战》中的C-3PO和《银河系漫游指南》中的巴别鱼(Babel Fish))依然只是科幻作品的产物。

但今天,当我们站在此处回顾历史,我们才发现我们真的已经将科幻变成了现实。


变革性的神经机器翻译

去年,谷歌提出了GNMT,神经机器翻译(NMT: Neural Machine Translation)是一种用于自动翻译的端到端的学习方法,该方法有望克服传统的基于短语的翻译系统的缺点。但 NMT 系统的训练和翻译推理的计算成本非常高,同时也难以应对罕见词,这些问题阻碍了 NMT 在实际部署和服务中的应用,因为在实际应用中,准确度和速度都很关键。而谷歌的神经机器翻译提出了带有 8 个编码器和 8 个解码器的深度 LSTM 网络组成的模型,使用了注意力和残差连接。为了提升并行性从而降低训练时间,注意机制将解码器的底层连接到了编码器的顶层。在推理计算过程中使用了低精度运算来加速翻译速度。为改善对罕见词的处理,谷歌将词分成常见子词单元(词的组件)的一个有限集合,该集合既是输入也是输出。这种方法能提供「字符」-delimited models 的灵活性和「词」-delimited models 的有效性之间的平衡、能自然地处理罕见词的翻译、并能最终提升系统的整体准确度。谷歌的波束搜索技术使用了一个长度规范化过程,并使用了一个覆盖度惩罚,其可以激励很可能能覆盖源句子中所有的词的输出句子的生成。在 WMT' 14 英语-法语和英语-德语基准上,GNMT 实现了可与当前最佳结果媲美的结果。通过在一个单独的简单句子集合的人类对比评估中,它相比于谷歌已经投入生产的基于短语的系统的翻译误差平均降低了 60%。

将科幻变成现实,谷歌百度用神经机器翻译践行人类「巴别塔之梦」

Google Translate 产品负责人 Barak Turovsky 在谷歌旧金山的一次新闻发布会上说:「这一次的进步超过了过去十年积累的总和。」

过去几年,机器智能的快速发展已经给我们的语音识别和图像识别能力带来了巨大的提升,但改进机器翻译仍然是一个高难度的目标。而随着众多公司对神经机器翻译的研究,我们已经阶段性的解决了机器翻译问题。

神经网络机器翻译技术成为人工智能翻译主流。该技术通过「端到端」的方法将翻译平行语料进行映射,以「编码器—注意力机制—解码器」的结构来解决翻译问题。 神经机器翻译有两个关键技术,一个是 gating,另外还有一个是 attention,这两个特别适合处理语言中长距离调序,生成的译文要比传统的方式生成的译文流利很多。

我们好像找到了打开人类语言宝库的钥匙,众多公司和机构开始了对神经机器翻译的研究。

哈佛大学自然语言处理研究组(Harvard NLP)宣布开源了其研发的神经机器翻译系统 OpenNMT,该系统已经达到生产可用的水平;来自爱丁堡大学、纽约大学等高校的研究人员共同发布的一篇论文提出了新的神经机器翻译工具箱 Nematus,它在 WMT 和 IWSLT 的机器翻译任务上取得了顶级表现,也已经被用来训练产品环境下的系统;在去年的一篇论文《Learning to Translate in Real-time with Neural Machine Translation》中,研究人员说他们「第一次」能够证明某些算法可以「在同步翻译上表现得非常好,比以前的基于分割的算法好得多。」从而让实时翻译变得更加流畅;谷歌在提出 GNMT 之后,又提出了一种使用单个神经机器翻译(NMT)模型在多种语言之间进行翻译的简洁优雅的解决方案,这不需要对基础系统的模型架构进行修改,而是在输入句子的一开始引入了一个人工 token 来确定所需的目标语言。

国内科技公司在这方面的进展也同样令人兴奋,2016年,12 月 21 日,在百度机器翻译技术开放日上,百度技术委员会联席主席、自然语言处理部技术负责人吴华博士表示,基于领先的人工智能、神经网络以及自然语言处理技术,百度早在一年多以前就率先发布了世界上首个互联网 NMT 系统,引领机器翻译进入神经网络翻译时代。

去年百度曾在 ACL 会议上发表论文《Multi-Task Learning for Multiple Language Translation》,探讨用 NMT 技术解决多语言翻译及语料稀疏的问题。该论文得到业内研究人员的极大关注,并被 ACL2016 的 NMT Tutorial 列为研究方向。

「我们从 2014 年开始便尝试做基于神经网络的翻译系统,2015 年发布在线翻译系统的时,BLEU(Bilingual Evaluation Understudy)指标已经比传统的 SMT(统计机器翻译)系统高六、七个点。我们同时还开发了离线版本,可以在手机上使用。」吴华在接受机器之心采访时表示,「当时学术界对于深度学习的翻译方法到底是否实用还有一番争论,我们很早就发现基于 Attention 机制的 Seq2Seq 深度学习模型是有用的,经过多次实验验证,在很多集合上超过了传统方法。同时,针对 NMT 本身存在的一些问题,进行了技术攻关,短短 3 个月的时间便完成了开发和上线。当大家还在讨论 Attention 机制时,我们已经结合了原有的统计方法上线。可以说,百度翻译是全球首个互联网神经网络翻译系统。」

百度从 2015年5月发布了基于深度学习的在线翻译系统,在翻译模型、解码算法、大规模语料训练等方面取得突破性进展,融合统计与深度学习的方法,通过优化的搜索算法,利用优先队列及候选翻译表,突破了翻译速度限制;使用从互联网获取的大数据语料训练,已知的最大规模的训练深度神经网络翻译系统的语料,突破了训练语料规模限制;这种翻译方法的最大优势在于译文流畅,更加符合语法规范,容易理解。相关论文发表于领域权威会议ACL,AAAI,IJCAI,MTSUMMIT等。

机器翻译在研究方面取得突破性进展,而如何将其大规模产品化,尤其是在手机这个终端上应用成为众多科技公司都面临的问题,而众多公司也纷纷开始了尝试。在去年的自然语言处理顶会ACL2016上,有个关于NMT的Tutorials 就提到,未来NMT的一个重要研究方向是手机端的NMT翻译系统,需要克服模型大小、速度等多个重要问题。

百度在2015年6月在移动端发布了基于深度学习的离线翻译系统,促进了技术的落地。百度采用模型压缩技术,将模型规模压缩70倍以上,手机端可存储,同时采用动态加载、优化模型解码等技术,提高解码速度,使其在手机端流畅运行。


神经机器翻译的产品化及开放化

这次机器翻译技术的突破与以往最大的不同就是其变得可用,去年 11 月,谷歌宣布将神经机器翻译集成到了其网页版和移动版的翻译应用之中,这涉及总共八种语言的相互翻译中,这些语言的母语总人口占到了世界总人口的三分之一,覆盖了谷歌翻译 35% 以上的请求。但谷歌的目标是将神经机器翻译扩展到所有 103 种语言。近期,谷歌的谷歌翻译 App 也正式向国内市场开放。

百度也结合OCR技术和语音识别技术,发布了具有丰富实用功能的翻译 APP ,可以实时的通过摄像头的取景框来翻译外文景点指示牌、菜单、说明书和实物等。结合语音技术的会话翻译,可以帮助实现不同语种的无障碍交流。

机器翻译技术的突破不仅为我们带来了生活的便利和效率的提升,还产生了巨大的社会效益。据多篇新闻报道,警察利用百度翻译救助迷路的俄罗斯友人,公交车售票员利用百度翻译将丢失的钱包送到了巴基斯坦小伙手中,交警利用百度翻译与外国友人交流处理交通问题。

而如果要将这些机器翻译技术的效率和效应发挥到最大化,就需要更加开放。而这也是科技巨头们努力的方向。

去年11月,谷歌宣布了提供机器学习 API 的公共云服务 Google Cloud Platform,「能让任何人都轻松地使用我们的机器学习技术」。今天,Google Cloud Platform 也使神经机器翻译背后的系统向谷歌的企业用户开放——谷歌提供了 Cloud Translation。微软和IBM也分别拥有自己的机器翻译开放平台Microsoft Cognitive Service - Translator 和 IBM Watson Language Translator。

百度翻译也提供了开放云接口服务,为大量中小企业提供翻译平台服务,降低了创业创新门槛。目前,有超过1万个第三方应用接入百度翻译,例如华为将翻译服务集成到其Ascend Mate7手机的摄像头翻译应用中,带有翻译功能的手机被销往法国、德国等30多个国家和地区;B2B跨境电子商务平台「敦煌网」使用「百度翻译」进行跨境贸易,促进了对外贸易的发展。百度翻译API为企业每年节省的人工翻译成本折合人民币高达2亿元。同时,百度翻译从2011年6月开始向互联网用户提供免费翻译服务,日均响应上亿次翻译请求,目前百度翻译已经支持全球28种热门语言互译。

这些都加速了目前最先进的机器翻译技术的落地,以及为更广泛的人所用,来改变更多的行业。

据维基百科介绍,人类目前大概有 6000 多种语言。自人类在未建成的「巴别塔」下不欢而散以来,实现全人类之间的顺畅交流一直是我们的梦想。基于目前的人工智能技术发展,在很长一段时间内,虽然机器翻译还完全取代不了人类,但基于互联网大数据和先进机器翻译技术的结合已经突破了原来编辑规则的局限,并在多个场景下解决了用户的具体需求。目前的机器翻译让我们看到了真正实现「巴别塔之梦」的希望。这也是我们机器翻译让用户持续兴奋、让技术公司和研究人员保持动力的最大原因。

相关推荐