AI同传闹乌龙,先别急着嘲笑!
我们都知道中国有“一条公路和一条腰带”,它是当今中国最重要的对外发展战略之一,也是本届博鳌亚洲论坛重点探讨的话题……
什么?“一条公路和一条腰带”是什么?很多人都懵逼了,莫不是咱们已经out了?
其实,所谓的“一条公路和一条腰带”就是“一带一路”。不过,“腰带”、“公路”之说并非网友恶搞,而是前不久博鳌亚洲论坛上AI同传闹出的一大笑话。
在博鳌论坛开幕第二天,AI同传便制造了一系列失误,其中不仅包括“一条公路和一条腰带”这样的语义性错误,甚至还有整段的乱码,引来了不少网友吐槽。甚至有谣言称:现场不得不再次聘请人工翻译“接盘”。
俚语、新概念,AI表示真的不懂
其实,对于新兴概念和俚语的翻译,一直是AI翻译的痛点。
AI翻译依靠的是编码器、解码器、数据库的联动。
其中,编码器负责将输入的句子进行分解,使其成为单个的字或是词语、词组。给这些词语、词组等与有可能对应的词意相匹配后,编码器还需为这些备选词意赋予在不同情境下的权重。解码器,则是根据权重选择对应词语并根据目标语言的结构规律输出翻译内容的算法。
而无论是句子的分解形式、词意的权重,亦或是目标语言的表达规律,均是从数据库中提取而出的。可以说,一个翻译AI的数据库,贯穿了其内容生成及机器训练的全过程。
这些数据从何而来呢?首先是依靠词典一类的可以涵盖几乎所有词意的工具型数据集,它是一切翻译工作的基础。其次,为了让编码器能够为词意有效赋权、让解码器顺利完成句子规划并输出,研发方将会制作多语言对照文本,这是机器训练的核心工具。
除了上述二者,数据库中还会储备网络上的海量文档,让AI在无监督学习的形式下,通过对优秀文本的总结,“学会”更准确、更地道的翻译。
所以,在绝大多数情况下,翻译AI的训练不仅需要大量的文本数据,而且还要耗费相当一段时间。甚至,为了优化AI的翻译结果,还需要投入大量的人工测试员,帮助AI进行强化学习。
然而,由于俚语用法、新兴概念不仅繁多,还不存在于任何一本字典中,甚至它们的涵义会经常更新,这就意味着,全面录入几乎不可能,某些词语甚至需要研发人员手动录入,效率十分低下。
而且,这样的词语绝大多数没有也很难拥有多语言对照文本。要知道,俚语与新兴概念的翻译对于真人翻译来说也是难点。在面对“戏精”这样的词,翻译们还可以想到“drama queen”,但若要翻译诸如“中年少女”“佛系”时,就只能无语问天了。
因此,AI能否正确翻译都是一个严峻的问题,更不用考虑其能否翻译得恰如其分了。
语音识别,AI表示心真的痛
同声传译除了要面对翻译的障碍,还要越过语音识别的关卡。这意味着,AI不但需要正确过滤无效的语音信息,诸如“嗯”“哦”“就是说”这样的语气词,还要克服不同的口音对识别带来的影响。
而这两者,按照目前的语音识别技术,还无法做到。
同传AI因为无法有效过滤嘉宾在讲话中的“for”而造成的翻译事故。
对于语气词来说,AI很难判定其是否具有实际意义。无论是“嗯”“哦”这样的叹词,还是“就是说”、“还有”这样的连词,都会根据使用情境的不同而具备或不具备表意能力。比如“嗯”就不光能表迟疑,还可以表肯定。因而,这样的词语在模型中不会被直接设置为剔除部分。
那么,是否有办法让AI学会判定一个词是否是语气词呢?在理论上是可以的。就像在翻译中机器会根据不同的情境赋予不同词意权重一样,在编码时,同样可以判断在该情境下,该词为语气词的可能性,比如根据其在同一段话中的出现次数,或者该词与前后意思的匹配度等。
但是,要实现这一功能,需要建立在语音识别与语义理解系统配套的基础上,单纯的语音输入是无法具备这样的能力的。而且就现阶段而言,针对语音识别的研究还主要集中于提升其准确性上,这也是语音识别的重点及核心。所以,目前为了剔除语气词而开展专门的机器训练未免有些暴殄天物。
至于克服识别对象的口音问题,AI还需要很长的一段时间。“学习”方言需要研发人员采集海量的录音,并将其按照字、词打包,让AI感知到不同字、词可能会出现的发音变化,并总结出可以确定字、词的“音素”,从而实现正确识别。
读芯君开扒
被嘲讽,腾讯是真的冤
其实,这次AI的研发方腾讯真可谓是懵懵哒,如今最想做的可能就是掐死谷歌和微软的宣传吧。毕竟,腾讯战战兢兢研发同传AI,好不容易爬上了代表国家形象的位置,正想一展身手,却因为之前“超越人类”的过度宣传吸引了太多不友好的目光。如今想来,就算没有“一条公路和一条腰带”,也避免不了被吃瓜群众们挑刺的命运。
因此,在呼吁AI翻译圈“不要夸大其词的宣传,不要动不动就扬言‘超越人类’”的同时,也应当给予AI翻译足够的宽容和耐心,技术成熟还需要假以时日。
对于AI来说,梦想也还是要有的,超越人类也是早晚而已。毕竟,这是它们诞生的意义呀!
作者:羊习习
参考文献链接:
https://m.huxiu.com/article/239410.html
http://www.ebrun.com/20180416/272676.shtml
如需转载,请后台留言,遵守转载规范