AI同传新突破:搜狗同传3.0首创语境引擎,PPT内容翻译正确率提40%
机器之心报道
机器之心编辑部
这是第一款多模态人工智能语音同传产品,搜狗同传 3.0 将智能同传准确性带到了新的高度。
上周六,搜狗发布了业内首个多模态同传产品——搜狗同传 3.0 版。基于搜狗独创的「语境引擎」,搜狗同传 3.0 加入了视觉和思维能力,让机器同传不仅会听,还首次具备了看、理解和推理的能力。这一技术首次展出后,现场引来众人关注。
在上周六,搜狗同传 3.0 首次亮相。
最近,搜狗 AI 交互技术部总经理陈伟、搜狗同传产品总监张晶晶和项目负责人赵超向我们揭秘了搜狗同传背后的技术。
首创「语境引擎」,搜狗 AI 同传新突破
搜狗同传技术自 2016 年发布以来,已经经历了数千场会议同传的实际应用。开发者们在实践中发现,业内主流的语音同传系统无法稳定、高质量地满足多种演讲场合的需求,经常会出现演讲内容中专业词汇的识别和翻译效果不佳的情况。
为了解决上述问题,搜狗在同传 3.0 版中加入「语境引擎」,希望能够通过对语言的深入理解来解决问题。「语境引擎能够实时利用摄像头识别现场屏幕上的 PPT 内容,」陈伟介绍道,「之前机器同传只能获取语音信息,通过 OCR 技术,现在搜狗同传可获取语音信息+ PPT 信息,随后语境引擎可以构建个性化知识,从而使得同传译文效果有大幅提升。」
下图展示了一些 3.0 版同传的应用效果,第二列是嘉宾演讲的原始内容,第三列是旧版语音识别出来的内容。按照以往的情况,演讲者说出的一些罕见词,比如「投子」,通常会被 AI 识别为投资,但是 PPT 内容上有 AlphaGo 与李世石人机大战,会让同传 3.0 系统拓展出「投子」(指某一方认输)这样的围棋术语,在知识图谱的帮助下,AI 可以对译文进行大量更正。
除了专有名词,新技术的性能具体提升了多少?搜狗表示,他们特别选择了一个难度较高的专业性会议演讲,对同传 2.0 版、3.0 版和人类专业同传进行了对比测试。人类达到了 4.08 分、搜狗同传 2.0 可以达到 3.41 分,而 3.0 版则获得了 3.82 分。这一成绩实现了同传领域的新突破,让 AI 距离专业的人类同传水平又近了一步。
能看又能听的多模态技术并非搜狗同传 3.0 的唯一亮点。搜狗表示,同传 3.0 主要带来了三个方向上的提升:
- 更加接近自然,从单纯的语音识别到语音+图像,新的方法模拟了人工同传的工作方式,增加视觉和大脑扩散知识点的功能,拥有更为复杂的感知系统。
- 更加专业,此前的 AI 同传模型使用通用数据,新的模型通过实时定制知识增强能力,能够捕捉现场 PPT 内容补充演讲相关的专业领域的知识,并针对每一个演讲进行模型定制,提升同传效果。
- 更加智能,以往模型训练需要一个被动学习的过程,现在自动学习 PPT 的内容,自动捕捉海量词汇,确保同传品质非常优秀。
陈伟进一步总结道:「搜狗同传 3.0 版进行了从前到后的大规模更新,首先是引入多模态,加入了视觉处理能力。其次在处理过程中从感知层面升级到了认知层面,在『语境引擎』的帮助下,系统可以通过知识图谱的帮助对同传内容进行进一步扩展。形成和演讲内容相关的语境信息。在新版同传工具中,系统还可以实时对同传和翻译效果进行增强,时延更低。」
与演讲者一起「边看边思考」
相比以往,多模态的 AI 同传更加接近于人类,「会看」意味着同传首次具备了视觉能力。据介绍,搜狗同传 3.0 在使用中可以借助屏幕截取,或者普通摄像头实时获取图像信息,不需要使用特定的设备。 「能理解会推理」,则归功于搜狗语境引擎的应用。在这其中则包含了搜狗知识图谱和百科的推理能力,系统可以将 OCR 技术获取的文字内容与演讲相关的核心知识产生关联,并通过「搜狗知立方」知识图谱实时推理拓展,获取背景知识。另外,同传系统可以基于搜狗百科的中英术语库获得中英双语对照,实时优化同传识别和翻译的效果。
搜狗表示,通过多模态方式获取信息,同时引入知识图谱的情况下,搜狗同传 3.0 针对 PPT 内容的识别准确率提升了 21.7%,翻译正确率提升了 40.3%。
除了大会演讲以外,搜狗同传的技术体系还会在更多场景中落地,远程会议、记者采访、视频直播、旅游出行,甚至法院庭审记录都是未来努力的方向。
搜狗同传技术自 2016 年发布 1.0 版以来,经历了不断升级的过程。「在同传系统翻译模块的背后,1.0 版使用 RNN 模型,在 2.0 版本中,我们引入了 Transformer 模型,解决了梯度爆炸问题,并可以记住更长的历史内容。在 3.0 版的系统中,除了 Transformer,还采用了基于上下文的流式解码,并引入了基于搜狗百科的知识图谱。」赵超介绍道。
但同时我们也应看到行业的共性问题,AI 同传的准确性距离人类专家水平还有一定距离,这其中既有算法能力的挑战,也有人们对于 AI「更高要求」的原因。「我们和很多同传从业者交流后发现,按照常规流程,人工同传需要合作方提前提供背景材料,并有一到两天的准备时间,」陈伟解释道,「但机器同传是没有准备时间的,并且在开始同传时,人类也可以看到现场 PPT 上的内容。因此对于机器同传而言,除了把语音做好外,视觉信息也非常重要。」
搜狗同传 3.0 背后,更是公司「自然交互+知识计算」战略的深入。搜狗 CEO 王小川最近表示,搜狗 AI 技术的核心,是经由深度学习为机器加入感知能力,从而实现与人类的自然交互,同时进一步提取出语言内的关联关系,让机器产生人类的「认知」能力。
从最初的语音交互到唇语识别,到机器翻译、搜狗分身(合成主播),再到如今的多模态交互,搜狗正在依托语音、图像、手势等各种方式让 AI 与人类展开更为「自然」的交流。