ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

wenxuegeng

2018-12-10

ACL 2018 Student Research Workshop

基于递归神经网络的英日机器翻译预排序

Recursive Neural Network Based Preordering for English-to-Japanese Machine Translation

大阪大学

Osaka University

本文是大阪大学发表于 ACL 2018 的工作，我们采用递归神经网络的从原始输入学习特征，为机器翻译的源目语言语序排列提出了一个预排序方法。实验表明，该方法在不使用人工特征设计的情况下，在翻译质量上高于现有方法。

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

1 引言

统计机器翻译（SMT）中，源语和目标语之间的语序对翻译质量有显著影响。为了解决这一问题，本文提出了在译码中调整译码顺序的模型。然而，这样的重新排序模型不能很好地执行远程重新排序。此外，它们的计算成本是昂贵的。为了解决这些问题，研究者们已经提出了预排序和后序模型。在翻译之前，预排序对源语句进行重新排序，在翻译之后，后排序对翻译的语句进行重新排序，而不考虑翻译后的词序。预排序有效地提高了翻译质量，因为它解决了远程重新排序和计算复杂性问题。

基于规则的预排序方法需要对每个语言对进行手动特征设计，代价高昂。因此，本文提出了一种基于递归神经网络的无需人工特征设计、利用子树信息的预排序方法。RvNN在源句法树中以自下而上的方式（从叶节点到根）重新排序，遍历整个子树。RvNN通过学习子树和语法类别的向量表示对句法树的节点进行重新排序。我们使用基于短语的SMT（PBSMT）和神经MT（NMT）方法对所提出的英译日方法进行评价。结果证实，所提出的方法达到了与需要手动特征设计的最新预排序方法相当的翻译质量。

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

2 模型

接下来我们首先讲述如何获得黄金标准标注，然后讲RvNN如何进行预排序。

预排序的黄金标准标注

我们通过标记源句法树中的每个节点是否已经根据目标语句对子节点进行重新排序，创建了用于预排序的训练数据。标签通过以下方法进行计算。

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

其中y是与源词对齐的目标词索引的向量。

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

的值在[-1, 1 ]中。当它是1时，这意味着Y的序列是完全上升的顺序，即目标句子在词对齐方面与源句具有相同的词序。在每个节点，如果通过重新排序子节点

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

会增加，则分配“Inverted”标签；否则，分配“Straight”标签，这意味着不需要重新排序子节点。当子节点的源词没有对齐时，分配一个“Straight”标签。

预排序模型

RvNN在一个二叉句法树的基础上进行构建。它预测在每个节点上节中确定的标签。RvNN通过分析子树来决定是否重新排序子节点。子树的向量是从叶节点以自下而上的方式计算的。下图显示了一个英语句子“My parents live in London.”的预排序的例子。

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

在对应“live in London”的VP节点，它的子节点对应于“live”和“in London”，节点的向量由下式计算。

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

其中f是整流器，

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

是权重矩阵，pl和pr分别是左右子节点的向量表示。[·;·]表示两个向量的级联。

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

是输出层的一个权重矩阵，b,

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

是偏差。由上式计算的

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

是每个标签的权重向量，它被输入softmax函数以计算“Straight”和“Inverted”标签的概率。叶节点计算公式如下。

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

其中，

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

是具有n个词汇量的输入单词的one-hot向量，

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

是嵌入矩阵，而

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

是其偏差。损失函数是由下式定义的交叉熵。

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

其中θ是模型的参数，n是句法树

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

的节点，K是批处理大小，

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

是批处理中第k个句法树中的第n个节点的标签。使用POS标签和句法类别的模型，按下式计算。

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

其中

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

代表POS标签或句法类别的向量，

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

是权重矩阵，

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

是其偏差。

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

的输入是POS标签或节点句法类别的one-hot向量。

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

3 实验

我们使用APEC语料库进行了日语翻译实验。该语料库提供3M个句子对作为训练数据，1790个句子对作为开发数据，1812个句子对作为测试数据。我们使用Stanford CoreNLP进行tokenization和POS标记，使用Enju进行英语解析，使用MeCab进行日语tokenization。对于词对齐，使用MGIZA。使用IBM模型和隐马尔可夫模型计算源到目标和目标到源的词对齐，并将它们与交叉启发式跟随相结合。

本文使用Chainer实现了RvNN预排序模型。ASPEC语料库使用Utiyama和Isahara在2007年提出的句子对齐方法创建，并基于对齐置信度得分进行排序。在本文中，我们从顶部500 K句子中挑选100K句子作为训练数据进行预排序。词汇表大小N被设置为50k。本文使用Adam进行权重衰减和梯度下降优化。批量大小K设置为500。我们使用1.8M的源语句和目标语句作为机器翻译训练数据，排除了部分长度大于50个单词或源与目标长度之比大于9的句子对。

本文将我们的模型与Nakagawa提出的状态预排序方法进行比较，该方法在下文中称为BTG。

下图展示了本文预排序模型的学习曲线，其中＝200。训练和开发损失均降低到2个epochs。然而，开发损失在3个epochs之后开始增加。因此，将epochs数设置为5，我们选择具有最低开发损失的模型。采用该模型对翻译评价中的源句进行预排序。

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

其次，本文研究了La的影响。下表展示出了具有不同La值的BLEU分数，以及没有预排序的BLEU分数。

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

下表显示PBSMT和NMT对1.8M句子对的整个训练数据进行训练的测试集的BLEU和RIBES分数。利用RvNN和BTG对使用预排序语句的SMT系统进行训练，其失真极限被设置为0，而没有预排序的SMT系统的失真极限被设置为6。与未经预排序的纯PBSMT相比，BLEU和RIBES随着RvNN和BTG的预排序而显著增加。这些评分在RvNN和BTG之间具有可比性(P<0.05)，表明该方法达到了与BTG相当的翻译质量。与PBSMT的情况相比，没有预排序的NMT比具有RvNN和BTG预排序的NMT模型获得更高的BLEU分数。我们假设一个原因是预排序模型和NMT模型之间的隔离，其中两个模型都是使用独立的优化函数进行训练的。未来我们考虑使用一个模型统一单一的模型中的预排序和翻译。

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

下图显示了Kendall在原始训练数据中的分布以及RvNN和BTG预排序后的分布。在RvNN的情况下，Kendall的

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

的比率大大增加，这表明所提出的方法正确地学习了预排序。此外，RvNN的高Kendall比值大于BTG，表明RvNN的预排序优于BTG。

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

我们还手动调查了预排序和翻译结果，发现本文模型都改进了。下表展示了PBSMT的一个成功的预排序和翻译示例。语序在源句和参照句之间有显著的差异。在预排序之后，源句和参考句之间的词序变得相同。

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

由于RvNN依赖于句法分析，解析错误的句子一般在预排序中就会失败。例如，下图中的（1811）短语被错误地分成两个短语。因此，预排序效果才会不好。

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

下表显示了上图中句子的预排序和翻译示例。与没有预排序的翻译相比，预排序后的翻译质量提高了。

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

ACL 2018｜大阪大学：基于递归神经网络的英日机器翻译预排序

4 总结

本文提出了一种无需手动特征设计的机器翻译预排序方法，实验证明该方法达到了与需要手动特征设计的现有预排序方法相当的翻译质量。未来作者计划开发一个模型，共同解析和预排序源句。此外，我们计划将预排序整合到NMT模型中去。

论文下载链接：

http://aclweb.org/anthology/P18-3004

递归大阪大学 acl 递归神经网络机器翻译神经网络模型自然语言处理

wenxuegeng

0 关注 0 粉丝 0 动态

相关推荐

微信小程序对图片进行canvas压缩的方法示例详解

微信小程序其实自带一个图片压缩的API wx.compressImage，但是这玩意目前感受就是个垃圾。IOS大多数情况下据说还可以，安卓有的时候降低质量压缩后体积反而变大，而且没办法控制其压缩至具体指定的大小，压缩后多大看天意。所以需要使用画布去自己实现

大地飞鸿 2020-11-12

二叉树：一入递归深似海，从此offer是路人

一看就会，一写就废!这次我们要好好谈一谈递归，为什么很多同学看递归算法都是“一看就会，一写就废”。主要是对递归不成体系，没有方法论，「每次写递归算法，都是靠玄学来写代码」，代码能不能编过都靠运气。「本篇将介绍前后中序的递归写法，一些同学可能会感觉很简单，

steeven 2020-11-10

通过阶乘的例子,练习在JavaScript, Scala和ABAP里实现尾递归

Before we start to research tail recursion, let’s first have a look at the normal recursion.Let N = 5, see how new stack frame i

匆匆那些年 10评论 2020-10-15

程序员必备的基本算法：递归详解

递归是一种非常重要的算法思想，无论你是前端开发，还是后端开发，都需要掌握它。在日常工作中，统计文件夹大小，解析xml文件等等，都需要用到递归算法。它太基础太重要了，这也是为什么面试的时候，面试官经常让我们手写递归算法。本文呢，将跟大家一起学习递归算法~递归

Tips 2020-10-14

这两个问题都不清楚，还说会「归并排序」？

归并排序的迭代实现方式;实现一个原地归并排序;归并排序的迭代实现在正式看代码前，希望你心中清楚归并排序的递归实现方式，不熟悉也无妨，看这篇文章图解「归并排序」算法(修订版) 文章。分的策略和递归的方式有别，依旧符合归并排序的思想;

nongfusanquan0 2020-08-18

动态规划题解（转）

　　动态规划算法似乎是一种很高深莫测的算法，你会在一些面试或算法书籍的高级技巧部分看到相关内容，什么状态转移方程，重叠子问题，最优子结构等高大上的词汇也可能让你望而却步。当然，见的多了，思考多了，是可以一步写出非递归的动态规划解法的。以下，先通过两个个比较

yedaoxiaodi 2020-07-26

聊聊11种主要的神经网络结构

感知器是所有神经网络中最基础的，是更复杂的神经网络的基本构建块。它仅连接输入单元和输出单元。在每次连接期间，来自上一层的信号乘以权重，加到偏置上，并通过激活函数。前馈网络使用反向传播来迭代更新参数，直到达到理想的性能为止。递归神经网络是一种特殊类型的网络，

夜晚00 2020-07-03

编译原理要点

S-> SaA|Se|B -> S|B 引进非终结符S“（,) 非终结符要放在最后。 ->BS‘ S‘->S‘|反三

85397518 2020-07-04

数据结构-05 |递归

生活中就有很多用到递归的例子。这就是一个非常标准的递归求解问题的分解过程，去的过程叫“递”，回来的过程叫“归”。基本上，所有的递归问题都可以用递推公式来表示。有了这个递推公式，我们就可以很轻松地将它改为递归代码，如下：。堆栈溢出会造成系统性崩溃。但这种做法

hanyujianke 2020-06-28

数据结构：第七章学习小结

常用的创造方法为除留余数法，一般被除数可选择小于表长的最大质数。但该方法易造成”二次聚集”现象，导致非同义词之间可能彼此冲突。此方法能减少堆积的发生，但可能无法探查整个散列表，即不能保证找到不发生冲突的地址。相较于开放地址法，该方法避免开放地址法的各种缺陷

xhao 2020-06-28

循环、递归、遍历、迭代的区别

表示“重复”这个含义的词有很多, 比如循环, 递归, 遍历, 迭代.循环算是最基础的概念, 凡是重复执行一段代码, 都可以称之为循环. 大部分的递归, 遍历, 迭代, 都是循环.// 迭代，重复一定的算法，达到想要的目的。这些概念都表示“重复”的含义, 彼

清溪算法君老号 2020-06-27

C#数据结构与算法系列（十四）：递归——八皇后问题（回溯算法）

八皇后问题，是一个古老而著名的问题，是回溯算法的经典案例，该问题是国际西洋棋棋手马克斯.贝瑟尔于1848年提出：在8×8格的国际象棋上摆放八个皇后，使其不能互相攻击，即。任意两个皇后都不能处于同一行、同一列、同一斜线。继续放第三个皇后，还是第一列，第二列。

pengkingli 2020-06-25

递归--八皇后问题（Java）

文章所涉及的资料来自互联网整理和个人总结，意在于个人学习和经验汇总，如有什么地方侵权，请联系本人删除，谢谢！八皇后问题，是一个古老而著名的问题，是回溯算法的典型案例。第二个皇后放在第二行第一列、然后判断是否OK，如果不OK，继续放在第二列、第三列、依次把

yishujixiaoxiao 2020-06-25

《数据结构与算法之美》09——排序（二）归并排序与快速排序

要排序一个数组，先把数组从中间分成前后两部分，然后对前后两部分分别排序，再将排好序的两部分合并在一起。归并排序使用的是分治思想。分治，就是分而治之，将一个大问题分解成小的子问题来解决。回忆一下之前学习递归的编程技巧：分析得出递推公式，然后找到终止条件。归并

Masimaro 2020-06-21

递归的实质是能够把一个大问题分解第一

递归，是一个非常重要的概念，也是面试中非常喜欢考的。因为它不但能考察一个程序员的算法功底，还能很好的考察对时间空间复杂度的理解和分析。本文只讲一题，也是几乎所有算法书讲递归的第一题，但力争讲出花来，在这里分享四点不一样的角度，让你有不同的收获。

清溪算法 2020-06-21

ARTS-WEEK-004

拨云见日的一周。借助树的递归遍历，而递归函数的关键是处理这个子树应该返回什么，再细分就是终止条件返回什么、后续递归结果处理什么。补充，这类树或DAG在实际应用中更多是通过parent节点串联起来，这时找最近公共祖先变成了第160题的找两个链表的交点。Fli

oXiaoChong 2020-06-20

【递归题】正确的打开方式，面试官听了都说精辟

递归，是一个非常重要的概念，也是面试中非常喜欢考的。因为它不但能考察一个程序员的算法功底，还能很好的考察对时间空间复杂度的理解和分析。Base case：就是递归的零号问题，也是递归的终点，走到最小的那个问题，能够直接给出结果，不必再往下走了，否则，就会成

RememberMePlease 2020-06-17

python学习第33天

一.死锁,互斥锁,递归锁。从语法上讲,锁可以互相嵌套,但不要使用。不要因为逻辑问题让上锁分成两次,导致死锁。put_nowait 存,超出了队列长度,报错。get_nowait 取,没数据取不出来,报错。linux windows 线程中put_nowai

chaigang 2020-06-13

班课1

但是普通的乘法时间复杂度太高，解决思路也是将很大的数拆分成较小的部分（PPT中为例，将A拆成A1，A0。由公式可以看出，A1更为重要

算法与数学之美 2020-06-08

数据结构之递归与调用栈

递归算法是一种直接或间接调用自身算法的过程。每个递归函数都有两部分：基线条件和递归条件。基线条件则指的是函数不再调用自己，函数的终止条件，避免形成无限循环。所有函数调用都进入调用栈，使用递归必须理解这个概念。调用栈是的原则是先进后出，栈有两种操作：压入

nurvnurv 2020-06-05

wenxuegeng

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号