ACL 2018|墨尔本大学:基于门控图神经网络的图序列学习
ACL 2018 Long Papers
基于门控图神经网络的图序列学习
Graph-to-Sequence Learning using Gated Graph Neural Networks
墨尔本大学
University of Melbourne
本文是澳大利亚墨尔本大学发表于 ACL 2018 的工作,提出了一个在图中编码完整结构信息的新模型,将门控图神经网络与输入变换耦合,该输入变换允许节点和边缘具有它们自己的隐层表示,并解决了先前工作中存在的参数爆炸问题。实验结果表明,在AMR图和基于句法的神经机器翻译中,本文模型优于业内的最好方法。
1 引言
图结构普遍存在于自然语言的表示中。尤其是,许多句子的语义框架使用有向无环图作为基础形式,而大多数基于树的句法表示也可以看作图。NLP应用的范围可以看作将图结构转换成序列的过程。例如,句法机器翻译需要将带树形标注的源语句转换为其翻译。
前人工作大多依赖于基于语法的方法,如tree transducers和超边替换文法。这些方法的一个关键限制是需要在图形节点和tokens之间进行对齐。这些对齐通常是自动生成的,构建语法时会传播错误。
在本文中,我们提出了一个图到序列(g2s)学习模型,该模型利用神经编码器-解码器架构的最新进展。具体地说,我们采用了一种基于门控图神经网络的编码器,它能够在不损失信息的情况下生成完整的图结构。这样的网络用边的信息作为标注参数,即使对于小规模标注词汇(按几百的顺序)来说,这都可能是有问题的。为了解决这个问题,本文还引入了一个图形变换,将边改变到其他节点,解决了参数爆炸问题。这也确保了边具有特定于图的隐藏向量,给网络中的注意力和解码模块提供更多信息。
我们将本文模型与两个图序列问题进行比较,即摘要意义表示(AMRS)和基于源依存的信息神经机器翻译(NMT)。与以前的工作相比,我们的方法在不依赖于标准RNN编码的情况下,优于两个任务中的强大的S2S基线。特别地,对于NMT,我们发现,通过在依存树中添加相邻单词之间的连续边,避免了对RNNs的需要。这说明了我们的方法的适用性:可以通过简单的图形变换将语言偏差添加到输入,而不需要对模型体系结构进行改变。
2 模型
本文架构图如下所示,以AMR图为例,并将其转换为其表面形式。与标准的S2S模型相比,主要的差别在于编码器,在这里我们使用GGNN来构建图形表示。在下文中,我们将详细解释该体系结构的组件。
门控图神经网络关于图的递归网络的早期方法假设参数的不动点表示并使用contraction maps学习。而这限制了模型的容量,使得学习节点间的长距离关系变得很困难。为了解决这些问题,提出了门控图神经网络,以与门控递归单元类似的方式用门控机制扩展了这些结构。这允许通过现代反向传播过程学习网络。
给定有向图
,
是节点
的集合,
是边
的集合,
和
分别代表节点和边的词汇表。给定一个输入图,节点嵌入为
,GGNN定义如下:
在注意力编码阶码模型中使用GGNNs在S2S模型中,输入是tokens序列,其中每个token由嵌入向量表示。然后,编码器通过合并上下文(通常通过递归或卷积网络)将这些向量转换为隐藏状态表示。这些被馈送到注意力机制中,产生单个上下文向量,通知解码器中的下一步操作。
我们的模型遵循类似的结构,其中编码器是一个GGNN,它接收节点嵌入作为输入,并使用图结构作为上下文,生成节点隐藏状态作为最终输出。从上图的示例中可以看出,我们在AMR图中每个节点上有4个隐藏向量。注意力和解码器组件遵循类似的标准s2s模型,其中我们使用双线性注意机制和2层LSTM作为解码器。
双向和位置嵌入虽然我们的体系结构在理论上可以与一般图一起使用,但是有根有向无环图(DAG)可以说是我们所处理的问题中最常见的一类。这意味着节点嵌入信息以自上而下的方式传播。在这项工作中,我们也遵循这一过程,确保信息均匀地在图中传播。然而,这又带来了另一个限制:因为图形基本上是无方向的,所以编码器现在不知道输入中存在的任何内在层次结构。受Geern等人的启发,本文通过在每个节点中加入位置嵌入来解决这个问题。这些嵌入被表示为与根节点的最小距离的整数值索引,并且被学习为模型参数。这种位置嵌入被限制为有根DAG:对于一般图,可以使用不同的距离概念。
Levi Graph Transformation本文提出将输入图转换为等价Levi图。给定一个图
,Levi图定义为
,
,新的边集合
包含出现在原始图中的每一个(node,edge)对的一个边。
直观地,将图转换成其Levi图等价为将边转换为附加节点。因为Levi图没有标记的边,所以没有参数爆炸的风险:原始的边标签以与节点相同的方式表示为嵌入。此外,编码器自然生成原始边的隐藏状态。图2详细地展示了转换步骤。
3 实验
我们使用最新的AMR语料,包含36521/1368/1371个训练、开发和测试集合的切分。每一个图首先使用一个包含实体简化和匿名现象的方法。这个预处理步骤在将图转换为等价Levi图之前进行。对于s2s基线,我们也同样添加了范围标记。本文的基线模型采用基于注意力机制的s2s模型。对于g2s模型,设置GGNN编码器层次为8。维度设置为512,GGNN编码器为576。所以模型都使用Adam进行训练,初始学习率设置为0.0003,batch大小设置为16。本文使用BLEU进行评价,采用bootstrap resampling检查统计的重要性。
下图展示了在测试集上的结果。当使用相当数量的参数时,我们的方法在单个模型和集成中都显著优于s2s基线。
在图3中,我们展示了一个例子,我们的模型优于基线。AMR图包含四个重新引用,谓词引用图中先前定义的概念。我们可以看到,S2S预测超越了“India and China”这一短语。G2S预测避免了超生成,并且几乎完全匹配参考。虽然这只是一个示例,但是它提供了保留完整的图形结构对这个任务有益的证据,我们的定量结果证实了这一点。
我们的第二个评价是NMT,使用AS图源语言依赖句法树。在专注于一个媒体资源的情况下,额外的语言信息往往更有益。我们的实验包括两种语言对:英语德语和英语捷克语。下图显示了g2s+的输入图的示例,其中附加的顺序边连接单词(为了简单起见,省略了反向和自身边)。上部:具有相应的依赖树的句子。底部:转换后的树变成Levi图,在单词(虚线)之间有附加的顺序连接。完整的图还包含反向和自边缘,在图中省略。
下表显示了这两种语言对在测试集上的结果。不考虑序列信息的G2S模型落后于我们的基线。另外。我们发现BNNN层是获得最佳结果的关键。然而,在相同的参数预算下,在单个模型和集成场景中,g2s+模型在BLEU得分方面优于基线。这个结果表明,在不依赖于RN或体系结构中的任何其他修改的情况下,在我们的模型中合并顺序偏差是可能的。
有趣的是,分析CHRF++数时我们发现了不同的趋势。这个度量在两种语言对上都展示了PB-SMT模型的优势,同时在En-Cs中还显示了s2s的改进性能。在两个语言对中,无论是在系统层面还是句子层面上,CHRF++已经显示出更好的与人类判断相联系的BLEU。
4 总结
我们提出一种新的用于图到序列学习的编码器-解码器结构,在两个NLP任务中的表现都优于基线:AMR图生成和基于语法的NMT。我们的方法解决了以前工作中的线性信息丢失、参数爆炸等缺点。我们还特别展示了图转换如何在不改变底层架构的情况下解决基于图的网络的问题。这就是所提出的Levi图转换的情况,它确保解码器可以关注边和节点,而且在NMT的情况下也可以关注添加到依赖树的顺序连接。总的来说,因为我们的体系结构可以处理一般的图,所以以额外的节点和/或边信息的形式添加语言偏差是很简单的。我们相信这在应用方面是一个有趣的研究方向。
然而,我们的架构有两个主要的限制。第一种是GGN具有固定数量的层,即使图在节点和边的数量方面可以改变大小。更好的方法是允许编码器具有动态数量的层,可能基于输入图中的直径(最长路径)。第二个限制来自Levi图转换:因为边标签表示为节点,所以它们最终共享词汇表,因此共享相同的语义空间。但这是不理想的,因为节点和边是不同的实体。一个有趣的替代方案是Weave Module Networks,它显式地解耦节点和边表示,而不会引起参数爆炸。未来工作中,我们考虑将这两种思想结合到我们的架构中。
论文下载链接:
http://aclweb.org/anthology/P18-1026