ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

XuFangfang0

2019-03-12

ACL 2018 Short Papers

基于并行递归神经网络的命名实体识别

Named Entity Recognition With Parallel Recurrent Neural Networks

伦敦大学

University of London

本文是伦敦大学发表于 ACL 2018 的工作，提出了一种新的命名实体识别的体系结构，在相同的输入端采用多个独立的双向LSTM单元，并通过使用模型间正则化项来促进它们之间的多样性，并通过跨多个小型LSTMs单元的分布式计算，减少参数总数。实验证明本文架构在CONLL 2003 NER数据集上实现了最先进的性能。

ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

引言

对文本中实体进行推理的能力是自然语言理解的一个重要因素。命名实体识别（NER）涉及到对这些实体的识别。给定单词序列，NER任务是用其相应的实体类型标记每个单词。实体类型包括Person, Organization和Location。一个特殊的Other实体类型通常被添加到所有类型的集合中，并用于标记不属于任何其他实体类型的单词。

近年来，基于神经网络的方法登上舞台，该方法除了使用未标记语料库进行单词嵌入训练外，不使用特定于语言的资源。人们逐渐把解决NER问题的注意力，从手工制作更好的特征转移到设计更好的神经网络结构上。

在本文中，我们提出了一种新的基于并行递归神经网络模型的实体识别方法。我们发现，与其使用单个LSTM组件，不如使用多个更小的LSTM单元。这有利于减少我们模型中参数的总数。我们在CoNNL 2003英语数据集上进行试验，并且在没有外部词典的帮助下实现了最优结果。

ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

模型

命名实体识别可以被假定为标准的序列分类问题，其中数据集

ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

由实例标签对组成，其中实例和标签本身都是单词向量和实体类型的序列。

具体而言，输入实例Xi=

ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

是一个可变长度的词向量序列

ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

；该实例对应的标签

ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

是一个等长序列的实体类型标签

ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

，其中Y是所有实体类型标签的集合，并且包含一个特殊的其他“O”标签。非实体的单词被标记为O。

然后学习从输入单词到输出实体标签的参数化映射

ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

。处理这种映射的最常用的一类模型是递归神经网络。

长短记忆（LSTM）模型属于递归神经网络（RNN）模型。它们经常被用作更大模型的组件，特别是在许多NLP任务中，包括NER。

一般地，LSTM单元定义如下（不考虑bias）：

ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

测量模型复杂性的一种方法是通过考量其参数的总数。综上所述，我们注意到，对于三个输入门中的每一个，在cell更新期间，存在两个参数矩阵，W和U。如果设W∈R n×n和U∈Rn×m，则模型中的参数总数(不包括bias项)是4(nm+n2)，随着n的增长而二次增长。因此，LSTM大小的增加会大大增加参数的数量。

并行RNNs: 为了减少参数的总数，我们将单个LSTM分成多个大小相等的较小单元：

ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

其中k∈{ 1，…，k}。这具有将参数总数除以常数因子的效果。最后的隐藏状态ht是较小LSTMS的隐藏状态的级联：

ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

为了促进较小的LSTM组成之间的多样性，我们在较小的LSTM之间添加正交性惩罚。我们采用跨LSTM单元更新递归参数Wi（为了简明起见，在下标中省略了c；跨较小的LSTM运行索引为i），对于任何对，我们希望以下是真的：

ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

为了实现这一点，我们将矢量化的参数打包成矩阵：

ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

并将下列正则化项应用于我们的最终损失：

ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

级联的输出ht在通过最终softmax层之前通过有偏的完全连接的层：

ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

为了在时间t提取预测的实体类型y，我们选择对应最可能输出的实体类型：

ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

损失被定义为沿着输入序列中的单词的softmax交叉熵损失之和。更准确地说，我们用

ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

0，1表示二进制指示符变量，指示词xt是否真的是j类型的实体。在时间t的损失定义为

ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

，因此整体损失为：

ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

我们使用双向LSTM作为基本递归单元，并使用大小为100的预训练词嵌入。并将词嵌入与字符级嵌入连接起来，但是使用max pooling层代替。与并行LSTM不同，我们只使用单字符嵌入LSTM。

我们的模型与集成方法有一些相似之处，集成方法将多个“弱学习者”组合成单个“强学习者”；可以将模型的每个并行递归单元看作单个“弱”神经网络，并且可以考虑我们的架构是把它们结合成一个单一的“强大”网络。

尽管有相似之处，我们的模型与集成方法有很大的不同。首先，与许多增强算法相反，我们不基于上一次迭代产生的损失来重新权衡训练实例。第二，不同于集成方法，我们的模型被训练成端到端的模式，作为一个更大的神经网络。所有的子组件都是联合训练的，所以网络的不同子部分可以集中在输入的不同方面，避免了跨单元的重复计算（实际上，我们鼓励使用模块间正则化的单元之间的多样性）。最后，我们注意到，我们的架构并不简单地组合多个分类器进行预测；相反，我们采用每个LSTM单元的最终隐藏层（它包含比实体类预测更多的信息），并使用前馈网络组合这些信息。这使得我们的体系结构可以检查由各种组件计算的信息片段之间的相互依赖性。

ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

实验分析

我们在CONNL2003英语NER数据集上取得了最先进的结果（见下表）。虽然我们没有使用额外资源（特定语言的字典或地名词典），我们的模型仍然具有很大竞争力。

ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

为了更好地理解模型性能，包括它的各种组件如何影响性能，我们做了一系列实验。下表示出了作为具有固定大小的RNN单元的数目的函数的性能。单元的数量显然是一个超参数，必须进行优化。

ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

我们发现整体性能良好（结果没有灾难性的崩溃），但是当使用16个单元时，本文模型明显优于其他模型。即使非常小的单元大小如8（如下表），我们的模型也执行得比较好，结果没有明显的下降。

ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

下表显示了单元大小和组件对最佳性能模型的影响。

ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

ACL 2018｜伦敦大学：基于并行递归神经网络的命名实体识别

总结

本文引入了一个新的模型，该模型的主要动机在于其易于分发和减少参数总数的能力，在CoNLL 2003英语数据集上的实验结果表明，该模型获得了当前的最优结果。未来工作应该通过不同的序列分类任务来评估它的性能。此外，如果模型在CPU内核之间被并行化，那么运行时间分析机制也需要被进一步考虑。

递归命名实体识别 acl 递归神经网络神经网络模型自然语言处理

XuFangfang0

0 关注 0 粉丝 0 动态

相关推荐

微信小程序对图片进行canvas压缩的方法示例详解

微信小程序其实自带一个图片压缩的API wx.compressImage，但是这玩意目前感受就是个垃圾。IOS大多数情况下据说还可以，安卓有的时候降低质量压缩后体积反而变大，而且没办法控制其压缩至具体指定的大小，压缩后多大看天意。所以需要使用画布去自己实现

大地飞鸿 2020-11-12

二叉树：一入递归深似海，从此offer是路人

一看就会，一写就废!这次我们要好好谈一谈递归，为什么很多同学看递归算法都是“一看就会，一写就废”。主要是对递归不成体系，没有方法论，「每次写递归算法，都是靠玄学来写代码」，代码能不能编过都靠运气。「本篇将介绍前后中序的递归写法，一些同学可能会感觉很简单，

steeven 2020-11-10

通过阶乘的例子,练习在JavaScript, Scala和ABAP里实现尾递归

Before we start to research tail recursion, let’s first have a look at the normal recursion.Let N = 5, see how new stack frame i

匆匆那些年 10评论 2020-10-15

程序员必备的基本算法：递归详解

递归是一种非常重要的算法思想，无论你是前端开发，还是后端开发，都需要掌握它。在日常工作中，统计文件夹大小，解析xml文件等等，都需要用到递归算法。它太基础太重要了，这也是为什么面试的时候，面试官经常让我们手写递归算法。本文呢，将跟大家一起学习递归算法~递归

Tips 2020-10-14

这两个问题都不清楚，还说会「归并排序」？

归并排序的迭代实现方式;实现一个原地归并排序;归并排序的迭代实现在正式看代码前，希望你心中清楚归并排序的递归实现方式，不熟悉也无妨，看这篇文章图解「归并排序」算法(修订版) 文章。分的策略和递归的方式有别，依旧符合归并排序的思想;

nongfusanquan0 2020-08-18

动态规划题解（转）

　　动态规划算法似乎是一种很高深莫测的算法，你会在一些面试或算法书籍的高级技巧部分看到相关内容，什么状态转移方程，重叠子问题，最优子结构等高大上的词汇也可能让你望而却步。当然，见的多了，思考多了，是可以一步写出非递归的动态规划解法的。以下，先通过两个个比较

yedaoxiaodi 2020-07-26

聊聊11种主要的神经网络结构

感知器是所有神经网络中最基础的，是更复杂的神经网络的基本构建块。它仅连接输入单元和输出单元。在每次连接期间，来自上一层的信号乘以权重，加到偏置上，并通过激活函数。前馈网络使用反向传播来迭代更新参数，直到达到理想的性能为止。递归神经网络是一种特殊类型的网络，

夜晚00 2020-07-03

编译原理要点

S-> SaA|Se|B -> S|B 引进非终结符S“（,) 非终结符要放在最后。 ->BS‘ S‘->S‘|反三

85397518 2020-07-04

数据结构-05 |递归

生活中就有很多用到递归的例子。这就是一个非常标准的递归求解问题的分解过程，去的过程叫“递”，回来的过程叫“归”。基本上，所有的递归问题都可以用递推公式来表示。有了这个递推公式，我们就可以很轻松地将它改为递归代码，如下：。堆栈溢出会造成系统性崩溃。但这种做法

hanyujianke 2020-06-28

数据结构：第七章学习小结

常用的创造方法为除留余数法，一般被除数可选择小于表长的最大质数。但该方法易造成”二次聚集”现象，导致非同义词之间可能彼此冲突。此方法能减少堆积的发生，但可能无法探查整个散列表，即不能保证找到不发生冲突的地址。相较于开放地址法，该方法避免开放地址法的各种缺陷

xhao 2020-06-28

循环、递归、遍历、迭代的区别

表示“重复”这个含义的词有很多, 比如循环, 递归, 遍历, 迭代.循环算是最基础的概念, 凡是重复执行一段代码, 都可以称之为循环. 大部分的递归, 遍历, 迭代, 都是循环.// 迭代，重复一定的算法，达到想要的目的。这些概念都表示“重复”的含义, 彼

清溪算法君老号 2020-06-27

C#数据结构与算法系列（十四）：递归——八皇后问题（回溯算法）

八皇后问题，是一个古老而著名的问题，是回溯算法的经典案例，该问题是国际西洋棋棋手马克斯.贝瑟尔于1848年提出：在8×8格的国际象棋上摆放八个皇后，使其不能互相攻击，即。任意两个皇后都不能处于同一行、同一列、同一斜线。继续放第三个皇后，还是第一列，第二列。

pengkingli 2020-06-25

递归--八皇后问题（Java）

文章所涉及的资料来自互联网整理和个人总结，意在于个人学习和经验汇总，如有什么地方侵权，请联系本人删除，谢谢！八皇后问题，是一个古老而著名的问题，是回溯算法的典型案例。第二个皇后放在第二行第一列、然后判断是否OK，如果不OK，继续放在第二列、第三列、依次把

yishujixiaoxiao 2020-06-25

《数据结构与算法之美》09——排序（二）归并排序与快速排序

要排序一个数组，先把数组从中间分成前后两部分，然后对前后两部分分别排序，再将排好序的两部分合并在一起。归并排序使用的是分治思想。分治，就是分而治之，将一个大问题分解成小的子问题来解决。回忆一下之前学习递归的编程技巧：分析得出递推公式，然后找到终止条件。归并

Masimaro 2020-06-21

递归的实质是能够把一个大问题分解第一

递归，是一个非常重要的概念，也是面试中非常喜欢考的。因为它不但能考察一个程序员的算法功底，还能很好的考察对时间空间复杂度的理解和分析。本文只讲一题，也是几乎所有算法书讲递归的第一题，但力争讲出花来，在这里分享四点不一样的角度，让你有不同的收获。

清溪算法 2020-06-21

ARTS-WEEK-004

拨云见日的一周。借助树的递归遍历，而递归函数的关键是处理这个子树应该返回什么，再细分就是终止条件返回什么、后续递归结果处理什么。补充，这类树或DAG在实际应用中更多是通过parent节点串联起来，这时找最近公共祖先变成了第160题的找两个链表的交点。Fli

oXiaoChong 2020-06-20

【递归题】正确的打开方式，面试官听了都说精辟

递归，是一个非常重要的概念，也是面试中非常喜欢考的。因为它不但能考察一个程序员的算法功底，还能很好的考察对时间空间复杂度的理解和分析。Base case：就是递归的零号问题，也是递归的终点，走到最小的那个问题，能够直接给出结果，不必再往下走了，否则，就会成

RememberMePlease 2020-06-17

python学习第33天

一.死锁,互斥锁,递归锁。从语法上讲,锁可以互相嵌套,但不要使用。不要因为逻辑问题让上锁分成两次,导致死锁。put_nowait 存,超出了队列长度,报错。get_nowait 取,没数据取不出来,报错。linux windows 线程中put_nowai

chaigang 2020-06-13

班课1

但是普通的乘法时间复杂度太高，解决思路也是将很大的数拆分成较小的部分（PPT中为例，将A拆成A1，A0。由公式可以看出，A1更为重要

算法与数学之美 2020-06-08

数据结构之递归与调用栈

递归算法是一种直接或间接调用自身算法的过程。每个递归函数都有两部分：基线条件和递归条件。基线条件则指的是函数不再调用自己，函数的终止条件，避免形成无限循环。所有函数调用都进入调用栈，使用递归必须理解这个概念。调用栈是的原则是先进后出，栈有两种操作：压入

nurvnurv 2020-06-05

XuFangfang0

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号