自然语言处理的通用深度学习方法

Evan

2017-07-08

6月5号，由阿里巴巴iDST邀请到了江辉老师，在北京阿里巴巴绿地中心阿里同学们做了一场A New General Deep Learning Approach for Natural Language Processing的讲座。

自然语言处理的通用深度学习方法

分享概要

如今在NLP领域各种CNN，RNN及其变种网络层出不穷，但是它们在复杂度，模型训练等方面都有不少问题。在这样的现状下，能否有一种更简单的机制代替这样的复杂网络，同时又取得与其相当甚至更好的效果，这成为了很多人的诉求。

江辉老师直接切入了NLP的痛点之一——变长编码(variable-length encoding)。即NLP需要处理的往往不是定长(fixed-size)的数据，而是变长的短语，句子，段落甚至篇章。也是因为变长编码的原因，才使得NLP领域大量引入CNN和RNN模型。

自然语言处理的通用深度学习方法

技术核心

于是江辉老师及其团队，提出了FOFE-net架构，即FOFE(Fixed-size Ordinally-Forgetting Encoding) + DNN，来解决变长编码问题，同时降低模型复杂度，提高训练速度甚至整体效果

自然语言处理的通用深度学习方法

FOFE是一种简单精妙的rule-base编码方式。上图中，左侧1-of-K是传统的one-hot编码，右侧是FOFE编码的计算过程的例子，下方是计算公式，公式中，z是整个编码，t表达不同的时刻，e是当前时刻的词的one-hot向量。运算当前t时刻的FOFE等于上个时刻t-1的FOFE编码乘上一个打折系数(遗忘系数)alpha，然后加上t时刻词的one-hot，通俗的说就是，在one-hot的基础上利用了数值的大小表明了词的位置信息

FOFE是简单的，同时是精妙的，江辉老师也给出了FOFE的理论证明

自然语言处理的通用深度学习方法

解决了变长编码到定长编码的问题，那么后续只需要使用DNN(多层)就能完成很多任务，此次分享中，江辉老师展示了NLP的多个任务上使用FOFE-net和其他方法的结果对比

自然语言处理的通用深度学习方法

(红色部分为重点介绍的任务)

实验结果

由于文章篇幅有限，本文仅详细讲述Word Embedding任务，其他任务仅简单描述方法和结果

自然语言处理的通用深度学习方法

用了FOFE编码后Word Embedding变得非常简单，甚至并不需要深度学习相关的做法就能达到很好的性能。如图上所示，词表的长度为K，对于每个词w，我们使用该词左右两侧的若干词做FOFE编码，如果该词出现多次，那么left FOFE和right FOFE则是所有出现词w的上下文FOFE编码的平均(该做法只是策略之一)，得到词到词context FOFE编码的矩阵后(K * 2K，2K是因为左右两个FOFE长度)，使用SVD等sparse to dense的手段就能得到Word Embedding

自然语言处理的通用深度学习方法

这种简单的方式得到的效果轻松超越了word2vec，GloVe等方法

除此外江辉老师还介绍了NLP中不少任务上FOFE-net的做法和表现(下面只列举部分)：

1. 语言模型。使用FOFE方式编码词w历史的词，然后经过DNN预测下一个词的概率分布。在Google-1B的数据上，表现出惊人效果（超越绝大多数方法，并与谷歌的最好算法相当），并且训练时间上大大降低（google使用32GPU，FOFE使用1GPU）。

2. 命名实体识别。假定某个词序列S=wn~wn+m为实体，使用FOFE编码S左右两侧的context，作为特征进入DNN，输出判断该词序列S是否是实体，是何种实体。在CoNLL03任务上，得到不错的效果。

3. 信息抽取。在2015 KBP-EDL，2016 KBP-EDL上表现不俗。

还有不少任务，如指代消解，文本分类，实体链接，句法分析等都在分享中有分析和对比，由于篇幅原因不能一一列举

听众收获

江辉老师的分享非常精彩，虽然只有一个小时左右，干货多多，让人意犹未尽。

QA环节也有热烈的讨论：

1. 问：FOFE编码在处理长句子时，是否会因为alpha不断打折而导致浮点精度问题丢失了一些词的信息？答：可以采用双向的FOFE编码减缓浮点精度问题

2. 问：FOFE编码是否能再进入RNN，CNN然后效果是否会进一步提升？答：这个工作有学生做过，训练速度下降了，但是效果并没有好

个人思考

如有不对，欢迎评论区拍砖

1. 问：如何在使用FOFE编码的同时融入更多其他信息，如词的标签，词性等，因为FOFE编码之后已经是整个sentence粒度，而词的标签还停留在word粒度？答：使用相同的编码方式编码额外的信息，如FOFE词性vector，FOFE词标签vector等；

2. 问：为什么FOFE-net会得到更优的性能？答：猜测。FOFE极大简化了网络复杂度，使得网络被训练得非常好，换句话说CNN和RNN这样得复杂网络在现有的BP算法下，很有可能没有被训得很好。这样的简化网络结构换取效果提升的思路貌似是个不错的方向

自然语言处理机器学习深度学习学习策略江辉

安科网

自然语言处理的通用深度学习方法

Evan

分享概要

听众收获

Evan

相关推荐

为什么企业应该了解聊天机器人中的自然语言处理？

MIT 推出机器翻译新算法，破译已消失的古语言

NLP：不要重新造轮子

十大针对机器学习的文本注释工具与服务，你会选用哪个？

机器翻译：谷歌翻译是如何对几乎所有语言进行翻译的？

AI创业哪家强？6大选择给你方向

自然语言处理实战：机器学习常见工具与技术

人工智能的企业家来说，这四个新的方向可能值得重视

人工智能的研究热点:自然语言处理

性能媲美BERT，参数量仅为1/300，谷歌最新的NLP模型

AI写的文章，真的可以骗过老师了

自然语言处理必读：5本平衡理论与实践的书籍

无需「域外」文本，微软：NLP就应该针对性预训练

pytorch+huggingface实现基于bert模型的文本分类（附代码）

NLP中的标识化

基于OpenSeq2Seq的NLP与语音识别混合精度训练

人工智能的8个有用的日常例子

人工智能的三大领域及其工业应用

腾讯AI又创新纪录：ACL 2020入选27篇论文

什么是机器阅读理解？跟自然语言处理有什么关系？

Evan