动态记忆网络：向通用 NLP 更近一步

BigDataDigest

2019-05-17

本文需要读者对诸如 LSTM 和 GRU（包括 seq2seq 编码器 - 解码器架构）之类的递归神经网络有一定的基础。

众所周知，通用 NLP 的一大障碍是不同的任务（例如文本分类，序列标记和文本生成）需要不同的序列结构。解决这个问题的一种方法是将这些不同的任务看作是问答形式的问题。比如，文本分类问题可以视为询问模型某段文本表达的情绪是什么，答案可以是“积极”，“消极”或“中立”之一。

论文《有问必答：用于自然语言处理的动态记忆网络》（Ask Me Anything: Dynamic Memory Networks for Natural Language Processing）介绍了一种用于问答形式问题的新型模块化结构。

对于复杂的问答式问题而言，LSTM 和 GRU 的记忆组件可能成为瓶颈。仅一次前馈就想将记忆组件中的所有相关信息积聚起来是非常困难的，因此，该论文背后的关键思想是允许模型根据需要任意访问数据。

尽管乍看起来，这一架构非常复杂，但是它可以分解为许多简单的组件。

动态记忆网络：向通用 NLP 更近一步

模型

语义记忆模块

语义记忆模块指的是词嵌入（词向量表示），例如 Glove 向量，即输入文本在被传递到输入模块之前被转换成的向量。

输入模块

动态记忆网络：向通用 NLP 更近一步

输入模块即指标准的 GRU（或 BiGRU），每个句子的最后的隐状态是明确可访问的。

问题模块

动态记忆网络：向通用 NLP 更近一步

问题模块也是标准的 GRU，其中待解答的问题作为输入项，并且最后的隐状态是可访问的。

情景记忆模块

动态记忆网络：向通用 NLP 更近一步

这一模块可让输入数据进行多次前馈。在每次前馈时，输入模块中的句子嵌入表示（sentence embedding）作为输入传递到情景记忆模块中的 GRU。此时，每个句子嵌入表示都会被赋予权重，权重与其被询问的问题的相关性相对应。

对于不同的前馈，句嵌入表示会被赋予不同的权重。比如，在下面的例子中：

动态记忆网络：向通用 NLP 更近一步

由于句子（1）与问题没有直接关系，因此可能不会在第一次被赋予高权重。然而，在第一次前馈时，模型发现足球与约翰相关连，因此在第二次前馈时，句子（1）被赋予了更高权重。

在第一次前馈（或第一个“episode”）中，问题嵌入表示（question embedding）'q’被用于计算来自输入模块的句子嵌入表示（sentence embedding）的注意力分数。然后，将句子 sᵢ的注意力得分输入 softmax 层（使得注意力得分总和为 1）或单个 sigmoid 单元来获得 gᵢ。gᵢ是赋予句子 sᵢ的权重，并作为在 timestep i 中 GRU 的输出项的全局门 (global gate)。

timestep i 和 episode t 的隐状态计算如下：

动态记忆网络：向通用 NLP 更近一步