NLP输出文本评估：使用BLEU需要承担哪些风险？

小发猫

2019-02-20

NLP输出文本评估：使用BLEU需要承担哪些风险？

译者| 大鱼责编 | 琥珀出品 | AI科技大本营（公众号ID：rgznai100）

怎样评价输出为文本的系统？

刚接触 NLP 时常有个疑问，就是如何评估这样一个系统——其输出为文本，而非对输入分类。当把一些文本输入系统，得到的输出也为文本时，这类问题称为 seq2seq 或字符串转导（string transduction）问题。

NLP 的核心就是 seq2seq 建模，这些任务包括：

文本摘要
文本简化
问答
聊天机器人
机器翻译

想想该技术将具有多么激动人心的实际应用，也使得 seq2seq 模型越来越受到研究者的欢迎。实际上，评估这些系统并非易事。

遗憾的是，对于刚入门学习 NLP 的人来说，评估模型应使用什么指标并没有标准答案。更糟糕的是，当前用来评估 seq2seq 任务的最流行的指标之一 BLEU，也存在很明显的缺点，尤其是将其应用于从未做评估准备的任务时。

在本文中，Kaggle 的一位数据科学家 Rachael Tatman 会逐步介绍这个当前流行标准的原理，包括 BLEU 存在的问题，以及如何在工作中最大限度地减少这些问题。

一个棘手的问题

最初，BLEU 是为了评估机器翻译而开发的指标，所以我们来看一个翻译的例子。下面是语言 A（法语）：

J’ai mangé trois filberts.

这里有一些语言 B（英语）的参考译文：

I have eaten three hazelnuts.I ate three filberts.（我吃了三颗榛子。）

此处是一个生成的“神经系统的”翻译。（在这种情况下，“神经系统的”是“用大脑想出来的一种可能的翻译”，但假装这是由你训练的网络生成的。）

I ate three hazelnuts.

现在面临着一个很棘手的问题：我应该如何给一段翻译进行打分？仅仅基于参考译句和神经输出，来告诉大家这段翻译有多好？

为什么我们需要一个单独的分值？好问题！如果我们想用机器学习来建立机器翻译系统，我们需要一个单独的实数作为分数来填入我们的损失函数。如果我们知道可能的最高得分，我们就可以计算两者的差。这样我们就可以在系统的训练过程中，为其提供反馈，也就是提供一种可能的改变来提升翻译质量，使分数越来越接近目标分数，观察它们在同一个任务上的分数表现，将所训练的系统进行对比。

你可能需要做一件事，那就是查看输出语句中的每个单词。如果该单词在参考译句中出现了，就为其分配 1，否则分配 0。接下来，你需要将其标准化，保证它的值在 0 和 1 之间，你可以用翻译出的语句的单词个数去除输出语句的单词总数。这样就为我们提供了一种叫做 unigram 的测量指标。

因此，关于我们的例子 “I ate three hazelnuts”，我们在至少一个参考译句中看到了输出语句中的所有单词。用它除以输出单词的总数目 4，你最终会得到的分数为 1。到目前为止都很顺利！但下面这句话呢？

Three three three three.

使用相同的指标，我们也可以得到 1 分。这样不是很好：我们需要通过一些方法告诉系统，我们正在训练的第一个句子（的翻译结果）要比第二个句子好。

你可以根据任何参考译句中出现的最高次数，来计算每个单词的计数次数，从而对分数进行微调。基于该度量单位，我们的第一个语句仍可以得到 1 分，然而第二句只能拿到 0.25 分。

这帮我们解决了 “three three three three” 的问题，但无法处理像下面这样的句子，由于某种原因，这些单词是按字母顺序排列的：

Ate hazelnuts I three

使用我们当前的方法，这句话可以得到 1 分，也就是最高分！我们可以对相邻单词进行计数，而不是仅仅对单个词计数。Unigrams、bigrams、trigrams 以及 4-grams 分别由一个、两个、三个、四个单词块组成。

对于当前这个例子，我们使用 bigrams。一般来说，BLEU 分数是基于 unigram、bigram、trigram 和 4-gram 精度的平均值，但为了简单起见，我们在这里只用 bigram。同样为了简单起见，我们不会添加单词来告诉我们句子开头和结尾的边界。带着这些规则，按字母顺序排列的单词中的 bigram 如下：

[Ate hazelnuts][hazelnuts I][I three]

如果我们使用同样的计算方式，那么得到的分数为 0，也就是最坏的分数。我们的 “three three three three” 例句得到了 0 分，而不是 0.25 分，但最初的例句 “I ate three hazelnuts” 可以得到 1 分。不幸的是，下面这个例子也如此：

I ate.

解决这个问题的方法是，将我们迄今为止的分数乘以一个用来对语句做惩罚的指标。我们可以通过将它与长度最接近的参考语句的长度进行比较来实现，这就是惩罚因子。

如果我们的输出等于或长于任何参考语句，则惩罚分为 1。由于我们对分数做了乘法，这不会改变最终的输出。

另一方面，如果我们的输出比所有参考语句都短，我们要将最接近的句子长度除以输出的长度，从中减去一个，并将 e 提升到整个系统的水平。一般来说，最短参考语句越短，输出就越短，BP 值越接近零。

在 “I ate” 例子中，输出语句为两个单词的长度，最接近的参考语句有四个词长度。这给了我们 0.36 的惩罚因子，当我们的 bi-gram 精度得分为 1 时，我们将最终得分降到了 0.36。

这种考虑 n 个单词在输出和翻译语句间重合率的评估指标叫作 BLEU，是由 IBM 的 Kishore Papineni、Salim Roukos、Todd Ward 和 Wei-Jing Zhu 于 2002 年开发出来的。它在 NLP 中是一个非常流行的指标，尤其对于系统输出为文本字符串而非分类的任务，包括机器翻译和自然语言生成。这就是我在开篇提出的问题的一种解决方案：开发一种方法，为翻译结果分配单独的分数，从而告诉我们这句翻译有多“好”。

同时它也存在严重的缺陷。

BLEU 存在的几个问题

到了这里，你可能存在疑问，“如果该指标存在缺陷，为什么你要给我们介绍如何计算它呢？” 目的是为了向大家展示这项指标有多么合理。它是相当直观的，你可以通过将机器翻译系统的输出结果与参考翻译进行对比，来评估机器翻译系统的输出，这在 NLP 中具有极大的影响力。

BLEU 当然也有许多优点：

它的易于计算且速度快，特别是与人工翻译模型的输出对比；
它应用范围广泛，这可以让你很轻松将模型与相同任务的基准作对比。

遗憾的是，这种便利导致人们的过度使用，甚至有些情况下该指标不是最佳选择。

即便 BLEU 没有被过度使用，在你花时间并计算以追求更高的 BLEU 分数前，你也应该知道该度量标准存在的严重缺陷。已经存在很多关于 BLEU 缺陷的讨论，我认为它存在的四大问题是：

它不考虑语义
它没有直接考虑句子结构
它不能很好地处理形态丰富的语句
它无法很好地映射出人类的判断

让我们逐一讨论这些问题，这样我就可以告诉你们我做出该判断的原因。

BLEU 不考虑语义

对我而言，这是这是让我们不能仅靠 BLEU 来评估机器翻译系统唯一最令人信服的理由。作为机器翻译系统的人类用户，我的主要目标是准确理解源语言中文本的潜在含义。只要它符合源文的意思，我就可以欣然接受输出语句中句法和语法上存在的一些怪异之处。

BLEU 却不考虑语义。它只给那些与参考系统完全匹配的 n元（n-gram）系统给予“奖励”。这意味着功能词上的差异（如 an 和 on）所得到的惩罚，与更重要的内容词的差异惩罚是一样的。这也意味着一句翻译可能存在很完美的同义词，但这个词没有出现在参考翻译中，这种情况也会受到惩罚。

我们来看一个例子，这样你能更清楚地明白问题所在。

原文 (法语): J’ai mangé la pomme.参考翻译: I ate the apple.

基于 BLEU，这些都是“同样糟糕”的输出语句：

I consumed the apple.I ate an apple.I ate the potato.

作为机器翻译系统的终端用户，我可以接受前两个句子。虽然它们和参考翻译不完全相同，但它们理解的意思是对的。然而，第三句是完全无法接受的，它完全改变了原文的意思。

基于 BLEU 的指标之一的 NIST，通过给匹配错误的 n 元模型进行加权惩罚来解决这一问题。因此，一些常见的词组（如 of the）得到的惩罚会比较小，但一些罕见的词（如 buffalo buffalo）就会高一些。

NLP输出文本评估：使用BLEU需要承担哪些风险？

BLEU 不考虑句子结构

也许你不相信，即使你弄乱一些关键词，导致完全改变了句子的意思，你仍然可以得到很好的 BLEU 分数。

我不是伟大的语法学家，但我知道在自然语言中存在很多重要的内部语法结构，如果你打乱句子中的单词顺序，你可能会得到一堆毫无意义的单词或具有完全不同含义的语句。

幸运的是，在开发系统以完成对结构的自动化建模的过程中可以采取一些措施，这个系统被称为句法分析（parsing）。

不幸的是，BLEU 没有涉及任何基于这方面的研究。我可以理解你为什么想逃避这块，因为句法分析往往需要密集的计算，并且每次评估时必须将所有输出进行句法分析，这就增加了一定的负担。

然而，不关注结果的语法结构意味着：一些结构混乱的输出可以获得与那些连贯语句相同的分数。

BLEU 不能很好地处理形态丰富的语句

如地球上大多数人一样，如果碰巧你使用的语言不是英语，那么你可能已经发现这项指标存在的问题：它是基于单词进行匹配的。对于那些具有丰富形态的语言，问题很快就会浮现。

看下面这句话，这是一种秘鲁使用的语言 Shipibo：

Jawen jemara ani iki.Jawen jemaronki ani iki.

这两句话的意思都是“her village is large.”（她的村庄很大）。你可能注意到了中间的两个词，都以“jemar-”开头，但在两句话中有不同的结尾。不同的结尾是不同的语素，表示说话者对于村庄很大这件事的肯定程度；第一句话表示他们已经去过那里了，第二句表示他们是从别人那里听说了这件事。

这种特殊类型的语素被称为“证据标记”（evidentiality marker），英语中没有这类语素。但在 Shipibo 语言中，出于语法需要，你需要使用其中一个语素，所以我们的参考翻译肯定有其中之一。但如果我们碰巧没有生成参考语句中所用单词的确切形式，BLEU 就会对其进行惩罚……即使两句话都很好地捕捉到了英文的含义。

BLEU 没有很好地映射出人类的判断

创建机器翻译、聊天机器人以及问答系统的最终目的是什么？你最终希望人们使用它，对吗？如果一个系统无法给出有用的输出，人们是不会使用它的。所以你需要做出的优化是，让使用系统的人喜欢这个系统。

当 BLEU 被首次提出时，作者确实做了一些行为测试，来确保该测量指标与人类的判断相关。然而，当研究者们做了更多比较 BLEU 评分和人类判断的实验后，他们发现这种相关性并不总是很强烈，当评估不同任务时，其他测量指标往往与人类判断的关系更为密切。

还有哪些标准可以应用呢？

当你在评估一个以文本作为输出的系统时，最重要的事就是保持谨慎，特别是在构建可能投入生产的内容时。对 NLP 从业者来说，考虑我们所做工作的应用场景尤为重要。考虑一下那名被捕的中东男子，只是因为 Facebook 把一句“早上好”翻译成了“攻击他们”！我不是针对 Facebook，我只是想指出 NLP 产品的风险可能比我们想象的要高。

为了确保我们所使用的系统切实可用，谨慎选择优化指标是极其重要的环节。举个例子，对于机器翻译任务，我个人认为对语义变化大的地方做出惩罚十分重要。

也就是说，还有很多自动评估指标可以替代 BLEU。其中一些可以针对不同的任务表现更好，因此我们值得花一些时间来为项目选择最合适的评估指标。

实际上，目前有两种流行的方法都是由 BLEU 推导而来，旨在消除它的缺陷：

NIST，根据罕见度对 n 元模型进行加权。这意味着相比起正确匹配一个常见的 n 元模型，正确匹配一个罕见的 n 元模型更容易提高你的分数。
ROUGE，BLEU 的改进版，专注于召回率而非精度。换句话说，它会查看有多少个参考译句中的 n 元词组出现在了输出之中。

你还可以选择很多方法，它们都是基于 BLEU 的，其中一些源自机器学习以外的 NLP 的其他细分领域：

Perplexity，是一项基于信息论的指标，更多用于语言建模。它可以测量单词的学习概率分布与输入文本概率分布的匹配程度。
单词错误率（即 WER），是一项常用于语音识别的度量指标。给定一个参考输入，它会测量输出序列中的替换（如 an 替换 the）、删除及插入次数。
F-score，通常也被称为 F1，是精度（有多少预测是正确的）和召回率（做出了多少可能正确的预测）的平均值。

还有一些专门为 seq2seq 任务开发的指标：

STM（即子树匹配/subtree metric），对参考译句和输出翻译的解析进行对比，并基于不同的句法结构对输出做出惩罚。
METEOR，与 BLEU 类似，但增加了额外的步骤，如考虑同义词和比较单词的词干（这样 running 和 runs 就会被认作匹配）。与 BLEU 不同，它被明确设计为用于比较句子而非语料库。
TER（即翻译错误率），测量了将原始输出转变成可接受的人类水平的翻译所需的编辑次数。
TERp（即 TER-plus），是 TER 的扩展，它也同样考虑了释义、词干和同义词。
hLEPOR，是一种旨在更好地适用于形态复杂语种（如土耳其语或捷克语）的度量指标。它还考虑了诸如词性（名词、动词等）之类的因素，来帮助捕获语法信息。
RIBES，与 hLEPOR 类似，它不只用于类似英语的语种。它旨在为亚洲语言提供更多信息，如日语和中文。
MEWR，可能是该列表中最新的评价标准，最令人兴奋的一点是：该指标不需要参考翻译！（这对那些资源匮乏的语种来说非常友好，因为这些语种没有庞大的平行语料库。）

当然，我没有足够的篇幅来介绍所有的自动化指标。您可以在评论中说出你最喜欢的指标，最好顺便解释一下为什么喜欢它！

NLP输出文本评估：使用BLEU需要承担哪些风险？

你现在一定在想……这太复杂了！

这正是问题的核心。语言很复杂，也就意味着自动评估语言很困难。我个人认为，开发自然语言生成的评估指标可能是 NLP 中最难的问题。

也就是说，有一种很好的方法可以确保你的系统所做的事情被人类认可：你可以亲自问人们的想法。人工评估曾经是机器翻译的标准，我认为这个方法还有一席之地。是的，这个方法耗费的精力不小，而且需要花更多的时间。但至少对于投入生产的系统来说，我认为你应该让人类专家做至少一轮系统评估。

但在此之前，你可能需要使用至少一个自动评估指标。当满足以下几个条件时，我会推荐你使用 BLEU：

你在做机器翻译；
你在评估整个语料库；
你知道度量指标的局限性，并且已经准备好接受这些问题。

否则，我建议你另外找一个适合你特定问题的指标。

相关链接：https://medium.com/@rtatman/evaluating-text-output-in-nlp-bleu-at-your-own-risk-e8609665a213

（本文为AI科技大本营编译文章，转载请微信联系 1092722531）

nlp 文本分类自然语言处理

小发猫

0 关注 0 粉丝 0 动态

相关推荐

性能媲美BERT，参数量仅为1/300，谷歌最新的NLP模型

在最新的博客文章中，谷歌公布了一个新的 NLP 模型，在文本分类任务上可以达到 BERT 级别的性能，但参数量仅为 BERT 的 1/300。在过去的十年中，深度神经网络从根本上变革了自然语言处理领域的发展，但移动端有限的内存和处理能力对模型提出了更高的要

熊Ok 2020-09-22

无需「域外」文本，微软：NLP就应该针对性预训练

在生物医学这样的专业领域训练NLP模型，除了特定数据集，「域外」文本也被认为是有用的。但最近，微软的研究人员「大呼」：我不这么觉得！这是一个拷问人工智能「门外汉」的灵魂问题。但研究人员将这部分归因于数据中的噪声。

mxs 2020-08-10

NLP（二十二）利用ALBERT实现文本二分类

在文章NLP（二十）利用BERT实现文本二分类中，笔者介绍了如何使用BERT来实现文本二分类功能，以判别是否属于出访类事件为例子。但是呢，利用BERT在做模型预测的时候存在预测时间较长的问题。因此，我们考虑用新出来的预训练模型来加快模型预测速度。ALBER

小发猫 2020-03-04

广告行业中那些趣事系列2：BERT实战NLP文本分类任务(附github源码)

摘要：上一篇广告中那些趣事系列1：广告统一兴趣建模流程，我们了解了如何为广告主圈人群以及如何刻画用户的兴趣度。要想给用户打标签，我们需要构建数据源和标签的关联，也就是item-tag。针对数量较少的app数据源我们可以使用人工打标的方式来识别，但是对于ne

mxs 2020-03-01

突破迁移学习局限！谷歌提出“T5”新NLP模型，多基准测试达SOTA

过去几年间，迁移学习给 NLP 领域带来了丰硕的成果，掀起了新一波的发展浪潮。迁移学习在2018年出现的GPT、ULMFiT、ELMo以及 BERT等成果上初露锋芒，之后又在2019年大显身手，推动了领域内多种新方法的发展，其中就包括XLNet、RoBER

yyhhlancelot 2020-02-25

为什么企业应该了解聊天机器人中的自然语言处理？

自然语言处理使聊天机器人能够理解我们的会话信息并相应地作出响应。企业应该对聊天机器人中的自然语言处理有所了解，因为它可以确定用户意图，评估其情绪并了解其行为。聊天机器人已经成为企业在当今竞争激烈的市场中获得认可的当务之急。利用聊天机器人提供的前所未有的客户

saluzirobot 2020-11-05

NLP：不要重新造轮子

自然语言处理是一个令人生畏的领域名称。从非结构化文本中生成有用的结论是很困难的，而且有无数的技术和算法，每一种都有自己的用例和复杂性。作为一个接触NLP最少的开发人员，很难知道要使用哪些方法以及如何实现它们。本文的目标读者是希望将自然语言处理快速集成到他们

熊Ok 2020-10-26

人工智能的研究热点:自然语言处理

人工智能作为新一轮科技革命和产业变革的重要驱动力量，正在深刻地影响世界、改变世界。而自然语言处理已成为AI领域的研究热点，它推动着语言智能的持续发展和突破，并越来越多地应用于各个行业。正如国际知名学者周海中先生曾经所言：“自然语言处理是极有吸引力的研究领域

hxq 2020-09-23

自然语言处理必读：5本平衡理论与实践的书籍

当谈到学习方法时，我们常常会提到教程、博客文章、在线课程等等，书本总是会被忽略掉。即使是在找一本关于某个主题的书，也会很快发现这样的书太多了，无法快速判断哪一本最适合自己。它也称为NLTK书籍，应用Python进行自然语言处理在整个过程中都很大程度上依赖于

MakeRoomFor 2020-08-30

NLP中的标识化

从零开始掌握一门新的语言令人望而生畏。如果你曾经学过一种不是你母语的语言，你就会理解！有太多的层次需要考虑，例如语法需要考虑。这是一个相当大的挑战。这就是自然语言处理中标识化的概念。简单地说，标识化对于处理文本数据十分重要。标识化是一种将文本分割成称为标识

NgCafai 2020-06-28

基于OpenSeq2Seq的NLP与语音识别混合精度训练

Mixed Precision Training for NLP and Speech Recognition with OpenSeq2Seq. 迄今为止，神经网络的成功建立在更大的数据集、更好的理论模型和缩短的训练时间上。为此，我们创建了OpenSeq

bensonrachel 2020-06-21

腾讯AI又创新纪录：ACL 2020入选27篇论文

近日，国际计算语言学协会年会在官网公布了ACL 2020的论文收录名单，共计收录779篇论文。据不完全统计，此次腾讯共有27篇论文入选，投中论文总数刷新国内记录，领跑国内业界AI研究第一梯队。此次ACL 2020的审稿周期相比以往几乎增加了一倍的时间，据最

dynalidan 2020-05-22

自然语言处理的应用前景

自然语言处理是人工智能技术的一个分支，它使计算机能够像人们一样理解、处理和生成语言，并且在商业中的应用正在迅速增长。虽然自然语言处理这一术语最初指的是人工智能系统的阅读能力，但它后来成为所有计算语言学的一种通俗说法。当单击搜索结果时，搜索引索会将其视为对找

熊Ok 2020-04-24

入门自然语言处理（NLP）的门

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。简单点说就是怎样让计算机能够理解人类的语言，以执行如机器翻译、文本分析、情感分析等任务。自然语言处理是人工智能领域比较火热的方向，本人决定入坑是因为听那个谁说，这个方向对数学要求不像计算机视觉那么

bensonrachel 2020-04-20

Python深度学习自然语言处理工具Stanza试用！这也太强大了吧！

众所周知，斯坦福大学自然语言处理组出品了一系列NLP工具包，但是大多数都是用Java写得，对于Python用户不是很友好。几年前我曾基于斯坦福Java工具包和NLTK写过一个简单的中文分词接口：Python自然语言处理实践: 在NLTK中使用斯坦福中文分词

katyusha 2020-04-15

2020年AI和机器学习的重要趋势是什么？

在竞争日益激烈的技术市场中，从高科技初创公司到全球跨国公司都将人工智能视为关键竞争优势。但是，人工智能行业发展如此之快，以至于很难跟踪最新的研究突破和成就，甚至很难应用科学成果来实现业务成果。在2020年为了帮助业务制定强大的AI策略，本文总结了不同研究领

BigDataDigest 2020-03-23

12 种自然语言处理的开源工具

让我们看看可以用在你自己的 NLP 应用中的十几个工具吧。在过去的几年里，自然语言处理推动了聊天机器人、语音助手、文本预测等这些渗透到我们的日常生活中的语音或文本应用程技术的发展。目前有着各种各样开源的 NLP 工具，所以我决定调查一下当前开源的 NLP

yaohaishen 2020-02-25

12种自然语言处理的开源工具

让我们看看可以用在你自己的 NLP 应用中的十几个工具吧。在过去的几年里，自然语言处理推动了聊天机器人、语音助手、文本预测等这些渗透到我们的日常生活中的语音或文本应用程技术的发展。目前有着各种各样开源的 NLP 工具，所以我决定调查一下当前开源的 NLP

zkq 2020-02-25

NLPer复工了！先看看这份2019机器学习与NLP年度盘点吧

2019 年是机器学习和自然语言处理领域飞速发展的一年。DeepMind 科学家 Sebastian Ruder 从 10 个方面总结了我们在过去的一年中取得的重要进展，对未来的研究方向有着重要的指导意义。对于每个方向，本文都会先总结今年我们在该方向取得的

夏未眠秋风起 2020-02-03

最新书籍《自然语言处理实战》推荐分享，（附电子书+代码下载）

自然语言是人类智慧的结晶，自然语言处理是人工智能中最为困难的问题之一，而对自然语言处理的研究也是充满魅力和挑战的。今天，给大家推荐的一本新书是《Natural Language Processing in Action 》，这本书为我们提供了从基础知识到动

qxconverse 2020-01-06

小发猫

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号