继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

熊Ok

2018-12-24

自 BERT 打破 11 项 NLP 的记录后，可应用于广泛任务的 NLP 预训练模型就已经得到大量关注。最近微软推出了一个综合性模型，它在这 11 项 NLP 任务中超过了 BERT。目前名为「Microsoft D365 AI & MSR AI」的模型还没有提供对应的论文与项目地址，因此它到底是不是一种新的预训练方法也不得而知。

BERT 和微软新模型都采用了通用语言理解评估（GLUE）基准中的 11 项任务，并希望借助 GLUE 展示模型在广泛自然语言理解任务中的鲁棒性。其中 GLUE 基准并不需要知道具体的模型，因此原则上任何能处理句子和句子对，并能产生相应预测的系统都能参加评估。这 11 项基准任务重点衡量了模型在跨任务上的能力，尤其是参数共享或迁移学习的性能。

从微软新模型在 GLUE 基准的表现上来看，至少它在 11 项 NLP 任务中比 BERT-Large 更高效。这种高效不仅体现在 81.9 的总体任务评分，同时还体现在参数效率上。微软的新模型只有 1.1 亿的参数量，远比 BERT-Large 模型的 3.35 亿参数量少，和 BERT-Base 的参数量一样多。下图展示了 GLUE 基准排名前 5 的模型：

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

在「Microsoft D365 AI & MSR AI」模型的描述页中，新模型采用的是一种多任务联合学习。因此所有任务都共享相同的结构，并通过多任务训练方法联合学习。此外，这 11 项任务可以分为 4 类，即句子对分类 MNLI、QQP、QNLI、STS-B、MRPC、RTE 和 SWAG；单句子分类任务 SST-2、CoLA；问答任务 SQuAD v1.1；单句子标注任务（命名实体识别）CoNLL-2003 NER。

其中在句子对分类任务中，有判断问答对是不是包含正确回答的 QNLI、判断两句话有多少相似性的 STS-B 等，它们都用于处理句子之间的关系。而单句子分类任务中有判断语句中情感趋向的 SST-2 和判断语法正确性的 CoLA 任务，它们都在处理句子内部的关系。

在 SQuAD v1.1 问答数据集中，模型将通过问题检索段落中正确回答的位置与长度。最后在命名实体识别数据集 CoNLL 中，每一个时间步都会预测它的标注是什么，例如人物或地点等。

如下所示为微软新模型在不同任务中的得分：

nlp

安科网

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

熊Ok

熊Ok

相关推荐

使用NLP创建摘要

为什么企业应该了解聊天机器人中的自然语言处理？

本周六锁定成都！解析百度文心（ERNIE）如何助力快速定制企业级NLP模型

在预训练NLP模型上测量性别相关性

NLP：不要重新造轮子

NLP/CV模型跨界，视觉Transformer赶超CNN?

人工智能的研究热点:自然语言处理

性能媲美BERT，参数量仅为1/300，谷歌最新的NLP模型

自然语言处理必读：5本平衡理论与实践的书籍

谷歌开源NLP模型可视化工具LIT，模型训练不再「黑箱」

百度语言与知识技术峰会召开王海峰揭秘NLP技术演进路径

无需「域外」文本，微软：NLP就应该针对性预训练

NLP小白入门篇：莫愁前路，一文读懂语料预处理

EasyDL全新升级，文心（ERNIE）3项能力助力快速定制企业级NLP模型

这款NLP神器火了！关键词提取、结果可视化，从小白进阶大神

达观数据融合自研OCR与NLP技术推出智能RPA<

NLP中的标识化

基于OpenSeq2Seq的NLP与语音识别混合精度训练

腾讯AI又创新纪录：ACL 2020入选27篇论文

一口气发布1008种机器翻译模型，GitHub最火NLP项目大更新：涵盖140种语言组合

熊Ok