如何基于谷歌的最强 NLP 模型进行影评分析？

NgCafai

2019-01-07

如何基于谷歌的最强 NLP 模型进行影评分析？

谷歌此前发布的NLP模型BERT，在知乎、Reddit上都引起了轰动。其模型效果极好，BERT论文的作者在论文里做的几个实验数据集都被轰平了。要做那几个数据集的人可以洗洗睡啦，直接被明明白白地安排了一波。

如何基于谷歌的最强 NLP 模型进行影评分析？

坊间流传BERT之于自然语言处理有如ResNet之于计算机视觉。谷歌还是谷歌呀，厉害！以后做NLP的实验就简单多了，可以先用BERT抽特征，再接几层客制化的神经网络后续实验，可以把BERT看作是类似于word to vector那样的工具。有人在知乎（https://www.zhihu.com/question/298203515/answer/509470502）上整理了跑一次BERT的成本：

For TPU pods:
4 TPUs * ~$2/h (preemptible) * 24 h/day * 4 days = $768 (base model)
16 TPUs = ~$3k (large model)
For TPU:
16 tpus * $8/hr * 24 h/day * 4 days = 12k
64 tpus * $8/hr * 24 h/day * 4 days = 50k
For GPU:
"BERT-Large is 24-layer, 1024-hidden and was trained for 40 epochs over a 3.3 billion word corpus. So maybe 1 year to train on 8 P100s? "

这还只是跑一次的时间，试想一下谷歌在调参、试不同神经网络结构时该需要多少时间与运算资源，太可怕了。

不禁让人感慨，深度学习已经变为大公司之间的军备竞赛，也只有谷歌这样的大公司才能做出这么伟大的模型，那是不是意味着我们普通人就没机会了呢？喜大普奔的是谷歌已经把训练好的模型公布出来，和大家分享他们的成果。我们可以运用大公司提前训练好的模型做迁移学习，用于客制化的应用。

本文想通过一个实际案例来检验一下提前训练好的BERT模型的威力，在已经训练好的BERT模型上再连几层神经网络做迁移学习。我们用的数据来源是Kaggle上的一个豆瓣影评分析数据集，目标是训练出一个模型，输入给模型一条影评的文字，模型能正确输出这条影评所对应的评分。

数据集

这个豆瓣电影短评数据集（https://www.kaggle.com/utmhikari/doubanmovieshortcomments/）里面一共有28部电影，总共200多万笔影评，每笔影评有对应的文字以及用户给电影的评分（最高5分，最低1分）。下面是一些简单的范例：

如何基于谷歌的最强 NLP 模型进行影评分析？

前处理的时候，我们先把每条影评的标点符号去掉，然后用Jieba断词，Jieba是一个很方便的中文断词函数库，安装也很方面直接用PIP安装就好。

最后把数据切为training,testing和validation set三部分，下表是三个set的一些简单统计量：

如何基于谷歌的最强 NLP 模型进行影评分析？

模型结构

第一步，我们先用“Jieba”将影评断词，再把每个词用一个one-hot vector表示。

第二步，再把每条影评对应的one-hot vector丢到如下图的BERT模型抽出特征。

如何基于谷歌的最强 NLP 模型进行影评分析？

第三步，再把抽出的特征丢进我们客制化设计的神经网络，最后输出网络的预测。网络的预测是1-5分，我们分别做了回归和分类两个实验。分类的输出结果是1-5分5类当中的某一类，回归输出结果是介于1-5之间的一个数值。我们会用到如下图所示的Bengio在2017年提出的自注意力模型做一些语义分析。

如何基于谷歌的最强 NLP 模型进行影评分析？

第四步，定义损失函数，固定BERT的参数不变，再用梯度下降法更新我们客制化设计的网络。

PS：由于BERT和self-attention模型结构较为复杂，而且本文的目的是探讨如何用BERT做迁移学习，所以我们不会赘述模型结构，我们会在文末附上论文链接，感兴趣的小伙伴可以去看看。

实验结果

BERT 分类

分类准确率：61%
混淆矩阵：

如何基于谷歌的最强 NLP 模型进行影评分析？

以第1行第二列的0.13为例：意思是真实标签是第一类，被分类为第二类的占总的第一类的个数的比例是0.13。可以看到1分，5分的大部分例子都能分类正确。大部分分类不正确的情况是被分到相邻的等级了，例如真实标签是2分的被分类为3分或是真实标签是3分的被分类为2分。这种情况是合理的，针对某一条特定的影评，就算是人去预测，也很难斩钉截铁地判定为是2分还是3分，所以也难怪机器分不出来。

我们对评价标准做了一点修改，将误判为相邻评分的例子判别为正确，结果如下：

分类准确率：94.6%
混淆矩阵：

如何基于谷歌的最强 NLP 模型进行影评分析？

BERT 回归

同样的架构，我们修改了一下最后一层的输出，让模型预测相应影评的评分，输出一个实数值，重新训练了模型。如果是分类的实验，1分与5分这两个类别用数值表示的话都是一个one-hot的类别，体现在损失函数里没有差别，模型不会对二者区别对待。如果是回归的实验，模型的输出是一个实数值，实数值具有连续性，1分和5分二者分数的高低能在实数上得到体现。

下面来看看实验结果：

分类准确率：95.3%
混淆矩阵：

如何基于谷歌的最强 NLP 模型进行影评分析？

真实评分的分布：

如何基于谷歌的最强 NLP 模型进行影评分析？

模型预测评分的分布：

如何基于谷歌的最强 NLP 模型进行影评分析？

我们也对BERT出来的特征向量做了TSNE降维，可视化结果如下：

如何基于谷歌的最强 NLP 模型进行影评分析？

根据右上角的图例，不同的颜色代表不同的评分，比如紫色代表五分。每一个点都是一笔影评的高维特征降维后在二维平面上的体现。可以明显看出，不同评分的影评被归在了不同的群里。相近的评分，比如5分和4分、4分与3分会有一些重叠部分。

自注意力机制的一些可视化结果：

如何基于谷歌的最强 NLP 模型进行影评分析？

如何基于谷歌的最强 NLP 模型进行影评分析？

引入自注意力机制的模型在预测一句影评对应的评分的时候，能够先通过注意力机制抓取一句话中的重要部分，给重要部分很多的比重。上述几个例子就能看出来，再模型给一条影评5分的时候，会给“爆”、“动人”这样的字眼予以高亮。在给2分的时候，会给“一般”这样的字眼予以高亮。

案例分析

接下来我们针对疯狂动物城这部电影，做一些可视化分析，来呈现训练好之后的模型的效果。

分类准确率：72.63%
混淆矩阵：

如何基于谷歌的最强 NLP 模型进行影评分析？

将误判为相邻评分的例子判别为正确的结果如下：

分类准确率：98.56%
混淆矩阵：

如何基于谷歌的最强 NLP 模型进行影评分析？

真实评分的分布：

如何基于谷歌的最强 NLP 模型进行影评分析？

模型预测评分的分布：

如何基于谷歌的最强 NLP 模型进行影评分析？

TSNE降维后可视化结果：

如何基于谷歌的最强 NLP 模型进行影评分析？

自注意力机制可视化结果：

如何基于谷歌的最强 NLP 模型进行影评分析？

针对疯狂动物城这部电影，我们做了TF-IDF的词频分析。

词频前三十的词：

如何基于谷歌的最强 NLP 模型进行影评分析？

不同评分的高频词：

如何基于谷歌的最强 NLP 模型进行影评分析？

第一行的1-5是评分，下面的词后面的数字代表的是这个词的出现个数。

最后，用一张词云欢快地结束案例分析：

如何基于谷歌的最强 NLP 模型进行影评分析？

结论

本文用了目前自然语言界最强的模型BERT做迁移学习，效果看起来还挺okay的。
BERT模型可以很好地抽出文字的特征，用于后续的实验。如果小伙伴们有比较好的运算资源，可以把BERT当作是一个类似于word to vector的工具。
自注意力机制不光能提高模型的效能，同时引入此机制能大大加强模型的可解释性。

参考内容：

https://www.zhihu.com/question/298203515/answer/509470502
https://arxiv.org/abs/1810.04805
https://arxiv.org/abs/1703.03130
Github：https://github.com/Chung-I/Douban-Sentiment-Analysis

万水千山总是情，Github给颗星星行不行。我们想给大家提供可读性好、简单明了的代码，所以需要一点时间整理代码，但最近我们忙着准备期末考，等期末考一结束我们就把代码整理好再上传。感兴趣的小伙伴可以先收藏我们的Github，我们上传代码之后各位就可以直接下载参考咯。

作者：台湾大学网红教授李宏毅的三名爱徒，个人公众号井森堡，欢迎志同道合的小伙伴关注，本公众号会不定期更新机器学习技术文并附上质量佳且可读性高的代码。

声明：本文为作者投稿，版权归其个人所有，编辑郭芮。

nlp 谷歌谷歌分析

NgCafai

0 关注 0 粉丝 0 动态

相关推荐

使用NLP创建摘要

你有没有读过很多的报告，而你只想对每个报告做一个快速的总结摘要?你是否曾经遇到过这样的情况?摘要已成为21世纪解决数据问题的一种非常有帮助的方法。在本篇文章中，我将向你展示如何使用Python中的自然语言处理创建个人文本摘要生成器。基本上，在保持关键信息的

csdnfelix 2020-11-12

为什么企业应该了解聊天机器人中的自然语言处理？

自然语言处理使聊天机器人能够理解我们的会话信息并相应地作出响应。企业应该对聊天机器人中的自然语言处理有所了解，因为它可以确定用户意图，评估其情绪并了解其行为。聊天机器人已经成为企业在当今竞争激烈的市场中获得认可的当务之急。利用聊天机器人提供的前所未有的客户

saluzirobot 2020-11-05

本周六锁定成都！解析百度文心（ERNIE）如何助力快速定制企业级NLP模型

继去年巡回公开课后，百度AI快车道将再次锁定天府之国成都！小伙伴们，这周六莫吃火锅喽，一哈去快车道嘛！本周六，百度NLP资深研发工程师将为成都地区的开发者们带来满满的NLP技术干货分享。从文心技术解析到EasyDL实战演练，为你解析如何定制企业高精度NLP

yyhhlancelot 2020-11-04

在预训练NLP模型上测量性别相关性

在过去的几年中，自然语言处理取得了长足的进步，诸如BERT，ALBERT，ELECTRA和XLNet等预训练语言模型在各种任务中均取得较高的准确性。鉴于这样的预训练表示在不同NLP任务中得到广泛采用，作为从业者，我们需要了解预训练模型如何对信息编码以及学习

mxs 2020-10-26

NLP：不要重新造轮子

自然语言处理是一个令人生畏的领域名称。从非结构化文本中生成有用的结论是很困难的，而且有无数的技术和算法，每一种都有自己的用例和复杂性。作为一个接触NLP最少的开发人员，很难知道要使用哪些方法以及如何实现它们。本文的目标读者是希望将自然语言处理快速集成到他们

熊Ok 2020-10-26

NLP/CV模型跨界，视觉Transformer赶超CNN?

在计算机视觉领域中，卷积神经网络一直占据主流地位。不过，不断有研究者尝试将 NLP 领域的 Transformer 进行跨界研究，有的还实现了相当不错的结果。近日，一篇匿名的 ICLR 2021 投稿论文将标准 Transformer 直接应用于图像，提出

cswingman 2020-10-05

人工智能的研究热点:自然语言处理

人工智能作为新一轮科技革命和产业变革的重要驱动力量，正在深刻地影响世界、改变世界。而自然语言处理已成为AI领域的研究热点，它推动着语言智能的持续发展和突破，并越来越多地应用于各个行业。正如国际知名学者周海中先生曾经所言：“自然语言处理是极有吸引力的研究领域

hxq 2020-09-23

性能媲美BERT，参数量仅为1/300，谷歌最新的NLP模型

在最新的博客文章中，谷歌公布了一个新的 NLP 模型，在文本分类任务上可以达到 BERT 级别的性能，但参数量仅为 BERT 的 1/300。在过去的十年中，深度神经网络从根本上变革了自然语言处理领域的发展，但移动端有限的内存和处理能力对模型提出了更高的要

熊Ok 2020-09-22

自然语言处理必读：5本平衡理论与实践的书籍

当谈到学习方法时，我们常常会提到教程、博客文章、在线课程等等，书本总是会被忽略掉。即使是在找一本关于某个主题的书，也会很快发现这样的书太多了，无法快速判断哪一本最适合自己。它也称为NLTK书籍，应用Python进行自然语言处理在整个过程中都很大程度上依赖于

MakeRoomFor 2020-08-30

谷歌开源NLP模型可视化工具LIT，模型训练不再「黑箱」

深度学习模型的训练就像是「黑箱操作」，知道输入是什么、输出是什么，但中间过程就像个黑匣子，这使得研究人员可能花费大量时间找出模型运行不正常的原因。假如有一款可视化的工具，能够帮助研究人员更好地理解模型行为，这应该是件非常棒的事。近日，Google 研究人员

yyhhlancelot 2020-08-26

百度语言与知识技术峰会召开王海峰揭秘NLP技术演进路径

AI正在向更深层次进化，语言与知识技术的重要性愈加凸显。在演讲中，王海峰表示，“在百度语言与知识技术的布局和发展中，我们始终在注意把握两个趋势，即技术发展趋势和产业发展趋势，并力争引领趋势。”

龙心尘 2020-08-25

无需「域外」文本，微软：NLP就应该针对性预训练

在生物医学这样的专业领域训练NLP模型，除了特定数据集，「域外」文本也被认为是有用的。但最近，微软的研究人员「大呼」：我不这么觉得！这是一个拷问人工智能「门外汉」的灵魂问题。但研究人员将这部分归因于数据中的噪声。

mxs 2020-08-10

NLP小白入门篇：莫愁前路，一文读懂语料预处理

自然语言处理是 AI 皇冠上的明珠，而语料预处理是自然语言处理的基础。如今，NLP 技术可以充当人类和机器之间沟通的桥梁。环顾周围的生活，我们随时可以享受到 NLP 技术带来的便利，语音识别、机器翻译、问答系统等等。现在你可以跟随本文，初探 NLP 技术的

天才幻想家 2020-08-03

EasyDL全新升级，文心（ERNIE）3项能力助力快速定制企业级NLP模型

近日，百度文心重磅发布三项功能，新增定制多标签文本分类、情感倾向分析模型等功能，同时数据管理能力也进一步增强，更好地满足自然语言处理领域开发者需求，开发者可通过百度AI开发平台EasyDL进行使用。在2020世界人工智能大会，百度文心荣获最高奖项SAIL奖

PaddlePaddle 2020-07-30

这款NLP神器火了！关键词提取、结果可视化，从小白进阶大神

如何快速优雅地处理你的NLP数据集？试试这款号称「从小白到大神」的Texthero的工具包。不仅编写界面友好美观，而且功能全面，预处理、表征、可视化样样精通，在Reddit上17个小时内就获得了近1.1k的热度。事实上，Texthero的优雅绝不仅仅在于界

yyhhlancelot 2020-07-06

达观数据融合自研OCR与NLP技术推出智能RPA<

2019 年7月 26 日，人工智能企业达观数据在北京召开“达道至简”为主题的产品发布会，正式推出国内首款自主研发集OCR与 NLP于一体的达观智能RPA。RPA作为一种软件产品和解决方案，在国外市场上已进入大规模发展应用。RPA 的价值在于将企业重复性劳

WarGamesdc 2020-06-30

NLP中的标识化

从零开始掌握一门新的语言令人望而生畏。如果你曾经学过一种不是你母语的语言，你就会理解！有太多的层次需要考虑，例如语法需要考虑。这是一个相当大的挑战。这就是自然语言处理中标识化的概念。简单地说，标识化对于处理文本数据十分重要。标识化是一种将文本分割成称为标识

NgCafai 2020-06-28

基于OpenSeq2Seq的NLP与语音识别混合精度训练

Mixed Precision Training for NLP and Speech Recognition with OpenSeq2Seq. 迄今为止，神经网络的成功建立在更大的数据集、更好的理论模型和缩短的训练时间上。为此，我们创建了OpenSeq

bensonrachel 2020-06-21

腾讯AI又创新纪录：ACL 2020入选27篇论文

近日，国际计算语言学协会年会在官网公布了ACL 2020的论文收录名单，共计收录779篇论文。据不完全统计，此次腾讯共有27篇论文入选，投中论文总数刷新国内记录，领跑国内业界AI研究第一梯队。此次ACL 2020的审稿周期相比以往几乎增加了一倍的时间，据最

dynalidan 2020-05-22

一口气发布1008种机器翻译模型，GitHub最火NLP项目大更新：涵盖140种语言组合

现在，你可以用 GitHub 上最火的 NLP 项目做机器翻译了。没错，就是 Hugging Face （抱抱脸）标星26.9k的 Transformer 项目。在最新更新的版本里，抱抱脸发布了 1008 种模型，正式涉足机器翻译领域。模型涵盖 140 种

BigDataDigest 2020-05-19

NgCafai

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号