实例教程：如何用自然语言处理来预测垃圾邮件？

hnshhshjq

2018-11-28

自然语言处理可以帮助计算机进行文本分析，比如说检测垃圾邮件、自动纠错等。那么，自然语言处理技术是如何用于理解人类语言的？

实例教程：如何用自然语言处理来预测垃圾邮件？

本文详细讲述了如何执行基本自然语言处理任务并使用机器学习分类器来预测SMS是垃圾邮件还是非垃圾邮件。通过理论和代码的配合，用最生动的实例让你轻松掌握这一主题。

实例教程：如何用自然语言处理来预测垃圾邮件？

自然语言处理

在机器学习领域中，自然语言处理指的是教会计算机理解、分析、处理并能潜在地生成人类语言。

实例教程：如何用自然语言处理来预测垃圾邮件？

在现实生活中，自然语言处理主要表现在：

信息检索（谷歌发现相关或者相似的结果）
知识提取（谷歌邮箱从无数邮件中构建事件信息）
机器翻译（谷歌翻译将一种语言翻译成另一种语言）
文本简化（Rewordify能够简化句子含义）
情感分析（Hater News能够展现用户的情感）
文本总结（Smmry或者Reddit的 autotldr机器人能够总结句子）
垃圾邮件过滤（谷歌邮箱能够过滤垃圾邮件）
自动预测（谷歌搜索能够预测用户的搜索结果）
自动纠错（谷歌键盘和 Grammarly能够纠正拼写错误）
语音识别（谷歌 WebSpeech或者Vocalware）
问答（IBM的沃森机器人能够对问题进行回答）
自然语言生成（从图像或者视频数据中生成文本）

(Natural Language Toolkit)NLTK: NLTK是一套基于python的自然语言处理工具集。NLTK不是从头开始构建所有工具，而是提供所有常见的自然语言处理任务。

实例教程：如何用自然语言处理来预测垃圾邮件？

安装NLTK

在Jupyter Notebook中键入pip以用来安装 NLTK，或者如果它不在cmd类型中起作用，请输入-da conda-forge nltk。这应该适用于大多数情况。

安装NLTK链接： http://pypi.python.org/pypi/nltk

导入NLTK库

实例教程：如何用自然语言处理来预测垃圾邮件？

在输入以上信息之后，我们就会得到NLTK Downloader Application，这在自然语言处理任务中是非常有用的。

实例教程：如何用自然语言处理来预测垃圾邮件？

在系统中已经安装了Stopwords Corpus，这有助于删除多余的重复单词。同样，我们可以安装其他有用的工具包。

实例教程：如何用自然语言处理来预测垃圾邮件？

读取和发现数据集

为什么需要清理文本？

在读取数据时，以结构化或非结构化格式获取数据。结构化格式是具有明确定义的模式，而非结构化数据没有适当的结构。在这两种结构之间，可采用半结构化格式，其结构比非结构化格式更好。

实例教程：如何用自然语言处理来预测垃圾邮件？

从以上信息可以看到，当读取半结构化数据时，很难对这些数据做出解释，所以可以使用pandas来轻松理解数据。

实例教程：如何用自然语言处理来预测垃圾邮件？

实例教程：如何用自然语言处理来预测垃圾邮件？

预处理数据

为了能够突显机器学习系统能够接受的属性，对文本数据进行清理非常必要的。

对数据进行清理（或预处理）的步骤

1. 删除标点符号

标点符号可以提供语法语境以能够帮助我们理解句子。但是对于矢量化数据来讲，它计算的是单词的数量而不是靠上下文来理解，标点不会增加价值，所以可以删除所有的特殊字符。例如：How are you? >How are you

实例教程：如何用自然语言处理来预测垃圾邮件？

在body_text_clean中，像 I’ve-> I’ve这样的所有标点都被省略了。

2.标记化

标记化将文本分成句子或单词等单位。它为以前的非结构化文本提供了结构。例如：Plata o Plomo->'Plata'，'o'，'Plomo'。

实例教程：如何用自然语言处理来预测垃圾邮件？

In body_text_tokenized, we can see that all words are generated as tokens.

在body_text_tokenized中，我们可以看到所有单词都生成为标记。

3.删除停用词

停用词是可能出现在任何文本中的常用词。他们没有提供太多的数据信息，所以我们进行删除处理。例如：silver or lead is fine for me-> silver, lead, fine.

实例教程：如何用自然语言处理来预测垃圾邮件？

在body_text_nostop中，删除了所有不必要的单词，例如been，for。

词干提取

词干提取有助于将词语简化为词干形式。通常来讲，以相同的方式处理相关单词是有意义的。它通过简单的基于规则的方法去除了诸如“ing”，“ly”，“s”等内容。它减少了单词的语料库，但实际的单词往往被忽略了。例如：Entitling，Entitled-> Entitl

注意：某些搜索引擎会将与词干相同的词视为同义词。

实例教程：如何用自然语言处理来预测垃圾邮件？

在body_text_stemmed中，像entry，wkly这样的词语被包含在entri中，即使wkli没有任何意义。

单词变体还原

单词变体还原派生出一个单词的规范形式，即根形式。它优于词干，因为它是基于字典的，即对词根的形态分析。例如：Entitling，Entitled-> Entitle

简而言之，词干提取通常更快，因为它只是简单地删除单词的结尾，而不理解单词的上下文。单词变体还原更慢，更准确，因为它需要根据单词的上下文进行准确的分析。

实例教程：如何用自然语言处理来预测垃圾邮件？

在body_text_stemmed中，我们提取像chances这样的词被单词变体还原为chance，而它可以被提取成chanc。

实例教程：如何用自然语言处理来预测垃圾邮件？

矢量化数据

矢量化是将文本编码为整数（即数字形式）以创建特征向量的过程，以便机器学习算法可以理解数据。

词袋（Bag-Of-Words模型）

Bag of Words（BoW）或CountVectorizer描述了文本数据中存在的单词。如果句子中存在则给出1的结果，如果不存在则给出0。因此，它在每个文本文档中创建了一个包含文档矩阵计数的单词。

实例教程：如何用自然语言处理来预测垃圾邮件？

BOW应用于body_text，因此每个单词的计数存储在文档矩阵中。

N-Grams

N-gram是在源文本中找到的相邻单词或长度为n的字母的所有组合。n=1的Ngrams称为unigrams。类似地，也可以使用bigrams（n=2），trigrams（n=3）等。

实例教程：如何用自然语言处理来预测垃圾邮件？

与bigrams和trigrams相比，Unigrams通常不包含太多信息。n-gram背后的基本原理是它们认为字母或单词可能遵循给定的单词。n-gram越长（n越高），你需要处理的环境越多。

实例教程：如何用自然语言处理来预测垃圾邮件？

N-Gram应用于body_text，因此句子词中每个组词的计数存储在文档矩阵中。

TF-IDF

TF-IDF能够计算文档中出现的单词与其在所有文档中的频率相比的“相对频率”。它比“术语频率”更有助于识别每个文档中的“重要”单词（该文档中的频率高，其他文档中的频率低）。

注意：将其用于搜索引擎评分，文本摘要，文档聚类。

实例教程：如何用自然语言处理来预测垃圾邮件？

TF-IDF应用于body_text，因此句子中每个单词的相对计数存储在文档矩阵中。

注意：矢量化器输出稀疏矩阵。稀疏矩阵是一个矩阵，其中大多数条目为0。为了有效存储，将仅存储非零元素的位置来存储稀疏矩阵。

实例教程：如何用自然语言处理来预测垃圾邮件？

特征工程：特征创造

特征工程指的是这样一个过程——在这个过程中使用数据领域知识来创建使机器学习算法起作用的特征。因为需要专业领域的知识，并且很难创建特征，它甚至更像一门艺术，不过机器学习算法可以很有效地预测结果。

实例教程：如何用自然语言处理来预测垃圾邮件？

body_len显示排除邮件正文中空格的单词长度。
punct％显示邮件正文中标点符号的百分比。

检查特征是否正确

实例教程：如何用自然语言处理来预测垃圾邮件？

我们可以清楚地看到，与Hams相比，Spams拥有大量的单词。所以这是一个很好的区分功能。

实例教程：如何用自然语言处理来预测垃圾邮件？

Spam有一定比例的标点符号，但与Ham相比相差并不远。令人惊讶的是，Spam有时会包含很多标点符号。但是，它仍然可以被认为是一个很好的功能。

实例教程：如何用自然语言处理来预测垃圾邮件？

构建机器学习分类器：模型选择

使用机器学习的集合学习算法需要使用多个模型，它们组合产生的结果比单个模型（支持向量机/朴素贝叶斯）更好。集合学习算法是许多Kaggle比赛的首选。例如，构建随机森林，即构建多个随机决策树，并将每棵树的聚合用于最终预测。它可以用于分类以及回归问题，遵循随机的套袋策略。

Grid-search：它详尽地搜索给定网格中的整体参数组合以确定最佳模型。

Cross-validation：它将数据集划分为k个子集并使用同样的方法将其重复k次，在每次迭代中使用不同的子集作为测试集。

实例教程：如何用自然语言处理来预测垃圾邮件？

n_estimators和max_depth的mean_test_score = 150给出最佳结果。其中n_estimators是林中树的数量（决策树组），max_depth是每个决策树中的最大级别数。

实例教程：如何用自然语言处理来预测垃圾邮件？

类似地，n_estimators = 150和max_depth = 90的mean_test_score给出最佳结果。

提高：可以使用GradientBoosting、XgBoost进行分类。GradientBoosting采用迭代方法将弱学习者结合起来，通过关注先前迭代的错误来创建强大的学习者，这需要花费大量的时间。简而言之，与Random Forest相比，它遵循顺序方法而不是随机并行方法。

实例教程：如何用自然语言处理来预测垃圾邮件？

Spam-Ham分类器

所有上面讨论的部分被组合以构建Spam-Ham分类器。

实例教程：如何用自然语言处理来预测垃圾邮件？

随机森林的准确率为97.7％。从模型中也获得高价值的F1得分。混乱矩阵告诉我们，我们正确预测了965个ham和123个spam。0个ham被错误地识别为垃圾邮件，26个spam被错误地预测为ham。与把ham错误地识别为spam相比，将spam检测为ham是合理的。

以上代码可以在Github Repo中找到。

实例教程：如何用自然语言处理来预测垃圾邮件？

编译组：草田

相关链接：

https://towardsdatascience.com/natural-language-processing-nlp-for-machine-learning-d44498845d5b

如需转载，请后台留言，遵守转载规范

自然语言处理机器学习

hnshhshjq

0 关注 0 粉丝 0 动态

相关推荐

为什么企业应该了解聊天机器人中的自然语言处理？

自然语言处理使聊天机器人能够理解我们的会话信息并相应地作出响应。企业应该对聊天机器人中的自然语言处理有所了解，因为它可以确定用户意图，评估其情绪并了解其行为。聊天机器人已经成为企业在当今竞争激烈的市场中获得认可的当务之急。利用聊天机器人提供的前所未有的客户

saluzirobot 2020-11-05

MIT 推出机器翻译新算法，破译已消失的古语言

麻省理工学院计算机科学与人工智能实验室的研究人员最近开发出了一种新的计算机算法，可以帮助语言学家自动破译历史上消失已久失的古语言。官方指出，该系统能够自动破译已消失的语言，且无需对这一语言与其他语言的关系有深入的了解。他们还表明，该系统自身就可以确定语言之

baijingjing 2020-10-27

NLP：不要重新造轮子

自然语言处理是一个令人生畏的领域名称。从非结构化文本中生成有用的结论是很困难的，而且有无数的技术和算法，每一种都有自己的用例和复杂性。作为一个接触NLP最少的开发人员，很难知道要使用哪些方法以及如何实现它们。本文的目标读者是希望将自然语言处理快速集成到他们

熊Ok 2020-10-26

十大针对机器学习的文本注释工具与服务，你会选用哪个？

下面，我将和您一起探讨目前十大针对机器学习的文本注释工具与服务。您可以根据自己项目的实际情况，从中做出选择并试用。Tagtog是一款由波兰软件公司开发的工具，可用于自动化或手动注释文本。Tagtog既支持原生的PDF注释，又包含了可用于自动化文本注释的预训

lgblove 2020-10-23

机器翻译：谷歌翻译是如何对几乎所有语言进行翻译的？

谷歌翻译大家想必都不陌生，但你有没有想过，它究竟是如何将几乎所有的已知语言翻译成我们所选择的语言？本文将解开这个谜团，并且向各位展示如何用长短期记忆网络构建语言翻译程序。第一部分简单介绍神经网络机器翻译和编码器-解码器结构。什么是机器翻译？在机器翻译领域，

WhiteHacker 2020-10-11

AI创业哪家强？6大选择给你方向

人工智能被认为是当代“最热门”的工作。根据《财富》杂志统计，雇佣AI专家的人数在过去4年里增长了74%，社会对人工智能专家的需求正以前所未有的速度增长。人工智能的子领域，如机器学习、深度学习、计算机视觉、统计学和自然语言处理，对这些领域专家的需求和空缺职位

guojin0 2020-10-08

自然语言处理实战：机器学习常见工具与技术

许多自然语言处理都涉及机器学习，所以理解机器学习的一些基本工具和技术是有益处的。有些工具已经在前几章中讨论过，有些还没有，但这里我们会讨论所有这些工具。数据选择和特征工程会带来偏见的风险。类似的种族、宗教甚至地理区域偏见在原始的Word2vec模型中普遍存

lirika 2020-09-27

人工智能的企业家来说，这四个新的方向可能值得重视

在过去、现在和未来，人们用人工智能改变了许多行业，取得了很大的进步，也对人工智能有着长期和系统的发展远景和规划。对于人工智能的企业家来说，这四个新的方向可能值得重视：一是人类的自然语言处理、密集学习、记忆网络和其他技术领域与其他物种不同。人类的重要能力之一

saluzirobot 2020-09-25

人工智能的研究热点:自然语言处理

人工智能作为新一轮科技革命和产业变革的重要驱动力量，正在深刻地影响世界、改变世界。而自然语言处理已成为AI领域的研究热点，它推动着语言智能的持续发展和突破，并越来越多地应用于各个行业。正如国际知名学者周海中先生曾经所言：“自然语言处理是极有吸引力的研究领域

hxq 2020-09-23

性能媲美BERT，参数量仅为1/300，谷歌最新的NLP模型

在最新的博客文章中，谷歌公布了一个新的 NLP 模型，在文本分类任务上可以达到 BERT 级别的性能，但参数量仅为 BERT 的 1/300。在过去的十年中，深度神经网络从根本上变革了自然语言处理领域的发展，但移动端有限的内存和处理能力对模型提出了更高的要

熊Ok 2020-09-22

AI写的文章，真的可以骗过老师了

在过去的几年里，机器学习和人工智能的专家们一直致力于研究一些算法，这些算法可以用以前认为人类完全可以写的方式撰写文章和其他类型的内容。前段时间，一位学生用编程语言让电脑写了一篇文章在外网火了，网友都看不出来那篇文章出自AI之手。随着这些技术越来越先进，我们

randy0 2020-09-17

自然语言处理必读：5本平衡理论与实践的书籍

当谈到学习方法时，我们常常会提到教程、博客文章、在线课程等等，书本总是会被忽略掉。即使是在找一本关于某个主题的书，也会很快发现这样的书太多了，无法快速判断哪一本最适合自己。它也称为NLTK书籍，应用Python进行自然语言处理在整个过程中都很大程度上依赖于

MakeRoomFor 2020-08-30

无需「域外」文本，微软：NLP就应该针对性预训练

在生物医学这样的专业领域训练NLP模型，除了特定数据集，「域外」文本也被认为是有用的。但最近，微软的研究人员「大呼」：我不这么觉得！这是一个拷问人工智能「门外汉」的灵魂问题。但研究人员将这部分归因于数据中的噪声。

mxs 2020-08-10

pytorch+huggingface实现基于bert模型的文本分类（附代码）

一年前的这个时候，我逃课了一个星期，从澳洲飞去上海观看电竞比赛，也顺便在上海的一个公司联系了面试。当时，面试官问我对RNN的了解程度，我回答“没有了解”。但我把这个问题带回了学校，从此接触了RNN，以及它的加强版-LSTM。时隔一年，LSTM好像已经可以退

qilixuening 2020-07-18

NLP中的标识化

从零开始掌握一门新的语言令人望而生畏。如果你曾经学过一种不是你母语的语言，你就会理解！有太多的层次需要考虑，例如语法需要考虑。这是一个相当大的挑战。这就是自然语言处理中标识化的概念。简单地说，标识化对于处理文本数据十分重要。标识化是一种将文本分割成称为标识

NgCafai 2020-06-28

基于OpenSeq2Seq的NLP与语音识别混合精度训练

Mixed Precision Training for NLP and Speech Recognition with OpenSeq2Seq. 迄今为止，神经网络的成功建立在更大的数据集、更好的理论模型和缩短的训练时间上。为此，我们创建了OpenSeq

bensonrachel 2020-06-21

人工智能的8个有用的日常例子

如果你在谷歌上搜索“人工智能”这个词，然后不知怎的就打开了这篇文章，或者用优步打车上班，那么你就利用了人工智能。虽然有人将其称为“机器人以邪恶的天才统治世界”的现象，但我们无法否认人工智能通过节省时间、金钱和精力使生活变得轻松。人工智能是指机器通过专门设计

womystery 2020-06-17

人工智能的三大领域及其工业应用

人工智能是一门新兴的技术学科，研究和开发用于模拟人类智能的扩展和扩展的理论，方法，技术和应用系统。人工智能研究的目标是让机器执行一些复杂的任务，这些任务需要聪明的人来完成。也就是说，我们希望机器可以代替我们来解决一些复杂的任务，不仅仅是重复的机械活动，而是

purgle 2020-06-01

腾讯AI又创新纪录：ACL 2020入选27篇论文

近日，国际计算语言学协会年会在官网公布了ACL 2020的论文收录名单，共计收录779篇论文。据不完全统计，此次腾讯共有27篇论文入选，投中论文总数刷新国内记录，领跑国内业界AI研究第一梯队。此次ACL 2020的审稿周期相比以往几乎增加了一倍的时间，据最

dynalidan 2020-05-22

什么是机器阅读理解？跟自然语言处理有什么关系？

学者C. Snow于2002年发表的一篇论文中将阅读理解定义为“通过交互从书面文字中提取与构造文章语义的过程”。而机器阅读理解的目标是利用人工智能技术，使计算机具有和人类一样理解文章的能力。深度学习的特点是，模型能根据训练集上预测的准确度直接优化参数，不断

xceman 2020-04-30

hnshhshjq

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号