机器学习当道，还在使用基于词典的文本挖掘方法么，过时啦！

navixin

2018-07-18

在多数企业中，体现客户与产品间联系的数据就占到总数据量的80%。对于企业来说，在制定主要策略时，使用文本挖掘客户与产品间的关系至关重要。由于众包挖掘和分析通常充满错误、花费昂贵且不具有伸缩性，企业通常会选择自动化技术进行文本挖掘及分析，并生成用户文档。

机器学习技术因其在挖掘文本方面具有良好的适应性而备受研究者的青睐。然而，多数企业在进行大部分文本挖掘工作时仍然依赖于基于预先标记的词典方法。

在本文中，我们将重点介绍基于几种基于词典的文本挖掘方法，其次会简明概述当数据集发生改变时，机器学习如何以更高的准确性和适应性取代这些方法。

观点挖掘

人们通常会针对产品、新闻、名人等各种话题发表评价。当消费者需要做出购买决策时，他们会倾向于参照其它消费者对该商品的评价，然后再做出决定。由于人们会对各种实体发表自己的看法，挖掘出评论中所隐含的信息变得尤为重要。观点挖掘不仅能够帮助企业获取更多的产品及服务信息，而且有助于企业做出更为明智的决策。

就好比有这样一句话：“这款手机的电池很差，甚至待机不超过四个小时”，该评论是关于手机（目标）的“电池寿命”，且评论透露出消极情绪。日常生活中，许多应用场景中都需要这样的分析，并且应该更加深入，这样才能有助于企业明确产品中的哪些组件或特征更有市场，或者哪些需要在下次更新中予以改进。

观点挖掘在自然语言处理（NLP）、文本分析和计算机语言学中是一项较大的挑战。在此，我们将讨论相关研究工作的最新进展，这些工作集中于对在互联网中产生的用户文档（例如评论、评价）以及平台上的交互（例如微博、论坛和社交网站）进行评论挖掘。

关键字检索（词袋法）

在词袋模型中，一个句子或者一篇文档均能被看作一个包含词语的“袋子”。词袋模型会更多地考虑词语和它们所在句子或文档中出现的频率，而忽略其在句子中的语义关系。市场营销人员罗列出了透露积极情绪和消极情绪的词汇列表，并尝试分析这两种情绪在某个文档中谁占主导地位（若两种词出现的次数都很少，则视为“无评价”）。词袋模型通过在线词典搜索同义词和反义词对情绪进行判断。

举个例子，当我们需要从众多的用户评论中过滤出与价格相关的评论时，通常是对价格进行关键字搜索，或者搜索与价格密切相关的词语，比如定价、收费、支付等。

当然，词袋法也是有其局限性的，它无法很好的处理大规模的文本挖掘任务。

局限性

人类自身局限——想出能代表一个特定概念的所有相关关键词或者它们的变体是极其困难的，所以建立和更新词库对提升准确性格外重要。

领域知识的欠缺——当一个领域的子分支词典应用于其他领域时，可能会产生相反的效果。许多词语在别的场景中体现出消极的情绪，但换种场景，也许就变成积极情绪了，就拿“高油价”来说，它在石油公司看来则是具有积极意义的词。而且，对于句子本身体现积极情绪，但其中所含词语具有消极情绪的情况也不适用，比如“fix the broken economy”以及“taste was not bad”，可这样的说法在日常生活中屡见不鲜。

推陈出新，机器学习！

利用机器学习技术，用户能够部署AI用于挖掘非结构化数据。由于其良好的适应能力以及准确性，机器学习技术备受研究学者的青睐。在利用机器学习技术对文本进行挖掘时，通常包含如下四个步骤：数据采集，数据预处理，数据训练，结果的测试及验证。在训练集中，提供了一组带标签的数据。根据训练数据集构建一个模型，该模型可用于对新产生的文本进行分类。在收集到足够多的评论并对它们进行深入且正确的分析后，你就能准确的了解大多数人的感受。当然，这不仅仅与人们的感受有关，也与产生这种感觉的因素有关。

模式挖掘

在分类场景中，为了计算出与特定标签高度相关的文本模式，我们可以先在小部分已标记的训练集中使用模式发现算法。分类器识别单词之间的关系的同时还对其进行存储，方便后续对新产生的文档进行分析。举个例子，我们需要区分出给公司的反馈邮件中所表达的情绪。此时，与负面情绪标签有高度相关性的常见文本可能是“我将选择XYZCorp”，其中XYZCorp是竞争公司的名字。一旦分类器学会了这一点，它就可以像人类一样将其他新文档归类到标签中。

各种情绪背后的动因是什么呢？

了解到情绪产生的动因，就能够在评论数据中挖掘出特定领域的优势及劣势。比如，公司高管们可以根据这些数据进行有针对性、战略性的改革，以提高盈利能力或者增加市场份额的占比。

在政府部门，这些数据可以用来制定与选民产生共鸣的策略和竞选活动，并针对选民不断变化的需求做出及时的调整。并且，通过分析情绪产生的动因，观点挖掘使得人们具有更加深刻的社会洞察力——一个了解人们想法和感受的窗口。

通过分析情绪以及情绪产生的动因，银行可能会发现，在众多的反馈意见中，排队以及等待时长是顾客最在意的。

一家快餐连锁店通过对数据进行分析也许会了解到，尽管他们有着优秀的服务水平，但对顾客而言，他们的食物分量与其竞争对手相比太少了。

若你想尝试文本挖掘，你可以使用我们现成的文本分类模型，如情感分析和情绪分析，或者使用自定义分类器API构建自己的分类器。所有的API都可以在Excel Plugins 或Google Sheets add-on中使用，以便你利用电子表格进行文本挖掘。

对于企业来说，文本分类模型可以用于公有云或私有云部署，以保证较低的延迟，并符合隐私法。

你可以在这里发现更多的文本分类模型。

你也可以在这里阅读更多有关文本分类的内容。

以上为译文

阿里云云栖社区组织翻译。

文章原标题《Reasons to Replace Dictionary Based Text Mining with Machine Learning Techniques》，作者：Shashank Gupta，译者：Elaine，审校：袁虎。

作者：【方向】

机器学习自然语言处理文本分类文本分析

安科网

机器学习当道，还在使用基于词典的文本挖掘方法么，过时啦！

navixin

观点挖掘

关键字检索（词袋法）

局限性

模式挖掘

各种情绪背后的动因是什么呢？

navixin

相关推荐

为什么企业应该了解聊天机器人中的自然语言处理？

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

理解AI：为什么要在人工智能系统中寻求可解释性呢？

机器学习的未来就在这里：高斯过程和神经网络是等价的

Python 用5行代码学机器学习—线性回归

navixin