从产品评论窥探用户感受,自然语言处理做了什么?

点击上方关注,All in AI中国

作者:Gunnvant Saini

在这篇文章中,我将展示如何使用自然语言处理从产品评论中提取关键字(方面)。这个想法主要是为了复制亚马逊的评论。例如,在下图中,您可以看到,根据给定产品的评论,提取关键词,然后允许用户通过这些关键词来搜索评论。

从产品评论窥探用户感受,自然语言处理做了什么?

amazon.in中基于关键字的搜索

我将尝试复制生成这些关键字的过程,然后可以使用这些关键字。

做各种各样的任务,从基于关键字的搜索到基于它的情绪分析。让我们开始吧。

NLP:这是什么?

在我们开始方面提取的任务之前。让我们了解自然语言处理是什么。

NLP,是一种让计算机理解人类语言的尝试。计算机可以轻松理解编程语言。但是,我们如何确保计算机能够理解人类语言?要了解NLP,让我们了解哪些主要任务可归类为NLP任务。

1.标记化:人类可以阅读和理解语言,因为我们可以轻松识别给定文档中的单词、句子、段落等。大多数NLP框架允许计算机理解文本的哪些部分是单词、句子或段落。

2.词性标注:另一个语言理解的特征是人类能够识别语言中的语法元素。例如,我们可以很容易地在给定的句子中找出哪个词充当动词、名词或代词等。NLP框架允许计算机识别文本中每个单词的语法功能。

3.依赖解析:当我们查看任何句子时,我们不仅可以识别语法元素,还可以识别它们如何以“主语”的形式相互关联,以及什么是给定句子中的“宾语”的形式存在。我们也理解句子中的名词短语是什么,它如何与其他短语以及给定句子中的单词相关。NLP工具包也有助于完成此任务。

4.共同引用解析:人类能够轻松破译代词与句子中不同语法元素的关系。例如在文中

“莫迪指责反对派用双重标准。他今天在议会提出这一指控。”

我们知道第二句中的“他”指的是莫迪。而使用NLP框架,可以轻松地构建规则以理解文本中的哪个代词指的是哪个名词或与哪个名词短语相关。

5.命名实体识别:我们可以很自然地判断一个句子中的单词是指一个人、一个地方、一个日期,还是公司实体等。即使我们之前没有看到这个单词,但我们仍能够正确猜测该单词引用哪个实体。例如,在下面的句子中:

“康科迪亚宣布向股东派发3000万美元股息。”

虽然我们可能从来没有听说过“康科迪亚”是一家公司,但我们仍然可以合理地说它指的是一个公司。NLP框架还可以帮助计算机理解给定单词所指的“实体”。

从产品评论窥探用户感受,自然语言处理做了什么?

提取关键字(方面)

为了复制亚马逊所做的事情,我将展示如何提取关键词。我们会很依赖基于规则的方法,利用评论的语法结构。这种方法适用的假设是,一般的评论是以尊重语法规则的方式编写的。我们将使用的语法规则是:

“删除了常用词语的文本中最常用的名词,就会揭示文本中的关键词(方面)。”

要在产品评审意见库上实施此规则,将需要进行以下预处理的部分。

  1. 从语料库中提取单词标记
  2. 删除常用词
  3. 提取所有名词
  4. 找出最常见的5个名词,它们将是关键词

我使用spacy来实现NLP管道。

以下是我撰写的用于从特定产品的评论中提取关键词的功能,这是一个非常受欢迎的手机品牌。评论是由在班加罗尔Jigsaw学院从事学期项目的学生团队收集的。 (https://www.jigsawacademy.com/)

从产品评论窥探用户感受,自然语言处理做了什么?

下一步

一旦您能够从产品评论中识别关键词,您就可以尝试构建基于它的搜索,甚至可以尝试进行基于它的情绪分析。基于它的情感分析可用于找出人们对产品的不同特征的感受。例如,人们通常对手机的电池寿命感兴趣。

从产品评论窥探用户感受,自然语言处理做了什么?

相关推荐