使用textfeatures自动生成文本数据

zhaorui0

2018-08-30

点击上方关注，All in AI中国

许多Kaggle比赛获胜者和数据科学家强调的一件事可以让你在竞赛中排在榜首的是“特征工程”。无论您的模型有多复杂，优秀的功能将始终比其他功能更好地帮助您的机器学习模型构建过程。

使用textfeatures自动生成文本数据

什么是特征工程？

特征只是列/维度，特征工程是基于域知识或统计原则创建新功能或预测器的过程。特征工程一直伴随着机器学习，但最新的自动化特征工程已成为最近的事情研究人员开始使用机器学习本身来创建有助于模型准确性的新功能。虽然大多数自动化特征工程都处理数字数据，但文本数据由于其固有的非结构化特性，在这场竞赛中一直被忽略。

textfeatures - R包

密苏里大学的助理教授Michael Kearney在现代推特软件包rtweet的R社区中享有盛名，他提出了一个名为textfeatures的新R套件，它会为您提供的任何文本数据都生成一系列功能。在您梦想基于深度学习的自动文本特征工程包之前，不是这样。这使用非常简单的文本分析原则，并生成大写字母数，标点数等特征，东西简单，没什么花哨但非常有用。

安装

使用textfeatures自动生成文本数据

textfeatures可以直接从CRAN安装，开发版本可以在github上获得。

用例

在这篇文章中，我们将使用textfeatures包为来自英国的Fifa官方世界杯ios应用程序评论生成功能。我们将打包itunesr以提取评论和tidyverse，用于数据操作和绘图。

加载所需的包：

让我们加载所有必需的包。

使用textfeatures自动生成文本数据

提取最近的评论:

使用textfeatures自动生成文本数据

textfeatures 魔法开始：

使用textfeatures自动生成文本数据

正如我们得到的评论，让我们允许textfeatures发挥其魔力。我们将使用函数textfeatures（）来做到这一点。

如上所示，textfeatures创建了17个新功能。请注意，对于任何文本数据，这些功能都将保持不变。

可视化结果：

对于这篇文章，我们不会建立机器学习模型，但这些功能可以很好地用于构建分类模型，如情感分类或类别分类。

但是现在，我们将通过一些功能可视化结果。

我们可以看到，在评论评级方面，每个单词的字符数和字符数之间是否存在任何关系。一个假设可能是，给予良好评级的人不会写很长或其他。我们不会在这里验证它，而只是使用散点图进行可视化。

使用textfeatures自动生成文本数据

给出以下图：

使用textfeatures自动生成文本数据

让我们用不同的情节给同一个假设带来不同的视角，但是要用不同的情节，而不是大量的文字。

使用textfeatures自动生成文本数据

得到下图：

使用textfeatures自动生成文本数据

因此，您可以使用textfeatures自动生成新功能并更好地理解文本数据。希望这篇文章可以帮助您开始使用包。这里使用的完整代码可以在github上找到。（https://github.com/amrrs/blogpost_codes/blob/master/textfeatures_demo.R）

使用textfeatures自动生成文本数据

机器学习大数据文本分析

安科网

使用textfeatures自动生成文本数据

zhaorui0

zhaorui0

相关推荐

需要知识的后深度学习时代，如何高效自动构建知识图谱

数据科学面试中应了解的十种机器学习概念

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中处理缺失值的9种方法

人工智能和机器学习如何从物联网数据中提取关键见解

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

zhaorui0