R语言文本挖掘+词云显示（jiebaR包+wordcloud2包）

btr的心灵鸡杂汤

2018-04-22

利用2018年政府工作报告的例子向大家展示一下R语言如何进行文本挖掘的~用到的包有jiebaR和wordcloud2。

1、安装并加载jiebaR

install.packages("jiebaR")
library(jiebaR)

2、以2018年政府工作报告为文本，进行分词

（1）首先要将2018年政府工作报告以txt的形式下载到R语言的工作路径中

读取文本：

text<-readLines("E:/R-3.4.4/bin/workdirection/report.txt");text    #readLines（）用来读取不规则文本

（2）分词处理：

seg<-worker();seg<=text

segment(text,seg)  #方法2

（3）词性标注（不是必要的步骤）

seg2<-worker("tag")
segment(text,seg2)

（4）关键词提取

seg3<-worker(type="keywords",topn=)
seg3<=text

发现报错了：Error in key_ptr(topn, dict, hmm, idf, stop_word, user) : std::bad_alloc

应该是段落太多了，尝试另外一种方法

for(i in text){a<-seg3<=i;print(a)}

4.95979
"代表"
11.7392 11.7392 9.43974 8.55357
"过五" "请予" "提出" "全国政协"
8.40548 7.26211 6.71757 6.4807
"工作" "审议" "委员" "国务院"
6.16263 5.87811
"大会" "意见"

这是一部分的关键词，这样就可以了。

（5）对文本去除一些不必要的

text1<-gsub('[a-zA-Z]','',text) #去除所有英文字母
text2<-gsub("[的|和|了|来|与|到|由|等|从|以|一|为|在|上|各|去|对|侧|多|并|千|万|年|更|向|这是]","",text1)

再进行分词：

seg<-worker()
seg<=text2

（6）建立词频

freq<-freq(segment(text2,seg))

排序！很重要：

index <- order(-freq[,])
order2<-freq[index, ];order2

这是降序排的，如果升序排最后显示的词云图词频大的词在外边

（7）制作词云图

library(wordcloud2)
wordcloud2(order2,size = ,minRotation = -pi/, maxRotation = pi/,rotateRatio = 0.8,fontFamily = "微软雅黑", color = "random-light")

展示一下主旋律嘻嘻嘻

————————————————————————————

第一篇写的很匆忙，很多都没有扩展，下次会继续加油的！！

：）

r语言

btr的心灵鸡杂汤

0 关注 0 粉丝 0 动态

关注关注

如何使用R语言在SAP Analytics Cloud里绘制各种统计图表

一定要确保图形出现这个model的小图标，代表这个R visualization的模型数据成功绑定之后才能进行下一步操作：。模型绑定成功后，在R script编辑器Environment标签页的Data下拉菜单里能看到模型数据。excel系统导入SAP A

GigibondBaby 2020-09-21

R语言基本绘图-plot参数：标题，坐标轴和颜色

R语言预设了五个基本配色系统，分别为rainbow，heat.colors，terrain.colors，topo.colors和cm.colors色阶如下。设置基本配色时，可通过scale包下的show_col()预览颜色，或通过Colors Lite取

大史哥哥 2020-07-26

C程序设计语言（K&R）

　　The C Programming Language，C程序设计语言（K&R），为C语言的设计者Dennis M. Ritchie和著名的计算机科学家Brian W．Kernighan合著的一本介绍C语言的权威经典著作，学习c语言至今，第一

json0000 2020-07-26

Python和R哪个更适合机器学习?

机器学习是比较非常不错的发展领域，而python和R语言在机器学习中都可以应用，因此很多人都会疑惑python和R语言哪个更适合机器学习呢?　　python编程语言创建于80年代后，最初用于Google内部框架方面。　　企业想要度量和统计数据以外的其他功能

CYJ0go 2020-07-17

分析了上千张照片发现：R 语言程序员最快乐，Java 开发者最年轻

在 IT 的世界里，人们形成了很多种刻板印象，比如“PHP 是最差的编程语言”，或者“Python 只适合初学者”。所幸的是，我们可以通过 GitHub 和开发者调查来找出真相。GitHub 想必大家都很熟悉了，它不仅是一个版本控制工具，而且还可以用于收集

佛系程序员J 2020-06-18

如何用R语言绘制生成正态分布图表

在概率课程中经常会看到标准的正态分布表。现在，我们用R语言生成它。[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]. [1,] 0.5000 0.5040 0.5080

json0000 2020-06-10

R语言常用函数：交集intersect、并集union、找不同setdiff、判断相同setequal的运用

# 两个字符向量取交集intersect# [1] "b" "c" "d". x = 1:4y = 2:6# 找x中不同于y的元素setdiff# [1] 1# 找y中不同于x的元素setdiff

M守护神 2020-06-10

R语言条形图

H是包含在条形图中使用的数值的向量或矩阵。ylab是y轴的标签。names.arg是在每个条下出现的名称的向量。col用于向图中的条形提供颜色。#dev.off() 判断当前图片输出设备是否有可用的，如果没有那也不用执行dev.off()这句话了

M守护神 2020-06-09

数据分析用python语言有什么好处?

数据分析对于各个行业都起到了非常重要的作用，那么应该如何进行数据分析呢?python的出现刚好可以解决我么的烦恼，作为数据分析的一大利器，python做数据分析的时候拥有众多优势，广受大家的喜欢。而且python使用人数不断飙升，也有不少R语言人转向pyt

playoffs 2020-06-02

Python还是R语言？怎样学数学？机器学习的征程从这里开始……

不系之舟讨论群0 2020-06-01

R语言tidyverse

tidyverse library把data.frame拓展tibble、读取数据readr、清洗数据tidyr、文本处理stringr、加工数据dplyr、画图ggplot2等library打包在一起。读取数据readxl、时间处理lubridate另外

天空windy 2020-05-28

R语言基础-统计函数

概率论是统计学的基础，R有许多用于处理概率，概率分布以及随机变量的函数。R对每一个概率分布都有一个简称,这个名称用于识别与分布相联系的函数。r + 后缀() 产生相同分布的随机数。生成均值为15，方差为2，服从正态分布的100个数。生成50个1-100之间

wbingyang 2020-05-16

R语言删除不规范的值(或NA)

　　在使用R语言处理表格时，有时里面含有缺失值，或者不规范的数值，比如下图有许多的问号“?”，为了便于处理数据，这些都应该整行地删掉。"的行，需要先找到那些行，方法如下，通过 which 函数找到对应行标。[1] 24 41 140 146

天空windy 2020-05-15

R语言factor类型转numeric

　　R 语言中为了进行数据分析，比如回归分析，这时候对于数据表格中的factor类型的数据会带来弊端，比如对因子的每一个数据都进行一次回归，这样就显得很复杂，且违背了我们的初衷，需要把factor转换为numeric格式。　　factor不能直接转换为nu

json0000 2020-05-15

R语言绘图（一）

par#留出下，左，上，右的边界空间，起初未添加此行代码时，ylab的上标显示不全。plot#绘制原始数据折线图

wbingyang 2020-05-01

Excel开始，Excel结束，R语言居中

入职、离职，总公司调往分公司，分公司调往总公司，每月社保、公积金和上月比较有增减。税局导出的为Excel文件，需要和记录对照一番。用Excel处理，那就是姓名粘贴为两列，条件格式-重复值，没变色的为增减。筛选两次颜色，就能得到结果。一般情况下，没有重名者，

M守护神 2020-04-20

R语言绘图——层次聚类图及树状图添加side bar

聚类分析作图往往包含热图和树状图。热图用来展示每个样本点数值大小和聚集模式。树状图用来表示样本之间以及变量之间的距离远近。R官网目前提供了至少45个可以绘制热图的包，其中比较常见的、可以添加行列注释信息条的聚类作图包有pheatmap、gplots等等。以

NVEFLY 2020-04-19

使用R语言进行Metroplis-in-Gibbs采样和MCMC运行分析

对于许多模型，例如物流模型，没有共轭先验。因此，吉布斯采样不适用。这篇文章展示了我们如何使用Metropolis-Hastings从每次Gibbs迭代中的非共轭条件后验对象中进行采样–比网格方法更好的替代方法。我将说明该算法，给出一些R代码结果，然后分析R

天空windy 2020-04-19

R语言的packages的安装

但是这样是直接在CRAN中下载，由于用的国外的服务器可能导致龟速，解决的办法就是在参数repos参数后换成国内的镜像，比如换成清华的镜像

json0000 2020-03-14

R语言与医学统计图形-【32】海盗图、词云图、日历图

参数众多，其语法与基础包类似。散点图展示年龄分布，盒形图展示平均年龄，beans展示年龄大致分布，越胖越集中。不同主题的海盗图。可展示随时间的变化。如一年中每一天的大气污染物数据。

NVEFLY 2020-02-23

安科网

R语言文本挖掘+词云显示（jiebaR包+wordcloud2包）

btr的心灵鸡杂汤

btr的心灵鸡杂汤

相关推荐

如何使用R语言在SAP Analytics Cloud里绘制各种统计图表

R语言基本绘图-plot参数：标题，坐标轴和颜色

C程序设计语言（K&R）

Python和R哪个更适合机器学习?

分析了上千张照片发现：R 语言程序员最快乐，Java 开发者最年轻

如何用R语言绘制生成正态分布图表

R语言常用函数：交集intersect、并集union、找不同setdiff、判断相同setequal的运用

R语言条形图

数据分析用python语言有什么好处?

Python还是R语言？怎样学数学？机器学习的征程从这里开始……

R语言tidyverse

R语言基础-统计函数

R语言删除不规范的值(或NA)

R语言factor类型转numeric

R语言绘图（一）

Excel开始，Excel结束，R语言居中

R语言绘图——层次聚类图及树状图添加side bar

使用R语言进行Metroplis-in-Gibbs采样和MCMC运行分析

R语言的packages的安装

R语言与医学统计图形-【32】海盗图、词云图、日历图

btr的心灵鸡杂汤