Python爬虫:绘图matplotlib与词云
1 绘制条形图
2 绘制智联招聘职位岗位数量图
3 词云
“词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)提出。“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。
词频
分词 语句切割
读取文本
切割
精简生成词云
4 Matplotlib 绘图
1 多个subplot
2 线形图
这段代码说明如下:
plot函数的第一个数组是横轴的值,第二个数组是纵轴的值,所以它们一个是直线,一个是折线;
最后一个参数是由两个字符构成的,分别是线条的样式和颜色。前者是红色的直线,后者是绿色的点线。
3 散点图
这段代码说明如下:
这幅图包含了三组数据,每组数据都包含了20个随机坐标的位置
参数c表示点的颜色,s是点的大小,alpha是透明度
4 饼状图
这段代码说明如下:
data是一组包含7个数据的随机数值
图中的标签通过labels来指定
autopct指定了数值的精度格式
plt.axis('equal')设置了坐标轴大小一致
plt.legend()指明要绘制图例(见下图的右上角)
5 条形图
这段代码说明如下:
这幅图展示了一组包含7个随机数值的结果,每个数值是[0, 100]的随机数
它们的颜色也是通过随机数生成的。np.random.rand(N * 3).reshape(N, -1)表示先生成21(N x 3)个随机数,然后将它们组装成7行,那么每行就是三个数,这对应了颜色的三个组成部分。
title指定了图形的标题,labels指定了标签,alpha是透明度
6 直方图
上面这段代码中,[np.random.randint(0, n, n) for n in [3000, 4000, 5000]]生成了包含了三个数组的数组,这其中:
第一个数组包含了3000个随机数,这些随机数的范围是 [0, 3000)
第二个数组包含了4000个随机数,这些随机数的范围是 [0, 4000)
第三个数组包含了5000个随机数,这些随机数的范围是 [0, 5000)