数据可视化之Matplotlib学习

推荐学习地址:https://www.imooc.com/learn/1178

以下是自己学习的主要内容

1.数据分析及可视化概念

数据分析指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程

收集数据---提取信息 ---形成结论

数据可视化:使用图形化展示数据,直观的观测数据之间的关系即为数据可视化过程

2.数据分析可视化流程

定义分析目标---数据采集及预处理---数据分析挖掘---数据可视化

  数据清洗:是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检验数据一致性、处理无效值和缺省值等

3.常见的数据可视化形式及工具

常见的可视化形式:

基础:统计图(直方图、折线图、饼图)

   分布图(热力图、散点图、气泡图)

常用工具:

分析工具:pandas、Scipy、numpy、sklearn

绘图工具:matplotlib、Pychart、reportlab

平台工具:Jupyter Notebook、Pycharm

基础图:

直方图:可直观的传递数据的分布情况。函数:plt.hist(data, bins)

条形图:展现同类数据的大小以及数据之间的差别。函数:plt.bar(data,datatype)

折线图:通常显示随时间变化的连续数据,因此非常适用显示数据在周期内的趋势。函数:plt.plot(X,Y)

饼图:常用于显示一个数据系列中各项的大小和各项总和的比例。函数:plt.pie(data,datatype)

散点图:是指在回归分析中,数据点在直角坐标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。函数:plt.scatter(data_X, data_Y)

箱线图:又称为盒须图、盒式图,是一种用作显示一组数据分散情况的统计图,主要用于反映原始数据的特征,主要有展示图值有:上边缘 下边缘 中位数 上四分位数 下四分位数 异常值(点)。函数:plt.boxplot(data)

极线图:用于表示极坐标下数据的分布情况,多用于显示具有一点周期性的数据。函数:plt.subplot(111, projection = ‘polar‘).plot(theta, r)

阶梯图:是一种以无规律、间歇性阶跃的方式表达数值变化的方法,它不仅可以像折线图反映数据发展的趋势,还可以反映数据状态的持续时间。函数:plt.step(year, height)

高级图:

堆积图:常用于综合展示不同分类的指标趋势以及总和的趋势。函数:plt.bar(datatype, data_y, bottom = data_x, color = ‘r‘, label = ‘name‘)

分块图:可将不同数据集分块展示,方便对比同类数据某一具体属性的高低。函数:plt.bar(datatype, data_y, bottom = data_x, color = ‘r‘, label = ‘name‘)

气泡图:可用来展示是三个变量之间的关系。函数:plt.bar(x, data_x, label="name", fc = ‘r‘, width = width)

图例展示地址:

相关推荐