想浏览数据?一行Python代码就能轻松搞定

全文共1382字,预计学习时长3分钟

想浏览数据?一行Python代码就能轻松搞定

30秒内就能分析所有标准数据,Pandas_Profiling数据预览神器真是太赞了。

想浏览数据?一行Python代码就能轻松搞定

vanilla pandas方式(无趣)

想浏览数据?一行Python代码就能轻松搞定

如果你Python分析过数据,那你一定对pandas包不会陌生。pandas是处理大多数行和列格式化数据时首选的软件包,如果还没有pandas包,那你一定要在首选终端上通过pip安装来下载:

pip install pandas

现在,看一下通过pandas默认操作我们能干点什么:

想浏览数据?一行Python代码就能轻松搞定

挺好的,但少了点东西。“method”列跑哪了?

还没反应过来的朋友们请看这里:

pandas的任何一组“数据框”都会有一个.describe()法,可以返回上述总结。但要注意该法的输出:种类变量这一项不见了。上面例子中“method”列从输出中完全省掉了!

如果能做得更好会是什么样子?

想浏览数据?一行Python代码就能轻松搞定

Pandas_Profiling数据预览(妙趣横生)

想浏览数据?一行Python代码就能轻松搞定

这只是报告的开始。

倘若仅需3行Ptyhon代码就能得出下列统计结果,你会有何感受?(实际上不算输入内容的话1行就够了):

• 基本项:类型、特殊值、缺失值

• 分位数统计,如最小值、Q1、中位数、Q3、最大值、范围、四分位差

• 描述性统计,如平均值、模型、标准偏差、和、中值绝对偏差、变异系数、峰度、偏度

• 最常见值

• 直方图

• 相互关系:突出显示了变量、Spearman相关系数、Pearson相关系数、Kendall矩阵之间的高度相关性

• 缺失值:矩阵、计数、热图以及缺失值树状图

特征值表直接从Pandas Profiling GitHub得来:https://github.com/pandas-profiling/pandas-profiling

通过使用Pandas_Profiling包,我们可以实现这些操作!

想安装Pandas_Profiling包的话只需在终端借助pip即可:

pip install pandas_profiling

经验丰富的数据分析师一开始看到这种数据预览时会很不屑,觉得太夸张了,不切实际。但它确实可以使你在短时间内对数据形成一个大致印象:

想浏览数据?一行Python代码就能轻松搞定

看到了吧, 1行代码足以搞定!#noclickbait

最先看到的是总览(Overview,如上图所示),其中有数据和变量的一些高级统计,也包括一些警告,比如变量间的相关度高、偏度大等。

但这并不是所有内容,往下看会发现还有很多本文的相关部分。单凭一张输出结果(由1行代码得到)的图片看不出什么,所以笔者将其换成了动图:

想浏览数据?一行Python代码就能轻松搞定

强烈建议大家探索一下这个包的功能,毕竟虽说仅仅是1行代码,但说不定在以后做数据分析时会发现它非常有用。

import pandas as pd
import pandas_profiling
pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/planets.csv').profile_report()

想浏览数据?一行Python代码就能轻松搞定

留言 点赞 关注

我们一起分享AI学习与发展的干货

如需转载,请后台留言,遵守转载规范

相关推荐