小白学 Python 数据分析(10):Pandas (九)数据运算
人生苦短,我用 Python
前文传送门:
小白学 Python 数据分析(2):Pandas (一)概述
小白学 Python 数据分析(3):Pandas (二)数据结构 Series
小白学 Python 数据分析(4):Pandas (三)数据结构 DataFrame
小白学 Python 数据分析(5):Pandas (四)基础操作(1)查看数据
小白学 Python 数据分析(6):Pandas (五)基础操作(2)数据选择
小白学 Python 数据分析(7):Pandas (六)数据导入
小白学 Python 数据分析(8):Pandas (七)数据预处理
小白学 Python 数据分析(9):Pandas (八)数据预处理(2)
引言
前面我们介绍了很多关于 Pandas 的基础操作以及拿到一份数据后首先要做的是对数据的基础预处理。
本篇我们接着介绍当我们处理完数据后,可以对数据进行的一些计算操作。
本篇文章使用的数据为泰坦尼克的数据集,具体的数据集已经上传至代码仓库,有需要的同学可以自行取用。
数据来源是著名的 Kaggle :https://www.kaggle.com/ 。
国内的网络访问有些慢,建议自己想办法,实在不行,可以加小编微信,小编有个神奇的软件,特别好用。
在正文内容开始前,小编先把数据中的表名的中英文对照列出来:
- PassengerId : 乘客ID
- Survived : 是否幸存
- Pclass : 乘客等级(1/2/3等舱位)
- Name : 姓名
- Sex : 性别
- Age : 年龄
- SibSp : 堂兄弟/妹个数
- Parch : 父母与小孩个数
- Ticket : 船票信息
- Fare : 票价
- Cabin : 客舱
- Embarked : 登船港口
预处理
首先,我们拿到数据的第一步是先检查一下数据质量,通过方法 info()
看下有数据质量:
import pandas as pd # 数据导入 data_train = pd.read_csv("train.csv") # 数据查看 print(data_train.info()) # 输出内容 <class 'pandas.core.frame.DataFrame'> RangeIndex: 891 entries, 0 to 890 Data columns (total 12 columns): PassengerId 891 non-null int64 Survived 891 non-null int64 Pclass 891 non-null int64 Name 891 non-null object Sex 891 non-null object Age 714 non-null float64 SibSp 891 non-null int64 Parch 891 non-null int64 Ticket 891 non-null object Fare 891 non-null float64 Cabin 204 non-null object Embarked 889 non-null object dtypes: float64(2), int64(5), object(5) memory usage: 83.7+ KB None
上面这些数据到底说了个啥?
看过我前面文章的同学应该知道,info()
这个方法经常用作查看数据空值,很不辛,这里有些属性的数据不全,如:
- Age(年龄)属性只有714名乘客有记录
- Cabin(客舱)更是只有204名乘客是已知的
这里我们进一步使用 describe()
看下这批数据的统计分析数据:
print(data_train.describe()) # 输出内容 PassengerId Survived Pclass Age SibSp count 891.000000 891.000000 891.000000 714.000000 891.000000 mean 446.000000 0.383838 2.308642 29.699118 0.523008 std 257.353842 0.486592 0.836071 14.526497 1.102743 min 1.000000 0.000000 1.000000 0.420000 0.000000 25% 223.500000 0.000000 2.000000 20.125000 0.000000 50% 446.000000 0.000000 3.000000 28.000000 0.000000 75% 668.500000 1.000000 3.000000 38.000000 1.000000 max 891.000000 1.000000 3.000000 80.000000 8.000000 Parch Fare count 891.000000 891.000000 mean 0.381594 32.204208 std 0.806057 49.693429 min 0.000000 0.000000 25% 0.000000 7.910400 50% 0.000000 14.454200 75% 0.000000 31.000000 max 6.000000 512.329200
能看出来啥呢?
如果把目光聚焦在 mean
这一行上,可以看到大概 0.383838 的人最后获救了,在 2 / 3 等仓的人要比 1 等仓的多得多(这不是废话),平均年龄大概是 29.699118 (这个值计算的时候会忽略掉空值)等等。
算数运算
emmmmmmmmmm,写到这里小编发现个问题,用这份数据演示算数运算属实有点不大合适,满脸尴尬。
小编这么懒的人都写到这了,肯定是不会换数据集了,各位看官就这么凑合着看吧,先声明一下,以下演示均无实际意义。
这一小节的标题是算数运算,那无非是加减乘除嘛,首先来看下两列相加的示例,这里是把堂兄弟姐妹和父母小孩加在一起,结果稍微有点意义,这个乘客的所有亲属:
print(data_train['SibSp'] + data_train['Parch']) # 输出内容 0 1 1 1 2 0 3 1 4 0 .. 886 0 887 0 888 3 889 0 890 0 Length: 891, dtype: int64
两列相减,这里我们使用这个乘客的所有亲属再加上他本身减去存活人数,示例如下:
print(data_train['SibSp'] + data_train['Parch'] + 1 - data_train['Survived']) # 输出内容 0 2 1 1 2 0 3 1 4 1 .. 886 1 887 0 888 4 889 0 890 1 Length: 891, dtype: int64
乘除同理,小编这里就不演示,各位同学可以自己动手试试。
比较
这里我们选用存活数和亲属数量做比较,几个简单的示例:
print(data_train['Survived'] > (data_train['SibSp'] + data_train['Parch'])) # 输出内容 0 False 1 False 2 True 3 False 4 False ... 886 False 887 True 888 False 889 True 890 False Length: 891, dtype: bool
同理,这里除了可以使用 >
还可以使用 >=
、 !=
、 <
和 <=
等运算符。
统计分析
前面我们使用 describe()
这个方法自动的获取过当前数据集的一些统计数据,那么我们如何手动的来获取它呢?
统计非空值
首先是 count()
统计非空值:
# 按列统计 print(data_train.count()) # 输出内容 PassengerId 891 Survived 891 Pclass 891 Name 891 Sex 891 Age 714 SibSp 891 Parch 891 Ticket 891 Fare 891 Cabin 204 Embarked 889 dtype: int64 # 按行统计 print(data_train.count(axis=1)) # 输出内容 0 11 1 12 2 11 3 12 4 11 .. 886 11 887 12 888 10 889 12 890 11 Length: 891, dtype: int64 # 某一列单独统计 print(data_train['Age'].count()) # 输出内容 714
求和
接下来是求和, sum
这个函数想必各位都在 Excel 中用过,那么在 Pandas 中是如何使用的,请看下面的示例:
# 按列求和 print(data_train.sum()) # 输出内容 PassengerId 397386 Survived 342 Pclass 2057 Name Braund, Mr. Owen HarrisCumings, Mrs. John Brad... Sex malefemalefemalefemalemalemalemalemalefemalefe... Age 21205.2 SibSp 466 Parch 340 Ticket A/5 21171PC 17599STON/O2. 31012821138033734503... Fare 28693.9 dtype: object # 按行求和 print(data_train.sum(axis=1)) # 输出内容 0 34.2500 1 114.2833 2 40.9250 3 95.1000 4 51.0500 ... 886 929.0000 887 939.0000 888 918.4500 889 948.0000 890 933.7500 Length: 891, dtype: float64
可以看到,在进行按列求和的时候, Pandas 把非数值类型的列直接将所有的字段拼合在了一起,其实无太大意义。
求算数平均值
接下来是求算数平均值,这个函数是 mean()
,算数平均值有一个特点是极易受到极大极小值的影响,就比如我和小马哥的资产平均超过了 100 亿,这个其实和我基本上没有半毛钱关系。
print(data_train.mean()) # 输出内容 PassengerId 446.000000 Survived 0.383838 Pclass 2.308642 Age 29.699118 SibSp 0.523008 Parch 0.381594 Fare 32.204208 dtype: float64
mean()
实际是上对每一列进行了求平均值的运算,实际上可以通过 axis
参数按行获取平均值,不过在当前的数据集毫无意义,小编这里就不演示了。
求最大最小值
接下来是求最大最小值,在 Excel 其实可以直接通过排序来直观的看到某一列的最大最小值,那么,一起看一下在 Pandas 是如何获取这两个值:
print(data_train.max()) print('------------------------') print(data_train.min()) # 输出内容 PassengerId 891 Survived 1 Pclass 3 Name van Melkebeke, Mr. Philemon Sex male Age 80 SibSp 8 Parch 6 Ticket WE/P 5735 Fare 512.329 dtype: object -------------------------------------------- PassengerId 1 Survived 0 Pclass 1 Name Abbing, Mr. Anthony Sex female Age 0.42 SibSp 0 Parch 0 Ticket 110152 Fare 0 dtype: object
可以看到,在 Pandas 中获取最大最小值是使用了两个函数, max()
和 min()
,通过字面意思大家也懂,这里同样要提一下是默认是按照列来获取最大最小值,如果有需要,也可以通过参数 axis
来按照行来获取。
中位数
相比较前面提到过的算数平均数,中位数是一个非常不错的反应一组数据的一般情况的一个数据,不易受到极大值和极小值的影响。
在 Pandas 中,获取中位数是使用 median()
函数:
print(data_train.median()) # 输出内容 PassengerId 446.0000 Survived 0.0000 Pclass 3.0000 Age 28.0000 SibSp 0.0000 Parch 0.0000 Fare 14.4542 dtype: float64
同样, median()
函数也可以通过 axis
参数来按照行进行获取。
众数
众数就是出现次数最多的那个数,这里我们使用到的函数是 mode()
:
print(data_train.mode()) # 输出内容 Survived Pclass Sex Age SibSp Parch Fare Embarked 0 0 3 male 24.0 0 0 8.05 S [891 rows x 12 columns] # 单独获取某列众数 print(data_train['Sex'].mode()) # 输出内容 0 male dtype: object
方差标准差
方差和标准差其实都是用来表示数据的离散程度,标准差是方差的平方根。
在 Pandas 中,计算方差是使用 var()
函数,而计算标准差是使用 std()
函数:
print(data_train.var()) # 输出内容 PassengerId 66231.000000 Survived 0.236772 Pclass 0.699015 Age 211.019125 SibSp 1.216043 Parch 0.649728 Fare 2469.436846 dtype: float64 print(data_train.std()) # 输出内容 PassengerId 257.353842 Survived 0.486592 Pclass 0.836071 Age 14.526497 SibSp 1.102743 Parch 0.806057 Fare 49.693429 dtype: float64
各位闲着没事儿的同学可以核实一下把标准差平方一下看看是不是方差。
反正小编怕翻车,是专门核实了一下,确实没有问题,如果哪位同学核实出来有问题,可能是小编这台电脑有问题。
求分位数
分位数是一种比中位数更加详细的根据位置的指标,在统计学中,最常用的是四分位数:
- 第一四分位数(Q1),又称「较小四分位数」,等于该样本中所有数值由小到大排列后第 25% 的数字;
- 第二四分位数(Q2),又称「中位数」,等于该样本中所有数值由小到大排列后第 50% 的数字;
- 第三四分位数(Q3),又称「较大四分位数」,等于该样本中所有数值由小到大排列后第 75% 的数字。
在 Pandas 中,获取分位数是使用 quantile()
函数,但是在使用的过程中,一定要标识清楚去的分位数值:
print(data_train.quantile(0.25)) print('-----------------------------------------') print(data_train.quantile(0.5)) # 输出内容 PassengerId 223.5000 Survived 0.0000 Pclass 2.0000 Age 20.1250 SibSp 0.0000 Parch 0.0000 Fare 7.9104 Name: 0.25, dtype: float64 ----------------------------------------- PassengerId 446.0000 Survived 0.0000 Pclass 3.0000 Age 28.0000 SibSp 0.0000 Parch 0.0000 Fare 14.4542 Name: 0.5, dtype: float64
这里的验证可以对比我们前面取出来的中位数,看下是否一致就好,如果不一致,可能需要换电脑了。
相关性
相关性运算是指两个事务之间的关联程度,这里我们可以使用 corr()
函数来进行相关性运算。
使用方式:
DataFrame.corr(method=‘pearson‘, min_periods=1)
参数说明:
method:可选值为 {‘pearson‘, ‘kendall‘, ‘spearman‘}
- pearson:Pearson相关系数来衡量两个数据集合是否在一条线上面,即针对线性数据的相关系数计算,针对非线性数据便会有误差。
- kendall:用于反映分类变量相关性的指标,即针对无序序列的相关系数,非正太分布的数据
- spearman:非线性的,非正太分析的数据的相关系数
我们一般比较常用的是皮尔逊相关系数:
print(data_train.corr(method='pearson')) # 输出内容 PassengerId Survived Pclass Age SibSp Parch PassengerId 1.000000 -0.005007 -0.035144 0.036847 -0.057527 -0.001652 Survived -0.005007 1.000000 -0.338481 -0.077221 -0.035322 0.081629 Pclass -0.035144 -0.338481 1.000000 -0.369226 0.083081 0.018443 Age 0.036847 -0.077221 -0.369226 1.000000 -0.308247 -0.189119 SibSp -0.057527 -0.035322 0.083081 -0.308247 1.000000 0.414838 Parch -0.001652 0.081629 0.018443 -0.189119 0.414838 1.000000 Fare 0.012658 0.257307 -0.549500 0.096067 0.159651 0.216225 Fare PassengerId 0.012658 Survived 0.257307 Pclass -0.549500 Age 0.096067 SibSp 0.159651 Parch 0.216225 Fare 1.000000
本篇内容是真的有点长,各位慢慢看吧,小编就先溜了~~~
示例代码
老规矩,所有的示例代码都会上传至代码管理仓库 Github 和 Gitee 上,方便大家取用。
参考
https://baike.baidu.com/item/%E5%88%86%E4%BD%8D%E6%95%B0/10064158?fr=aladdin
https://blog.csdn.net/walking_visitor/article/details/85128461