[数据清洗]-Pandas 清洗“脏”数据（一）

松鼠的窝

2018-01-03

概要

准备工作
检查数据
处理缺失数据
添加默认值
删除不完整的行
删除不完整的列
规范化数据类型
必要的转换
重命名列名
保存结果
更多资源

Pandas 是 Python 中很流行的类库，使用它可以进行数据科学计算和数据分。他可以联合其他数据科学计算工具一块儿使用，比如，SciPy，NumPy 和 Matplotlib，建模工程师可以通过创建端到端的分析工作流来解决业务问题。

虽然我们可以 Python 和数据分析做很多强大的事情，但是我们的分析结果的好坏依赖于数据的好坏。很多数据集存在数据缺失，或数据格式不统一（畸形数据），或错误数据的情况。不管是不完善的报表，还是技术处理数据的失当都会不可避免的引起“脏”数据。

庆幸的是，Pandas 提供功能强大的类库，不管数据处于什么状态，他可以帮助我们通过清洗数据，排序数据，最后得到清晰明了的数据。对于案例的数据，准备使用 movie_metadata.csv(链接：https://pan.baidu.com/s/1i5zUvOD密码：a4t9)。这个数据集包含了很多信息，演员、导演、预算、总输入，以及 IMDB 评分和上映时间。实际上，可以使用上百万或者更大的数据库，但是，案例数据集对于开始入门还是很好的。

不幸的是，有一些列的值是缺失的，有些列的默认值是0，有的是 NaN（Not a Number）。

下面我们通过使用 Pandas 提供的功能来清洗“脏”数据。

准备工作

首先，第一次使用 Pandas 之前，我们需要安装 Pandas。安装命令如下：

pip install pandas

接下来，导入 Pandas 到我们的代码中，代码如下：

#可以使用其他的别名， 但是，pd 是官方推荐的别名，也是大家习惯的别名
import pandas as pd

最后，加载数据集，代码如下：

data = pd.read_csv('../data/tmdb_5000_credits.csv')

注意，确保已经下载数据集，如果你的代码和数据集的存放结构与我的一样，直接运行就可以

否则，要根据实际的情况，修改 read_csv() 的文件路径

检查数据

检查一下我们刚刚读入数据的基本结构，Pandas 提供了 head() 方法打印输出前五行数据。目的是让我们对读入的数据有一个大致的了解。

data.head()

我们可以通过上面介绍的 Pandas 的方法查看数据，也可以通过传统的 Excel 程序查看数据，这个时候，我们可以开始记录数据上的问题，然后，我们再想办法解决问题。

Pandas 提供了一些选择的方法，这些选择的方法可以把数据切片，也可以把数据切块。下面我们简单介绍一下：

查看一列的一些基本统计信息：data.columnname.describe()
选择一列：data['columnname']
选择一列的前几行数据：data['columnsname'][:n]
选择多列：data[['column1','column2']]
Where条件过滤：data[data['columnname'] > condition]

处理缺失数据

缺失数据是最常见的问题之一。产生这个问题可能的原因

从来没有填正确过
数据不可用
计算错误

无论什么原因，只要有空白值得存在，就会引起后续的数据分析的错误。下面介绍几个处理缺失数据的方法：

为缺失数据赋值默认值
去掉/删除缺失数据行
去掉/删除缺失率高的列

添加默认值

我们应该去掉那些不友好的 NaN 值。但是，我们应该用什么值替换呢？在这里，我们就应该稍微掌握一下数据。对于我们的例子，我们检查一下“country”列。这一列非常简单，然而有一些电影没有提供地区，所以有些数据的值是 NaN。在我们的案例中，我们推断地区并不是很重要，所以，我们可是使用“”空字符串或其他默认值。

data.country= data.country.fillna('')

上面，我们就将“country”整个列使用“”空字符串替换了，或者，我们也可以轻易地使用“None Given”这样的默认值进行替换。如果想了解更多 fillna() 的详细信息参考 pandas.DataFrame.fillna。

使用数字类型的数据，比如，电影的时长，计算像电影平均时长可以帮我们甚至是数据集。这并不是最优解，但这个持续时间是根据其他数据估算出来的。这样的方式下，就不会因为像 0 或者 NaN这样的值在我们分析的时候而抛错。

data.duration = data.duration.fillna(data.duration.mean())

删除不完整的行

假设我们想删除任何有缺失值得行。这种操作太据侵略性，但是我们可以根据我们的需要进行扩展。

删除任何包含 NA 值的行是很容的：

data.dropna()

当然，我们也可以删除一整行的值都为 NA：

data.dropna(how='all')

我们也可以增加一些限制，在一行中有多少非空值的数据是可以保留下来的（在下面的例子中，行数据中至少要有 5 个非空值）

data.drop(thresh=5)

比如说，我们不想要不知道电影上映时间的数据：

data.dropna(subset=['title_year'])

上面的 subset 参数允许我们选择想要检查的列。如果是多个列，可以使用列名的 list 作为参数。

删除不完整的列

我们可以上面的操作应用到列上。我们仅仅需要在代码上使用 axis=1 参数。这个意思就是操作列而不是行。（我们已经在行的例子中使用了axis=0，因为如果我们不传参数 axis，默认是axis=0。）

删除一正列为NA 的列：

data.drop(axis=1, how='all')

删除任何包含空值的列：

data.drop(axis=1. how='any')

这里也可以使用像上面一样的 threshold 和 subset，更多的详情和案例，请参考pandas.DataFrame.dropna。

规范化数据类型

有的时候，尤其当我们读取 csv 中一串数字的时候，有的时候数值类型的数字被读成字符串的数字，或将字符串的数字读成数据值类型的数字。Pandas 还是提供了规范化我们数据类型的方式：

data = pd.read_csv('../data/moive_metadata.csv', dtype={'duration': int})

这就是告诉 Pandas ‘duration’列的类型是数值类型。同样的，如果想把上映年读成字符串而不是数值类型，我们使用和上面类似的方法：

data = pd.read_csv('./data/moive_metadata.csv', dtype={'title_year':str})

注意，需要记住的是，再次从磁盘上读取 csv ，确保规范化了我们的数据类型，或者在读取之前已经保存了中间结果。

必要的变换

人工录入的数据可能都需要进行一些必要的变换。

错别字
英文单词时大小写的不统一
输入了额外的空格

将我们数据中所有的 movie_title 改成大写：

data['movie_title'].str.upper()

同样的，干掉末尾空格：

data['movie_title'].str.strip()

这里并没有介绍关于英文的拼写错误的问题，可以参考模糊匹配。

重命名列名

最终的数据可能是有计算机生成的，那么，列名有可能也是计算机按照一定计算规律生成的。这些列名对计算机没有什么，但是对于人来说可能就不够友好，这时候，我们就需要重命名成对人友好的列名，代码如下：

data,rename(columns = {‘title_year’:’release_date’, ‘movie_facebook_likes’:’facebook_likes’})

像上面这样，我们就完成了两个列的重命名。需要注意的是，这个方法并没有提供 inpalce 参数，我们需要将结果赋值给自己才可以：

data = data.rename(columns = {‘title_year’:’release_date’, ‘movie_facebook_likes’:’facebook_likes’})

<br /><br />

保存结果

我们完成数据清洗之后，一般会把结果再以 csv 的格式保存下来，以便后续其他程序的处理。同样，Pandas 提供了非常易用的方法：

data.to_csv(‘cleanfile.csv’ encoding=’utf-8’)

安科网

[数据清洗]-Pandas 清洗“脏”数据（一）

松鼠的窝

准备工作

检查数据

处理缺失数据

添加默认值

删除不完整的行

删除不完整的列

规范化数据类型

必要的变换

重命名列名

保存结果

更多资源

松鼠的窝

相关推荐

Pandas数据清洗方法

教你几招，Pandas轻松处理超大规模数据

秒懂！图解四个实用的Pandas函数！

Python 中利用Pandas处理复杂的Excel数据

不常见的Pandas小窍门：我打赌一定有你不知道的

在pandas中利用hdf5高效存储数据

别找了，这是Pandas最详细教程了

Pandas这样来设置，做数据分析舒适百倍

高效的10个Pandas函数，你都用过了吗？

10 个加速Python数据分析的简单的小技巧

Pandas

Pandas闪回咒！如何在Python中重写SQL查询？

高效的10个Pandas函数，你都用过吗？

推荐5个实用的Pandas技巧

pandas 一维台账数据与二维表格数据的转换

用于ETL的Python数据转换工具

pandas 的DataFrame.apply()

【Pandas】基本功能

【pandas】概述

数据分析三剑客之Pandas时间序列

松鼠的窝