懒人秘籍：教你如何避免编写pandas代码

SuperYPC

2020-01-01

全文共4781字，预计学习时长14分钟

来源：Pexels

Pandas在数据科学领域无需介绍，它提供高性能，易于使用的数据结构和数据分析工具。但是，在处理过多的数据时，单核上的Pandas就显得心有余而力不足了，大家不得不求助于不同的分布式系统来提高性能。然而，提高性能的权衡常常伴随着陡峭的学习曲线。

而大家都在尽可能地避免这种悬崖峭壁，结果可想而知，都转向了如何避免编写pandas代码。

在过去4年里，笔者一直使用pandas作为数据分析的主要工具。必须承认，“如何避免编写pandas代码”的大部分内容来自于使用pandas编程的起步阶段。在进行代码审阅时，笔者仍然看到许多经验丰富的程序员在看一些热门“如何避免使用”的帖子。

在本文中，笔者首先展示了一个“如何避免”的例子，然后展示了一个正确的“如何使用”pandas来计算统计数据的方法。改进后，代码更简洁、易读，执行更快。报告时间的格式为： 831 ms ± 25.7 ms per loop，即平均831毫秒，标准偏差为25.7毫秒。每个代码示例执行多次，以计算准确的执行时间。

和往常一样，可以下载 JupyterNotebook并在电脑上试运行。

开始pandas游戏之旅，请阅读如下资源：

5个鲜为人知的pandas技巧
使用pandas进行探索性数据分析

懒人秘籍：教你如何避免编写pandas代码

来源：Pexels

设置

from platform importpython_versionimport numpy as np
import pandas as pdnp.random.seed(42) # set the seed tomake examples repeatable

样本数据集

样本数据集包含各个城市的预订信息，是随机的，唯一目的是展示样本。

数据集有三列：

id表示唯一的标识
city表示预定的城市信息
booked perc表示特定时间预定的百分比

数据集有一万条，这使速度改进更加明显。注意，如果代码以正确的pandas方式编写，pandas可以利用DataFrames计算数百万（甚至数十亿）行的统计数据。

size = 10000cities =["paris", "barcelona", "berlin", "newyork"]df = pd.DataFrame(
{"city": np.random.choice(cities,size=size), "booked_perc": np.random.rand(size)}
)
df["id"] = df.index.map(str) +"-" + df.city
df = df[["id", "city", "booked_perc"]]
df.head()

懒人秘籍：教你如何避免编写pandas代码

1.如何避免对数据求和

懒人秘籍：教你如何避免编写pandas代码

翻滚的熊猫/Reddit

来自Java世界的灵感，把“多行for循环”应用到了Python。

计算booked perc列的总和，把百分比加起来毫无意义，但无论如何，一起来试试吧，实践出真知。

%%timeitsuma = 0
for _, row in df.iterrows():
suma += row.booked_perc766ms ± 20.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

更符合Python风格的方式来对列求和如下：

%%timeitsum(booked_perc forbooked_perc in df.booked_perc)989 µs ± 18.5 µs per loop (mean ±std. dev. of 7 runs, 1000 loops each)%%timeitdf.booked_perc.sum()92µs ± 2.21 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

正如预期的那样，第一个示例是最慢的——对一万项求和几乎需要1秒。第二个例子的速度之快令人惊讶。

正确的方法是使用pandas对数据进行求和（或对列使用任何其他操作），这是第三个示例——也是最快的！

2.如何避免过滤数据

懒人秘籍：教你如何避免编写pandas代码

玩耍的熊猫/Giphy

尽管在使用pandas之前，笔者已经很熟悉numpy，并使用for循环来过滤数据。求和时，还是可以观察到性能上的差异。

%%timeitsuma = 0
for _, row in df.iterrows():
if row.booked_perc <=0.5:
suma += row.booked_perc831ms ± 25.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)%%timeitdf[df.booked_perc<= 0.5].booked_perc.sum()724 µs ± 18.8 µs per loop(mean ± std. dev. of 7 runs, 1000 loops each)

正如预期的一样，第二个例子比第一个例子快很多

如果加入更多的过滤器呢？只需把它们添加到括号里

%%timeitdf[(df.booked_perc <=0.5) & (df.city == 'new york')].booked_perc.sum()1.55ms ± 10.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

3.如何避免访问以前的值

懒人秘籍：教你如何避免编写pandas代码

翻滚的熊猫/Giphy

你可能会说：好吧，但是如果需要访问先前某一列的值呢，还是需要一个for循环。你错了！

分别使用和不使用for循环来计算一行到另一行百分数的改变

%%timeitfor i inrange(1, len(df)):
df.loc[i,"perc_change"] = (df.loc[i].booked_perc- df.loc[i - 1].booked_perc) / df.loc[i- 1].booked_perc7.02 s ± 24.4 ms per loop (mean ± std. dev. of 7runs, 1 loop each)%%timeitdf["perc_change"] = df.booked_perc.pct_change()586µs ± 17.3 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

同样，第二个例子比第一个使用for循环的例子快得多

pandas有许多函数可以根据以前的值计算统计数据（例如shift函数对值进行移位）。这些函数接受periods参数，可以在计算中包含以前值的数量。

4.如何避免使用复杂的函数

懒人秘籍：教你如何避免编写pandas代码

来源：坠落的熊猫（国家地理）Giphy

有时需要在DataFrame中使用复杂函数（有多个变量的函数）。让我们将从纽约的booking_perc两两相乘，其他设置为0并且把这列命名为sales_factor。

笔者首先想到的是使用iterrows的for循环

%%timeitfor i, row in df.iterrows():
if row.city =='new york':
df.loc[i, 'sales_factor'] =row.booked_perc * 2
else:
df.loc[i, 'sales_factor'] =03.58 s ± 48.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

一个更好的办法是直接在DataFrame上使用函数

%%timeitdef calculate_sales_factor(row):
if row.city =='new york':
return row.booked_perc* 2
return 0df['sales_factor'] =df.apply(calculate_sales_factor, axis=1)165 ms ± 2.48 ms per loop(mean ± std. dev. of 7 runs, 10 loops each)

最快的方法是使用pandas过滤器直接计算函数值

%%timeit df.loc[df.city== 'new york', 'sales_factor'] = df[df.city == 'newyork'].booked_perc * 2
df.sales_factor.fillna(0, inplace=True)3.03 ms ± 85.5 µsper loop (mean ± std. dev. of 7 runs, 100 loops each)

可以看到从第一个例子到最后一个的加速过程。

当解决有3个及3个以上变量的函数时，可以把它分解为多个pandas表达式。这比运用函数更快。

Eg: f(x, a, b) = (a + b) * x
df['a_plus_b'] = df['a'] +df['b']
df['f'] = df['a_plus_b'] * df['x']

5.如何避免对数据进行分组

懒人秘籍：教你如何避免编写pandas代码

蹭痒熊猫/Giphy

现在可以看到，在开始使用pandas之前，笔者更多依赖于for循环。至于对数据进行分组，如果充分发挥pandas的优势，可以减少代码行数。

要计算如下数据：

一个城市的平均sales factor
一个城市的首次预定id

%%timeit avg_by_city = {}
count_by_city = {}
first_booking_by_city = {}for i, row in df.iterrows():
city = row.city
if city in avg_by_city:
avg_by_city[city] += row.sales_factor
count_by_city[city] += 1
else:
avg_by_city[city] = row.sales_factor
count_by_city[city] = 1
first_booking_by_city[city] =row['id']for city, _ in avg_by_city.items():
avg_by_city[city] /=count_by_city[city]878 ms ± 21.4 ms per loop (mean ± std. dev. of 7 runs, 1 loopeach)

Pandas有分组操作所以不必在DataFrame上进行迭代，pandas的分组操作和SQL的GROUP BY语句一样的。

%%timeitdf.groupby('city').sales_factor.mean()
df.groupby('city').sales_factor.count()
df.groupby('city').id.first()3.05 ms ± 65.3 µs per loop(mean ± std. dev. of 7 runs, 100 loops each)%%timeitdf.groupby("city").agg({"sales_factor":["mean", "count"], "id": "first"})4.5ms ± 131 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

惊奇的是，第三个例子不是最快的，但比第二个例子更简洁。笔者建议，如果需要加速的代码，请用第二种方法。

懒人秘籍：教你如何避免编写pandas代码

快乐的熊猫/Giphy

最后，小芯的建议是:如果需要使用pandas编写for循环，那一定存在一种更好的编写方式。

会存在一些计算量很大的函数，即使上述的优化方法也会无效。那么我们就需要使用最后手段：Cython和Numba。

大家一起来试试这些方法吧，一定会有意想不到的收获~

懒人秘籍：教你如何避免编写pandas代码

留言点赞关注

我们一起分享AI学习与发展的干货

如转载，请后台留言，遵守转载规范

pandas

安科网

懒人秘籍：教你如何避免编写pandas代码

SuperYPC

设置

样本数据集

1.如何避免对数据求和

2.如何避免过滤数据

3.如何避免访问以前的值

4.如何避免使用复杂的函数

5.如何避免对数据进行分组

SuperYPC

相关推荐

教你几招，Pandas轻松处理超大规模数据

秒懂！图解四个实用的Pandas函数！

Python 中利用Pandas处理复杂的Excel数据

不常见的Pandas小窍门：我打赌一定有你不知道的

在pandas中利用hdf5高效存储数据

别找了，这是Pandas最详细教程了

Pandas这样来设置，做数据分析舒适百倍

高效的10个Pandas函数，你都用过了吗？

10 个加速Python数据分析的简单的小技巧

Pandas

Pandas闪回咒！如何在Python中重写SQL查询？

高效的10个Pandas函数，你都用过吗？

推荐5个实用的Pandas技巧

pandas 一维台账数据与二维表格数据的转换

用于ETL的Python数据转换工具

pandas 的DataFrame.apply()

【Pandas】基本功能

【pandas】概述

数据分析三剑客之Pandas时间序列

初探pandas——索引和查询数据

SuperYPC