只需这个简单的两步，能大幅提高你的Python数据处理速度

bobkent

2018-12-12

只需这个简单的两步，能大幅提高你的Python数据处理速度

在数据分析领域，最热门的莫过于Python和R语言。其中，数据分析库pandas是Python最经典的库之一。它使用一个二维的DataFrame来表示表格式的数据，相比较于Numpy，Pandas可以存储混合的数据结构，同时使用NaN来表示缺失的数据，而不用像Numpy一样要手工处理缺失的数据，并且Pandas使用轴标签来表示行和列。

一般来说，用pandas处理小于100兆的数据，性能不是问题。但当我们要处理大量数据时，如何优化DataFrame的操作就需要仔细斟酌了。

例子

我们想象一个例子，你要处理一个csv文件，你想要把数据清洗后输出到另一个dataframe中，做后续处理。一个简单的程序如下：

只需这个简单的两步，能大幅提高你的Python数据处理速度

十分简单，不是吗？我们仅仅是把输入的dataframe（indf）扩展到输出outdf中去了。我们看一下运行时间：

Time spent: 0:01:58.830000

2分钟处理8000个单元，还行？这个远远不够，想象一下我们有10万个这样的csv要处理怎么办？那需要278天！怎么提高效能呢？

第一步

Dataframe的append效能很低，如果我们知道未来表的条目，预先分配好空间，将来直接向里面填入内容会快不少，我们来修改一下程序：

只需这个简单的两步，能大幅提高你的Python数据处理速度

结果好了不少：

Time spent: 0:01:27.636000

少了半分钟，是不是就这样了呢？还远远不够。

第二步

Dataframe检索每一行有好几个操作:loc,iloc,ix,at。它们效能有什么差别吗？我们来试一下：

只需这个简单的两步，能大幅提高你的Python数据处理速度

loc，iloc,ix看起来速度都差不多，at可是快了将近1000倍啊，可惜的是at只能选择某个单元而不是整行。没关系，我们来改一下程序：

只需这个简单的两步，能大幅提高你的Python数据处理速度

结果大为改善：

Time spent: 0:00:07.850000

只有7秒，比以前快了12倍！更比开始的时候快了15倍多。

结论

如果目标数据集行数确定，我们应该先分配出来，在一项项填入而不是append，要做填空题而不是做补充题；尽量选择用at/iat而是不是方便的loc/iloc或者ix。

最后给大家一个思考题，为什么我在最后的程序里面加了个

outdf.loc[0] = indf.loc[0]

不加会怎么样？

欢迎大家留言回答，给大家一个福利私信回复【PDF】可获取python电子书一套

数据处理 python 大数据 dataframe

bobkent

0 关注 0 粉丝 0 动态

相关推荐

spark系列之基本概念

　　RDD是对象的分布式集合。　　RDD也提供数据沿袭——以图形形式给出每个中间步骤的祖先树，当RDD的一个分区丢失，可以根据祖先树重建该分区。　　RDD有两组操作，转换和行动，RDD转换是有惰性的，宽窄依赖。　　SparkSession是读取数据、处理元

Johnson0 2020-07-28

【译】Using .NET for Apache Spark to Analyze Log Data

.NET for Spark可用于处理成批数据、实时流、机器学习和ad-hoc查询。在这篇博客文章中，我们将探讨如何使用.NET for Spark执行一个非常流行的大数据任务，即日志分析。日志分析的目标是从这些日志中获得有关工具或服务的活动和性能的有意义

登峰小蚁 2020-05-11

spark系列-5、RDD、DataFrame、Dataset的区别和各自的优势

从一开始 RDD 就是 Spark 提供的面向用户的主要 API。从根本上来说，一个 RDD 就是你的数据的一个不可变的分布式元素集合，在集群中跨节点分布，可以通过若干提供了转换和处理的底层 API 进行并行处理。但与 RDD 不同的是，数据都被组织到有名

Hhanwen 2020-05-04

python 数据分析--数据处理工具Pandas（1）

Pands模块可以帮助数据分析师轻松地解决数据的预处理问题，如数据类型的转换、缺失值的处理、描述性统计分析、数据的汇总等。Pandas模块的核心操作对象就是序列和数据框。序列可以理解为数据集中的一个字段，数据框是指含有至少两个字段（或序列）的数据集。通过同

jzlixiao 2020-04-09

让数据处理更简单？百度EasyData推出首个高级智能数据清洗功能

在进行AI模型开发时，数据的数量与质量直接影响模型效果。在实地数据采集之后，企业往往需要从大量数据中筛选出符合训练要求的相关数据，剔除质量差或不相关的数据，这个步骤被称为数据清洗。针对数据清洗这一具体功能，EasyData目前上线了去相似、去模糊、旋转、裁

jinhao 2020-09-07

padans 关于数据处理的杂谈 -- 时序数

那么实现2.1、2.2，不过这样的瓶颈就是，如果有很多个字段，则会组合成很多张表。cp = df[‘产品‘].to_frame().drop_duplicates. 输出一张工作表即可。有时还需要处理成，具有环比、比年初、同比等值。则采取给源数据增加字段。

nimeijian 2020-07-30

Spark RDD

②通过Spark读取外部存储文件，将文件数据转变为RDD。可以从本地磁盘读取，也可以从HDFS读取

adayan0 2020-07-05

[AWS][大数据][Hadoop] 使用EMR做大数据分析

创建一个存储桶比如hadoop202006…这里我解释一下Hadoop集群中的一些组件，了解大数据的同学直接忽略就好。Apache Hadoop：在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，其核心部件是HDFS与MapReduce。Ap

swazerz 2020-06-22

想了解大数据的鼻祖Hadoop技术栈，这里有一份优质书单推荐！

如何用形象的比喻描述大数据的技术生态？Hadoop、Hive、Spark 之间是什么关系？对于大部分人来说都是傻傻分不清楚。今年来大数据、人工智能获得了IT界大量的关注。程序猿们就是有这么实在，坐在地铁上还能那么投入的讨论技术问题。通常，一个技术的兴起，都

仁鱼 2020-06-20

Hive安装，以及一些问题处理

把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下。注意以tab键间隔。hive> create table student ROW FORMAT DELIMITED FIELDS TERMI

victorzhzh 2020-06-16

Spark Streaming读取Kafka数据两种方式

Receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的，然后Spark Streaming启动的job会去处理那些数据。在提交Spark Streaming任务后，Spark集群会划出指定的Receivers来专门、持续不

rongwenbin 2020-06-15

Apache Spark有哪些局限性

Apache Spark是行业中流行和广泛使用的大数据工具之一。Apache Spark已成为业界的热门话题，并且如今非常流行。但工业正在转移朝向apache flink。Apache Spark是为快速计算而设计的开源，闪电般快速的集群计算框架。Apac

sxyhetao 2020-06-12

Python 导入分部分项前的数据处理

worksheet = workbook[name_list[0]]# 读取第一个工作表。# 获取所有合并单元格的位置信息。# print后就是excel坐标信息。# 拆分合并的单元格并填充内容。# 这里的行和列的起始值（索引），和Excel的一样，

cas的无名 2020-06-09

Mr与spark的shuffle过程详解及对比

大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark，mapReducehe和Spark之间的最大区别是前者较偏向于离线处理，而后者重视实现性，下面主要介绍mapReducehe和Spark两者的shuffle过程。Map

Johnson0 2020-06-08

IBM 开源 FHE 工具包，在数据处理过程中也能进行加密

现代加密技术令人们可以在传输和存储过程中保护敏感数据，但在数据处理时，却几乎无法对其进行保护。而完全同态加密技术能够解决这一难题，它允许在保持加密状态的情况下对数据进行操作，最大程度上降低了数据暴露的风险。2009 年，IBM 在这方面取得了重大进展，并发

zhouqinxiong 2020-06-08

hadoop 数据处理总结

最近工作中用了了Hadoop，比如用Hadoop来处理广告的一些pv量数据、点击数据等，最后统计后给运营展示每个广告的数据报表。hadoop平台提供了分布式存储，分布式计算，任务调度、对象存储、和组件支撑服务。Hadoop主要用来存储以及处理大量并且复杂的

sujins 2020-05-30

Spark分区

在Spark中，RDD是其最基本的抽象数据集，其中每个RDD是由若干个Partition组成。在Job运行期间，参与运算的Partition数据分布在多台机器的内存当中。图一中，RDD1包含了5个Partition，RDD2包含了3个Partition，这

Hhanwen 2020-05-29

Spark Streaming企业运用

========== Spark Streaming 是什么 ==========1、SPark Streaming 是 Spark 中一个组件，基于 Spark Core 进行构建，用于对流式进行处理，类似于 Storm。kafka、flume、HDFS

Hhanwen 2020-05-29

spark 任务提交参数

网上看到的关于Executor，Cores和Memory的分配相关博客，先记录下来，再汇总。Spark处理1Tb数据不需要1Tb的内存。具体需要多少内存是根据executor的core数量和每次读取数据集的block大小决定的。以读取hdfs上1tb大文件

adayan0 2020-05-19

Spark 数据分析调优（一）

假设你已经清楚了Spark 的 RDD 转换，Action 等内容。并且已经知道用web UI来理解为什么Job要花这么长时间时，Job、stage和task 也很清楚了。在本文中，您将了解Spark程序在集群中实际执行的基础知识。Spark应用程序由单个

Johnson0 2020-05-17

bobkent

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号