用于ETL的Python数据转换工具

xirongxudlut

2020-07-20

关注关注

前几天，我去Reddit询问是否应该将Python用于ETL相关的转换，并且压倒性的回答是"是"。

用于ETL的Python数据转换工具

但是，尽管我的Redditor同事热心支持使用Python，但他们建议研究Pandas以外的库-出于对大型数据集Pandas性能的担忧。

经过研究，我发现了很多用于数据转换的Python库：有些改进了Pandas的性能，而另一些提供了自己的解决方案。

我找不到这些工具的完整列表，所以我想我可以使用所做的研究来编译一个工具-如果我错过了什么或弄错了什么，请告诉我!

Pandas

网站：https：//pandas.pydata.org/

总览

Pandas当然不需要介绍，但是我还是给它一个介绍。

Pandas在Python中增加了DataFrame的概念，并在数据科学界广泛用于分析和清理数据集。它作为ETL转换工具非常有用，因为它使操作数据非常容易和直观。

优点

广泛用于数据处理
简单直观的语法
与其他Python工具(包括可视化库)良好集成
支持常见的数据格式(从SQL数据库，CSV文件等读取)

缺点

由于它会将所有数据加载到内存中，因此无法扩展，并且对于非常大(大于内存)的数据集来说可能是一个错误的选择

进一步阅读

10分钟Pandas
Pandas机器学习的数据处理

Dask

网站：https：//dask.org/

总览

根据他们的网站，" Dask是用于Python并行计算的灵活库。"

从本质上讲，Dask扩展了诸如Pandas之类的通用接口，供在分布式环境中使用-例如，Dask DataFrame模仿了。

优点

可扩展性— Dask可以在本地计算机上运行并扩展到集群
能够处理内存不足的数据集
即使在相同的硬件上，使用相同的功能也可以提高性能(由于并行计算)
最少的代码更改即可从Pandas切换
旨在与其他Python库集成

缺点

除了并行性，还有其他方法可以提高Pandas的性能(通常更为显着)
如果您所做的计算量很小，则没有什么好处
Dask DataFrame中未实现某些功能

进一步阅读

Dask文档
为什么每个数据科学家都应该使用Dask

Modin

网站：https：//github.com/modin-project/modin

总览

Modin与Dask相似之处在于，它试图通过使用并行性并启用分布式DataFrames来提高Pandas的效率。与Dask不同，Modin基于Ray(任务并行执行框架)。

Modin优于Dask的主要好处是Modin可以自动处理跨计算机核心分发数据(无需进行配置)。

优点

可伸缩性— Ray比Modin提供的更多
完全相同的功能(即使在相同的硬件上)也可以提高性能
最小的代码更改即可从Pandas切换(更改import语句)
提供所有Pandas功能-比Dask更多的"嵌入式"解决方案

缺点

除了并行性，还有其他方法可以提高Pandas的性能(通常更为显着)
如果您所做的计算量很小，则没有什么好处

进一步阅读

Modin文档
Dask和Modin有什么区别?

Petl

网站：https：//petl.readthedocs.io/en/stable/

总览

petl包含了pandas的许多功能，但专为ETL设计，因此缺少额外的功能，例如用于分析的功能。 petl具有用于ETL的所有三个部分的工具，但本文仅专注于数据转换。

尽管petl提供了转换表的功能，但其他工具(例如pandas)似乎更广泛地用于转换和有据可查的文档，因此petl对此吸引力较小。

优点

最小化系统内存的使用，使其能够扩展到数百万行
对于在SQL数据库之间进行迁移很有用
轻巧高效

缺点

通过很大程度地减少对系统内存的使用，petl的执行速度会变慢-不建议在性能很重要的应用程序中使用
较少使用此列表中的其他解决方案进行数据处理

进一步阅读

使用Petl快速了解数据转换和迁移
petl转换文档

PySpark

网站：http：//spark.apache.org/

总览

Spark专为处理和分析大数据而设计，并提供多种语言的API。使用Spark的主要优点是Spark DataFrames使用分布式内存并利用延迟执行，因此它们可以使用集群处理更大的数据集，而Pandas之类的工具则无法实现。

如果要处理的数据非常大，并且数据操作的速度和大小很大，Spark是ETL的理想选择。

优点

可扩展性和对更大数据集的支持
就语法而言，Spark DataFrames与Pandas非常相似
通过Spark SQL使用SQL语法进行查询
与其他流行的ETL工具兼容，包括Pandas(您实际上可以将Spark DataFrame转换为Pandas DataFrame，从而使您可以使用各种其他库)
与Jupyter笔记本电脑兼容
内置对SQL，流和图形处理的支持

缺点

需要一个分布式文件系统，例如S3
使用CSV等数据格式会限制延迟执行，需要将数据转换为Parquet等其他格式
缺少对数据可视化工具(如Matplotlib和Seaborn)的直接支持，这两种方法都得到了Pandas的良好支持

进一步阅读

Python中的Apache Spark：新手指南
PySpark简介
PySpark文档(尤其是语法)

值得一提

尽管我希望这是一个完整的列表，但我不希望这篇文章过长!

确实有很多许多用于数据转换的Python工具，因此我包括了这一部分，至少是我错过的其他项目(我可能会在本文的第二部分中进一步探讨这些项目)。

bonobo https://www.bonobo-project.org/
bubbles http://bubbles.databrewery.org/
pygrametl http：//chrthomsen.github.io/pygrametl/
Apache Beam https：//beam.apache.org/

结论

我希望这份清单至少可以帮助您了解Python必须提供哪些工具来进行数据转换。在进行了这项研究之后，我相信Python是ETL的优秀选择-这些工具及其开发人员使它成为了一个了不起的平台。

pandas python etl ul

xirongxudlut

0 关注 0 粉丝 0 动态

关注关注

教你几招，Pandas轻松处理超大规模数据

处理大规模数据集时常是棘手的事情，尤其在内存无法完全加载数据的情况下。在资源受限的情况下，可以使用 Python Pandas 提供的一些功能，降低加载数据集的内存占用。可用技术包括压缩、索引和数据分块。在上述过程中需要解决一些问题，其中之一就是数据量过大

三石 2020-10-30

秒懂！图解四个实用的Pandas函数！

在用Python进行机器学习或者日常的数据处理中，Pandas是最常用的Python库之一，熟练掌握pandas是每一个数据科学家的必备技能，本文将用代码+图片详解Pandas中的四个实用函数!面对这样的需求我们可以选择自己写一个函数完成，但是使用pand

roamer 2020-10-29

Python 中利用Pandas处理复杂的Excel数据

关于Excel数据处理，很多同学可能使用过Pyhton的pandas模块，用它可以轻松地读取和转换Excel数据。但是实际中Excel表格结构可能比较杂乱，数据会分散不同的工作表中，而且在表格中分布很乱，这种情况下啊直接使用pandas就会非常吃力。本文虫

三石 2020-10-29

不常见的Pandas小窍门：我打赌一定有你不知道的

作为一名数据分析师或数据科学家，不了解Python中的Pandas库是无论如何说不过去的，它已经成为Python中用来整理、清理数据的标准工具了。然而，关于Pandas，你确定自己完全掌握了嘛?本文将分享一些少见但有用的Pandas技巧，它们能提升工作效率

wangquannuaa 2020-10-15

在pandas中利用hdf5高效存储数据

1 简介HDF5是用于存储大规模数值数据的较为理想的存储格式。在Python中操纵HDF5文件的方式主要有两种，一是利用pandas中内建的一系列HDF5文件操作相关的方法来将pandas中的数据结构保存在HDF5文件中，二是利用h5py模块来完成从Pyt

wangquannuaa 2020-09-29

别找了，这是Pandas最详细教程了

Python 是开源的，它很棒，但是也无法避免开源的一些固有问题：很多包都在做同样的事情。如果你是 Python 新手，那么你很难知道某个特定任务的最佳包是哪个，你需要有经验的人告诉你。有一个用于数据科学的包绝对是必需的，它就是 pandas。pandas

jzlixiao 2020-09-15

Pandas这样来设置，做数据分析舒适百倍

在日常使用pandas的过程中，由于我们所分析的数据表规模、格式上的差异，使得同样的函数或方法作用在不同数据上的效果存在差异。而pandas有着自己的一套「参数设置系统」，可以帮助我们在遇到不同的数据时灵活调节从而达到最好的效果，本文就将介绍pandas中

wangquannuaa 2020-08-30

高效的10个Pandas函数，你都用过了吗？

andas是python中最主要的数据分析库之一，它提供了非常多的函数、方法，可以高效地处理并分析数据。让pandas如此受欢迎的原因是它简洁、灵活、功能强大的语法。这篇文章将会配合实例，讲解20个重要的pandas函数。其中有一些很常用，相信你可能用到过

三石 2020-08-23

10 个加速Python数据分析的简单的小技巧

一些小的技巧在编程领域可能会非常有用，在数据科学领域同样如此。数据科学爱好者 Parul Pandey 在近日发表了一篇博文，分享了在数据科学中非常实用的 10 个小技巧。有时候，一点小小的黑客行为可以节省时间，挽救生命。一个小小的快捷方式或附加组件有时

逍遥友 2020-08-21

Pandas

可以使用中括号取单个索引，或者中括号里一个列表取多个索引。使得两个Series进行相加。可以使用pd.isnull()，pd.notnull()，或s.isnull(),notnull()函数检测缺失数据。DataFrame由按一定顺序排列的多列数据组成。

jzlixiao 2020-08-18

Pandas闪回咒！如何在Python中重写SQL查询？

一些程序员只熟悉SQL中的数据操作，却不熟悉Python中的数据操作，因此在完成项目时，我们不得不频繁地在SQL和Python之间进行切换，导致了工作效率低下和生产能力下降。本文就教你一种方法，使用Pandas在Python中轻松重现SQL结果。我们将使用

wangquannuaa 2020-08-17

高效的10个Pandas函数，你都用过吗？

Pandas是python中比较主要的数据分析库之一，它提供了非常多的函数、方法，可以高效地处理并分析数据。让pandas如此受欢迎的原因是它简洁、灵活、功能强大的语法。这篇文章将会配合实例，讲解10个重要的pandas函数。其中有一些很常用，相信你可能用

QianYanDai 2020-08-16

pandas 一维台账数据与二维表格数据的转换

从源数据转化使用数据透式表的话，最终的样式不方便筛选，存在合并单元格。实际想转化为中间的样式。table = pd.pivot_table(df, values=‘销售额‘, index=[‘地区‘, ‘时间‘],关于 stack 和 unstack 也可

jzlixiao 2020-07-29

pandas 的DataFrame.apply()

pandas的apply函数是自动根据function遍历每一个数据，然后返回一个数据结构为Series的结果

mmmjyjy 2020-07-16

【Pandas】基本功能

结合自己的经验，我觉得Pandas的本质是类似于Matlab、Eviews之类的数据分析软件。只是其他的被人做成了有UI界面的软件。从Pandas的结构来看，最核心的两个类。其他功能是围绕这两个类进行了功能上的扩展。为了保持学习的趣味性，我觉得按照实际使用

QianYanDai 2020-07-05

【pandas】概述

Pandas是python中运用很广泛的统计分析库，用于各种金融、工业、等等统计分析，适用于各种时间序列和面板数据等。而对应于Pandas库，最主要的两个类分别是Series和DataFrame。Pandas是numpy的一种扩展，因此很多高级的数据计算方

QianYanDai 2020-07-05

数据分析三剑客之Pandas时间序列

datetime模块，主要掌握：datetime.date(), datetime.datetime(), datetime.timedelta()，日期解析方法：parser.parse. print(parse(‘2000-1-1‘),‘\n‘,par

june0 2020-07-04

初探pandas——索引和查询数据

通过索引值或索引标签获取数据。通过index查看索引值。ser[[‘a‘,‘b‘,‘c‘]]: a 0. 如果对两个序列进行运算，索引就会将元素对齐进行运算。# 查询第1，2，3行。student[[‘name‘,‘age‘]]. 如果查询多个列，必

QianYanDai 2020-07-04

python使用pandas读取excel

# -*- coding: utf-8 -*-. import pandas as pd. from collections import defaultdict. import json. from pathlib import Path. DATA =

HMHYY 2020-06-28

安科网

用于ETL的Python数据转换工具

xirongxudlut

xirongxudlut

相关推荐

教你几招，Pandas轻松处理超大规模数据

秒懂！图解四个实用的Pandas函数！

Python 中利用Pandas处理复杂的Excel数据

不常见的Pandas小窍门：我打赌一定有你不知道的

在pandas中利用hdf5高效存储数据

别找了，这是Pandas最详细教程了

Pandas这样来设置，做数据分析舒适百倍

高效的10个Pandas函数，你都用过了吗？

10 个加速Python数据分析的简单的小技巧

Pandas

Pandas闪回咒！如何在Python中重写SQL查询？

高效的10个Pandas函数，你都用过吗？

推荐5个实用的Pandas技巧

pandas 一维台账数据与二维表格数据的转换

pandas 的DataFrame.apply()

【Pandas】基本功能

【pandas】概述

数据分析三剑客之Pandas时间序列

初探pandas——索引和查询数据

python使用pandas读取excel

xirongxudlut