Pandas常用方法手册

jiahaohappy

2020-01-08

关键缩写和包导入

在这个速查手册中，我们使用如下缩写：

df：任意的Pandas DataFrame对象

同时我们需要做如下的引入：

import pandas as pd

导入数据

pd.read_csv(filename)	从CSV文件导入数据
pd.read_table(filename)	从限定分隔符的文本文件导入数据
pd.read_excel(filename)	从Excel文件导入数据
pd.read_sql(query, connection_object)	从SQL表/库导入数据
pd.read_json(json_string)	从JSON格式的字符串导入数据
pd.read_html(url)	解析URL、字符串或者HTML文件，抽取其中的tables表格
pd.read_clipboard()	从你的粘贴板获取内容，并传给read_table()
pd.DataFrame(dict)	从字典对象导入数据，Key是列名，Value是数据

导出数据

df.to_csv(filename)	导出数据到CSV文件
df.to_excel(filename)	导出数据到Excel文件
df.to_sql(table_name, connection_object)	导出数据到SQL表
df.to_json(filename)	以Json格式导出数据到文本文件

创建测试对象

pd.DataFrame(np.random.rand(20,5))	创建20行5列的随机数组成的DataFrame对象
pd.Series(my_list)	从可迭代对象my_list创建一个Series对象
df.index = pd.date_range(‘1900/1/30‘, periods=df.shape[0])	增加一个日期索引

查看、检查数据

df.head(n)	查看DataFrame对象的前n行
df.tail(n)	查看DataFrame对象的最后n行
df.shape()	查看行数和列数
http:// df.info()	查看索引、数据类型和内存信息
df.describe()	查看数值型列的汇总统计
s.value_counts(dropna=False)	查看Series对象的唯一值和计数
df.apply(pd.Series.value_counts)	查看DataFrame对象中每一列的唯一值和计数

数据选取

df[col]	根据列名，并以Series的形式返回列
df[[col1, col2]]	以DataFrame形式返回多列
s.iloc[0]	按位置选取数据
s.loc[‘index_one‘]	按索引选取数据
df.iloc[0,:]	返回第一行
df.iloc[0,0]	返回第一列的第一个元素

数据清理

df.columns = [‘a‘,‘b‘,‘c‘]	重命名列名
pd.isnull()	检查DataFrame对象中的空值，并返回一个Boolean数组
pd.notnull()	检查DataFrame对象中的非空值，并返回一个Boolean数组
df.dropna()	删除所有包含空值的行
df.dropna(axis=1)	删除所有包含空值的列
df.dropna(axis=1,thresh=n)	删除所有小于n个非空值的行
df.fillna(x)	用x替换DataFrame对象中所有的空值
s.astype(float)	将Series中的数据类型更改为float类型
s.replace(1,‘one‘)	用‘one’代替所有等于1的值
s.replace([1,3],[‘one‘,‘three‘])	用‘one‘代替1，用‘three‘代替3
df.rename(columns=lambda x: x + 1)	批量更改列名
df.rename(columns={‘old_name‘: ‘new_ name‘})	选择性更改列名
df.set_index(‘column_one‘)	更改索引列
df.rename(index=lambda x: x + 1)	批量重命名索引

数据透视表

df.groupby(col1).agg(np.mean)	返回按列col1分组的所有列的均值
data.apply(np.mean)	对DataFrame中的每一列应用函数np.mean
data.apply(np.max,axis=1)	对DataFrame中的每一行应用函数np.max

数据合并

df1.append(df2)：	将df2中的行添加到df1的尾部
df.concat([df1, df2],axis=1)	将df2中的列添加到df1的尾部
df1.join(df2,on=col1,how=‘inner‘)	对df1的列和df2的列执行SQL形式的join

数据统计

df.describe()	查看数据值列的汇总统计
df.mean()	返回所有列的均值
df.corr()	返回列与列之间的相关系数
df.count()	返回每一列中的非空值的个数
df.max()	返回每一列的最大值
df.min()	返回每一列的最小值
df.median()	返回每一列的中位数
df.std()	返回每一列的标准差

pandas dataframe td

jiahaohappy

0 关注 0 粉丝 0 动态

相关推荐

秒懂！图解四个实用的Pandas函数！

在用Python进行机器学习或者日常的数据处理中，Pandas是最常用的Python库之一，熟练掌握pandas是每一个数据科学家的必备技能，本文将用代码+图片详解Pandas中的四个实用函数!面对这样的需求我们可以选择自己写一个函数完成，但是使用pand

roamer 2020-10-29

高效的10个Pandas函数，你都用过了吗？

andas是python中最主要的数据分析库之一，它提供了非常多的函数、方法，可以高效地处理并分析数据。让pandas如此受欢迎的原因是它简洁、灵活、功能强大的语法。这篇文章将会配合实例，讲解20个重要的pandas函数。其中有一些很常用，相信你可能用到过

三石 2020-08-23

高效的10个Pandas函数，你都用过吗？

Pandas是python中比较主要的数据分析库之一，它提供了非常多的函数、方法，可以高效地处理并分析数据。让pandas如此受欢迎的原因是它简洁、灵活、功能强大的语法。这篇文章将会配合实例，讲解10个重要的pandas函数。其中有一些很常用，相信你可能用

QianYanDai 2020-08-16

pandas 的DataFrame.apply()

pandas的apply函数是自动根据function遍历每一个数据，然后返回一个数据结构为Series的结果

mmmjyjy 2020-07-16

【Pandas】基本功能

结合自己的经验，我觉得Pandas的本质是类似于Matlab、Eviews之类的数据分析软件。只是其他的被人做成了有UI界面的软件。从Pandas的结构来看，最核心的两个类。其他功能是围绕这两个类进行了功能上的扩展。为了保持学习的趣味性，我觉得按照实际使用

QianYanDai 2020-07-05

【pandas】概述

Pandas是python中运用很广泛的统计分析库，用于各种金融、工业、等等统计分析，适用于各种时间序列和面板数据等。而对应于Pandas库，最主要的两个类分别是Series和DataFrame。Pandas是numpy的一种扩展，因此很多高级的数据计算方

QianYanDai 2020-07-05

使用PYODBC将数据从Pandas的DataFrame写入SQL Server

总公司的某数据以文件形式存放在FTP服务器上，现将其移植到我本地的SQL服务器。#由于informix生成的unl文件为cp936编码，pandas 读取时会对有些汉字报错，所以转为utf-8. #对_tmp.txt 文件读取时，要注意纯数字的格式转换,

jiahaohappy 2020-06-21

pandas基础操作（一）

Pandas基于两种数据类型： series 与 dataframe. DataFrame：是一个二维的表结构。df[[‘code‘]] # 选取一列，生成一个DataFrame. df[1:3] #第1行到第2行。loc，在知道列名字的情况下，df

QianYanDai 2020-06-16

pandas用法总结

with codecs.open as f: for line in f: line_split = line.strip().split items.append

zhangxiaojiakele 2020-05-25

使用pandas库对csv文件进行筛选和保存

多数大佬都是直接pandas官网甩我脸上，然后举一个入门级的例子。这个函数里面需要写入csv文件的路径，如果是把csv文件保存到了python的工程文件夹下，则只需要./文件名即可，然后encoding=‘utf-8‘是使用utf-8方式编码，有时候需要换

jzlixiao 2020-05-15

pandas对角线值修改

df = pd.DataFrame(np.arange(16).reshape((4, 4)), index=[‘a‘, ‘b‘, ‘c‘, ‘d‘], columns=[‘i‘, ‘j‘, ‘k‘, ‘f‘]). array([[ 0, 1, 2,

jiahaohappy 2020-05-12

pandas学习

Python中的pandas模块进行数据分析。在pandas中有两类非常重要的数据结构，即序列Series和数据框DataFrame。Series类似于numpy中的一维数组，除了通吃一维数组可用的函数或方法，而且其可通过索引标签的方式获取数据，还具有索引

zhangxiaojiakele 2020-05-11

Pandas详解

Pandas是一个强大的分析结构化数据的工具集；它的使用基础是Numpy；用于数据挖掘和数据分析，同时也提供数据清洗功能。Pandas有三大数据结构，Series、DataFrame以及Panel。仅由一组数据也可产生简单的Series对象。DataFra

jzlixiao 2020-05-08

pandas -- numpy++

Series是一种类似于一维数组的对象,由一组数据以及一组与之对应的索引组成。 index: 索引序列,必须是唯一的,且与数据的长度相同. 如果没有传入索引参数,则默认会自动创建一个从0~N的整数索引

jzlixiao 2020-05-09

教你几招，Pandas轻松处理超大规模数据

处理大规模数据集时常是棘手的事情，尤其在内存无法完全加载数据的情况下。在资源受限的情况下，可以使用 Python Pandas 提供的一些功能，降低加载数据集的内存占用。可用技术包括压缩、索引和数据分块。在上述过程中需要解决一些问题，其中之一就是数据量过大

三石 2020-10-30

Python 中利用Pandas处理复杂的Excel数据

关于Excel数据处理，很多同学可能使用过Pyhton的pandas模块，用它可以轻松地读取和转换Excel数据。但是实际中Excel表格结构可能比较杂乱，数据会分散不同的工作表中，而且在表格中分布很乱，这种情况下啊直接使用pandas就会非常吃力。本文虫

三石 2020-10-29

不常见的Pandas小窍门：我打赌一定有你不知道的

作为一名数据分析师或数据科学家，不了解Python中的Pandas库是无论如何说不过去的，它已经成为Python中用来整理、清理数据的标准工具了。然而，关于Pandas，你确定自己完全掌握了嘛?本文将分享一些少见但有用的Pandas技巧，它们能提升工作效率

wangquannuaa 2020-10-15

在pandas中利用hdf5高效存储数据

1 简介HDF5是用于存储大规模数值数据的较为理想的存储格式。在Python中操纵HDF5文件的方式主要有两种，一是利用pandas中内建的一系列HDF5文件操作相关的方法来将pandas中的数据结构保存在HDF5文件中，二是利用h5py模块来完成从Pyt

wangquannuaa 2020-09-29

别找了，这是Pandas最详细教程了

Python 是开源的，它很棒，但是也无法避免开源的一些固有问题：很多包都在做同样的事情。如果你是 Python 新手，那么你很难知道某个特定任务的最佳包是哪个，你需要有经验的人告诉你。有一个用于数据科学的包绝对是必需的，它就是 pandas。pandas

jzlixiao 2020-09-15

Pandas这样来设置，做数据分析舒适百倍

在日常使用pandas的过程中，由于我们所分析的数据表规模、格式上的差异，使得同样的函数或方法作用在不同数据上的效果存在差异。而pandas有着自己的一套「参数设置系统」，可以帮助我们在遇到不同的数据时灵活调节从而达到最好的效果，本文就将介绍pandas中

wangquannuaa 2020-08-30

jiahaohappy

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号