Pandas

jzlixiao

2020-08-18

Pandas的数据结构

导入pandas：

import pandas as pdfrom pandas import Series,DataFrameimport numpy as np

Series

Series是一种类似与一维数组的对象，由下面两个部分组成：

values：一组数据（ndarray类型）
index：相关的数据索引标签

Series(
data=None,
index=None,
dtype=None,
name=None,
copy=False,
fastpath=False,
)

Series的创建

由列表或numpy数组创建

默认索引为0到N-1的整数型索引

# 使用列表创建SeriesSeries(data=[1,2,3,])

0    11    22    3dtype: int64

Series(data=np.random.randint(0,100,size=(3)))

0    931    762    65dtype: int32

可以通过设置index参数指定索引

Series(data=[1,2,3],index=[‘a‘,‘b‘,‘c‘]) #显式索引

a    1b    2c    3dtype: int64

============================================练习1：使用多种方法创建以下Series，命名为s1：  语文 150   数学 150   英语 150   理综 300   ============================================

Series的索引和切片

可以使用中括号取单个索引（此时返回的是元素类型），或者中括号里一个列表取多个索引（此时返回的是一个Series类型）。

(1) 显式索引：

使用index中的元素作为索引值
使用s.loc[]（推荐）:注意，loc中括号中放置的一定是显示索引
注意，此时是闭区间

s = Series([1,2,3,4],index=[‘a‘,‘b‘,‘c‘,‘d‘])s

a    1b    2c    3d    4dtype: int64

s[1]  # 2，隐式索引：s[‘a‘]  # 1s.a  # 1  显示索引

隐式索引：

使用整数作为索引值
使用.iloc[]（推荐）:iloc中的中括号中必须放置隐式索引
注意，此时是半开区间

s[1:3]   # 隐式切片s[‘a‘:‘c‘]  # 显示切片

a    1b    2c    3dtype: int64

Series的基本概念

可以使用s.head(),tail()分别查看前n个和后n个值

s.head(2)

a    1b    2dtype: int64

对Series元素进行去重

s = Series([1,1,1,2,3,3,3,3,2])s.unique()

array([1, 2, 3], dtype=int64)

使得两个Series进行相加。

当索引没有对应的值时，可能出现缺失数据显示NaN（not a number）的情况

s1 = Series([1,2,3],index=[‘a‘,‘b‘,‘c‘])s2 = Series([1,2,3],index=[‘a‘,‘d‘,‘c‘])s = s1 + s2s

a    2.0b    NaNc    6.0d    NaNdtype: float64

可以使用pd.isnull()，pd.notnull()，或s.isnull(),notnull()函数检测缺失数据

s[[1,2]]  # 一次取多值s[[‘a‘,‘b‘]]s[[True,False,True,False]] # True将值保留，False:将值舍去。True:2,False:NaN,True:6,Flase:NaN。

a    2.0c    6.0dtype: float64

s.isnull()   # 检测每个元素，NOT NaN:False；NaN:True

a    Falseb     Truec    Falsed     Truedtype: bool

s.notnull()  # 检测每个元素，NOT NaN:True；NaN:False

a     Trueb    Falsec     Trued    Falsedtype: bool

s[s.notnull()]

a    2.0c    6.0dtype: float64

Series之间的运算

在运算中自动对齐不同索引的数据
如果索引不对应，则补NaN

DataFrame

DataFrame是一个【表格型】的数据结构。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引，也有列索引。

行索引：index
列索引：columns
值：values

DataFrame的创建

最常用的方法是传递一个字典来创建。DataFrame以字典的键作为每一列的名称，以字典的值（一个数组）作为每一列。

此外，DataFrame会自动加上每一行的索引。

使用字典创建的DataFrame后，则columns参数将不可被使用。

同Series一样，若传入的列与字典的键不匹配，则相应的值为NaN。

使用ndarray创建DataFrame

df = DataFrame(data=np.random.randint(0,100,size=(3,4)),index=[‘a‘,‘b‘,‘c‘],columns=[‘A‘,‘B‘,‘C‘,‘D‘])df

	A	B	C	D
a	49	10	86	64
b	6	74	62	13
c	49	79	14	25

DataFrame属性：values、columns、index、shape

df.values

array([[49, 10, 86, 64],       [ 6, 74, 62, 13],       [49, 79, 14, 25]])

df.columns

Index([‘A‘, ‘B‘, ‘C‘, ‘D‘], dtype=‘object‘)

df.index

Index([‘a‘, ‘b‘, ‘c‘], dtype=‘object‘)

df.shape

(3, 4)

试做：使用ndarray创建DataFrame：创建一个表格用于展示张三，李四，王五的java，python的成绩

dic = {    ‘张三‘:[150,150,150,150],    ‘李四‘:[0,0,0,0]}df = DataFrame(data=dic,index=[‘语文‘,‘数学‘,‘英语‘,‘理综‘])df

	张三	李四
语文	150	0
数学	150	0
英语	150	0
理综	150	0

DataFrame的索引

(1) 对列进行索引

- 通过类似字典的方式  df[‘q‘]- 通过属性的方式     df.q

可以将DataFrame的列获取为一个Series。返回的Series拥有原DataFrame相同的索引，且name属性也已经设置好了，就是相应的列名。

df

	张三	李四
语文	150	0
数学	150	0
英语	150	0
理综	150	0

# 修改列索引df[‘张三‘]   # 返回的是Series

语文    150数学    150英语    150理综    150Name: 张三, dtype: int64

# 获取前两列df[[‘李四‘,‘张三‘]]

	李四	张三
语文	0	150
数学	0	150
英语	0	150
理综	0	150

(2) 对行进行索引

- 使用.loc[]加index来进行行索引- 使用.iloc[]加整数来进行行索引

同样返回一个Series，index为原来的columns。

df.loc[‘语文‘]

张三    150李四      0Name: 语文, dtype: int64

df.iloc[0]

张三    150李四      0Name: 语文, dtype: int64

df.iloc[[0,1]]

	张三	李四
语文	150	0
数学	150	0

(3) 对元素索引的方法
- 使用列索引
- 使用行索引(iloc[3,1] or loc[‘C‘,‘q‘]) 行索引在前，列索引在后

df[‘张三‘][‘英语‘]

df.loc[‘英语‘,‘张三‘]  # 逗号左方：行，右方：列

df.loc[[‘数学‘,‘理综‘],‘张三‘]  # 逗号左方：行，右方：列

数学    150理综    150Name: 张三, dtype: int64

切片：

【注意】
直接用中括号时：

索引表示的是列索引
切片表示的是行切片

df

	张三	李四
语文	150	0
数学	150	0
英语	150	0
理综	150	0

df[0:2]

	张三	李四
语文	150	0
数学	150	0

在loc和iloc中使用切片(切列) ： df.loc[‘B‘:‘C‘,‘丙‘:‘丁‘]

df.iloc[:,0:1]

	张三
语文	150
数学	150
英语	150
理综	150

索引:

df[列索引]：取一列
df[[col1,col2]]:取出两列
df.loc[显示的行索引]：取行
df.loc[行,列]：取元素
切片：
df[index1:index3]:切行
df.loc[col1:col3]:切列

3）DataFrame的运算

（1） DataFrame之间的运算

同Series一样：

在运算中自动对齐不同索引的数据
如果索引不对应，则补NaN

创建DataFrame df1 不同人员的各科目成绩，月考一

创建DataFrame df2 不同人员的各科目成绩，月考二
有新学生转入

============================================练习6：1. 假设ddd是期中考试成绩，ddd2是期末考试成绩，请自由创建ddd2，并将其与ddd相加，求期中期末平均值。2. 假设张三期中考试数学被发现作弊，要记为0分，如何实现？3. 李四因为举报张三作弊立功，期中考试所有科目加100分，如何实现？4. 后来老师发现有一道题出错了，为了安抚学生情绪，给每位学生每个科目都加10分，如何实现？============================================

qizhong = dfqimo = df

(qizhong + qimo)/2

	张三	李四
语文	150.0	0.0
数学	150.0	0.0
英语	150.0	0.0
理综	150.0	0.0

qizhong.loc[‘数学‘,‘张三‘] = 0qizhong

	张三	李四
语文	150	0
数学	0	0
英语	150	0
理综	150	0

qizhong[‘李四‘] += 100qizhong

	张三	李四
语文	150	100
数学	150	100
英语	150	100
理综	150	100

qizhong += 10qizhong

	张三	李四
语文	160	110
数学	160	110
英语	160	110
理综	160	110

股票项目

https://www.joinquant.com/

tushare官网tushare.org，https://tushare.pro/

使用tushare包获取某股票的历史行情数据。

import tushare as tsdf = ts.get_k_data(‘600519‘,start=‘2020-08-10‘)

df.to_csv(‘./maotai.csv‘) # 持久化储存

df = pd.read_csv(‘./maotai.csv‘)df

	Unnamed: 0	date	open	close	high	low	volume	code
0	0	2020-08-10	1627.97	1633.99	1644.96	1608.11	23624.0	600519
1	1	2020-08-11	1640.00	1642.51	1666.43	1640.00	35818.0	600519
2	2	2020-08-12	1633.00	1626.95	1641.00	1605.25	27934.0	600519
3	3	2020-08-13	1630.00	1635.00	1638.88	1609.00	20541.0	600519
4	4	2020-08-14	1639.90	1661.00	1665.70	1631.00	37653.0	600519

df.drop(labels=‘Unnamed: 0‘,axis=1,inplace=True)# drop函数中0是行。删除行,inplace=True:在原数据中删除。

# 验证data列中数据的数据类型type(df[‘date‘][2])  # str

df.head(2)

	date	open	close	high	low	volume	code
0	2020-08-10	1627.97	1633.99	1644.96	1608.11	23624.0	600519
1	2020-08-11	1640.00	1642.51	1666.43	1640.00	35818.0	600519

# 将date这一列的数据转成时间类型然后将其作为原数据的行索引df = pd.read_csv(‘./maotai.csv‘,index_col=‘date‘,parse_dates=[‘date‘])# index_col:将列转为行索引，parse_dates：设置为时间类型df.drop(labels=‘Unnamed: 0‘,axis=1,inplace=True)df

	open	close	high	low	volume	code
date
2020-08-10	1627.97	1633.99	1644.96	1608.11	23624.0	600519
2020-08-11	1640.00	1642.51	1666.43	1640.00	35818.0	600519
2020-08-12	1633.00	1626.95	1641.00	1605.25	27934.0	600519
2020-08-13	1630.00	1635.00	1638.88	1609.00	20541.0	600519
2020-08-14	1639.90	1661.00	1665.70	1631.00	37653.0	600519

输出该股票所有收盘比开盘上涨1%以上的日期

#（收盘-开盘）/开盘 > 0.01(df[‘close‘] - df[‘open‘]) / df[‘open‘] > 0.01#True:满足需求#false：不满足

date2020-08-10    False2020-08-11    False2020-08-12    False2020-08-13    False2020-08-14     Truedtype: bool

#返回了满足需求的行数据df.loc[(df[‘close‘] - df[‘open‘]) / df[‘open‘] > 0.01]

	open	close	high	low	volume	code
date
2020-08-14	1639.9	1661.0	1665.7	1631.0	37653.0	600519

#获取了满足需求的日期df.loc[(df[‘close‘] - df[‘open‘]) / df[‘open‘] > 0.01].index# 结论：如果获取了一组布尔值，接下来改组布尔值就直接作为元数据的行索引

DatetimeIndex([‘2020-08-14‘], dtype=‘datetime64[ns]‘, name=‘date‘, freq=None)

输出该股票所有开盘比前日收盘跌幅超过2%的日期。
（开盘-前日收盘）/ 前日收盘 < -0.02

# (df[‘open‘] - df[‘close‘].shift(1))/df[‘close‘].shift(1) < -0.02# df[‘close‘].shift(1):将close一列下移一列#满足需求的行数据df.loc[(df[‘open‘] - df[‘close‘].shift(1))/df[‘close‘].shift(1) < -0.02].index

假如我从2010年1月1日开始，每月第一个交易日买入1手股票，每年最后一个交易日卖出所有股票，到19年9月为止，我的收益如何？
分析：
- 规则：基于开盘价股票的买卖
- 买：一个完整的年需要买12次股票，一次买入100只，一个完整的年需要买入1200只（单价：当天开盘价）
- 卖：一个完整的年需要卖一次股票，一次卖出1200只
- 备注：19年不是一个完整的年，该年只可以买入900只，并且卖不出去

df_new = df[‘2010‘:‘2019‘]  # 切片，[‘2010-01‘:‘2019-09‘]也可以# 数据的重新取样的机制(resample):根据指定好的规则进行指定数据的提取df_monthly = df_new.resample(‘M‘).first() # 年：A,月：M

# 计算出买股票一共花了多少钱cost_monry = df_monthly[‘open‘].sum()*100cost_monry

卖出所有的股票一共进账多少钱
- 每年最后一个交易日以开盘价为单价进行卖出

df_yearly = df_new.resample(‘A‘).last()df_yearly = df_yearly[:-1]

recv_monry = df_yearly[‘open‘].sum()*1200

19年买入了900只股票没有卖出，剩余的股票也计算到总收益
- 剩余股票的单价应该选择使用昨日的收盘价

last_price = df.iloc[-1][‘close‘]

cunHuo_price = last_price * 900

#计算总收益cunHuo_price+recv_monry-cost_monry # 528908.7

处理丢失数据

有两种丢失数据：

None
np.nan(NaN)

None是Python自带的，其类型为python object。因此，None不能参与到任何计算中。

np.nan（NaN）是浮点类型，能参与到计算中。但计算的结果总是NaN。

pandas中None与np.nan都视作np.nan

pandas处理空值操作

isnull()
notnull()
dropna(): 过滤丢失数据
fillna(): 填充丢失数据

创建DataFrame，给其中某些元素赋值为nan

(1)判断函数

isnull()
notnull()
df.notnull/isnull().any()/all()

过滤df中的空值（只保留没有空值的行）

df.dropna() 可以选择过滤的是行还是列（默认为行）:axis中0表示行，1表示的列

(3) 填充函数 Series/DataFrame

fillna():value和method参数。

可以选择前向填充还是后向填充。

method 控制填充的方式 bfill ffill

练习7：1. 简述None与NaN的区别2. 假设张三李四参加模拟考试，但张三因为突然想明白人生放弃了英语考试，因此记为None，请据此创建一个DataFrame,命名为ddd33. 老师决定根据用数学的分数填充张三的英语成绩，如何实现？    用李四的英语成绩填充张三的英语成绩？

pandas 索引

jzlixiao

0 关注 0 粉丝 0 动态

关注关注

初探pandas——索引和查询数据

通过索引值或索引标签获取数据。通过index查看索引值。ser[[‘a‘,‘b‘,‘c‘]]: a 0. 如果对两个序列进行运算，索引就会将元素对齐进行运算。# 查询第1，2，3行。student[[‘name‘,‘age‘]]. 如果查询多个列，必

QianYanDai 2020-07-04

教你几招，Pandas轻松处理超大规模数据

处理大规模数据集时常是棘手的事情，尤其在内存无法完全加载数据的情况下。在资源受限的情况下，可以使用 Python Pandas 提供的一些功能，降低加载数据集的内存占用。可用技术包括压缩、索引和数据分块。在上述过程中需要解决一些问题，其中之一就是数据量过大

三石 2020-10-30

秒懂！图解四个实用的Pandas函数！

在用Python进行机器学习或者日常的数据处理中，Pandas是最常用的Python库之一，熟练掌握pandas是每一个数据科学家的必备技能，本文将用代码+图片详解Pandas中的四个实用函数!面对这样的需求我们可以选择自己写一个函数完成，但是使用pand

roamer 2020-10-29

Python 中利用Pandas处理复杂的Excel数据

关于Excel数据处理，很多同学可能使用过Pyhton的pandas模块，用它可以轻松地读取和转换Excel数据。但是实际中Excel表格结构可能比较杂乱，数据会分散不同的工作表中，而且在表格中分布很乱，这种情况下啊直接使用pandas就会非常吃力。本文虫

三石 2020-10-29

不常见的Pandas小窍门：我打赌一定有你不知道的

作为一名数据分析师或数据科学家，不了解Python中的Pandas库是无论如何说不过去的，它已经成为Python中用来整理、清理数据的标准工具了。然而，关于Pandas，你确定自己完全掌握了嘛?本文将分享一些少见但有用的Pandas技巧，它们能提升工作效率

wangquannuaa 2020-10-15

在pandas中利用hdf5高效存储数据

1 简介HDF5是用于存储大规模数值数据的较为理想的存储格式。在Python中操纵HDF5文件的方式主要有两种，一是利用pandas中内建的一系列HDF5文件操作相关的方法来将pandas中的数据结构保存在HDF5文件中，二是利用h5py模块来完成从Pyt

wangquannuaa 2020-09-29

别找了，这是Pandas最详细教程了

Python 是开源的，它很棒，但是也无法避免开源的一些固有问题：很多包都在做同样的事情。如果你是 Python 新手，那么你很难知道某个特定任务的最佳包是哪个，你需要有经验的人告诉你。有一个用于数据科学的包绝对是必需的，它就是 pandas。pandas

jzlixiao 2020-09-15

Pandas这样来设置，做数据分析舒适百倍

在日常使用pandas的过程中，由于我们所分析的数据表规模、格式上的差异，使得同样的函数或方法作用在不同数据上的效果存在差异。而pandas有着自己的一套「参数设置系统」，可以帮助我们在遇到不同的数据时灵活调节从而达到最好的效果，本文就将介绍pandas中

wangquannuaa 2020-08-30

高效的10个Pandas函数，你都用过了吗？

andas是python中最主要的数据分析库之一，它提供了非常多的函数、方法，可以高效地处理并分析数据。让pandas如此受欢迎的原因是它简洁、灵活、功能强大的语法。这篇文章将会配合实例，讲解20个重要的pandas函数。其中有一些很常用，相信你可能用到过

三石 2020-08-23

10 个加速Python数据分析的简单的小技巧

一些小的技巧在编程领域可能会非常有用，在数据科学领域同样如此。数据科学爱好者 Parul Pandey 在近日发表了一篇博文，分享了在数据科学中非常实用的 10 个小技巧。有时候，一点小小的黑客行为可以节省时间，挽救生命。一个小小的快捷方式或附加组件有时

逍遥友 2020-08-21

Pandas闪回咒！如何在Python中重写SQL查询？

一些程序员只熟悉SQL中的数据操作，却不熟悉Python中的数据操作，因此在完成项目时，我们不得不频繁地在SQL和Python之间进行切换，导致了工作效率低下和生产能力下降。本文就教你一种方法，使用Pandas在Python中轻松重现SQL结果。我们将使用

wangquannuaa 2020-08-17

高效的10个Pandas函数，你都用过吗？

Pandas是python中比较主要的数据分析库之一，它提供了非常多的函数、方法，可以高效地处理并分析数据。让pandas如此受欢迎的原因是它简洁、灵活、功能强大的语法。这篇文章将会配合实例，讲解10个重要的pandas函数。其中有一些很常用，相信你可能用

QianYanDai 2020-08-16

pandas 一维台账数据与二维表格数据的转换

从源数据转化使用数据透式表的话，最终的样式不方便筛选，存在合并单元格。实际想转化为中间的样式。table = pd.pivot_table(df, values=‘销售额‘, index=[‘地区‘, ‘时间‘],关于 stack 和 unstack 也可

jzlixiao 2020-07-29

用于ETL的Python数据转换工具

前几天，我去Reddit询问是否应该将Python用于ETL相关的转换，并且压倒性的回答是"是"。但是，尽管我的Redditor同事热心支持使用Python，但他们建议研究Pandas以外的库-出于对大型数据集Pandas性能的担忧。经

xirongxudlut 2020-07-20

pandas 的DataFrame.apply()

pandas的apply函数是自动根据function遍历每一个数据，然后返回一个数据结构为Series的结果

mmmjyjy 2020-07-16

【Pandas】基本功能

结合自己的经验，我觉得Pandas的本质是类似于Matlab、Eviews之类的数据分析软件。只是其他的被人做成了有UI界面的软件。从Pandas的结构来看，最核心的两个类。其他功能是围绕这两个类进行了功能上的扩展。为了保持学习的趣味性，我觉得按照实际使用

QianYanDai 2020-07-05

【pandas】概述

Pandas是python中运用很广泛的统计分析库，用于各种金融、工业、等等统计分析，适用于各种时间序列和面板数据等。而对应于Pandas库，最主要的两个类分别是Series和DataFrame。Pandas是numpy的一种扩展，因此很多高级的数据计算方

QianYanDai 2020-07-05

数据分析三剑客之Pandas时间序列

datetime模块，主要掌握：datetime.date(), datetime.datetime(), datetime.timedelta()，日期解析方法：parser.parse. print(parse(‘2000-1-1‘),‘\n‘,par

june0 2020-07-04

python使用pandas读取excel

# -*- coding: utf-8 -*-. import pandas as pd. from collections import defaultdict. import json. from pathlib import Path. DATA =

HMHYY 2020-06-28

安科网

Pandas

jzlixiao

Pandas的数据结构

Series

Series的创建

Series的索引和切片

Series的基本概念

DataFrame

DataFrame的创建

DataFrame的索引

切片：

3）DataFrame的运算

股票项目

处理丢失数据

pandas处理空值操作

jzlixiao

相关推荐

初探pandas——索引和查询数据

教你几招，Pandas轻松处理超大规模数据

秒懂！图解四个实用的Pandas函数！

Python 中利用Pandas处理复杂的Excel数据

不常见的Pandas小窍门：我打赌一定有你不知道的

在pandas中利用hdf5高效存储数据

别找了，这是Pandas最详细教程了

Pandas这样来设置，做数据分析舒适百倍

高效的10个Pandas函数，你都用过了吗？

10 个加速Python数据分析的简单的小技巧

Pandas闪回咒！如何在Python中重写SQL查询？

高效的10个Pandas函数，你都用过吗？

推荐5个实用的Pandas技巧

pandas 一维台账数据与二维表格数据的转换

用于ETL的Python数据转换工具

pandas 的DataFrame.apply()

【Pandas】基本功能

【pandas】概述

数据分析三剑客之Pandas时间序列

python使用pandas读取excel

jzlixiao