python_pandas学习

yuan00yu

2019-06-27

numPy

pandas的数据结构介绍

简介

Pandas [1] 是python的一个数据分析包，最初由AQR Capital Management于2008年4月开发，并于2009年底开源出来，目前由专注于Python数据包开发的PyData开发team继续开发和维护，属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来，因此，pandas为时间序列分析提供了很好的支持。 Pandas的名称来自于面板数据（panel data）和python数据分析（data analysis）。panel data是经济学中关于多维数据集的一个术语，在Pandas中也提供了panel的数据类型。

数据结构

Series：一维数组，与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近，其区别是：List中的元素可以是不同的数据类型，而Array和Series中则只允许存储相同的数据类型，这样可以更有效的使用内存，提高运算效率。
Time- Series：以时间为索引的Series。
DataFrame：二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。以下的内容主要以DataFrame为主。
Panel ：三维的数组，可以理解为DataFrame的容器。

终端输入

Jupyter Notebook

导入相关模块

import numpy as np
import pandas as pd 
from pandas import Series, DataFrame

Series

Series是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引）组成。

python_pandas学习

实质上是创建了一个 Series 对象，这也就说明了为什么会有index和values.
python_pandas学习

Series自定义索引
python_pandas学习

Series自定义索引的另一种方法
python_pandas学习

在这里就引入另一个概念“自动对齐”。自定义的索引会自动去寻找原来的索引，如果一样的，就取出原来索引对应的值。
python_pandas学习
在 Pandas 中，如果没有值，都对齐赋给 NaN。

当然上面的代码也可以写成这样
python_pandas学习

Series判断值是否为空
python_pandas学习

DataFrame

一个Datarame表示一个表格，类似电子表格的数据结构，包含一个经过排序的列表集，它们没一个都可以有不同的类型值（数字，字符串，布尔等等）。Datarame有行和列的索引；它可以被看作是一个Series的字典（每个Series共享一个索引）。

构建DataFrame最常用的方法——直接传入一个由等长列表或NumPy数组组成的字典
python_pandas学习

如果指定了列序列，则DataFrame的列就会按照指定的顺序进行排列
python_pandas学习

如果传入的列在数据中找不到，就会产生NAN值
python_pandas学习

通过行、列进行获取

通过类似字典标记的方式或属性的方式，可以将DataFream的列获取为一个Series:
同理行也可以通过位置或名称的方式进行获取

python_pandas学习

基本功能

重新索引

Series的reindex将会根据新索引进行,如果某个索引值当前不存在，就引入缺失值
python_pandas学习

reindex的method选项
- ffill或pad 向前填充值
- bfill或backfill 向后填充值

对于DataFrame，reindex可以修改行、列或者两个都可以修改。如果仅传入一个序列，则会重新索引行
python_pandas学习

reindex函数的参数

参数	说明
index	用作索引的新序列。既可以是index实例，也可以是其他序列型python数据结构
method	插值方式
fill_value	在重新索引过程中，需要引入缺失值时使用的代替值
limit	前向或后向填充时的最大填充量
level	在Multilndex的指定级别上匹配简单索引，否则选取其子集
copy	默认为true,无论如何都复制；如果为false，则新旧相等就不复制

索引、选取和过滤

类型	说明
obj[val]	选取DataFrame的单个列或一组列。在一些特殊的情况下会比较便利：布尔型数组（过滤行）
obj.ix[val]	选取DataFrame的单个行或一组行
obj.ix[:,val]	选取单个列或列子集
obj.ix[val1,val2]	同时选取行和列
reindex方法	将一个或多个轴匹配到新索引
xs方法	根据标签选取单行或单列，并返回一个Series
icol、irow方法	根据整数位置选取单行或单列，并返回一个Series
get_value、set_value方法	根据行标签或列标签选取单个值

dataframe 索引屏幕截图 python

安科网

python_pandas学习

yuan00yu

numPy

pandas的数据结构介绍

简介

数据结构

Series

DataFrame

基本功能

重新索引

索引、选取和过滤

yuan00yu

相关推荐

机器学习新风暴：如何用ML模型预测房价？

秒懂！图解四个实用的Pandas函数！

Python CategoricalDtype自定义排序实现原理解析

领导给了一堆无序杂乱的数据，我写了个Python自动化脚本

高效的10个Pandas函数，你都用过了吗？

高效的10个Pandas函数，你都用过吗？

spark系列之基本概念

pandas 的DataFrame.apply()

python数据挖掘常用工具有哪几种？

【Pandas】基本功能

【pandas】概述

使用PYODBC将数据从Pandas的DataFrame写入SQL Server

pandas基础操作（一）

spark企业运用

pandas用法总结

快速比较多种机器学习模型实例

使用pandas库对csv文件进行筛选和保存

python学习-数据清洗

pandas对角线值修改

pandas学习

yuan00yu