pandas系列之 DataFrame 行列数据筛选

cjsyrwt

2018-08-22

关注关注

一、对DataFrame的认知

DataFrame的本质是行(index)列(column)索引+多列数据。

为了简化理解，我们不妨换个思路…

现实中，为了简化对一件事物的描述，我们会选择几个特征。

例如，从（性别、身高、学历、职业、爱好..）等角度去刻画一个人，这些“角度”即为“特征”。

pandas系列之 DataFrame 行列数据筛选

其中，不同的行表示不同的记录；列代表特征，不同记录因各个特征之间的差异而不同。

DataFrame默认索引是序号（0，1，2…），可以理解成位置索引。一般我们用id标识不同记录，不会改变index。但为了理解不同特征（列）含义，我们往往会重新指定column。

一些简易但不算严谨的理解是：

行列

行 – index – 记录（一般沿用默认索引）

列 – column – 特征（自定义索引）

索引

默认索引 – 序号 – 位置 – 方便索引但理解不易

自定义索引 – 特征名称 – 属性 – 便于理解

二、对dataframe进行行列数据筛选

import pandas as pd,numpy as np

from pandas import DataFrame

df = DataFrame(np.arange(20).reshape((4,5)),column = list('abcde'))

pandas系列之 DataFrame 行列数据筛选

1.df[]&df. 选取列数据

df.a

df[[‘a’,’b’]]

2.df.loc[[index],[colunm]] 通过标签选择数据

不对行进行筛选时，[index]处填 : (不能为空)，即df.loc[:,’a’]表示选取a列全部数据。

df.loc[0,’a’]

df.loc[0:1,[‘a’,’b’]]

df.loc[[0,2],[‘a’,’c’]]

pandas系列之 DataFrame 行列数据筛选

3.df.iloc[[index],[colunm]] 通过位置选择数据

不对行进行筛选时，同df.loc[]，即[index]处不能为空。

df.iloc[0,0]

df.iloc[0:1,1:3]

df.iloc[[0,2],[1,3]]

pandas系列之 DataFrame 行列数据筛选

4.df.ix[[index],[column]] 通过标签or位置选择数据

df.ix[]混合了标签和位置选择。需要注意的是，[index]和[column]的框内需要指定同一类的选择。

df.ix[[0:1],[‘a’,3]]报错

pandas系列之 DataFrame 行列数据筛选

dataframe pandas 索引

cjsyrwt

0 关注 0 粉丝 0 动态

关注关注

秒懂！图解四个实用的Pandas函数！

在用Python进行机器学习或者日常的数据处理中，Pandas是最常用的Python库之一，熟练掌握pandas是每一个数据科学家的必备技能，本文将用代码+图片详解Pandas中的四个实用函数!面对这样的需求我们可以选择自己写一个函数完成，但是使用pand

roamer 2020-10-29

高效的10个Pandas函数，你都用过了吗？

andas是python中最主要的数据分析库之一，它提供了非常多的函数、方法，可以高效地处理并分析数据。让pandas如此受欢迎的原因是它简洁、灵活、功能强大的语法。这篇文章将会配合实例，讲解20个重要的pandas函数。其中有一些很常用，相信你可能用到过

三石 2020-08-23

高效的10个Pandas函数，你都用过吗？

Pandas是python中比较主要的数据分析库之一，它提供了非常多的函数、方法，可以高效地处理并分析数据。让pandas如此受欢迎的原因是它简洁、灵活、功能强大的语法。这篇文章将会配合实例，讲解10个重要的pandas函数。其中有一些很常用，相信你可能用

QianYanDai 2020-08-16

pandas 的DataFrame.apply()

pandas的apply函数是自动根据function遍历每一个数据，然后返回一个数据结构为Series的结果

mmmjyjy 2020-07-16

【Pandas】基本功能

结合自己的经验，我觉得Pandas的本质是类似于Matlab、Eviews之类的数据分析软件。只是其他的被人做成了有UI界面的软件。从Pandas的结构来看，最核心的两个类。其他功能是围绕这两个类进行了功能上的扩展。为了保持学习的趣味性，我觉得按照实际使用

QianYanDai 2020-07-05

【pandas】概述

Pandas是python中运用很广泛的统计分析库，用于各种金融、工业、等等统计分析，适用于各种时间序列和面板数据等。而对应于Pandas库，最主要的两个类分别是Series和DataFrame。Pandas是numpy的一种扩展，因此很多高级的数据计算方

QianYanDai 2020-07-05

使用PYODBC将数据从Pandas的DataFrame写入SQL Server

总公司的某数据以文件形式存放在FTP服务器上，现将其移植到我本地的SQL服务器。#由于informix生成的unl文件为cp936编码，pandas 读取时会对有些汉字报错，所以转为utf-8. #对_tmp.txt 文件读取时，要注意纯数字的格式转换,

jiahaohappy 2020-06-21

pandas基础操作（一）

Pandas基于两种数据类型： series 与 dataframe. DataFrame：是一个二维的表结构。df[[‘code‘]] # 选取一列，生成一个DataFrame. df[1:3] #第1行到第2行。loc，在知道列名字的情况下，df

QianYanDai 2020-06-16

pandas用法总结

with codecs.open as f: for line in f: line_split = line.strip().split items.append

zhangxiaojiakele 2020-05-25

使用pandas库对csv文件进行筛选和保存

多数大佬都是直接pandas官网甩我脸上，然后举一个入门级的例子。这个函数里面需要写入csv文件的路径，如果是把csv文件保存到了python的工程文件夹下，则只需要./文件名即可，然后encoding=‘utf-8‘是使用utf-8方式编码，有时候需要换

jzlixiao 2020-05-15

pandas对角线值修改

df = pd.DataFrame(np.arange(16).reshape((4, 4)), index=[‘a‘, ‘b‘, ‘c‘, ‘d‘], columns=[‘i‘, ‘j‘, ‘k‘, ‘f‘]). array([[ 0, 1, 2,

jiahaohappy 2020-05-12

pandas学习

Python中的pandas模块进行数据分析。在pandas中有两类非常重要的数据结构，即序列Series和数据框DataFrame。Series类似于numpy中的一维数组，除了通吃一维数组可用的函数或方法，而且其可通过索引标签的方式获取数据，还具有索引

zhangxiaojiakele 2020-05-11

Pandas详解

Pandas是一个强大的分析结构化数据的工具集；它的使用基础是Numpy；用于数据挖掘和数据分析，同时也提供数据清洗功能。Pandas有三大数据结构，Series、DataFrame以及Panel。仅由一组数据也可产生简单的Series对象。DataFra

jzlixiao 2020-05-08

pandas -- numpy++

Series是一种类似于一维数组的对象,由一组数据以及一组与之对应的索引组成。 index: 索引序列,必须是唯一的,且与数据的长度相同. 如果没有传入索引参数,则默认会自动创建一个从0~N的整数索引

jzlixiao 2020-05-09

机器学习新风暴：如何用ML模型预测房价？

从驾驶汽车到识别语音+翻译，机器学习通过软件预测变幻莫测的现实世界，正在人工智能领域掀起一场风暴。机器学习是教计算机系统使用反馈的旧数据进行预测的过程，基本上是训练计算机根据过去的数据预测未来的数据。机器学习大致分为两大类：监督学习和无监督学习。对此可以使

81510295 2020-11-17

Python CategoricalDtype自定义排序实现原理解析

当我们的透视表生成完毕后，有很多情况下需要我们对某列或某行值进行排序。排序有很多种方法。例如sort_index及sort_values函数也可以对数据进行排序，这里就不多说了。对于数值和字母的排序很容易，但是对于中文的排序就有点麻烦了。然后通过指定参数列

listep 2020-09-11

领导给了一堆无序杂乱的数据，我写了个Python自动化脚本

如果说同事或者老板给你一堆这样的数据，你估计会抓狂，该怎么处理呢?第一行和第三行有4个属性，第二行有5个属性。不同行的属性值，并不是对应排列。你可能会想，直接用Excel分裂。Excel分列导致的结果就是：不同的属性，存在于相同的行。放弃Excel那条路之

Tristahong 2020-08-24

spark系列之基本概念

　　RDD是对象的分布式集合。　　RDD也提供数据沿袭——以图形形式给出每个中间步骤的祖先树，当RDD的一个分区丢失，可以根据祖先树重建该分区。　　RDD有两组操作，转换和行动，RDD转换是有惰性的，宽窄依赖。　　SparkSession是读取数据、处理元

Johnson0 2020-07-28

python数据挖掘常用工具有哪几种？

python有强大的第三方库，广泛用于数据分析，数据挖掘、机器学习等领域，下面小编整理了python数据挖掘的一些常用库，希望对各位小伙伴学习python数据挖掘有所帮助。能够提供数组支持，进行矢量运算，并且高效地处理函数，线性代数处理等。提供真正的数组，

santiago00 2020-07-11

spark企业运用

========== Spark SQL ==========1、Spark SQL 是 Spark 的一个模块，可以和 RDD 进行混合编程、支持标准的数据源、可以集成和替代 Hive、可以提供 JDBC、ODBC 服务器功能。统一的数据访问方式，Spa

Oeljeklaus 2020-05-29

安科网

pandas系列之 DataFrame 行列数据筛选

cjsyrwt

cjsyrwt

相关推荐

秒懂！图解四个实用的Pandas函数！

高效的10个Pandas函数，你都用过了吗？

高效的10个Pandas函数，你都用过吗？

pandas 的DataFrame.apply()

【Pandas】基本功能

【pandas】概述

使用PYODBC将数据从Pandas的DataFrame写入SQL Server

pandas基础操作（一）

pandas用法总结

使用pandas库对csv文件进行筛选和保存

pandas对角线值修改

pandas学习

Pandas详解

pandas -- numpy++

机器学习新风暴：如何用ML模型预测房价？

Python CategoricalDtype自定义排序实现原理解析

领导给了一堆无序杂乱的数据，我写了个Python自动化脚本

spark系列之基本概念

python数据挖掘常用工具有哪几种？

spark企业运用

cjsyrwt