数据科学家和软件工程师都在用的Pandas函数有哪些?

QianYanDai

2020-04-16

本文转载自公众号“读芯术”(ID：AI_Discovery)

软件工程师该像是索引，而不是教科书。你无法记住所有内容，但得知道如何快速查找它们。

数据科学家和软件工程师都在用的Pandas函数有哪些?

能够快速查找和使用函数让我们在编写代码时可以达到一定的流畅程度。因此笔者创建了这份自己每天都在使用的、用于构建网络应用程序和机器学习模型的函数备忘清单。

它不算详尽，但包含了笔者最常使用的函数、示例，以及该何时使用的有效见解。

1.安装

如果想自己运行这些示例，请从Kaggle下载Anime推荐数据集，将其解压缩并放入与jupyter notebook相同的文件夹中。

接下来运行这些指令，应该能重复得出以下任一函数的结果。

import pandas as pd 
import numpy as npanime =pd.read_csv('anime-recommendations-database/anime.csv') 
rating = pd.read_csv('anime-recommendations-database/rating.csv')anime_modified= anime.set_index('name')

2.输入

输入CSV(逗号分隔值)

将CSV直接转换为数据框。有时CSV载入数据还需要指定一种编码(即：encoding='ISO-8859–1')。如果数据框包含不可读的字符，应首先尝试上述方法。

对于表格文件，存在一个叫做pd.read_excel的类似函数。

anime =pd.read_csv('anime-recommendations-database/anime.csv')

数据科学家和软件工程师都在用的Pandas函数有哪些?

根据输入数据构建数据框

这在手动示例化简单数据时十分有用，方便查看这些数据运行时如何变化。

df = pd.DataFrame([[1,'Bob','Builder'], 
                  [2,'Sally', 'Baker'], 
                  [3,'Scott', 'CandleStick Maker']], 
columns=['id','name', 'occupation'])

数据科学家和软件工程师都在用的Pandas函数有哪些?

df.head()

复制数据框

想保留原始副本同时对数据框进行更改，复制数据框很有用。在输入数据框后立即对其进行复制是很好的做法。

anime_copy =anime.copy(deep=True)

数据科学家和软件工程师都在用的Pandas函数有哪些?

3.查看和检验

获取顶部或底部的n项记录

显示数据框中的前n项记录。笔者通常在notebook中的某个位置打印数据框的顶部记录，以便在忘记其中的内容时可以返回来参考。

anime.head(3) 
rating.tail(1)

数据科学家和软件工程师都在用的Pandas函数有哪些?

数据科学家和软件工程师都在用的Pandas函数有哪些?

计算行数

这本身不是pandas函数，而是len()函数对行进行计数，并将其保存到变量中，在其他地方使用。

len(df) 
#=> 3

计算唯一行

计算一列中的唯一值。

len(ratings['user_id'].unique())

获取数据框信息

对于获取一些常规信息(如标题、值的数量和按列的数据类型)很有用。df.dtypes是一个类似但实用性低的函数，仅提供列数据类型。

anime.info()

数据科学家和软件工程师都在用的Pandas函数有哪些?

获取统计数据

如果数据框具有很多数值，获取统计数据非常有用。了解评级列的平均值，最小值和最大值，可以大致了解数据框。

anime.describe()

数据科学家和软件工程师都在用的Pandas函数有哪些?

获取值总和

获取特定列的值总和。

anime.type.value_counts()

数据科学家和软件工程师都在用的Pandas函数有哪些?

4.输出

保存为CSV格式

这将转储到与notebook相同的目录。笔者只保存下面的前10行，但读者不需要这样做。同样，也可使用df.to_excel() 函数，将表格文件保存为CSV格式。

rating[:10].to_csv('saved_ratings.csv',index=False)

5.选取

获取列的值清单或一系列值

需要将列中的值放入X和y变量中以适应机器学习模型时，此方法有效。

anime['genre'].tolist() 
anime['genre']

数据科学家和软件工程师都在用的Pandas函数有哪些?

anime[‘genre’].tolist()

数据科学家和软件工程师都在用的Pandas函数有哪些?

anime[‘genre’]

获取索引值列表

通过索引创建数值列表。请注意，这里使用了anime_modified数据框，因为索引值更加有趣。

anime_modified.index.tolist()

数据科学家和软件工程师都在用的Pandas函数有哪些?

获取列值列表

anime.columns.tolist()

数据科学家和软件工程师都在用的Pandas函数有哪些?

6.添加/删除

用设置值附加新列

偶尔，当测试集和训练集在两个单独的数据框中，并想在组合它们之前分别标记出行与集的对应关系时，笔者会这样做。

anime['train set'] = True

从一部分列中创建新的数据框

此方法用于只想保留巨型数据框中的几列并且不想指定删除列时。

anime[['name','episodes']]

数据科学家和软件工程师都在用的Pandas函数有哪些?

删除指定列

删除指定列用于仅需删除几列时。否则，写出全部内容可能会很乏味，笔者更喜欢前者，删除指定列。

anime.drop(['anime_id', 'genre','members'], axis=1).head()

数据科学家和软件工程师都在用的Pandas函数有哪些?

添加其他行总和的一行

因其更易于查看，故在此处手动创建一个小型数据框。这里的有趣之处在于，df.sum(axis=0)将值添加到各行或各列中。

计算总和或平均值时，采用同样的逻辑，如：

df.mean(axis=0). 
f = pd.DataFrame([[1,'Bob',8000], 
                 [2,'Sally', 9000], 
                 [3,'Scott', 20]],columns=['id','name', 'power level'])df.append(df.sum(axis=0),ignore_index=True)

数据科学家和软件工程师都在用的Pandas函数有哪些?

7.合并

串联两个数据框

用于同行有两个数据框，并想将其组合的情况。这里将数据框分成两部分，然后重新将它们添加在一起。

df1 = anime[0:2]df2 =anime[2:4]pd.concat([df1, df2], ignore_index=True)

数据科学家和软件工程师都在用的Pandas函数有哪些?

数据科学家和软件工程师都在用的Pandas函数有哪些?

数据科学家和软件工程师都在用的Pandas函数有哪些?

合并数据框

想将两个数据框合并在一列时，合并数据框就如同SQL(结构化查询语言)的左联接用法。

rating.merge(anime,left_on=’anime_id’, right_on=’anime_id’, suffixes=(‘_left’, ‘_right’))

数据科学家和软件工程师都在用的Pandas函数有哪些?

8.筛选

检索匹配索引值的行

anime_modified中的索引值是动漫的名称。请注意，如何使用这些名称来获取特定列。

anime_modified.loc[['Haikyuu!!Second Season','Gintama']]

数据科学家和软件工程师都在用的Pandas函数有哪些?

通过编号索引值来检索行

与上面的函数不同，使用 iloc，第一行的索引值为0，第二行的索引值为1，以此类推……即便在修改数据框后，在索引列中使用字符串值。

使用此函数，当你想获得数据框中的前3行。

anime_modified.iloc[0:3]

数据科学家和软件工程师都在用的Pandas函数有哪些?

获取行

在给定列表的列值中检索行。匹配单个值时，anime[anime[‘type’] == 'TV']也适用。

anime[anime['type'].isin(['TV','Movie'])]

数据科学家和软件工程师都在用的Pandas函数有哪些?

拆分数据框

这就像拆分表格一样。拆分数据框，来获取在特定索引前/中/后的所有行。

anime[1:3]

数据科学家和软件工程师都在用的Pandas函数有哪些?

通过值筛选

筛选符合条件的行的数据框。但注意，这将维持现有的索引值。

anime[anime['rating'] > 8]

数据科学家和软件工程师都在用的Pandas函数有哪些?

9.排序

排序函数sort_values

按列中的值对数据框进行排序。

anime.sort_values('rating',ascending=False)

数据科学家和软件工程师都在用的Pandas函数有哪些?

10.汇总

分组和计数

计算列中每个不同值的记录数。

anime.groupby('type').count()

数据科学家和软件工程师都在用的Pandas函数有哪些?

以不同方式对列进行分组和汇总

注意，笔者添加了 reset_index() 函数，否则，下文的“type”列将成为索引列——笔者建议在多数情况下这样做。

anime.groupby(["type"]).agg({ 
  "rating": "sum", 
  "episodes":"count", 
  "name": "last" 
}).reset_index()

创建数据透视表

数据透视表是比较适合从数据框中提取数据子集的工具。

需注意，笔者已对数据框进行了大量筛选，因此可以更快地构建数据透视表。

tmp_df = rating.copy() 
tmp_df.sort_values('user_id', ascending=True, inplace=True) 
tmp_df = tmp_df[tmp_df.user_id < 10] 
tmp_df = tmp_df[tmp_df.anime_id < 30] 
tmp_df = tmp_df[tmp_df.rating != -1]pd.pivot_table(tmp_df, values='rating',index=['user_id'], columns=['anime_id'], aggfunc=np.sum, fill_value=0)

数据科学家和软件工程师都在用的Pandas函数有哪些?

11.整理

设置非数(NaN)单元格为某个值

设置非数值单元格为0。示例中，笔者像之前一样创建了相同的数据透视表，但不使用fill_value=0，而是使用 fillna(0)进行填充。

pivot = pd.pivot_table(tmp_df, values='rating',index=['user_id'], columns=['anime_id'], aggfunc=np.sum)pivot.fillna(0)

数据科学家和软件工程师都在用的Pandas函数有哪些?

数据科学家和软件工程师都在用的Pandas函数有哪些?

12.其他

采样数据框

笔者一直从较大的数据框中提取少量样本。如果frac = 1，则可以在保留索引的情况下随机重新排行。

anime.sample(frac=0.25)

数据科学家和软件工程师都在用的Pandas函数有哪些?

迭代行索引

在数据框中迭代索引和行。

for idx,row inanime[:2].iterrows(): 
    print(idx, row)

数据科学家和软件工程师都在用的Pandas函数有哪些?

启动jupyter notebook

以高数据速率限制启动jupyter notebook程序。

jupyter notebook —NotebookApp.iopub_data_rate_limit=1.0e10

pandas 数据科学家软件

QianYanDai

0 关注 0 粉丝 0 动态

相关推荐

教你几招，Pandas轻松处理超大规模数据

处理大规模数据集时常是棘手的事情，尤其在内存无法完全加载数据的情况下。在资源受限的情况下，可以使用 Python Pandas 提供的一些功能，降低加载数据集的内存占用。可用技术包括压缩、索引和数据分块。在上述过程中需要解决一些问题，其中之一就是数据量过大

三石 2020-10-30

秒懂！图解四个实用的Pandas函数！

在用Python进行机器学习或者日常的数据处理中，Pandas是最常用的Python库之一，熟练掌握pandas是每一个数据科学家的必备技能，本文将用代码+图片详解Pandas中的四个实用函数!面对这样的需求我们可以选择自己写一个函数完成，但是使用pand

roamer 2020-10-29

Python 中利用Pandas处理复杂的Excel数据

关于Excel数据处理，很多同学可能使用过Pyhton的pandas模块，用它可以轻松地读取和转换Excel数据。但是实际中Excel表格结构可能比较杂乱，数据会分散不同的工作表中，而且在表格中分布很乱，这种情况下啊直接使用pandas就会非常吃力。本文虫

三石 2020-10-29

不常见的Pandas小窍门：我打赌一定有你不知道的

作为一名数据分析师或数据科学家，不了解Python中的Pandas库是无论如何说不过去的，它已经成为Python中用来整理、清理数据的标准工具了。然而，关于Pandas，你确定自己完全掌握了嘛?本文将分享一些少见但有用的Pandas技巧，它们能提升工作效率

wangquannuaa 2020-10-15

在pandas中利用hdf5高效存储数据

1 简介HDF5是用于存储大规模数值数据的较为理想的存储格式。在Python中操纵HDF5文件的方式主要有两种，一是利用pandas中内建的一系列HDF5文件操作相关的方法来将pandas中的数据结构保存在HDF5文件中，二是利用h5py模块来完成从Pyt

wangquannuaa 2020-09-29

别找了，这是Pandas最详细教程了

Python 是开源的，它很棒，但是也无法避免开源的一些固有问题：很多包都在做同样的事情。如果你是 Python 新手，那么你很难知道某个特定任务的最佳包是哪个，你需要有经验的人告诉你。有一个用于数据科学的包绝对是必需的，它就是 pandas。pandas

jzlixiao 2020-09-15

Pandas这样来设置，做数据分析舒适百倍

在日常使用pandas的过程中，由于我们所分析的数据表规模、格式上的差异，使得同样的函数或方法作用在不同数据上的效果存在差异。而pandas有着自己的一套「参数设置系统」，可以帮助我们在遇到不同的数据时灵活调节从而达到最好的效果，本文就将介绍pandas中

wangquannuaa 2020-08-30

高效的10个Pandas函数，你都用过了吗？

andas是python中最主要的数据分析库之一，它提供了非常多的函数、方法，可以高效地处理并分析数据。让pandas如此受欢迎的原因是它简洁、灵活、功能强大的语法。这篇文章将会配合实例，讲解20个重要的pandas函数。其中有一些很常用，相信你可能用到过

三石 2020-08-23

10 个加速Python数据分析的简单的小技巧

一些小的技巧在编程领域可能会非常有用，在数据科学领域同样如此。数据科学爱好者 Parul Pandey 在近日发表了一篇博文，分享了在数据科学中非常实用的 10 个小技巧。有时候，一点小小的黑客行为可以节省时间，挽救生命。一个小小的快捷方式或附加组件有时

逍遥友 2020-08-21

Pandas

可以使用中括号取单个索引，或者中括号里一个列表取多个索引。使得两个Series进行相加。可以使用pd.isnull()，pd.notnull()，或s.isnull(),notnull()函数检测缺失数据。DataFrame由按一定顺序排列的多列数据组成。

jzlixiao 2020-08-18

Pandas闪回咒！如何在Python中重写SQL查询？

一些程序员只熟悉SQL中的数据操作，却不熟悉Python中的数据操作，因此在完成项目时，我们不得不频繁地在SQL和Python之间进行切换，导致了工作效率低下和生产能力下降。本文就教你一种方法，使用Pandas在Python中轻松重现SQL结果。我们将使用

wangquannuaa 2020-08-17

高效的10个Pandas函数，你都用过吗？

Pandas是python中比较主要的数据分析库之一，它提供了非常多的函数、方法，可以高效地处理并分析数据。让pandas如此受欢迎的原因是它简洁、灵活、功能强大的语法。这篇文章将会配合实例，讲解10个重要的pandas函数。其中有一些很常用，相信你可能用

QianYanDai 2020-08-16

推荐5个实用的Pandas技巧

效率已成为及时完成工作的关键因素。一个人不应该花超过合理的时间去完成事情。尤其是当任务涉及基本编码时。使用Pandas库能节省你的时间。Pandas是一个开源包。它有助于用Python语言执行数据分析和数据操作。此外，它还为我们提供了灵活的数据结构。Pan

cjsyrwt 2020-08-14

pandas 一维台账数据与二维表格数据的转换

从源数据转化使用数据透式表的话，最终的样式不方便筛选，存在合并单元格。实际想转化为中间的样式。table = pd.pivot_table(df, values=‘销售额‘, index=[‘地区‘, ‘时间‘],关于 stack 和 unstack 也可

jzlixiao 2020-07-29

用于ETL的Python数据转换工具

前几天，我去Reddit询问是否应该将Python用于ETL相关的转换，并且压倒性的回答是"是"。但是，尽管我的Redditor同事热心支持使用Python，但他们建议研究Pandas以外的库-出于对大型数据集Pandas性能的担忧。经

xirongxudlut 2020-07-20

pandas 的DataFrame.apply()

pandas的apply函数是自动根据function遍历每一个数据，然后返回一个数据结构为Series的结果

mmmjyjy 2020-07-16

【Pandas】基本功能

结合自己的经验，我觉得Pandas的本质是类似于Matlab、Eviews之类的数据分析软件。只是其他的被人做成了有UI界面的软件。从Pandas的结构来看，最核心的两个类。其他功能是围绕这两个类进行了功能上的扩展。为了保持学习的趣味性，我觉得按照实际使用

QianYanDai 2020-07-05

【pandas】概述

Pandas是python中运用很广泛的统计分析库，用于各种金融、工业、等等统计分析，适用于各种时间序列和面板数据等。而对应于Pandas库，最主要的两个类分别是Series和DataFrame。Pandas是numpy的一种扩展，因此很多高级的数据计算方

QianYanDai 2020-07-05

数据分析三剑客之Pandas时间序列

datetime模块，主要掌握：datetime.date(), datetime.datetime(), datetime.timedelta()，日期解析方法：parser.parse. print(parse(‘2000-1-1‘),‘\n‘,par

june0 2020-07-04

初探pandas——索引和查询数据

通过索引值或索引标签获取数据。通过index查看索引值。ser[[‘a‘,‘b‘,‘c‘]]: a 0. 如果对两个序列进行运算，索引就会将元素对齐进行运算。# 查询第1，2，3行。student[[‘name‘,‘age‘]]. 如果查询多个列，必

QianYanDai 2020-07-04

QianYanDai

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号