使用python完成对excel的操作

星辰大海的路上

2020-04-07

import numpy as np
import pandas as pd

1.通过外部文件导入数据表

df=pd.DataFrame(pd.read_csv(‘name.csv‘,header=1))
df=pd.DataFrame(pd.read_Excel(‘name.xlsx‘))

2.通过填入数据生成数据表

df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006],
 "date":pd.date_range(‘20130102‘, periods=6),
 "city":[‘Beijing ‘, ‘SH‘, ‘ guangzhou ‘, ‘Shen
zhen‘, ‘shanghai‘, ‘BEIJING ‘],
 "age":[23,44,54,32,34,32],
 "category":[‘100-A‘,‘100-B‘,‘110-A‘,‘110-C‘,‘2
10-A‘,‘130-F‘],
 "price":[1200,np.nan,2133,5433,np.nan,4432]},
 columns =[‘id‘,‘date‘,‘city‘,‘category‘,‘age‘,
‘price‘])

3.检查数据表的维度：shape属性

df.shape

结果输出 (6,6)
4.查看数据表信息

df.info()

5.查看数据表数据格式：dtypes属性

df.dtypes

6.空值检查isnull()函数（非空False,空True）

df.isnull() #对整张数据表检查
df[‘price‘].isnull() #对price列进行检查

7.查看某列数据唯一值：unique()函数

df[‘price‘].unique()

8.查看列名称:columns属性
9.查看数据表数值：values属性
10.查看前几行数据:head()函数

df.head()
df.head(3)

11.查看后几行数据:tail()函数

二、数据清洗

1.处理空值dropna()与fillna()

#删除数据表中含有空值的行
df.dropna(how=‘any‘)

#使用price均值对price列NA进行填充
df[‘price‘].fillna(df[‘price‘].mean())

#使用数字0填充数据表中空值
df.fillna(value=0)

2.清理空格

#清除price字段中的字符空格
df[‘price‘]=df[‘price‘].map(str.strip)

3.大小写转换

price列大小写转换
df[‘price‘]=df[‘price‘].str.lower()

4.更改数据格式:astype()函数

#更改数据格式
df[‘price‘].astype(‘int‘)

5.更改列名称

#更改列名称category列更改为category-size
df.rename(columns={‘category‘: ‘category-size‘})

6.删除列的重复值drop_duplicates()函数

#删除后出现的重复值
df[‘price‘].drop_duplicates()

7.数值修改以及替换

#数据替换
df[‘city‘].replace(‘sh‘, ‘shanghai‘)

三、数据预处理

1.数据表合并

#数据表df和df1匹配合并
df_inner=pd.merge(df,df1,how=‘inner‘)
df_left=pd.merge(df,df1,how=‘left‘)
df_right=pd.merge(df,df1,how=‘right‘)
df_outer=pd.merge(df,df1,how=‘outer‘)

2.设置索引列

#设置索引列
df_inner.set_index(‘id‘)

3.排序（按索引，按数值）

#按特定列的值排序
df_inner.sort_values(by=[‘age‘])
#按索引列排序
df_inner.sort_index()

4.数据分组

#如果price列的值>3000，group列显示high，否则显示low
df_inner[‘group‘] = np.where(df_inner[‘price‘] > 3000,‘high‘,‘low
‘)

#对复合多个条件的数据进行分组标记
df_inner.loc[(df_inner[‘city‘] == ‘beijing‘) & (df_inner[‘price‘]
 >= 4000), ‘sign‘]=1

5.数据分列

#对category字段的值依次进行分列，并创建数据表，索引值为df_inner的索引列，列
名称为category和size
pd.DataFrame((x.split(‘-‘) for x in df_inner[‘category‘]),index=d
f_inner.index,columns=[‘category‘,‘size‘])

#将完成分列后的数据表与原df_inner数据表进行匹配
df_inner=pd.merge(df_inner,split,right_index=True, left_index=Tru
e)

四、数据提取

1.按标签提取(loc)

#按索引提取区域行数值
df_inner.loc[0:5]
df_inner.loc[5]

#重设索引
df_inner.reset_index()
#设置日期为索引
df_inner=df_inner.set_index(‘date‘)

#提取4日之前的所有数据
df_inner[:‘2013-01-04‘]

2.按位置提取(iloc)

#使用iloc按位置区域提取数据
df_inner.iloc[:3,:2]
#iloc函数除了可以按区域提取数据，还可以按位置逐条提取，前
面方括号中的0,2,5表示数据所在行的位置，后面方括号中的数表示所
在列的位置。
#使用iloc按位置单独提取数据
df_inner.iloc[[0,2,5],[4,5]]

3.按标签和位置提取(ix)

#使用ix按索引标签和位置混合提取数据
df_inner.ix[:‘2013-01-03‘,:4]

按条件提取（区域和条件值）

#判断city列的值是否为beijing
df_inner[‘city‘].isin([‘beijing‘])

#先判断city列里是否包含beijing和shanghai，然后将复合条件的数据提取出来。
df_inner.loc[df_inner[‘city‘].isin([‘beijing‘,‘shanghai‘])]

五、数据筛选

1.按条件筛选（与、或、非）
Python中使用loc函数配合筛选条件来完成筛选功能。配
合sum和count函数还能实现Excel中sumif和countif函数的功能。

#使用“与”条件进行筛选
df_inner.loc[(df_inner[‘age‘] > 25) & (df_inner[‘city‘] == ‘beiji
ng‘), [‘id‘,‘city‘,‘age‘,‘category‘,‘gender‘]]

#使用“或”条件筛选
df_inner.loc[(df_inner[‘age‘] > 25) | (df_inner[‘city‘] == ‘beiji
ng‘), [‘id‘,‘city‘,‘age‘,‘category‘,‘gender‘]].sort([‘age‘])

#对筛选后的数据按price字段进行求和
df_inner.loc[(df_inner[‘age‘] > 25) | (df_inner[‘city‘] == ‘beiji
ng‘), [‘id‘,‘city‘,‘age‘,‘category‘,‘gender‘,‘price‘]].sort([‘age
‘]).price.sum()

#使用“非”条件进行筛选,并按id排序
df_inner.loc[(df_inner[‘city‘] != ‘beijing‘), [‘id‘,‘city‘,‘age‘,
‘category‘,‘gender‘]].sort([‘id‘])

#对筛选后的数据按city列进行计数
df_inner.loc[(df_inner[‘city‘] != ‘beijing‘), [‘id‘,‘city‘,‘age‘,
‘category‘,‘gender‘]].sort([‘id‘]).city.count()

#使用query函数进行筛选
df_inner.query(‘city == ["beijing", "shanghai"]‘)

#对筛选后的结果按price进行求和
df_inner.query(‘city == ["beijing", "shanghai"]‘).price.sum()
12230

六、数据汇总

1.分类汇总
使用groupby函数进行分类汇总

#对所有列进行计数汇总
df_inner.groupby(‘city‘).count()

#对两个字段进行汇总计数
df_inner.groupby([‘city‘,‘size‘])[‘id‘].count()

#对city字段进行汇总并计算price的合计和均值。
df_inner.groupby(‘city‘)[‘price‘].agg([len,np.sum, np.mean])

2.数据透视

七、数据统计

1.数据采样
2.描述统计
3.标准差
4.协方差
5.相关分析

八、数据输出

1.写入Excel

#输出到Excel格式
df_inner.to_Excel(‘Excel_to_Python.xlsx‘, sheet_name=‘bluewhale_c
c‘)

写入csv

#输出到CSV格式
df_inner.to_csv(‘Excel_to_Python.csv‘)

数据表 python

星辰大海的路上

0 关注 0 粉丝 0 动态

关注关注

ThinkPHP5 链式操作table用法

table方法主要用于指定操作的数据表。用法一般情况下，操作模型的时候系统能够自动识别当前对应的数据表，所以，使用table方法的情况通常是为了：。需要注意的是table方法不会改变数据库的连接，所以你要确保当前连接的用户有权限操作相应的数据库和数据表。切

FellowYourHeart 2020-10-05

oracle 临时表空间、数据表空间、创建用户名与密码、赋予用户权限

2.确保路径存在，比如也就是你要保存文件的路径存在/*分为四步*//*第1步：创建临时表空间 */

bianxq 2020-06-28

导出数据表，数据

以下方法1和方法2 多表导出，表名与表名之间需用空格隔开；导出的 bak.sql 不加路径，则为当前目录下。mysqldump -uroot -p [ 库名表名1 表名2 表名3] > bak.sql

景泽元的编程 2020-06-21

MySQL优化之缓存优化

为了提高查询速度，我们可以通过不同的方式去缓存我们的结果从而提高响应效率。当我们的数据库打开了Query Cache功能后，数据库在执行SELECT语句时，会将其结果放到QC中，当下一次处理同样的SELECT请求时，数据库就会从QC取得结果，而不需要去数据

韩学敏 2020-06-17

关于MYSQL 你需要知道的数据类型和操作数据表

DATETIME 3 支持时间：1000年1月1日0时0秒~9999年12月31日23时59分59秒。在对长度可变的数据进行处理时，MySQL要把数据内容和数据长度都保存起来。1指L的最大存储范围，1个字节即8个1。对于有符号数最高位为符号位，但是字符型是

wuhen 2020-06-14

旋转数据表

import pandas. excel=pandas.read_excel(‘成绩.xlsx‘,index_col=‘id‘). table=excel.transpose() #旋转表。print(table)

morexyoung 2020-06-13

5、连接数据库、新建数据表

use Illuminate\Support\Facades\DB; //使用数据库前，先进行数据库的引入。// 两个问好对应后面数组的两个值。，sql里面的值是写死的；后面数组里面的值可以动态更改。[‘title‘ => ‘222222222222

lanmantech 2020-06-07

MySQL分区分表

数据库数据越来越大，随之而来的是单个表中数据太多。以至于查询速度变慢，而且由于表的锁机制导致应用操作也搜到严重影响，出现了数据库性能瓶颈。mysql中有一种机制是表锁定和行锁定，是为了保证数据的完整性。行锁定也一样，别的sql必须等我对这条数据操作完了，才

敏敏张 2020-06-06

Python学习第95天（MySQL数据表操作）

　　昨天已经完成了在数据库中创建库和创建表，下面将详细介绍一下，针对穿件完成后的database之后，我们use database，然后create table table_name（filed type1，。。。。。field1 type[完整性约束条件

勇往直前 2020-06-01

MYSQL备忘

select 字段 from 表 group by 字段 having count(*) >1;ALTER TABLE 数据表 DROP INDEX 字段;

msmysql 2020-05-29

三层架构详解

UI(表现层):主要是指与用户交互的界面。用于接收用户输入的数据和显示处理后用户需要的数据。业务逻辑具体包含：验证、计算、业务规则等等。主要实现对数据的增、删、改、查。将存储在数据库中的数据提交给业务层，同时将业务层处理的数据保存到数据库。（当然这些操作都

Noseparte 2020-05-28

pandas用法总结

with codecs.open as f: for line in f: line_split = line.strip().split items.append

zhangxiaojiakele 2020-05-25

SQL数据库第三章

1）1.DML语句：insert插入，update更新，delete删除，select查询。2）2.更新单个字段值。update 数据表名 set 列=‘值‘[特定指明将数据表中某一列的值都改为‘值‘]. 2）4.根据指定条件更新记录。而 select 查

CSDN0BLOG 2020-05-16

表的基本操作

所谓创建数据表，指的是在已经创建的数据库中建立新表。创建数据表的过程是规定数据列的属性的过程，同时也是实施数据完整性约束的过程。数据表属于数据库，在创建数据表之前应该使用语句 USE <数据库名> 指定操作在哪个数据库中进行。如果没有选择数据库

IBMRational 2020-05-14

数据库常用命令总结

mysql> create database test ; // 在mysql里面创建数据库，数据库的ID是test。[] # mysqladmin -u root -p drop test ;

Zhangdragonfly 2020-05-14

mysql数据表的基本操作之表结构操作，字段操作实例分析

字段名字数据类型,表选项和库选项的区别是，如果不设置表选项就会采用库选项的设置，就好象一个“局部变量”。-- 使用数据库名作为前缀来指定数据表创建在哪个数据库。if not exists 是先检查是否存在同名的表，如果存在，则不执行后面的创建语句。如果没

gamestart0 2020-04-10

Layui 数据表格回显数值过大的字段(Long型数据)导致精度丢失问题

　　今天做项目时，使用到了layui的数据表格功能，这里给大家安利一下layui，确实好用，对没有太多前端经验的新手来说（比如我）很友好。　　下面开始说问题：我项目后端有一个包含Long型数据的实体类，前端使用layui数据表格，发送ajax请求进行数据回

仁鱼 2020-05-10

MySQL的函数使用

COUNT()函数是用来统计记录的总条数。SUM()函数是对数据表的某列进行求和操作。select avg(字段名) from 数据表;MAX()函数是求某列的最大数值。他们是进行左右侧的字符获取，需要两个参数，第一个参数告诉他从哪个字符串中获取，第二个参

lijiawnen 2020-05-01

零点起飞学MySQL 带书签完整pdf版[85.8MB] 完整版下载

《零点起飞学MySQL》是一本MySQL的入门教程，是针对初学者手把手教会读者使用MySQL数据库的最佳入门教程。本书适合所有想学习MySQL数据库技术的初、中级读者快速入门，也适合大中专院校的师生和培训班的学员作为教材使用。

dayi 2020-04-29

thinkphp5 模型使用

模型会自动对应数据表，模型类的命名规则是除去表前缀的数据表名称，采用驼峰法命名，并且首字母大写。[‘name‘=>‘thinkphp‘,‘email‘=>‘‘],saveAll方法新增数据默认会自动识别数据是需要新增还是更新操作，当数据中存在主

小周 2020-04-25

安科网

使用python完成对excel的操作

星辰大海的路上

二、数据清洗

三、数据预处理

四、数据提取

五、数据筛选

六、数据汇总

七、数据统计

八、数据输出

星辰大海的路上

相关推荐

ThinkPHP5 链式操作table用法

oracle 临时表空间、数据表空间、创建用户名与密码、赋予用户权限

导出数据表，数据

MySQL优化之缓存优化

关于MYSQL 你需要知道的数据类型和操作数据表

旋转数据表

5、连接数据库、新建数据表

MySQL分区分表

Python学习第95天（MySQL数据表操作）

MYSQL备忘

三层架构详解

pandas用法总结

SQL数据库第三章

表的基本操作

数据库常用命令总结

mysql数据表的基本操作之表结构操作，字段操作实例分析

Layui 数据表格回显数值过大的字段(Long型数据)导致精度丢失问题

MySQL的函数使用

零点起飞学MySQL 带书签完整pdf版[85.8MB] 完整版下载

thinkphp5 模型使用

星辰大海的路上