pandas多种格式数据加载

SuperYPC

2020-01-01

关注关注

pandas多种格式数据加载

在我们实际场景中，我们会在不同地方遇到各种不同数据格式(比如大家熟悉的CSV格式，txt格式，HTML格式，XML格式等等)，我们如何用python和这些数据打交道呢？

1.不同格式文本的数据读取

1.1csv读取：

正常读取

import pandas as pd
df = pd.read_csv("./demo.csv")

分隔符读取

df = pd.read_table("./demo.csv",sep=',')

不要headers读取（第一行字段）

pd.read_csv("./demo.csv",header=None)

指定第一行

pd.read_csv("./demo.csv",names=['a','b','c','d','message'])

指定一个索引字段

names=['a','b','c','d',"message"]
#指定一个索引字段index_col
pd.read_csv("./demo.csv",names=names,index_col="message")

跳过某行读取

#表示跳过0,2,3行
df = pd.read_csv("./demo.txt",skiprows=[0,2,3])

去除掉NaN的列读取

#去除掉message列不NaN的行
result = pd.read_csv("./demo.csv")
result[result.message.isnull()!=True]

读取前5行

df = pd.read_csv("./demo.csv",nrow=5)

指定chunksize大小读取

chunker = pd.read_csv('./demo.csv',chunksize=100)

1.2数据的写入

数据写入csv文件中

data.to_csv("outer.csv")

数据在终端打印，以|作为分隔符

data.to_csv(sys.stdout,sep="|")

当某个数据为空，指定字段做替换

#指定NULL做替换
data.to_csv(sys.stdout,na_rep="NULL")

去除header

data.to_csv(sys.stdout,index=False,header=False)

指定列(colums)

data.to_csv(sys.stdout,index=False,columns=['a','b','c'])

1.3txt文件读取

读到一个列表中

list(open("./demo.txt"))

以一个或多个空格作为分割

df = pd.read_table("./demo.txt",sep='\s+')

1.4手动读取

当csv文件特变大，需要手动读取

import csv
fp = open("demo.csv")
read = csv.reader(fp)
for line in read:
    print(line)
fp.close()

1.5json格式读取

import json
res = json.dumps(obj,ensure_ascii=False)

1.6xml格式解析

from lxml import objectify

1.7与时间相关，输出时间

#表示出2000-1-1开始后38天
import pandas as pd
import numpy as np
from pandas import Series,DataFrame
dates = pd.date_range("1/1/2000",periods=38)
ts = Series(np.arange(38),index=dates)
ts

2数据库相关操作

2.1 sqlite数据库

创表

import sqlite3
query = """
CREATE TABLE test(a VARCHAR(20),b VARCHAR(20),c REAL,d INTEGER);
"""
con = sqlite3.connect(":memory:")
con.execute(query)
con.commit()

填入数据

data = [("Atlanta","Georgia",1.25,6),("Tallahassee","Florida",2.6,3),("Sacramento","California",1.7,5)]
stmt = "INSERT INTO test VALUES(?,?,?,?)"

con.executemany(stmt,data)
con.commit()

查询

cursor = con.execute("select * from test")
rows = cursor.fetchall()

将从数据库读取的数据，变换成DataFrame

#cursor.description 为游标描述
DataFrame(rows,columns=list(zip(*cursor.description))[0])

2.2MySQL数据库

#coding=utf-8
import pymysql
conn = pymysql.connect(host='localhost',port=3306,user="root",passwd="123",db="day39")
cur = conn.cursor()
#查询
cur.execute("select * from e1")
res = cur.fetchall()
res
#创建数据表
cur.execute("create table stud(id int,name varchar(20),class varchar(30),age varchar(10))")

#插入一条数据
cur.execute("insert into stud values(1,'Tom','3year2class','9')")

#修改数据
cur.execute("update stud set age='10' where name='Tom'")
#删除数据：
cur.execute("delete from stud where age='9'")

conn.commit()
cur.close()
conn.close()

2.3Memcache

#coding:utf8
import memcache

class MemcachedClient():
    ''' python memcached 客户端操作示例 '''

    def __init__(self, hostList):
        self.__mc = memcache.Client(hostList);

    def set(self, key, value):
        result = self.__mc.set("name", "NieYong")
        return result

    def get(self, key):
        name = self.__mc.get("name")
        return name

    def delete(self, key):
        result = self.__mc.delete("name")
        return result

if __name__ == '__main__':
    mc = MemcachedClient(["127.0.0.1:11511", "127.0.0.1:11512"])
    key = "name"
    result = mc.set(key, "NieYong")
    print "set的结果：", result
    name = mc.get(key)
    print "get的结果：", name
    result = mc.delete(key)
    print "delete的结果：", result

2.4MongoDB

#encoding:utf=8  
import pymongo  
  
connection=pymongo.Connection('10.32.38.50',27017)  
  
#选择myblog库  
db=connection.myblog  
  
# 使用users集合  
collection=db.users  
  
# 添加单条数据到集合中  
user = {"name":"cui","age":"10"}  
collection.insert(user)  
  
#同时添加多条数据到集合中  
users=[{"name":"cui","age":"9"},{"name":"cui","age":"11"}]  
collection.insert(users)  
  
#查询单条记录  
print collection.find_one()  
  
#查询所有记录  
for data in collection.find():  
    print data  
  
#查询此集合中数据条数  
print collection.count()  
  
#简单参数查询  
for data in collection.find({"name":"1"}):  
    print data  
  
#使用find_one获取一条记录  
print collection.find_one({"name":"1"})  
  
  
#高级查询  
print "__________________________________________"  
print '''''collection.find({"age":{"$gt":"10"}})'''  
print "__________________________________________"  
for data in collection.find({"age":{"$gt":"10"}}).sort("age"):  
    print data  
  
# 查看db下的所有集合  
print db.collection_names()

3.API交互

import requests
url = "https://api.github.com/repositories/858127/milestones/28/labels"
res = requests.get(url)
df = DataFrame(res)

pandas ul csv

SuperYPC

0 关注 0 粉丝 0 动态

关注关注

用于ETL的Python数据转换工具

前几天，我去Reddit询问是否应该将Python用于ETL相关的转换，并且压倒性的回答是"是"。但是，尽管我的Redditor同事热心支持使用Python，但他们建议研究Pandas以外的库-出于对大型数据集Pandas性能的担忧。经

xirongxudlut 2020-07-20

不常见的Pandas小窍门：我打赌一定有你不知道的

作为一名数据分析师或数据科学家，不了解Python中的Pandas库是无论如何说不过去的，它已经成为Python中用来整理、清理数据的标准工具了。然而，关于Pandas，你确定自己完全掌握了嘛?本文将分享一些少见但有用的Pandas技巧，它们能提升工作效率

wangquannuaa 2020-10-15

使用pandas库对csv文件进行筛选和保存

多数大佬都是直接pandas官网甩我脸上，然后举一个入门级的例子。这个函数里面需要写入csv文件的路径，如果是把csv文件保存到了python的工程文件夹下，则只需要./文件名即可，然后encoding=‘utf-8‘是使用utf-8方式编码，有时候需要换

jzlixiao 2020-05-15

Pandas写出数据

有读就有写！1.result.to_csv(sys.stdout, index=False, columns=[‘one‘,‘three‘,‘key‘]). result.to_csv(sys.stdout, index=False, columns=[‘

QianYanDai 2020-05-07

教你几招，Pandas轻松处理超大规模数据

处理大规模数据集时常是棘手的事情，尤其在内存无法完全加载数据的情况下。在资源受限的情况下，可以使用 Python Pandas 提供的一些功能，降低加载数据集的内存占用。可用技术包括压缩、索引和数据分块。在上述过程中需要解决一些问题，其中之一就是数据量过大

三石 2020-10-30

秒懂！图解四个实用的Pandas函数！

在用Python进行机器学习或者日常的数据处理中，Pandas是最常用的Python库之一，熟练掌握pandas是每一个数据科学家的必备技能，本文将用代码+图片详解Pandas中的四个实用函数!面对这样的需求我们可以选择自己写一个函数完成，但是使用pand

roamer 2020-10-29

Python 中利用Pandas处理复杂的Excel数据

关于Excel数据处理，很多同学可能使用过Pyhton的pandas模块，用它可以轻松地读取和转换Excel数据。但是实际中Excel表格结构可能比较杂乱，数据会分散不同的工作表中，而且在表格中分布很乱，这种情况下啊直接使用pandas就会非常吃力。本文虫

三石 2020-10-29

在pandas中利用hdf5高效存储数据

1 简介HDF5是用于存储大规模数值数据的较为理想的存储格式。在Python中操纵HDF5文件的方式主要有两种，一是利用pandas中内建的一系列HDF5文件操作相关的方法来将pandas中的数据结构保存在HDF5文件中，二是利用h5py模块来完成从Pyt

wangquannuaa 2020-09-29

别找了，这是Pandas最详细教程了

Python 是开源的，它很棒，但是也无法避免开源的一些固有问题：很多包都在做同样的事情。如果你是 Python 新手，那么你很难知道某个特定任务的最佳包是哪个，你需要有经验的人告诉你。有一个用于数据科学的包绝对是必需的，它就是 pandas。pandas

jzlixiao 2020-09-15

Pandas这样来设置，做数据分析舒适百倍

在日常使用pandas的过程中，由于我们所分析的数据表规模、格式上的差异，使得同样的函数或方法作用在不同数据上的效果存在差异。而pandas有着自己的一套「参数设置系统」，可以帮助我们在遇到不同的数据时灵活调节从而达到最好的效果，本文就将介绍pandas中

wangquannuaa 2020-08-30

高效的10个Pandas函数，你都用过了吗？

andas是python中最主要的数据分析库之一，它提供了非常多的函数、方法，可以高效地处理并分析数据。让pandas如此受欢迎的原因是它简洁、灵活、功能强大的语法。这篇文章将会配合实例，讲解20个重要的pandas函数。其中有一些很常用，相信你可能用到过

三石 2020-08-23

10 个加速Python数据分析的简单的小技巧

一些小的技巧在编程领域可能会非常有用，在数据科学领域同样如此。数据科学爱好者 Parul Pandey 在近日发表了一篇博文，分享了在数据科学中非常实用的 10 个小技巧。有时候，一点小小的黑客行为可以节省时间，挽救生命。一个小小的快捷方式或附加组件有时

逍遥友 2020-08-21

Pandas

可以使用中括号取单个索引，或者中括号里一个列表取多个索引。使得两个Series进行相加。可以使用pd.isnull()，pd.notnull()，或s.isnull(),notnull()函数检测缺失数据。DataFrame由按一定顺序排列的多列数据组成。

jzlixiao 2020-08-18

Pandas闪回咒！如何在Python中重写SQL查询？

一些程序员只熟悉SQL中的数据操作，却不熟悉Python中的数据操作，因此在完成项目时，我们不得不频繁地在SQL和Python之间进行切换，导致了工作效率低下和生产能力下降。本文就教你一种方法，使用Pandas在Python中轻松重现SQL结果。我们将使用

wangquannuaa 2020-08-17

高效的10个Pandas函数，你都用过吗？

Pandas是python中比较主要的数据分析库之一，它提供了非常多的函数、方法，可以高效地处理并分析数据。让pandas如此受欢迎的原因是它简洁、灵活、功能强大的语法。这篇文章将会配合实例，讲解10个重要的pandas函数。其中有一些很常用，相信你可能用

QianYanDai 2020-08-16

pandas 一维台账数据与二维表格数据的转换

从源数据转化使用数据透式表的话，最终的样式不方便筛选，存在合并单元格。实际想转化为中间的样式。table = pd.pivot_table(df, values=‘销售额‘, index=[‘地区‘, ‘时间‘],关于 stack 和 unstack 也可

jzlixiao 2020-07-29

pandas 的DataFrame.apply()

pandas的apply函数是自动根据function遍历每一个数据，然后返回一个数据结构为Series的结果

mmmjyjy 2020-07-16

【Pandas】基本功能

结合自己的经验，我觉得Pandas的本质是类似于Matlab、Eviews之类的数据分析软件。只是其他的被人做成了有UI界面的软件。从Pandas的结构来看，最核心的两个类。其他功能是围绕这两个类进行了功能上的扩展。为了保持学习的趣味性，我觉得按照实际使用

QianYanDai 2020-07-05

【pandas】概述

Pandas是python中运用很广泛的统计分析库，用于各种金融、工业、等等统计分析，适用于各种时间序列和面板数据等。而对应于Pandas库，最主要的两个类分别是Series和DataFrame。Pandas是numpy的一种扩展，因此很多高级的数据计算方

QianYanDai 2020-07-05

pandas多种格式数据加载

pandas多种格式数据加载

1.不同格式文本的数据读取

1.1csv读取：

1.2数据的写入

1.3txt文件读取

1.4手动读取

1.5json格式读取

1.6xml格式解析

1.7与时间相关，输出时间

2数据库相关操作

2.1 sqlite数据库

2.2MySQL数据库

2.3Memcache

2.4MongoDB

3.API交互

相关推荐