【数据分析&数据挖掘】数据合并和拼接案例

KaiZhaoKZ

2019-12-29

import pandas as pd
import numpy as np

# 加载数据——detail
detail_1 = pd.read_excel("./meal_order_detail.xlsx", sheetname=0)
detail_2 = pd.read_excel("./meal_order_detail.xlsx", sheetname=1)
detail_3 = pd.read_excel("./meal_order_detail.xlsx", sheetname=2)

print("detail_1 的形状: \n", detail_1.shape)
print("detail_1 的列索引: \n", detail_1.columns)
print("detail_2 的形状: \n", detail_2.shape)
print("detail_2 的列索引: \n", detail_2.columns)
print("detail_3 的形状: \n", detail_3.shape)
print("detail_3 的列索引: \n", detail_3.columns)

print("~"*60)
# 将detail_2, detail_3直接追加到detaiL_1下面
detail = pd.concat((detail_1, detail_2, detail_3), axis=0, join="inner")
print("detail的形状；\n", detail.shape)


# 加载info
info = pd.read_csv("./meal_order_info.csv", encoding="ansi")
print("info: \n", info.shape)

# info与detail进行主键拼接
res = pd.merge(left=detail, right=info, left_on="order_id", right_on="info_id", how="inner")
res = pd.merge(left=detail, right=info, left_on="order_id", right_on="info_id", how="left")
print("info与detail主键拼接的结果为: \n", res.shape)
print("res的列名: \n", res.columns)


# 加载users
users = pd.read_excel("./users.xlsx")
# info与detail进行主键拼接的结果与users进行主键拼接
res = pd.merge(left=res, right=users, left_on="name", right_on="ACCOUNT", how="inner")
print("最终进行主键拼接的结果: \n", res)
print("最终res的列名称: \n", res.columns)

print("name与ACCOUNT对比相同", np.all(res.loc[:, "name"] == res.loc[:, "ACCOUNT"]))
print("order_id与info_id对比相同", np.all(res.loc[:, "order_id"] == res.loc[:, "info_id"]))
print("emp_id_x与emp_id_y对比相同", np.all(res.loc[:, "emp_id_x"] == res.loc[:, "emp_id_y"]))

res.drop(labels=["ACCOUNT", "info_id", "emp_id_y"], axis=1, inplace=True)

print("删除3列之后的结果: \n", res.shape)
print("删除3列之后的结果: \n", res.columns)

drop_list = []
for column in res.columns:
    # 统计每一列的非空数据的数量
    res_count = res.loc[:, column].count()
    # 如果整列非空数据的数量为0，意味着整列都是空的
    if res_count == 0:
        drop_list.append(column)

# 删除整列为空的列
res.drop(labels=drop_list, axis=1, inplace=True)
print("去除整列为空的数据之后的结果: \n", res.shape)
print("去除整列为空的数据之后的结果: \n", res.columns)

drop_dup_list = []
# 如果整列数据完全相同——该列， 该属性对于区分各列没有意义
for column in res.columns:
    res_ = res.drop_duplicates(subset=column, inplace=False)
    if res_.shape[0] == 1:
        print("res_.shape[0]: \n", res_.shape[0])
        drop_dup_list.append(column)

# 删除全部一样的列
res.drop(labels=drop_dup_list, axis=1, inplace=True)
print("最终的结果: \n", res.shape)
print("最终的结果: \n", res.columns)

KaiZhaoKZ

0 关注 0 粉丝 0 动态

相关推荐

启动elasticsearch报错

[1]: max file descriptors [4096] for elasticsearch process is too low, increase to at least [65536]. [2]: max virtual memory are

sifeimeng 2020-06-21

mysql赋权限

grant select on amp.alert_info_tab to identified by "123456";

ztyzly00 2020-06-05

PO各个核心要素的介绍

先抽象封装一个BasePage类，这个基类拥有一些指向Webdriver实例的属性，然后每一个Page继承基类BasePage，可以通过driver管理每一个Page中的元素，而且在Page中将这些操作封装为一个一个的方法。TestCase继承unitte

阿斌Elements 2020-05-05

Selenium的PageObject设计模式(2)

def __init__(self, sheet_name, element_path=elements_path):. self.workbook = xlrd.open_workbook(self.element_path). def __init__

songerxing 2020-05-03

Spark2.x写Hbase1-2.x

val conf = new SparkConf().setAppName("SparkWriteHBase").setMaster("local"). val inDataRDD = sc.makeRDD(Arra

yixiaoqi00 2020-04-22

MySQL 性能优化神器 Explain 使用分析

MySQL 提供了一个 EXPLAIN 命令, 它可以对SELECT语句进行分析, 并输出SELECT执行的详细信息, 以供开发人员针对性优化.EXPLAIN 命令用法十分简单, 在 SELECT 语句前加上 Explain 就可以了, 例如:. `nam

要啥自行车一把梭 2020-04-17

27---面向对象编程思想

如果我们把”化妆“比喻为要执行的业务逻辑，此时只需要拿来一样东西即可，那就是彩妆盒，因为彩妆盒里整合了化妆所需的所有原材料与功能，这比起你分别拿来原材料与功能才能执行，要方便的多。# 所有的程序都是由”数据”与“功能“组成，因而编写程序的本质就是定义出一系

随心而作 2020-04-07

面向对象

面向对象介绍 ‘‘‘面向过程：核心是"过程"二字过程的终极奥义就是将程序流程化过程是"流水线"，用来分步骤解决问题的面向对象：核心是"对象"二字对象的终

JayFighting 2020-04-07

SaltStack 自动化运维实战

参考saltStack官方文档ON THE SALT MASTERRun these commands on the system that you want to use as the central management point.Your Salt

80327065 2020-03-09

python基础入门---字典操作

for k,v in info.items():#先转成列表再打印。#print #字典打印出来是无序的,key必须是唯一的,天生去重

lhxxhl 2020-03-06

python模拟鼠标点击教程

如果提示Requirement already satisfied: pymouse 那就去插件库删掉PyMouse-1.0-py3.8.egg-info和pymouse 然后重新装

woxmh 2020-03-04

python项目部署

pip失效。pyinstaller XXX.spec成功日志：

zcabcd 2020-02-20

小程序开发----自定义会员卡卡号和用户领取，以及简单介绍卡券功能和注意事项

　　前一段时间做项目涉及到这方面的内容，看了技术文档，小程序页面没有详细介绍，要前往微信公众号开发文档，卡券功能是先为微信公众号开发的功能，后来也提供个小程序，文档在小程序中没有过多的介绍，微信文档我就不想过多的吐槽了，大家都懂。$post[‘card‘]

hgzhang 2020-02-18

django 分页

# 如果结束页码大于页码总数，则结束页码为页码总数，开始页码则为页码总数减去规定的可以显示的页码数+1. next_page = ‘<li><a href="{}?next={}" aria-abel="Pr

时光如瑾雨微凉 2020-02-02

16、python面对对象之类和继承

　　使用装饰器@classmethod装饰，且第一个参数必须是当前类对象，该参数名一般约定为“cls"，通过它来传递类的属性和方法。，跟实例方法的self用法相似。　　在需要站在类的角度执行某个行为时，那么就可以定义为类方法。@classmeth

winmeanyoung 2020-01-29

python列表操作例程之名片管理

运用列表的添加、删除、修改、查询等命令，创建了。def search_info():————搜索函数运行效果如下：。print("[ERROR]:输入错误，请重新输入!print("[INFO]:谢谢您的使用，再见！

wyqwilliam 2020-01-17

Python字典的常用操作

info = {‘name‘:‘班长‘, ‘id‘:100, ‘sex‘:‘f‘, ‘address‘:‘地球亚洲中国北京‘}

typhoonpython 2020-01-12

MySQL 性能优化神器 Explain 使用分析

MySQL 提供了一个 EXPLAIN 命令, 它可以对 SELECT 语句进行分析, 并输出 SELECT 执行的详细信息, 以供开发人员针对性优化.EXPLAIN 命令用法十分简单, 在 SELECT 语句前加上 Explain 就可以了, 例如:.

sofast 2020-01-08

log4j.properties的配置

此句为将等级为INFO的日志信息输出到stdout和R这两个目的地，stdout和R的定义在下面的代码，可以任意起名。等级可分为OFF、FATAL、ERROR、WARN、INFO、DEBUG、ALL，如果配置OFF则不打出任何信息，如果配置为INFO这样只

snowpage 2014-07-10

日志模式log4j

Please comment on MEXEC-6.0 INFO YahooRetriever - Retrieving Weather Data411 INFO YahooParser - Creating XML Reader518 INFO Yaho

农码经神 2014-06-25

KaiZhaoKZ

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号