为什么我们需要数据预处理？

jiahaowanhao

2019-03-06

为什么我们需要数据预处理？

作者 | 邱雅婷

责编 | 郭芮

数据挖掘的核心是什么？这个的答案是算法应该没什么疑问。那数据挖掘的基石又是什么呢？那就是今天我们要来说的数据预处理。

什么是数据预处理？

为什么我们需要数据预处理？

数据科学家们一直想为数据预处理赋予一个定义。其实简单地说，数据预处理就是一种数据挖掘技术，本质就是为了将原始数据转换为可以理解的格式或者符合我们挖掘的格式。

为什么需要数据预处理？

在真实世界中，数据通常是不完整的（缺少某些感兴趣的属性值）、不一致的（包含代码或者名称的差异）、极易受到噪声（错误或异常值）的侵扰的。因为数据库太大，而且数据集经常来自多个异种数据源，低质量的数据将导致低质量的挖掘结果。就像一个大厨现在要做美味的蒸鱼，如果不将鱼进行去鳞等处理，一定做不成我们口中美味的鱼。

数据预处理就是解决上面所提到的数据问题的可靠方法。

那它是怎么做到的呢？

就像大厨准备处理鱼的刀具一样，数据预处理也是如此。它准备原始数据以便进一步处理。下面是数据预处理要采取的步骤，如图：

为什么我们需要数据预处理？

数据清洗：填写缺失的值，光滑噪声数据，识别或删除离群点，并解决不一致性来“清理数据”；
数据集成：使用多个数据库，数据立方体或文件；
数据归约：用替代的，较小的数据表示形式替换元数据，得到信息内容的损失最小化，方法包括维规约，数量规约和数据压缩；
数据变换：将数据变换成使用挖掘的形式。

下面这张图很形象得把这四个步骤的作用表现出来，挺有意思的。

为什么我们需要数据预处理？

数据预处理任务

应用

是时候采取一些简单的实际应用来了解数据预处理是如何完成的。

下面的例子我们用 Python 来处理，还需要用到两个库，分别是 Numpy、Pandas。

准备数据

在这里，我们有一个数据集，其中包括IT专业人员的信息，比如国家、工资、性别，如下：

为什么我们需要数据预处理？

我们可以随意创建此数据集的副本。

我们可以观察到上面的数据集包含一些空值，这是故意的。后面很快可以看到它发挥的作用

导入库

简单说下 Numpy、Pandas 这两个库的作用：Numpy 库包含数学工具，它可以用于在我们代码中的任何类型的数学；Pandas 库用于导入和管理数据集。

下面是我们导入库的方法：

import pandas as pd
import numpy as np

导入数据集

我们已经导入库了，接下来我们需要获取数据集。在我本地里，我将我的数据集文件命名为‘profess’，它的格式为.csv。

#读取数据（我的数据集文件跟我的python文件在同一目录下）
data = pd.read_csv("profess.csv")

导入数据集后，我们输出看下它的格式如何：

print(data)

为什么我们需要数据预处理？

Good！我们成功得将数据集导入测试环境中。

数据清洗——查看缺失值

为了成功管理数据，缺失值的概念很重要。如果工程师没有正确处理缺失值，可能最后得出关于数据的推断是不准确的。我们再来仔细看下我们的数据的缺失值情况，用 Pandas 库的 isnull 函数来看看。

print(data.isnull().sum())

为什么我们需要数据预处理？

我们可以发现 Age,Salary 列都有缺失值（就是为空的值），缺失值数量都为1。处理缺失值有7种处理方法，我们这里说说比较常用的两种。

1、此方法经常用于处理空值，如果某行有特定特征d的空值，就删除此行。如果特定列具有超过75%的缺失值，就删除特定列。不过我们要在确保样本数据足够多的情况下，采用这个方法。因为我们要确保删除数据后，不会增加偏差。

data.dropna(inplace=True)
print(data.isnull().sum())

为什么我们需要数据预处理？

2、这个方法适用于具有年份或者年龄，金额等数字数据的功能。我们可以计算特征的均值，中值或众数，将其替换为缺失值。与第一种方法相比，这种可以抵消数据的缺失，产生更好的效果。

我们用来看一下操作：

# 将 Age 列中为空的值替换为 Age 的中位数。
# medain()是 pandas 库的求中位数的方法
data['Age'] = data['Age']
 .replace(np.NaN,data['Age']
 .median())
print(data['Age'])

为什么我们需要数据预处理？

我们成功替换掉了。

数据归约

为了满足挖掘需求，我们需要知道这些工程师们的薪水分布区间，但是我们只有‘Salary’ 薪水这一列，所以为了方便挖掘，我们给我们的数据集增加‘薪水等级’ level 这一列，通过 Salary 列进行区间归约，这种方法叫做“属性构造”。我们看看操作：

#数据归约
def section(d): 
 if 50000 &gt; d: 
 return "50000以下"
 if 100000 &gt; d &gt;= 5000: 
 return "50000-100000"
 if d &gt; 100000: 
 return "100000以上"
data['level'] = data['Salary']
 .apply(lambda x: section(x))
print(data['level'])

为什么我们需要数据预处理？

我们定义一个‘数据变换’的函数给，根据 Salary 判断选择区间进行变换并赋值给 level。

数据变换

我们可以看到 Salary 列也有空值，从业务上理解它应该是数字数值才是。但是我们发现我们的数据集中是货币格式，我们需要对它进行‘数据变换’，转换成我们所需的数字格式。来看下实际操作：

#数据变换
def convert_currency(d):
 new_value = str(d).replace(",","")
 .replace("$","")
 return float(new_value) 
data['Salary'] = data['Salary'].apply(convert_currency)
# mean()是 pandas 库的求平均值的方法
data['Salary'] = data['Salary']
 .replace(np.NaN,data['Salary']
 .mean())
print(data['Salary'])

变换成功：

为什么我们需要数据预处理？

我们定义一个“数据变换”的函数，然后将它应用再 Salary 列上，最后同数据清洗那一步同样的替换操作，我们这里用平均值替换。

写在最后

至此我们算走完数据预处理的一个基本流程。

这是比较基础的一个小应用，但是相信我们以后处理数据的时候能有一个基本清晰的解决思路，以及如何选择处理方法以及为什么选择有所了解。

数据挖掘一路走来也有几十年的历史了，数据预处理每个步骤都开发出很多的方法。由于不一致或脏数据的数量巨大，以及问题本身的复杂性，数据预处理仍然是一个活跃的研究领域。篇幅所限，无法一一叙述，以后会再深入。

本文所用例子的数据集以及代码有需要可以点击下面链接下载：https://github.com/Tomcccc/Blog。

作者：邱雅婷，就职于信用行业的互联网公司，数据工程师，爱好读书，思考。本文为作者投稿，版权归其个人所有。

jiahaowanhao

0 关注 0 粉丝 0 动态

相关推荐

docker容器与宿主机的数据交互方式总结

在生产环境中使用 Docker ，往往需要对数据进行持久化，或者需要在多个容器之间进行数据共享，这必然涉及容器的数据管理操作。docker cp :用于容器与主机之间的数据拷贝。当删除Docker容器，并通过该镜像重新启动时，之前的更改将会丢失。在Dock

yangkang 2020-11-09

分布式文档存储数据库之MongoDB备份与恢复的实践详解

　　为什么要备份？　　备份的目的是对数据做冗余的一种方式，它能够让我们在某种情况下保证最少数据的丢失；之前我们对mongodb做副本集也是对数据做冗余，但是这种在副本集上做数据冗余仅仅是针对系统故障或服务异常等一些非人为的故障发生时，保证数据服务的可用性；

lbyd0 2020-11-17

分布式文档存储数据库之MongoDB分片集群的问题

　　1、什么是分片？比如用户要查询年龄大于30的用户，该怎么查询呢？而年龄大于30的用户的数据，可能server1上有一部分数据，server2上有部分数据，我们怎么才能够把所有满足条件的数据全部查询到呢？

sushuanglei 2020-11-12

详解Vue数据驱动原理

Vue区别于传统的JS库，例如JQuery，其中一个最大的特点就是不用手动去操作DOM，只需要对数据进行变更之后，视图也会随之更新。比如你想修改div#app里的内容:. 在代码层面上的最大区别就是，JQuery直接对DOM进行了操作，而Vue则对数据进行

85477104 2020-11-17

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

随着前端技术的飞速发展，大数据时代的来临，我们在开发项目时越来越多的客户会要求我们做一个数据展示的大屏，可以直观的展示用户想要的数据，同时炫酷的界面也会深受客户的喜欢。大屏展示其实就是一堆的图表能够让人一目了然地看到该系统下的一些基本数据信息的汇总，也会有

KANSYOUKYOU 2020-11-16

THINKPHP5分页数据对象处理过程解析

在用到THINKPHP5的分页的时候，我们可以发现获取的数据是对象，如果我们要对数据进行循环增加数据就实现不了。V5.0.9版本开始支持分页类后数据直接each遍历处理，方便修改分页后的数据，而不是只能通过模型的获取器来补充字段。

wushengyong 2020-10-28

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 2020-11-13

人工智能技术如何落地交通出行？

在城市交通领域，有AI红绿灯控制，街道交通智能监测、智能公交车站，以及智能高速，这些领域都已经渗透了人工智能。围绕自动驾驶和车路协同也已经在全国多个地区进入商用测试阶段。那么日常还有哪些出行场景是应用到了AI技术的呢?大大降低了人工运营维护成本，人工审核降

星月情缘 2020-11-13

将云技术带入数据中心-走向数据驱动型业务的旅程

COVID-19产生的大量数据正在为企业创造新的增长机会，但拥有合适的基础设施对于有效应对这场数据风暴至关重要。Gartner最近警告说：“数据和分析领导者必须为多云和跨云部署的复杂性做好准备，以避免潜在的性能问题、计划外的成本超支和集成工作中的困难”。负

huangxiaoyun00 2020-11-13

联想持续发力智能物联，构建新基建时代下的行业新引擎

联想Tech World 2020创新科技大会于今日开幕。

zhoushuntian 2020-11-09

数据科学面试中应了解的十种机器学习概念

如您本文转载自公众号“读芯术”。如您所知，数据科学和机器学习必须提供无穷无尽的信息和知识。话虽如此，大多数公司都只测试少数核心思想。这是因为这十个概念是更复杂的思想和概念的基础。您可能想知道为什么我什至不愿意将其放入，因为它是如此的基础。换句话说，更加重视

luyong0 2020-11-08

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

今日获悉，国际领先行业咨询机构Forrester发布《2020年Q4中国全栈公有云开发平台Wave报告》显示，腾讯云再次入选公有云开发平台领导者象限。在2018年同主题报告中，腾讯云也曾入选。本次报告通过33项评估标准，针对中国市场最具代表性的12个厂商进

腾讯soso团队 2020-11-06

雾计算在物联网中的应用

雾计算是指一种分散的计算结构。资源被放置在数据源和云之间的逻辑位置。雾计算的优点之一是可以在同一时间上维持多用户连接的状态。本质上，它提供了与基于云的解决方案相同的网络和服务，但是它增加了分散网络的安全性。随着物联网的发展，越来越多的设备被添加到网络中。据

Apsaravod 2020-11-05

AI格局正在从“数据”转变为“知识”

半个多世纪以前就引发了人工智能革命。我们看到的最常见的AI业务策略是围绕数据构建的。我们认为专有数据是AI公司目前很具战略意义的护城河，但在未来几年中，专有数据将不再是一种独特的资产，从而使专有数据差异化的可持续性降低。因此，我们希望重点从基于数据的AI策

PeterChangyb 2020-11-05

SAP AMDP介绍 - ABAP托管的HANA数据库过程

最近Jerry的处境可以用本世纪初，八零后刚上大学时校园内风靡的一款FPS游戏名称来形容: 《半条命》. 为了避免让汪子熙这个公众号成为神经外科前中颅底亚专业医学知识的普及号，咱们还是继续聊SAP技术吧。随着ABAP 7.40 SP05的发布，SAP AB

gaobudong 2020-11-04

数据骗子无处不在，教你拆穿所谓“万金油”

数据分析师、机器学习/人工智能工程师、统计学家，这样的头衔是不是听起来很高大上?但小心别被骗了!高薪诱惑之下，不少数据骗子也隐藏在其中，这些骗子毁了遵纪守法的数据专业人士的好名声。第一点线索就是，他们无法理解分析学和统计学是两个截然不同的学科。这样的p值没

wwwjun 2020-11-02

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中的数据偏差是一种错误，其中数据集的某些元素的权重和/或表示程度高于其他元素。偏置数据集不能准确表示模型的用例，从而导致结果偏斜、精度低和分析错误。通常，机器学习项目的培训数据必须代表现实世界。数据偏差可能发生在一系列领域，从人类报告和选择偏差到算

gyunwh 2020-11-02

机器学习中处理缺失值的9种方法

它是任何数据科学或机器学习项目的关键。在大多数情况下，当我们从不同的资源收集数据或从某处下载数据时，几乎有95%的可能性我们的数据中包含缺失的值。我们不能对包含缺失值的数据进行分析或训练机器学习模型。这就是为什么我们90%的时间都花在数据预处理上的主要原因

EchoYY 2020-10-31

人工智能和机器学习如何从物联网数据中提取关键见解

过去几年，围绕物联网的大部分讨论都集中在连网设备本身——它们是什么、有多少以及如何保护它们。虽然所有这些小端点都很重要，但在物联网中更重要的是这些设备所生成的大量数据，以及通过分析可以从中获得的业务见解。这些缺点在物联网环境中更加严重，在物联网环境中，大量

dingyahui 2020-10-30

IT打工人，AI来“抢”你饭碗了！这次从数据中心下手

ningwentao 2020-10-30

jiahaowanhao

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号