Python全栈工程师！要会哪些技术？全栈技术详解！最少五天掌握！

董老师在硅谷

2018-05-17

本章从商业数据分析和挖掘的角度详细地介绍了特征工程及其使用的响应方法：数据预处理、特征构造、特征抽取以及特征选择。系统性地说明了用于构建分析用的结构化数据的过程。

特征工程分为数据预处理（Data Preprocessing）、特征构造（Feature Construction）、特征抽取（Feature Extraction）和特征选择（Feature Selection）等几个步骤，每个步骤间没有明显的顺序之分，往往需要根据需求反复执行，甚至也没有严格区分的概念边界，例如特征构造可能会与数据预处理使用同样的数据变换技术等等。

其中"display.max_columns"设置了在notebook中显示的最大列数，当显示的数据超过10列时中间的部分数据会使用省略号表示，这仅仅是为了展示方便而已，如果该值被设置为"none"，则会显示所有列，超出页面宽度时会出现相应滚动条。

（1）修正

补充正确信息：例如重新导入原始的正确数据。

对照其他信息源：例如使用CRM系统中正确的用户年龄替换手工填报的错误年龄。

视为空值：将数据清空，等待下一步处理。

（2）删除

删除记录。

删除特征。

如果通过删除来处理错误值，那么要保证该处理不会对后续工作造成重要影响，删除的记录过多会影响数据的分布，删除的特征也不能是那些重要的字段。

以下是一个通过业务规则发现错误值的例子。

新的数据集“data”将不包含流量消费大于5000MB的用户。

对于分类变量，可以采用一定的技术手段去识别错误值，因为错误值通常极少出现，因此可以通过对比分类变量各分类水平之间的数量差异去识别。比如对用户状态“state”进行汇总，代码如下。

通过汇总，发现用户状态为“2”和“4”的记录非常少，则这两类数据很有可能是错误的。为了更直观地展现数量差异，可以使用饼图来描述数据：

异常值有时意味着错误，有时不是。无论是否代表错误，异常值都应当被处理。通常可以根据对业务的理解来设置异常值的边界，也可以使用一定的技术手段辅助识别异常值。常用的识别方法包括以下两种。

（1）平均值法：对于正态分布来说，三倍标准差之外的样本仅占所有样本的1%，因此，设置平均值±3×标准差之外的数据为离群值，极端值被定义为平均值±5×标准差之外数据。

（2）四分位数法：设置1.5倍四分位距以外的数据为异常值，即IQR = Q3–Q1，IQR为四分位距，Q3和Q1分别为第三和第一四分位点，定义正常数据在Q1–1.5 ´ IQR ~ Q3 + 1.5 ´ IQR 之间。

例如：绘制月消费额箱线图。

使用盖帽法进行异常值处理的示例如下。

这类数据也可以通过对数转换使其更接近于正态分布，同时消除异常值，由于对数函数的定义域为(0,+∞)，而消费额这样的数据往往包括0，因此可以对数据进行加1操作，再进行对数转换，这样的转换可以保证原来为0的数据转换后依然为0，新数据都是非负的，示例代码如下。

可以看到使用scikit-learn中的函数转换可以一次性对多个字段进行处理。

为了更加准确的判断缺失值的数量，可以使用isnull函数，如果数值为空返回True，否则为False，再进行求和（True被作为1，False被作为0），就可以统计每个字段缺失值的数量。同样可以使用notnull函数进行类似分析，其返回结果与isnull相反。示例如下：

缺失值的处理可以非常灵活，比如对“营销次数”的填补可以使用众数填补，也可以填为0（如果缺失是因为在营销数据库中没有该记录造成的则填0）。此外，营销活动通常是对满足一定条件的用户开展的，因此也可以通过建模“预测”该用户“被营销”的次数。

以下是对之前的data数据集按照缺失值数量进行记录删除的一个例子。

这种方法可以指定用于表示缺失的值，strategy参数则指定了填补策略，比如示例中使用的众数，其它策略包括均值、中位数等，具体可参考帮助或文档。

对于示例数据集当中的"IMEI"字段是手机串码（原本为15位），一部移动设备对应一个，是全球唯一的，这样的字段与ID字段一样无法进入模型。通过观察，发现有大量的记录IMEI为空值（现已填补为0），因此可以将有IMEI的设置为1，没有的设置为0。在scikit-learn的preprocessing中，使用Binarizer可以将字段二值化，示例如下：