机器学习中的特征缩放

bamboocqh

2018-07-28

大多数时候，数据中不同的特征可能有不同的大小。举个例子，在购物数据集的例子中，我们通常用克或磅来观察产品的重量，这将是一个更大的数字，而产品的价格可能是美元，而这将是较小的数字。许多机器学习算法在计算中使用数据点之间的欧式距离。拥有两个具有不同数量范围的特征将使具有更大范围的特征在算法中占主导地位。

什么是特征缩放

特征缩放是一种预处理技术，可以改变数字特征的范围。主要有三种可以在数字特征上完成的事情:

Rescaling

Rescaling意味着从向量中加上或减去一个常数，然后将该向量乘以或除以常数（f（x）= ax + b）。示例是单位的变化，如摄氏度到华氏度。

归一化

归一化意味着将特征与向量的范数分开。我们基本上希望向量的欧氏距离为1。

有两种可以完成的归一化：

1.Min-Max归一化:

我们将取值范围扩展到[-1,1]或[0,1]。这个公式是

机器学习中的特征缩放

2.均值归一化:

我们不使用最小值进行调整，而是使用特征的平均值。

机器学习中的特征缩放

标准化

标准化意味着将向量的均值设为0，将标准差设为1.通常通过减去均值并除以标准差来完成。标准化值也称为Z得分

机器学习中的特征缩放

在哪里使用特征缩放

有很多算法都是标量不变的，比如基于树的算法，它们不需要缩放，因为它们不是基于距离的模型。

线性判别分析(LDA)、朴素贝叶斯(Naive Bayes)等算法根据特征的范围赋予特征权重，因此缩放不影响这些算法。

其他的算法，如主成分分析(PCA)、k最近邻(Knn)、线性/逻辑回归(当正则化时)可以帮助我们避免向高强度特征倾斜。甚至神经网络也受益于特征缩放。

但一般来说，特性是可伸缩的，因为它有助于更快地收敛梯度算法。如下所示

机器学习中的特征缩放

方法:

scikit-learn预处理模块在这里提供了优秀的api和特征缩放文档（http://scikit-learn.org/stable/modules/preprocessing.html#standardization-or-mean-removal-and-variance-scaling）。

机器学习归一化

安科网

机器学习中的特征缩放

bamboocqh

什么是特征缩放

在哪里使用特征缩放

方法:

bamboocqh

相关推荐

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

理解AI：为什么要在人工智能系统中寻求可解释性呢？

机器学习的未来就在这里：高斯过程和神经网络是等价的

Python 用5行代码学机器学习—线性回归

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

bamboocqh