高斯变换简介及Python示例

testxia

2019-06-06

关注关注

高斯变换简介及Python示例

线性回归和逻辑回归等机器学习模型假设变量是正态分布的。如果一个变量不是正态分布，有时可以找到一个数学变换来把一个变量按照高斯分布进行变换。

遵循高斯分布的变量变换：

这些是一些数学方法来转换变量，使它们遵循高斯分布。没有一个比另一个好。它们主要取决于变量的原始分布。

对数变换
倒数变换
平方根变换
指数变换

在本文中，我们将使用比较著名的泰坦尼克号机器学习数据集（https://www.kaggle.com/c/titanic/data）的“Age”变量进行这些变换。

让我们从导入Python包并加载机器学习数据集开始

#Importing Packages
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import pylab
import scipy.stats as stats
#Importing dataset
data = pd.read_csv("train.csv", usecols = ['Age'])

高斯变换简介及Python示例

然后让我们检查是否有任何缺失值并使用dropna方法删除它们

data.apply(lambda x: sum(x.isnull()),axis=0)

高斯变换简介及Python示例

'Age'中的Null值数

data = data.dropna()

原始分布：

让我们从Titanic机器学习数据集中可视化变量的分布开始，我们绘制直方图来可视化钟形图和Q-Q图(两者都用于可视化变量是否服从高斯分布)。记住，如果变量是正态分布的，我们应该看到在理论分位数上有一条45度的直线。也就是说，实际分位数应该与理论值完全一致。

def diagnostic_plots(df, variable): 
 
 plt.figure(figsize=(15,6))
 plt.subplot(1,2,1)
 df[variable].hist()
 #plt.xlim((0, 100))
 
 plt.subplot(1,2,2)
 stats.probplot(df[variable], dist="norm", plot = pylab)
 
 plt.show()
 
diagnostic_plots(data, 'Age')

高斯变换简介及Python示例

在这里，我们创建一个函数diagnostic_plots来可视化变量是否遵循高斯分布。它将data frame和目标变量作为输入参数。函数的第一部分是直方图，第二部分是Q-Q图。我们在变量'Age'上调用函数。

高斯变换简介及Python示例

原始分布

该变量遵循近似高斯分布。它略微偏斜，这解释了与下端的45度线（红线）的偏差。

现在让我们应用Age变量的所有上述变换并评估结果。

对数变换：

让我们应用Numpy中的log函数并绘制诊断图。

data['Age_log'] = np.log(data.Age)
diagnostic_plots(data, 'Age_log')

高斯变换简介及Python示例

对数变换

我们可以看到这个变换并没有使Age服从高斯分布。记住log0没有定义。因此，如果您的数据包含0 -给它一个偏移量或使用另一种变换方法。

倒数变换：

data['Age_reciprocal'] = 1 / data.Age
diagnostic_plots(data, 'Age_reciprocal')

高斯变换简介及Python示例

倒数变换

我们可以看到这种变换也没有帮助。

平方根变换：

接下来，我们将尝试平方根变换。

data['Age_sqrt'] = data.Age**(1/2)
diagnostic_plots(data, 'Age_sqrt')

高斯变换简介及Python示例

平方根变换

结果比其他好一点，但仍然不是高斯。开始和结束都有一些偏差。最后，让我们尝试指数变换。

指数变换：

在这里，我们可以尝试任何我们想要的指数。我选择了1.2作为指数。但是你可以尝试不同的指数，看看分布如何变化。

data['Age_exp'] = data.Age**(1/1.2)
diagnostic_plots(data, 'Age_exp')

高斯变换简介及Python示例

指数变换

正如你在直方图中看到的那样，这种变换使得“Age”变量遵循几乎高斯分布。直方图中的峰值更加居中，并且Q-Q图中的下端值附近仅有一些偏差。因此，在这种特殊情况下，我们可以看到指数变换效果最好。

应该对变量进行变换吗?

这取决于你的最终目标。在业务环境中，最好使用变量的原始分布来训练机器学习模型，因为在使用机器学习模型进行预测时，模型更容易解释，将来可能出现的问题也更少。另一方面，在竞赛的情况下，最好选择一个表现最好的变量。

机器学习 python 高斯正态分布 data 变量

安科网

高斯变换简介及Python示例

testxia

遵循高斯分布的变量变换：

原始分布：

对数变换：

倒数变换：

平方根变换：

指数变换：

应该对变量进行变换吗?

testxia

相关推荐

Python 用5行代码学机器学习—线性回归

如果不能用Python执行机器学习，那该用什么呢？

机器学习的未来就在这里：高斯过程和神经网络是等价的

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

理解AI：为什么要在人工智能系统中寻求可解释性呢？

testxia