机器学习系列21：降维

seedcup

2019-06-23

机器学习系列21：降维

降维(Dimensionality Reduction)可以保持数据在原有特征的基础上对数据进行压缩，从 3D 降到 2D，使得数据的分布情况不发生改变，如下图：

机器学习系列21：降维

降维还有一个作用，就是能更好地可视化数据。比如说，现在有一个数据集，有 50 个特征，如果想通过图像来分析这个数据集，目前是做不到的，因为只能画出三维图像，也就是说特征数为 3。但是如果运用降维，把特征数从 50 降到 3，你就可以画出这个数据集，更好地观察它们之间的联系(毕竟观察图像才有最直观的感受)。

目前，最常用的降维算法就是主成分分析算法(Principal Component Analysis)也称为 PCA。它的工作原理是将高维数据投影到低维平面，以便最小化投影误差的平方。例如：现在有一个二维数据，我们使用 PCA，将它投影到一维中，如下图：

机器学习系列21：降维

将所有的黑色叉投影到红色线上，所在的投影就是绿色叉。这么一看是不是跟我们之前学过的线性回归有点相似呢?其实他们两个相差很大，我们先来看线性回归：

机器学习系列21：降维

通过这张图可以看出，线性回归是尽量减小数据集的 y 与假设函数值之间的误差，也就是减小图中蓝色的线段的距离。再来看 PCA：

机器学习系列21：降维

这是尽量减少点到直线的距离，也是图中蓝色线段的长度。通过这两个图做对比，你就能更好地理解这两种算法的区别了。

机器学习系列21：降维

应用 PCA 的建议

机器学习系列21：降维

应用 PCA 可以减少对内存的使用、加速学习算法的速度、可视化高维数据。但是不要用 PCA 防止过拟合，因为应用 PCA 时，可能会抛弃某些重要的特征。还有一点，不要一上来不管三七二十一就使用 PCA，在使用 PCA 之前，先考虑一下使用 PCA 究竟是为了做什么，如果不用 PCA 是否能够完成任务。

机器学习线性回归 jpg

安科网

机器学习系列21：降维

seedcup

seedcup

相关推荐

Python 用5行代码学机器学习—线性回归

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

理解AI：为什么要在人工智能系统中寻求可解释性呢？

机器学习的未来就在这里：高斯过程和神经网络是等价的

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

seedcup