“有趣”的投影：当PCA失效时怎么办？

陈海鹏

2019-01-28

摘要： ——试试PPA，一个关于探索性数据分析的替代方案！

“有趣”的投影：当PCA失效时怎么办？

目前，大多数的数据科学家都比较熟悉主成分分析 (Principal Components Analysis，PCA)，它是一个探索性的数据分析工具。可以这样简要的描述：研究人员经常使用PCA来降低维度，希望在他们的数据中找出有用的信息（例如疾病与非疾病的分类）。PCA是通过寻找正交投影（Orthogonal Projection）向量来实现这一点的，正交投影向量说明了数据中的最大方差量。在实践中，这通常是用奇异值分解（Singular Value Decomposition，SVD）的方法来找到主成分（特征向量），并通过其对数据总方差的贡献（特征值）加权。毫无疑问，在我的专业领域以及许多其它的领域中，PCA是最常用的数据分析工具，但是当它不起作用的时候会发生什么呢？这是否意味着抽样试验的效果不好呢？这是否意味着数据中没有有用的信息呢？我们的小组致力于为化学专业开发新的数据分析工具。在这里，我要给为大家介绍一个PCA的替代方案，叫做投影追踪分析（Projection Pursuit Analysis ，PPA）。

“有趣”的投影：当PCA失效时怎么办？

一般因素分析模型

基于方差运算的PCA

PCA失败在哪了呢？像上面描述的那样，PCA通过在数据中找到最大方差的方向来进行操作。那么如果投射到那个方向上没有效果呢？下图是由200个样本的模拟数据组成的，这些数据形成了两个分离的集群，它们沿着Y轴的方差大于沿着X轴的方差。如果我们对这个二维数据进行PCA操作，那么会得到投影向量v，它将是2×1的列向量（[0；1]）。投射到这个向量上的原始数据X（200x2）给出了我们的得分T=Xv。在把这些得分可视化之后表明了两个集群之间没有明显的分离。相反，如果我们投射到x轴上（v=[1；0]），那么很容易地就会看到这两个集群中的分离状态。那么我们如何在高维的数据中找到这个向量呢？

“有趣”的投影：当PCA失效时怎么办？

“有趣的”投影显示了分类信息

投影追踪

投影追踪方法最初是由Friedman和Tukey在1974年的时候提出来的，他们试图根据投影指数的最大化或最小化来在数据中找到“有趣的”投影。通过扩展，在PCA框架中，投影指数（方差）被最大化了。现在的问题是，什么样的是好的预测指数呢？数据科学家们在定义新的投影指数方面已经做了大量的研究，但是今天我要关注的一个已经被证明对探索化学领域数据有用的指标是峰态系数（kurtosis）。

基于峰态系数的投影追踪（Kurtosis-based projection pursuit）

第四个统计矩，峰态系数，已被证明了是一个很有用的投影指数（https://www.sciencedirect.com/science/article/pii/S0003267011010804)。

“有趣”的投影：当PCA失效时怎么办？

单变量的峰态系数

当峰态系数最大化时，它往往会显示数据中的异常值。这会有些用处，但是实际上它并不是我们想要寻找并显示类或集群信息的东西。然而，当峰态系数最小化时，它将1个维度中的数据分为2组（2个维度中分为4组，3个维度中分为8组）。

“有趣”的投影：当PCA失效时怎么办？

峰态系数最小化

现在最大的问题是如何使用峰态系数查找这些投影向量？Quasai-power学习算法. 请见https://www.sciencedirect.com/science/article/pii/S0003267011010804。本文中，Hou和Wentzell证明了利用下面的学习算法可以找到最小化峰态系数的投影向量：

“有趣”的投影：当PCA失效时怎么办？

寻找最小化峰态系数的投影向量

实例模拟

让我们同时利用PCA和PPA两种技术来模拟一些数据。与打开的图形类似，我们的数据将会分为两个类，每个类有100个样本，并且只需要1个维度来显示类分离。第一个类在x轴上以-4为中心，标准偏差为5，而第二类则以+4为中心，标准偏差也是5。

“有趣”的投影：当PCA失效时怎么办？

原始数据

为了使这个模拟更真实，让我们通过乘以一个2 x 600的随机旋转矩阵，将这个200 x 2的矩阵旋转为600个维度。这就是我们现在需要利用探索工具来找到数据中一些有趣的投影的地方。首先，让列的平均值集中我们的数据，同时应用PCA，并将第一个成分可视化为一个样本数量的函数。

“有趣”的投影：当PCA失效时怎么办？

来自PCA的第一个成分

我们会看到，向下投射到第一个PC上的数据不会显示类信息。那我们现在就来应用PPA。

“有趣”的投影：当PCA失效时怎么办？

来自PPA的第一个得分

PPA能够找到对我们有用的投影（即提供类分离的投影）。

PPA的问题

尽管在大多数的情况下，我们发现PPA的性能都优于PCA，但是当PPA没有效果的时候，有一些重要的注意事项需要在这里说明一下。当类的大小不相等的时候，PPA就不会正常地工作了，例如，如果我在上面的实例中使用5:1的类比率并应用PPA，我们会得到以下结果：

“有趣”的投影：当PCA失效时怎么办？

由于分离的几何学方面的原因，当类的数量不是2的n次方时，PPA也会有问题。PPA也会遇到过度拟合问题，并且通常需要执行数据压缩，大约需要10:1的样本与变量比率。否则，该算法就将人工地把样本忽略掉。我们小组目前的工作是开发一些能缓解这些问题的方法，好消息是我们应该在未来的几个月之内就会发表一些关于这方面的论文！我一定会及时通知大家的。

阿里云云栖社区组织翻译。

文章原标题《“Interesting” Projections — Where PCA Fails》

译者：Mags，审校：袁虎。

作者：【方向】

pca 大数据 em 方差

陈海鹏

0 关注 0 粉丝 0 动态

相关推荐

“有趣”的投影：当PCA失效时怎么办？

可以这样简要的描述：研究人员经常使用PCA来降低维度，希望在他们的数据中找出有用的信息。毫无疑问，在我的专业领域以及许多其它的领域中，PCA是最常用的数据分析工具，但是当它不起作用的时候会发生什么呢？在这里，我要给为大家介绍一个PCA的替代方案，叫做投影追

llcode 2019-06-30

PCA等降维算法真的能提升分类任务的性能吗？

对于深度学习中的图像处理任务来说，很多研究人员都会用到降维处理技术，比如主成分分析、稀疏自动编码器、随机邻近嵌入等，每种降维方法都有各自的侧重点，根据相应的任务需求选择合适的降维算法。在这种情况下，LDA可以被认为是有监督算法，而PCA是无监督算法。通常，

WindChaser 2019-06-27

机器学习实战_降维（二）

我们将会展示两种主要的降维方法：投影和流形学习，同时我们还会介绍三种流行的降维技术：主成分分析，核主成分分析和局部线性嵌入。主成分分析主成分分析是目前为止最流行的降维算法。首先它找到接近数据集分布的超平面，然后将所有的数据都投影到这个超平面上。这是就 PC

yonezcy 2019-06-27

使用PCA加速神经网络

右边的图像是应用PCA然后将其转换回原始尺寸后的合成图像。由于右侧的图像具有较少数量的像素，因此神经网络将在较少数量的特征上操作。因此，训练阶段所花费的时间将减少。顾名思义，给定机器学习数据集，我们感兴趣的是找到最重要的主组件，即表示底层数据集的“重要特征

hexianhao 2019-02-09

python机器学习（八）主成分分析（PCA）

主成分分析是指将多个变量通过线性变换以选出较少数重要变量的一种多元统计分析方法，又称为主成分分析。在实际应用场合中，为了全面分析问题，往往提出很多与此有关的变量（或因素），因为每个变量都在不同程度上反映这个应用场合的某些信息。主成分分析是设法将原来众多具有

xclxcl 2020-06-07

机器学习实战基础（二十六）：sklearn中的降维算法PCA和SVD（七）附录

Broadview 2020-05-29

机器学习第九次

而PCA则是特征降维中除了特征选择的另一种降维方法，中文名为主成分分析技术，他的作用是尽可能降低原数据的维数，简化数据。

sxyhetao 2020-05-01

机器学习9 主成分分析

去除不相关的特征，可以降低学习任务的难度，只留下关键特征，往往可以更容易看清真相。从原始的空间中顺序地找一组相互正交的坐标轴，新的坐标轴的选择与数据本身是密切相关的。由于我们一般不会直接使用原始数据，所以就要进行特征选择；特征选择就是从多个特征中选择部分特

卖小孩的咖啡 2020-05-01

机器学习之——线性判别分析（LDA）, 主成分分析(PCA)

第二篇的文章中谈到，和部门老大一宁出去outing的时候，他给了我相当多的机器学习的建议，里面涉及到很多的算法的意义、学习方法等等。一宁上次给我提到，如果学习分类算法，最好从线性的入手，线性分类器最简单的就是LDA，它可以看做是简化版的SVM，如果想理解S

Orangeminger 2015-12-18

机器学习之PCA与梯度上升法

主成分分析是一种非监督学习的机器算法，主要用于数据的降维。横轴表示特征1，纵轴表示特征2，其中4个点表示二维的特征样本。映射到不同的轴后样本间间距会不一样，而要找的就是让样本间间距最大的轴。接着进行均值归0处理，即 $\overline x = 0$，使得

yukyinbaby 2019-06-29

python_基于Scikit learn库中KNN,SVM算法的笔迹识别！内附教程

数据共有785列，第一列为label，剩下的784列数据存储的是灰度图像的像素值 28*28=784. 主成分分析经常用于减少数据集的维数，同时保持数据集中的对方差贡献最大的特征。支持向量机是一种监督式学习的方法，可广泛地应用于统计分类以及回归分析。在支持

xiaoxixi 2019-03-17

PCA等降维算法真的能提升分类任务的性能吗？

对于深度学习中的图像处理任务来说，很多研究人员都会用到降维处理技术，比如主成分分析、稀疏自动编码器、随机邻近嵌入等，每种降维方法都有各自的侧重点，根据相应的任务需求选择合适的降维算法。在这种情况下，LDA可以被认为是有监督算法，而PCA是无监督算法。通常，

ivabrother 2018-07-16

PCA、NMF、KNN在实战中的算法解析

我们用一些工具对数据进行降维，看看结果会怎样，PCA会解决这个问题。NMF在分解图像时经常会发现有用的“部分”来表达整体，并且在MNIST数据集或人脸识别数据集中产生有趣的结果。import numpy as npimport matplotlib.pyp

阳光日志 2017-12-18

机器学习降维技术（PCA，ICA和流形学习）及医学中流形学习的应用

在机器学习和数据科学问题中，主要目标是找到在决定和影响输出结果方面起主导作用的最相关的特征。在大多数数据科学问题中，机器学习数据集中充斥着大量的特征，容易导致过度拟合，并增加训练成本，这会使得过程相当缓慢。降维在图像、音频、视频分析中扮演着重要的角色，尤其

拉风小宇 2019-04-01

无监督学习简介：了解主成分分析（PCA）和聚类方法

无监督学习是一组统计工具，用于只有一组特征而没有目标的情景。因此，我们无法进行预测，因为每个观察都没有相关的响应。我们感兴趣的是找到一种有趣的方法来可视化数据或发现类似观察的子组。此外，很难评估获得的结果是否良好，因为没有公认的机制来对独立机器学习数据集执

CYJ0go 2019-01-29

用StackOverflow访问数据实现主成分分析（PCA）

主成分分析非常有助于我们理解高维数据，我利用Stack Overflow的每日访问数据对主成分分析进行了实践和探索，你可以在rstudio :: conf 2018上找到其中一篇演讲的录音。演讲的重点主要是我对于PCA的理解，而这篇文章中，我将主要介绍我是

小王 2018-05-31

使用Python深入了解PCA（主成分分析）

在决定选择哪些特征以使您的机器学习模型免受过度拟合的影响时，您是否感到困惑?有什么方法可以减少特征空间的维度吗?PCA肯定能帮到你。我们将通过一个简单的解释癌症数据集的主成分分析，并看到特征空间维度减少到数据可视化的例子。cancer = load_bre

pandazjd 2018-09-15

用Python示例介绍t-SNE

在这篇文章中，我将对t-SNE算法进行高级概述。我还将分享一些示例python代码，我将在Digits和MNIST数据集上使用t-SNE。t-分布随机邻域嵌入是一种无监督的非线性技术，主要用于数据探索和可视化高维数据。它由Laurens van der M

robinz 2018-08-30

少年，还在用PCA降维？其实大牛最爱的是t-SNE算法

假设你有一个包含数百个特征（变量）的数据集，却对数据所属的领域几乎没有什么了解。你需要去识别数据中的隐藏模式，探索和分析数据集。不仅如此，你还必须找出数据中是否存在模式－－用以判定数据是有用信号还是噪音？但是，假如你能使用比PCA更先进的东西将会怎样呢？在

流浪天空 2018-01-22

通过叠加PCA和t-SNE对机器学习的降维

我们必须在任何机器学习任务中几乎总是执行的一个常见步骤是：维度降低以及用于实现以下目的的两种常用技术：。两者都有它们的小众用途，但在这篇文章中，我们将看到我们如何将它们结合起来，以实现更好的输出以满足我们的需求。数据集有10个图像，每个图像有40个不同的个

渣渣 2018-05-01

陈海鹏

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号