机器学习（1）特征选择与特征抽取

ernestlishun

2019-04-21

特征抽取和特征选择是DimensionalityReduction（降维）两种方法，但是这两个有相同点，也有不同点之处：

1. 概念：

特征抽取（Feature Extraction）:Creatting a subset of new features by combinations of the exsiting features.也就是说，特征抽取后的新特征是原来特征的一个映射。

特征选择（Feature Selection）:choosing a subset of all the features(the ones more informative)。也就是说，特征选择后的特征是原来特征的一个子集。

2. 相同点和不同点

特征选择和特征抽取有着些许的相似点，这两者达到的效果是一样的，就是试图去减少特征数据集中的属性(或者称为特征)的数目；但是两者所采用的方式方法却不同：特征抽取的方法主要是通过属性间的关系，如组合不同的属性得新的属性，这样就改变了原来的特征空间；而特征选择的方法是从原始特征数据集中选择出子集，是一种包含的关系，没有更改原始的特征空间。

机器学习（1）特征选择与特征抽取

3. 特征抽取：

主成分分析(Principle Components Analysis ,PCA)和线性评判分析（Linear Discriminant Analysis,LDA）是特征抽取的两种主要经典方法。

1.. PCA V.S LDA

对于特征抽取，有两种类别：

（1）Signal representation(信号表示): The goal of the feature extraction mapping is to represent the samples accurately in a low-dimensional space. 也就是说，特征抽取后的特征要能够精确地表示样本信息，使得信息丢失很小。对应的方法是PCA.

（2）Signal classification（信号分类): The goal of the feature extraction mapping is toenhance the class-discriminatory information in a low-dimensional space. 也就是说，特征抽取后的特征，要使得分类后的准确率很高，不能比原来特征进行分类的准确率低。对与线性来说，对应的方法是LDA . 非线性这里暂时不考虑。

可见， PCA和LDA两种方法的目标不一样，因此导致他们的方法也不一样。PCA得到的投影空间是协方差矩阵的特征向量，而LDA则是通过求得一个变换W,使得变换之后的新均值之差最大、方差最大（也就是最大化类间距离和最小化类内距离），变换W就是特征的投影方向。

4. 特征选择：

一个正确的数学模型应当在形式上是简单的。构造机器学习的模型的目的是希望能够从原始的特征数据集中学习出问题的结构与问题的本质，当然此时的挑选出的特征就应该能够对问题有更好的解释，所以特征选择的目标大致如下：

提高预测的准确性

构造更快，消耗更低的预测模型

能够对模型有更好的理解和解释

特征选择的方法

主要有三种方法：

4.1.1、Filter方法

其主要思想是：对每一维的特征“打分”，即给每一维的特征赋予权重，这样的权重就代表着该维特征的重要性，然后依据权重排序。

主要的方法有：

Chi-squared test(卡方检验)

information gain(信息增益)

correlation coefficient scores(相关系数)

4.1.2、Wrapper方法

其主要思想是：将子集的选择看作是一个搜索寻优问题，生成不同的组合，对组合进行评价，再与其他的组合进行比较。这样就将子集的选择看作是一个是一个优化问题，这里有很多的优化算法可以解决，尤其是一些启发式的优化算法，如GA，PSO，DE，ABC等，

主要方法有：recursive feature elimination algorithm(递归特征消除算法)

4.1.33、Embedded方法

其主要思想是：在模型既定的情况下学习出对提高模型准确性最好的属性。这句话并不是很好理解，其实是讲在确定模型的过程中，挑选出那些对模型的训练有重要意义的属性。

主要方法：正则化，岭回归就是在基本线性回归的过程中加入了正则项。

5. 总结

特征选择不同于特征提取，特征和模型是分不开，选择不同的特征训练出的模型是不同的。在机器学习=模型+策略+算法的框架下，特征选择就是模型选择的一部分，是分不开的。

对于先进行分组还是先进行特征选择，答案是先进行分组，因为交叉验证的目的是做模型选择，既然特征选择是模型选择的一部分，那么理所应当是先进行分组。如果先进行特征选择，即在整个数据集中挑选择机，这样挑选的子集就具有随机性。

我们可以拿正则化来举例，正则化是对权重约束，这样的约束参数是在模型训练的过程中确定的，而不是事先定好然后再进行交叉验证的。

机器学习特征选择

安科网

机器学习（1）特征选择与特征抽取

ernestlishun

ernestlishun

相关推荐

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

理解AI：为什么要在人工智能系统中寻求可解释性呢？

机器学习的未来就在这里：高斯过程和神经网络是等价的

Python 用5行代码学机器学习—线性回归

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

ernestlishun