人工智能机器学习:线性判别分析

Linear Discriminate Analysis, LDA

1 简单介绍

LDA是一种可作为特征抽取的技术

可以提高数据分析过程中的计算效率

对于不适用与正则化的模型,可以降低因维度带来的过拟合

监督算法

目标:发现可以最优化分类的特征子空间

人工智能机器学习:线性判别分析

如图所示,在x轴方向,通过线性判定,可以很好的将呈正态分布的两个类分开

虽然沿y轴方向的线性判定保持了数据集的较大方差,但是无法提供关于类别区分的任何信息,因此它不是一个好的线性判定

2 算法

思想:

给定训练集样例,设法将样例 投影到一条直线上,使得同类样例的投影 尽可能接近,异类样例的投影点尽可能远离;

在对新的样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置 来确定新样本的类别。(下图截自 周志华《机器学习》)

人工智能机器学习:线性判别分析

假设:

①数据呈正态分布

②各类别数据具有相同的协方差矩阵

③样本的特征从统计上来说相互独立

④事实上,即使违背上述假设,LDA仍能正常工作

LDA关键步骤:

①对d维数据进行标准化处理(d为特征数量)

②对于每一类别,计算d维的均值向量

③构造类间的散布矩阵

人工智能机器学习:线性判别分析

以及 类内散布矩阵

人工智能机器学习:线性判别分析

④计算矩阵

人工智能机器学习:线性判别分析

的特征值以及对应的特征向量

⑤选取前k个特征值所对应的特征向量,构造一个 d∗k 维的转换矩阵 W,其中特征向量以列的形式排列

⑥使用转换矩阵 W 将样本映射到新的特征子空间上

若将 W 视为一个投影矩阵,则多分类LDA将样本投影到d′ 维空间(d′<<d),于是达到了降维的目的

在投影过程中用到了类别信息

相关推荐