统计机器学习方法的三要素:模型、策略和算法
统计机器学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计机器学习通过对已知数据构建模型,从而完成对未知的数据进行预测和分析,预测和分析这种行为可以使得计算机看起来很智能,这就是人工智能的一种体现。统计机器学习的总目标就是考虑学什么样的模型和如何学习模型,以使得模型能够对未知数据进行准确的预测和分析。统计机器学习方法的三要素就是:模型、策略和算法。
机器学习+统计=数据科学
模型
统计学习首要考虑的问题是学习什么样的模型。在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。
数据构成假设空间,在这个假设空间中包含所有可能的条件概率分布或者决策函数,每一个条件概率分布或者决策函数对应一个模型,那么这个样本空间中的模型个数有无数个。
怎样理解模型呢?简单来说就是使用什么映射函数来表示特征X和Y标签之间的关系F,F有两种形式:F={f|y=f(x)}或者F={P|P(Y|X)}
F={f|y=f(x)}为决策函数,它表示的模型为非概率模型。F={P|P(Y|X)}是条件概率表示,它的模型为概率模型。
模型
策略
策略即从假设空间中挑选出参数最优的模型的准则。模型的分类或预测结果与实际情况的误差(损失函数)越小,模型就越好。
我们前面已经知道在样本空间中有无数的模型,但模型有好有坏,现在的问题考虑的是按照什么样的准则学习或者选择最优模型,而策略就是通过引入损失函数的方式来度量模型的好坏。
设定损失函数,这样监督学习问题就变成了最小化损失函数,那么按照这样的策略,就可以求解出最优化的模型了。
风险损失
算法
算法是指学习模型的具体计算方法,也就是如何求解全局最优解,并使得这个过程高效而且准确,本质上就是计算机算法,怎么去求数学问题的最优化解。
前面我们知道了模型有无数种,获取最好模型的方法就是最小化损失函数,那么此时的模型就是最好的,现在的问题就是如何才能获取到这个最优化的解呢?是正规方程还是梯度下降等等。
梯度下降算法
总结
统计机器学习基于训练数据集,根据学习策略,从假设空间中选择最优模型、最后需要考虑用什么样的计算方法求解最优模型,所以我们可以认为统计机器学习都是由模型、策略和算法构成的。统计学习方法之间的不同,主要来自其模型、策略、算法的不同。确定了模型、策略、算法,统计学习的方法也就确定了。