偏差和方差之间的权衡是什么?
任何机器学习算法的目标都是在给定输入数据(x)的情况下,对目标变量(y)的映射函数(f)进行最优估计。该函数的泛化误差可以表示为三个非常不同的误差之和:
- 偏差误差;
- 方差误差;
- 不可约误差。
了解不同的误差来源如何影响机器学习算法的偏差和偏差,有助于我们改进数据拟合过程,从而获得更精确的模型。
偏差误差
偏差误差衡量我们的模型的预期预测距离它试图预测的正确值有多远,因此使这部分泛化与误差的假设相关。换句话说,偏差是指通过更简单的模型逼近现实生活中可能非常复杂的问题而引入的误差。
通常,参数算法具有高偏差,这使得它们更容易理解,但通常不太灵活。
低偏差:该模型对目标函数的形式做出了很好的假设。
示例:决策树,k-最近邻和支持向量机。
高偏差 :模型通常远离目标函数的形式。例如,假设数据是线性的,而实际上是二次的。
示例:线性回归,线性判别分析和Logistic回归。
方差误差
方差是指如果我们使用不同的训练数据集估计映射函数的变化量。因此,方差与模型对馈送训练数据中可能存在的微小变化的过度敏感性有关。
例如,如果模型具有高方差,那么训练数据中的微小变化可能导致目标预测的大变化。通常,具有很大灵活性的非参数机器学习算法具有高方差。
低方差:随着训练数据集的变化,对映射函数进行微小的改变;
示例:线性回归,线性判别分析和Logistic回归。
高方差:随着训练数据集的变化,将对映射函数施加大的变化。
示例:决策树,k-最近邻和支持向量机。
不可约误差
泛化的这一部分是由于数据本身的噪声。减少此问题影响的唯一方法是清理数据。
偏差方差的权衡
任何有监督的机器学习模型的目标都是实现低偏差和低方差。之所以称之为权衡是因为通过增加模型的复杂性,方差将增加并且偏差减小,而对于更简单的模型,其增加的偏差和方差减小。
偏差和方差导致总偏差
在这个问题的基础上,处理偏差和方差实际上都是关于处理过度拟合和欠拟合的问题。例如,当您向模型添加更多参数时,模型的复杂性和方差都会增加。因此,方差现在是我们主要关注的问题,而偏差趋于减少。
总之,模型的完美复杂性是偏差的增加等同于方差的减少。因此,如果我们的模型完美的话,那么我们就会处理过度拟合,而如果我们的复杂性不足,那么我们不拟合模型了。不幸的是,没有分析方法来衡量这个最佳点。相反,我们必须通过成本函数来衡量我们的预测偏差,探索不同级别的模型复杂性,然后选择最小化整体误差的水平。