统计机器学习-方差/偏差的权衡

方差/偏差权衡

在统计学和机器学习领域,一个重要的理论结果是,模型的泛化误差可以被表示为三个截然不同的误差之和。

偏差

这部分泛化误差的原因在于错误的假设,比如假设数据是线性的,而实际上是二次的。高偏差模型最有可能对训练数据拟合不足。

方差

这部分泛化误差是由于模型对训练数据的微小变化过渡敏感导致的。具有高自由度的模型(例如高阶多项式模型)很可能也有高方差,所以很容易对训练数据过渡拟合。

不可避免的误差

这部分误差是由于数据本身的噪声所致。减少这部分的误差的唯一办法就是清理数据

增加模型的复杂度通常会显著增加模型的方差,减少偏差。反过来,降低模型的复杂度则会提升模型的偏差,降低方差。这就是为什么称其为权衡。

相关推荐