September 2018 – Guannan Liu

Bias-Variance Tradeoff

September 23, 2018 admin Leave a comment

准确是两个概念。准是 bias 小，确是 variance 小。准确是相对概念，因为 bias-variance tradeoff。 -Guannan Liu 在机器学习领域，人们总是希望使自己的模型尽可能准确地描述数据背后的真实规律。通俗所言的「准确」，其实就是误差小。在领域中，排除人为失误，人们一般会遇到三种误差来源：随机误差、偏差和方差。偏差和方差又与「欠拟合」及「过拟合」紧紧联系在一起。由于随机误差是不可消除的，所以此篇我们讨论在偏差和方差之间的权衡（Bias-Variance Tradeoff）。定义数学上定义首先需要说明的是随机误差。随机误差是数据本身的噪音带来的，这种误差是不可避免的。一般认为随机误差服从高斯分布，记作 ϵ∼(0,σϵ)ϵ∼N(0,σϵ)。因此，若有变量 yy 作为预测值，以及 XX 作为自变量（协变量），那么我们将数据背后的真实规律 ff 记作 y=f(X)+ϵ.y=f(X)+ϵ. 偏差和方差则需要在统计上做对应的定义。偏差（bias）描述的是通过学习拟合出来的结果之期望，与真实规律之间的差距，记作 Bias(X)=E[f̂ (X)]−f(X)Bias(X)=E[f^(X)]−f(X)。方差（variance）即是统计学中的定义，描述的是通过学习拟合出来的结果自身的不稳定性，记作 Var(X)=E[(f̂ (X)−E[f̂ (X)])2]Var(X)=E[(f^(X)−E[f^(X)])2]。以均方误差为例，有如下推论 Err(X)=E[(y−f̂ (X))2]=E[(f(X)+ϵ−f̂ (X))2]=(E[f̂ (X)]−f(X))2+E[(f̂ (X)−E[f̂ (X)])2]+σ2ϵ…

Continue Reading →