准确是两个概念。准是 bias 小,确是 variance 小。准确是相对概念,因为 bias-variance tradeoff。 -Guannan Liu 在机器学习领域,人们总是希望使自己的模型尽可能准确地描述数据背后的真实规律。通俗所言的「准确」,其实就是误差小。在领域中,排除人为失误,人们一般会遇到三种误差来源:随机误差、偏差和方差。偏差和方差又与「欠拟合」及「过拟合」紧紧联系在一起。由于随机误差是不可消除的,所以此篇我们讨论在偏差和方差之间的权衡(Bias-Variance Tradeoff)。 定义 数学上定义 首先需要说明的是随机误差。随机误差是数据本身的噪音带来的,这种误差是不可避免的。一般认为随机误差服从高斯分布,记作 ϵ∼(0,σϵ)ϵ∼N(0,σϵ)。因此,若有变量 yy 作为预测值,以及 XX 作为自变量(协变量),那么我们将数据背后的真实规律 ff 记作 y=f(X)+ϵ.y=f(X)+ϵ. 偏差和方差则需要在统计上做对应的定义。 偏差(bias)描述的是通过学习拟合出来的结果之期望,与真实规律之间的差距,记作 Bias(X)=E[f̂ (X)]−f(X)Bias(X)=E[f^(X)]−f(X)。 方差(variance)即是统计学中的定义,描述的是通过学习拟合出来的结果自身的不稳定性,记作 Var(X)=E[(f̂ (X)−E[f̂ (X)])2]Var(X)=E[(f^(X)−E[f^(X)])2]。 以均方误差为例,有如下推论 Err(X)=E[(y−f̂ (X))2]=E[(f(X)+ϵ−f̂ (X))2]=(E[f̂ (X)]−f(X))2+E[(f̂ (X)−E[f̂ (X)])2]+σ2ϵ…