回归
在回归框架下,期望预测误差(EPE,expected prediction error)定义为
EPE(f)=E(L(Y,f(X))).
L2 损失
令 X∈Rp 表示一个随机变量向量, Y∈R 是一个随机输出变量,它们有联合分布 Pr(X,Y)。我们希望找到一个函数 f(X) 来预测 Y(给定输入变量 X 的值)。这个理论需要一个损失函数(loss function)L(Y,f(X)),来表征我们预测的好坏。
到目前为止,最常见、最便于使用的损失函数是平方误差函数(squared error loss): L(Y,f(X))=(Y−f(X))2。这个损失函数给了我们一个选择函数 f 的标准,
EPE(f)=EX,Y(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy),
即该函数所对应的期望预测误差。
条件化 X,EPE 可以表示成
EPE(f)=EXEY∣X[(Y−f(X))2∣X],
因此,我们可以看到我们可以通过逐点最小化 EPE 来求得 f,
f(x)=argcminEY∣X[(Y−c)2∣X=x],
它的解为
f(x)=EY∣X[Y∣X=x],
即条件期望,也可以称作回归函数(regression function)。
因此,当预测的好坏与否由 MSE 来决定时,基于任意输入 X=x 对 Y 的最佳预测是此时 Y 的条件期望。
线性回归
我们试试从 EPE 框架下探讨一下线性回归(LR)。我们假设回归函数 f(x) 近似地满足线性形式,即
f(x)≈xTβ.
这是一种基于模型的方法——我们选择一种回归函数的模型,然后再来寻找模型的参数。把这个线性模型形式 f(x) 代入到 EPE,求导,我们就可以解析地求得理论上的最佳 β。
EPE(f)=E(Y−f(X))2=E(Y−XTβ)2.
关于 β 求导,可以得到
∂β∂EPE=E(−2YX+2XXTβ)=0,
因此
β∗=[E(XXT)]−1E(XY).
线性回归中,最小二乘解 β^=(XTX)−1XTy 相当于把期望替换成了训练数据的样本均值。
加入我们对于 f 的模型假设是正确的,即 Y 的真实模型是 Y=XTβ+ε(即 EY∣X(Y)=XTβ),其中 ε 是一个随机变量,独立于 X,且有均值 0。那么我们可以得到
β∗=[E(XXT)]−1E(XY)=β,
所以 f(x)=EY∣X(Y∣X=x)。不过,如果假设的模型 f 不正确,前面推导得到的式子则不一定成立。
k 近邻
近邻法则直接基于训练数据来近似 f(x)=EY∣X(Y)。在任意一点 x,
f^(x)=Ave(yi∣xi∈Nk(x)),
其中 Ave 表示求平均。这里面用到了两个近似,
- 期望用样本的平均来替代,
- 条件化于某一点近似成了条件化到靠近目标点的一个区域。
对于较大的训练数据大小 N,我们更容易找到接近于 x 的训练数据;随着 k 的增大,样本平均将会趋于稳定。事实上,如果我们用不那么强的正则化条件约束联合分布 Pr(X,Y),我们可以证明随着 N,k→∞ 且 k/N→0,f^(x)→E(Y∣X=x)。
总结
最终,我们可以总结如下:
- 最小二乘法假设 f(x) 可以用一个全局的线性函数来很好地近似;
- k 近邻假设 f(x) 可以用局部恒值函数来很好地近似。
其中,k 近邻的假设更温和。
L1 损失
我们如果把 L2 损失替换为 L1: E(∣Y−f(X)∣),会怎么样呢?
E(∣Y−f(X)∣)=∫−∞∞∣y−f(x)∣Pr(dx,dy)=∫−∞∞fX(x)dx∫−∞∞∣y−f(x)∣fY∣X(y)dy,
用同样的方法,条件化,得到
f(x)=argcmin∫−∞∞∣y−c∣fY∣X=x(y)dy=argcmin∫−∞c(c−y)fY∣X(y)dy+∫c∞(y−c)fY∣X(y)dy=argcminc(∫−∞cfY∣X(y)dy−∫c∞fY∣X(y)dy)+∫c∞yfY∣X(y)dy−∫−∞cyfY∣X(y)dy,
上式对于 c 的导数应该为 0,
(∫−∞cfY∣X(y)dy−∫c∞fY∣X(y)dy)+2cfY∣X(c)−2cfY∣X(c)=0.
求解上面的式子,我们可以得到
c∗=F−1(21)=Q21(Y∣X=x).
因此,这个情形下的解是条件中位数
f∗(x)=median(Y∣X=x).
基于 L1 损失的结果更为鲁棒。但是 L1 损失的梯度不连续,这使得它的应用没有 MSE 那么广泛。
类别变量
在分类任务中,我们的预测 G^ 是类别集合 G 的不同类别。损失函数可以表示为 K×K 矩阵 L,其中 K=card(G)=∣G∣,L(k,l) 是把 Gk 预测为 Gl 的损失。 当损失是 0-1 损失时,EPE 为
EPE=E[L(G,G^(X))].
同样采用逐点求解策略,
G∗(x)=argg∈GminEG∣X=x[L(G,g)]=argg∈Gmink=1∑KL(Gk,g)Pr(G=Gk∣X=x)=argg∈Gmin1−Pr(G=g∣X=x).
因此
G∗(x)=argg∈GmaxPr(G=g∣X=x),
这意味着,最佳的预测是选择具有最大条件概率的类别。这个解称作是贝叶斯分类器(Bayes classifier)。贝叶斯分类器的错误率称作是贝叶斯率(Bayes rate)。
再次,我们可以看到 k 近邻分类是对上面的解的直接样本近似。