跳转至正文
GZ Cloudhome Logo

统计决策理论

发布于:2022 年 8 月 10 日

回归

在回归框架下,期望预测误差(EPE,expected prediction error)定义为

EPE(f)=E(L(Y,f(X))).\mathrm{EPE}(f) = \mathbb{E}(L(Y, f(X))).

L2L_2 损失

XRpX \in \mathbb{R}^p 表示一个随机变量向量, YRY \in \mathbb{R} 是一个随机输出变量,它们有联合分布 Pr(X,Y)\Pr(X,Y)。我们希望找到一个函数 f(X)f(X) 来预测 YY(给定输入变量 XX 的值)。这个理论需要一个损失函数(loss functionL(Y,f(X))L(Y, f(X)),来表征我们预测的好坏。

到目前为止,最常见、最便于使用的损失函数是平方误差函数(squared error loss): L(Y,f(X))=(Yf(X))2L(Y, f(X)) = (Y - f(X))^2。这个损失函数给了我们一个选择函数 ff 的标准,

EPE(f)=EX,Y(Yf(X))2=[yf(x)]2Pr(dx,dy),\begin{align*} \mathrm{EPE}(f) &= \mathbb{E}_{X,Y} (Y - f(X))^2 \\\\ &= \int [y - f(x)]^2 \Pr(dx, dy), \end{align*}

即该函数所对应的期望预测误差。

条件化 XXEPE\mathrm{EPE} 可以表示成

EPE(f)=EXEYX[(Yf(X))2X],\mathrm{EPE}(f) = \mathbb{E}_X \mathbb{E}_{Y|X} [(Y - f(X))^2 |X],

因此,我们可以看到我们可以通过逐点最小化 EPE\mathrm{EPE} 来求得 ff

f(x)=argmincEYX[(Yc)2X=x],f(x) = \arg \min_c \mathbb{E}_{Y | X} [(Y - c)^2 |X = x],

它的解为

f(x)=EYX[YX=x],f(x) = \mathbb{E}_{Y|X}[Y | X = x],

条件期望,也可以称作回归函数(regression function)。

因此,当预测的好坏与否由 MSE 来决定时,基于任意输入 X=xX = xYY 的最佳预测是此时 YY 的条件期望。

线性回归

我们试试从 EPE\mathrm{EPE} 框架下探讨一下线性回归(LR)。我们假设回归函数 f(x)f(x) 近似地满足线性形式,即

f(x)xTβ.f(x) \approx x^T \beta.

这是一种基于模型的方法——我们选择一种回归函数的模型,然后再来寻找模型的参数。把这个线性模型形式 f(x)f(x) 代入到 EPE\mathrm{EPE},求导,我们就可以解析地求得理论上的最佳 β\beta

EPE(f)=E(Yf(X))2=E(YXTβ)2.\mathrm{EPE}(f) = \mathbb{E}(Y - f(X))^2 = \mathbb{E}(Y - X^T \beta)^2.

关于 β\beta 求导,可以得到

EPEβ=E(2YX+2XXTβ)=0,\begin{align*} \frac{\partial \mathrm{EPE}}{\partial \beta} = \mathbb{E}(-2YX + 2XX^T\beta) = 0, \end{align*}

因此

β=[E(XXT)]1E(XY).\beta^* = [\mathbb{E}(XX^T)]^{-1} \mathbb{E}(XY).

线性回归中,最小二乘解 β^=(XTX)1XTy\hat{\beta} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \boldsymbol{y} 相当于把期望替换成了训练数据的样本均值

加入我们对于 ff 的模型假设是正确的,即 YY 的真实模型是 Y=XTβ+εY = X^T \beta + \varepsilon(即 EYX(Y)=XTβ\mathbb{E}_{Y|X}(Y) = X^T \beta),其中 ε\varepsilon 是一个随机变量,独立于 XX,且有均值 00。那么我们可以得到

β=[E(XXT)]1E(XY)=β,\beta^* = [\mathbb{E}(XX^T)]^{-1} \mathbb{E}(XY) = \beta,

所以 f(x)=EYX(YX=x)f(x) = \mathbb{E}_{Y|X}(Y | X = x)。不过,如果假设的模型 ff 不正确,前面推导得到的式子则不一定成立。

kk 近邻

近邻法则直接基于训练数据来近似 f(x)=EYX(Y)f(x) = \mathbb{E}_{Y|X}(Y)。在任意一点 xx

f^(x)=Ave(yixiNk(x)),\hat{f}(x) = \mathrm{Ave}(y_i | x_i \in N_k(x)),

其中 Ave 表示求平均。这里面用到了两个近似,

对于较大的训练数据大小 NN,我们更容易找到接近于 xx 的训练数据;随着 kk 的增大,样本平均将会趋于稳定。事实上,如果我们用不那么强的正则化条件约束联合分布 Pr(X,Y)\Pr(X, Y),我们可以证明随着 N,kN, k \rightarrow \inftyk/N0k / N \rightarrow 0f^(x)E(YX=x)\hat{f}(x) \rightarrow \mathbb{E}(Y | X = x)

总结

最终,我们可以总结如下:

其中,kk 近邻的假设更温和。

L1L_1 损失

我们如果把 L2L_2 损失替换为 L1L_1: E(Yf(X))\mathbb{E}(|Y - f(X)|),会怎么样呢?

E(Yf(X))=yf(x)Pr(dx,dy)=fX(x)dxyf(x)fYX(y)dy,\begin{align*} \mathbb{E}(|Y - f(X)|) &= \int_{-\infty}^\infty |y - f(x)| \Pr(dx, dy) \\ &= \int_{-\infty}^\infty f_X(x) dx \int_{-\infty}^\infty |y - f(x)| f_{Y|X}(y) dy, \end{align*}

用同样的方法,条件化,得到

f(x)=argmincycfYX=x(y)dy=argmincc(cy)fYX(y)dy+c(yc)fYX(y)dy=argmincc(cfYX(y)dycfYX(y)dy)+cyfYX(y)dycyfYX(y)dy,\begin{align*} f(x) &= \arg \min_c \int_{-\infty}^\infty |y - c| f_{Y|X=x}(y) dy \\ &= \arg \min_c \int_{-\infty}^c (c-y) f_{Y|X}(y) dy + \int_c^\infty (y-c) f_{Y|X}(y) dy \\ &= \arg \min_c c \left( \int_{-\infty}^c f_{Y|X}(y) dy - \int_c^\infty f_{Y|X}(y) dy \right) + \int_c^\infty y f_{Y|X}(y) dy - \int_{-\infty}^c y f_{Y|X}(y) dy, \end{align*}

上式对于 cc 的导数应该为 0,

(cfYX(y)dycfYX(y)dy)+2cfYX(c)2cfYX(c)=0.\left( \int_{-\infty}^c f_{Y|X}(y) dy - \int_c^\infty f_{Y|X}(y) dy \right) + 2 c f_{Y|X}(c) - 2 c f_{Y|X}(c) = 0.

求解上面的式子,我们可以得到

c=F1(12)=Q12(YX=x).c^* = F^{-1}\left(\frac{1}{2}\right) = Q^{\frac{1}{2}}(Y | X = x).

因此,这个情形下的解是条件中位数

f(x)=median(YX=x).f^*(x) = \mathrm{median}(Y|X=x).

基于 L1L_1 损失的结果更为鲁棒。但是 L1L_1 损失的梯度不连续,这使得它的应用没有 MSE 那么广泛。

类别变量

在分类任务中,我们的预测 G^\hat{G} 是类别集合 G\mathcal{G} 的不同类别。损失函数可以表示为 K×KK \times K 矩阵 L\mathbf{L},其中 K=card(G)=GK = \mathrm{card} (\mathcal{G}) = |\mathcal{G}|L(k,l)L(k, l) 是把 Gk\mathcal{G}_k 预测为 Gl\mathcal{G}_l 的损失。 当损失是 0-1 损失时,EPE 为

EPE=E[L(G,G^(X))].\mathrm{EPE} = \mathbb{E}[L(G, \hat{G}(X))].

同样采用逐点求解策略,

G(x)=argmingGEGX=x[L(G,g)]=argmingGk=1KL(Gk,g)Pr(G=GkX=x)=argmingG1Pr(G=gX=x).\begin{align*} G^*(x) &= \arg \min_{g \in \mathcal{G}} \mathbb{E}_{G|X=x}[L(G, g)]\\ &= \arg \min_{g \in \mathcal{G}} \sum_{k=1}^K L(\mathcal{G}_k, g) \Pr(G=\mathcal{G}_k | X=x)\\ &= \arg \min_{g \in \mathcal{G}} 1 - \Pr(G=g | X=x). \end{align*}

因此

G(x)=argmaxgGPr(G=gX=x),G^*(x) = \arg \max_{g \in \mathcal{G}} \Pr(G = g | X = x),

这意味着,最佳的预测是选择具有最大条件概率的类别。这个解称作是贝叶斯分类器(Bayes classifier)。贝叶斯分类器的错误率称作是贝叶斯率(Bayes rate)。

再次,我们可以看到 kk 近邻分类是对上面的解的直接样本近似。