回归

在回归框架下，期望预测误差（EPE，expected prediction error）定义为

\mathrm{EPE}(f) = \mathbb{E}(L(Y, f(X))).

$L_2$ 损失

令 $X \in \mathbb{R}^p$ 表示一个随机变量向量， $Y \in \mathbb{R}$ 是一个随机输出变量，它们有联合分布 $\Pr(X,Y)$ 。我们希望找到一个函数 $f(X)$ 来预测 $Y$ （给定输入变量 $X$ 的值）。这个理论需要一个损失函数（loss function） $L(Y, f(X))$ ，来表征我们预测的好坏。

到目前为止，最常见、最便于使用的损失函数是平方误差函数（squared error loss）： $L(Y, f(X)) = (Y - f(X))^2$ 。这个损失函数给了我们一个选择函数 $f$ 的标准，

\begin{align*} \mathrm{EPE}(f) &= \mathbb{E}_{X,Y} (Y - f(X))^2 \\\\ &= \int [y - f(x)]^2 \Pr(dx, dy), \end{align*}

即该函数所对应的期望预测误差。

条件化 $X$ ， $\mathrm{EPE}$ 可以表示成

\mathrm{EPE}(f) = \mathbb{E}_X \mathbb{E}_{Y|X} [(Y - f(X))^2 |X],

因此，我们可以看到我们可以通过逐点最小化 $\mathrm{EPE}$ 来求得 $f$ ，

f(x) = \arg \min_c \mathbb{E}_{Y | X} [(Y - c)^2 |X = x],

它的解为

f(x) = \mathbb{E}_{Y|X}[Y | X = x],

即条件期望，也可以称作回归函数（regression function）。

因此，当预测的好坏与否由 MSE 来决定时，基于任意输入 $X = x$ 对 $Y$ 的最佳预测是此时 $Y$ 的条件期望。

线性回归

我们试试从 $\mathrm{EPE}$ 框架下探讨一下线性回归（LR）。我们假设回归函数 $f(x)$ 近似地满足线性形式，即

f(x) \approx x^T \beta.

这是一种基于模型的方法——我们选择一种回归函数的模型，然后再来寻找模型的参数。把这个线性模型形式 $f(x)$ 代入到 $\mathrm{EPE}$ ，求导，我们就可以解析地求得理论上的最佳 $\beta$ 。

\mathrm{EPE}(f) = \mathbb{E}(Y - f(X))^2 = \mathbb{E}(Y - X^T \beta)^2.

关于 $\beta$ 求导，可以得到

\begin{align*} \frac{\partial \mathrm{EPE}}{\partial \beta} = \mathbb{E}(-2YX + 2XX^T\beta) = 0, \end{align*}

因此

\beta^* = [\mathbb{E}(XX^T)]^{-1} \mathbb{E}(XY).

线性回归中，最小二乘解 $\hat{\beta} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \boldsymbol{y}$ 相当于把期望替换成了训练数据的样本均值。

加入我们对于 $f$ 的模型假设是正确的，即 $Y$ 的真实模型是 $Y = X^T \beta + \varepsilon$ （即 $\mathbb{E}_{Y|X}(Y) = X^T \beta$ ），其中 $\varepsilon$ 是一个随机变量，独立于 $X$ ，且有均值 $0$ 。那么我们可以得到

\beta^* = [\mathbb{E}(XX^T)]^{-1} \mathbb{E}(XY) = \beta,

所以 $f(x) = \mathbb{E}_{Y|X}(Y | X = x)$ 。不过，如果假设的模型 $f$ 不正确，前面推导得到的式子则不一定成立。

$k$ 近邻

近邻法则直接基于训练数据来近似 $f(x) = \mathbb{E}_{Y|X}(Y)$ 。在任意一点 $x$ ，

\hat{f}(x) = \mathrm{Ave}(y_i | x_i \in N_k(x)),

其中 Ave 表示求平均。这里面用到了两个近似，

期望用样本的平均来替代，
条件化于某一点近似成了条件化到靠近目标点的一个区域。

对于较大的训练数据大小 $N$ ，我们更容易找到接近于 $x$ 的训练数据；随着 $k$ 的增大，样本平均将会趋于稳定。事实上，如果我们用不那么强的正则化条件约束联合分布 $\Pr(X, Y)$ ，我们可以证明随着 $N, k \rightarrow \infty$ 且 $k / N \rightarrow 0$ ， $\hat{f}(x) \rightarrow \mathbb{E}(Y | X = x)$ 。

总结

最终，我们可以总结如下：

最小二乘法假设 $f(x)$ 可以用一个全局的线性函数来很好地近似；
$k$ 近邻假设 $f(x)$ 可以用局部恒值函数来很好地近似。

其中， $k$ 近邻的假设更温和。

$L_1$ 损失

我们如果把 $L_2$ 损失替换为 $L_1$ : $\mathbb{E}(|Y - f(X)|)$ ，会怎么样呢？

\begin{align*} \mathbb{E}(|Y - f(X)|) &= \int_{-\infty}^\infty |y - f(x)| \Pr(dx, dy) \\ &= \int_{-\infty}^\infty f_X(x) dx \int_{-\infty}^\infty |y - f(x)| f_{Y|X}(y) dy, \end{align*}

用同样的方法，条件化，得到

\begin{align*} f(x) &= \arg \min_c \int_{-\infty}^\infty |y - c| f_{Y|X=x}(y) dy \\ &= \arg \min_c \int_{-\infty}^c (c-y) f_{Y|X}(y) dy + \int_c^\infty (y-c) f_{Y|X}(y) dy \\ &= \arg \min_c c \left( \int_{-\infty}^c f_{Y|X}(y) dy - \int_c^\infty f_{Y|X}(y) dy \right) + \int_c^\infty y f_{Y|X}(y) dy - \int_{-\infty}^c y f_{Y|X}(y) dy, \end{align*}

上式对于 $c$ 的导数应该为 0，

\left( \int_{-\infty}^c f_{Y|X}(y) dy - \int_c^\infty f_{Y|X}(y) dy \right) + 2 c f_{Y|X}(c) - 2 c f_{Y|X}(c) = 0.

求解上面的式子，我们可以得到

c^* = F^{-1}\left(\frac{1}{2}\right) = Q^{\frac{1}{2}}(Y | X = x).

因此，这个情形下的解是条件中位数

f^*(x) = \mathrm{median}(Y|X=x).

基于 $L_1$ 损失的结果更为鲁棒。但是 $L_1$ 损失的梯度不连续，这使得它的应用没有 MSE 那么广泛。

类别变量

在分类任务中，我们的预测 $\hat{G}$ 是类别集合 $\mathcal{G}$ 的不同类别。损失函数可以表示为 $K \times K$ 矩阵 $\mathbf{L}$ ，其中 $K = \mathrm{card} (\mathcal{G}) = |\mathcal{G}|$ ， $L(k, l)$ 是把 $\mathcal{G}_k$ 预测为 $\mathcal{G}_l$ 的损失。当损失是 0-1 损失时，EPE 为

\mathrm{EPE} = \mathbb{E}[L(G, \hat{G}(X))].

同样采用逐点求解策略，

\begin{align*} G^*(x) &= \arg \min_{g \in \mathcal{G}} \mathbb{E}_{G|X=x}[L(G, g)]\\ &= \arg \min_{g \in \mathcal{G}} \sum_{k=1}^K L(\mathcal{G}_k, g) \Pr(G=\mathcal{G}_k | X=x)\\ &= \arg \min_{g \in \mathcal{G}} 1 - \Pr(G=g | X=x). \end{align*}

因此

G^*(x) = \arg \max_{g \in \mathcal{G}} \Pr(G = g | X = x),

这意味着，最佳的预测是选择具有最大条件概率的类别。这个解称作是贝叶斯分类器（Bayes classifier）。贝叶斯分类器的错误率称作是贝叶斯率（Bayes rate）。

再次，我们可以看到 $k$ 近邻分类是对上面的解的直接样本近似。

统计决策理论

回归

L2L_2L2​ 损失

线性回归

kkk 近邻

总结

L1L_1L1​ 损失

类别变量

$L_2$ 损失

$k$ 近邻

$L_1$ 损失