在回归分析中,平方误差是最常用的;它有一个简单的理论基础,以及有简单的算法可以求解它;此外,我们也可以通过使用多种几何来可视化增进理解。我们在 统计决策理论 里面已经讨论过回归函数,即 μ(x)=E(Y∣X=x),它最小化的期望误差是平方误差:E((Y−μ(x))2∣X=x);而条件中位数最小化的是绝对值误差 E(∣Y−μ(x)∣∣X=x)。
给定 0<τ<1,如果我们想要对一个条件分位数 Qτ(Y∣X=x) 进行建模,怎么办呢?条件分位数 Qτ 满足 Pr(Y≤Qτ)=τ,我们期望找到一个函数 f:x↦Qτ(Y∣X=x)。我们看看能不能找到一个损失,使得这个损失的条件期望是条件分位数。
Check function
ρτ(u)={τ∣u∣,(1−τ)∣u∣,u≥0u≤0.
上述的 check function 中,ρτ(0)=0。当 u>0 时,这个函数以斜率 τ 递增,当 u<0 时以斜率 1−τ 递减。
分位回归
现在假设 Y 有概率密度函数 f,概率质量函数 F。
基于 莱布尼兹积分定理,我们可以证明函数
EY(ρτ(Y−θ))=∫−∞∞ρτ(y−θ)f(y)dy
在 θ=F−1(τ)=Qτ(Y) 有最小值。
因此,在分位回归中,我们寻找 β,使得
E(ρτ(Yi−ZiTβ)) for IID data
有最小值,那么
β^=β^(τ)=argβminRτ(β),
其中
Rτ(β)=i=1∑nρτ(yi−ziTβ).
函数 Rτ 相比较于均方误差更难优化。它可以基于线性规划来求解。
模型
分位回归中,隐含的模型假设为
Yi=ZiTβ+εi, εi∼i.i.d.V.
其中 Zi 是一个表示输入变量的向量,且为了方便对偏置建模,在第一个元素的位置插入了 1。V 则是另一个分布。那么,
Qτ(Y∣X=x)=ZiTβ+Qτ(V).
我们可以看到,改变 V 只影响 β 中的偏置项。不管 V 是高斯分布,指数分布甚至是柯西分布,我们都能得到同样的 β,只有偏置项 β0 有所不同。