Skip to content

1.3 局部加权线性回归(Locally weighted linear regression)

假如问题还是根据从实数域内取值的 xR 来预测 y 。左下角的图显示了使用 y=θ0+θ1x 来对一个数据集进行拟合。我们明显能看出来这个数据的趋势并不是一条严格的直线,所以用直线进行的拟合就不是好的方法。

那么这次不用直线拟合,增加一个二次项,用二次多项式 y=θ0+θ1x+θ2x2 来拟合看中间的图) 很明显,我们对特征补充得越多,效果就越好。

不过,增加太多特征也是有风险的:最右边的图就是使用了五次多项式 y=j=05θjxj 来进行拟合。看图就能发现,虽然这个拟合曲线完美地通过了所有当前数据集中的数据,但我们明显不能认为这个曲线是一个良好的预测工具。最左边的图像就是一个欠拟合 (under fitting) 的例子,明显能看出拟合的模型漏掉了数据集中的结构信息;而最右边的图像就是一个过拟合 (over fitting) 的例子当我们讨论到关于学习理论的时候,会给出这些概念的标准定义,也会给出拟合程度对于一个猜测的好坏检验的意义

正如前文谈到的,也正如上面这个例子展示的,一个学习算法要保证能良好运行,特征的选择是非常重要的等到我们讲模型选择的时候,还会看到一些算法能够自动来选择一个良好的特征集在本节,咱们就简要地讲一下局部加权线性回归(locally weighted linear regression ,缩写为 LWR这个方法是假设有足够多的训练数据,对不太重要的特征进行一些筛选。

在原始版本的线性回归算法中,要对一个查询点 x 进行预测,比如要衡量 h(x),要经过下面的步骤:

  1. 使用参数 θ 进行拟合,让数据集中的值与拟合算出的值的差值平方 i(y(i)θTx(i))2 最小 (最小二乘法的思想);
  2. 输出 θTx

相应地,在 LWR 局部加权线性回归方法中,步骤如下:

  1. 使用参数 θ 进行拟合,让加权距离 iw(i)(y(i)θTx(i))2 最小;
  2. 输出 θTx

上面式子中的 w(i) 是非负的权值。直观点说就是,如果对应某个 i 的权值 w(i) 特别大,那么在选择拟合参数 θ 的时候,就要尽量让这一点的 (y(i)θTx(i))2 最小。而如果权值 w(i) 特别小,那么这一点对应的 (y(i)θTx(i))2 就基本在拟合过程中忽略掉了。

对于权值的选取可以使用下面这个比较标准的公式:

w(i)=exp((x(i)x)22τ2)

NOTE

如果 x 是有值的向量,那就要对上面的式子进行泛化,得到的是 w(i)=exp((x(i)x)T(x(i)x)2τ2),或者:w(i)=exp((x(i)x)TΣ1(x(i)x)2)

要注意的是,权值是依赖每个特定的点 x 的,而这些点正是我们要去进行预测评估的点。此外,如果 |x(i)x| 非常小,那么权值 $w^{(i)} $ 就接近 1;反之如果 |x(i)x| 非常大,那么权值 $w^{(i)} $ 就变小。所以可以看出, θ 的选择过程中,查询点 x 附近的训练样本有更高得多的权值还要注意,虽然权值方程的形式跟高斯分布的概率密度函数比较接近,但权值和高斯分布并没有什么直接联系,权值有可能不是随机变量,不呈现正态分布或者其他形式分布训练样本的权值随 x(i)x 之间的距离增大而下降,参数 τ 控制了下降的速度;τ 也叫做带宽参数

局部加权线性回归是咱们接触的第一个非参数 算法。而更早之前咱们看到的无权重的线性回归算法就是一种参数 学习算法,因为有固定的有限个数的参数(也就是 θi 这些参数用来拟合数据。我们对 θi 进行了拟合之后,就把它们存了起来,也就不需要再保留训练数据样本来进行更进一步的预测了。与之相反,如果用局部加权线性回归算法,我们就必须一直保留着整个训练集。这里的非参数算法中的 非参数 “non-parametric” 大约是指:为了呈现出假设 h 随着数据集规模的增长而线性增长,我们需要以一定顺序保存一些数据的规模The term “non-parametric” (roughly) refers to the fact that the amount of stuff we need to keep in order to represent the hypothesis h grows linearly with the size of the training set. )

LWR 的解析解

首先将损失函数写为矩阵形式:

J(θ)=12i=1nω(i)(y(i)θTx(i))2=12(Xθy)TW(Xθy),

其中

W=[ω(1)ω(2)ω(n)].

欲使损失函数最小,需对 θ 求导:

θJ(θ)=12θ(Xθy)TW(Xθy)=12θ(θTXTyT)(WXθWy)=12θ(θT(XTWX)θθT(XTWy)(yTWX)θyTWy)=12θ(θT(XTWX)θθT(XTWy)(XTWTy)Tθ)=12θ(θT(XTWX)θθT(XTWy)(XTWy)Tθ)=12θ(θT(XTWX)θ2θT(XTWy))=12(2XTWXθ2XTWy)=XTWXθXTWy.

第五个等号利用了 WT=W,第六个等号利用了向量内积的对称性,第七个等号利用了二次型求导和内积求导的相关结论。

故有

θ=(XTWX)1XTWy.