Skip to content

1.2 概率理解

在本节,我们主要想解决的问题是为什么使用线性回归,以及为什么定义一个最小二乘代价函数 J 这两个问题。我们主要的探讨思路是给出一系列的概率假设,然后试图推导出这种做法的合理性。

首先,假设目标变量和输入特征之间的关系满足下式:

y(i)=θTx+ε(i),

其中 ε(i) 是误差项,记录了不在建模中的影响因素,或者随机的噪声。我们进一步假设它是独立同分布的高斯噪声:ε(i)i.i.d.N(0,σ2). 由此,我们可以写出其概率密度函数:

fε(i)(ε)=12πσexp(ε22σ2).

亦即

f(y(i)x(i);θ)=12πσexp((y(i)θTx(i))22σ2).

WARNING

  • 记号 f(y(i)x(i);θ) 表示 y(i) 在已知 x(i) 下的条件分布,其中 θ 为参数,x(i)θ 中间用分号隔开;
  • 记号 f(y(i)x(i),θ) 表示 y(i) 在已知 x(i)θ 下的条件分布,x(i)θ 中间用逗号隔开。

上式表示的是单个样本的条件分布,所有样本汇聚在一起的分布是:

f(yX;θ)=12πσexp(12σ2(yXθ)TΣ(yXθ)),

其中

Σ=[σ2σ2σ2].

上面这个函数一般被看作是关于 y 的函数,而我们主要想研究的是 θ 的行为对分布有着怎样的影响,因此我们需要引入似然函数:

L(θ)=L(θ;X,y)=f(yX;θ).

ε(i) 彼此独立,根据相互独立的定义,上式可改写为

L(θ)=i=1nf(y(i)x(i);θ)=i=1n12πσexp(y(i)θTx(i)2σ2).

最大似然估计告诉我们,我们需要找到一个 θ,使得 L(θ) 取得最大值。考虑到连乘的形式确实不利于求导,我们先取对数,变连乘为累加,再考虑求出 θ

l(θ)=logL(θ)=logi=1n12πσexp(y(i)θTx(i)2σ2)=i=1nlog12πσexp(y(i)θTx(i)2σ2)=nlog2πσ1σ212i=1n(y(i)θTx(i))2.

因此,求出使得 L(θ) 最大的 θ 等价于求出使得 J(θ)=12i=1n(y(i)θTx(i))2 最小的 θ. 这也就是我们的代价函数。

说明:我们刚刚基于一系列的概率假设论证了线性回归方法的合理性。但这些概率假设对于说明线性回归的合理性并不是必要的。事实上,存在其他的假设方式,来说明线性回归算法是一个自然的、合理的算法。

注意到我们刚刚求出 θ 的方法并不依赖于 σ 的具体取值。这一点在之后的讨论中也会涉及。