Skip to content

3.1 指数分布族

之前我们学习了回归问题和分类问题。在回归问题的例子中,我们使用了线性回归,并做了概率假设:yx;θN(μ,σ2);在分类问题中,我们的概率假设是 yx;θBernoulli(ϕ),其中 μϕ 都是 xθ 的函数。在本节中,我们会揭示这两种方法都是某个更广义的模型的特殊情况,这种广义的模型被称作广义线性模型 (GLMs)。在接下来的几节中,我们会展示如何利用 GLM 推导得到其他分类和回归算法。

在开始介绍 GLM 之前,我们先引入一类分布:指数分布族。如果一个分布满足如下关系式:

p(y;η)=b(y)exp(ηTT(y)a(η)),

则称这类分布为指数分布族。这里,η 被称为自然参数,又被称作典范参数;T(y) 是充分统计量,在我们所研究的分布中,大多数情况下 T(y)=ya(η) 被称作对数配分函数。ea(η) 所起的作用是配平系数,使得概率函数在其支集上的积分为 1

给定 a,b,T,就可以根据上式定义一族分布,以 η 为参数;当 η 变化时,产生这一族内的不同的分布。

接下来我们解释伯努利分布和高斯分布都是指数族分布的子成员。

伯努利分布

yBernoulli(ϕ),则有

{p(y=1;ϕ)=ϕp(y=0;ϕ)=1ϕ.

上式可合并为

p(y;ϕ)=ϕy(1ϕ)1y=exp(ylogϕ+(1y)log(1ϕ))=exp(log(ϕ1ϕ)y+log(1ϕ)).

因此

T(y)=ya(η)=log(1ϕ)=log(1+eη)b(y)=1

这说明伯努利分布可以写成指数族分布的形式,即伯努利分布是指数族分布的一种。

高斯分布

在线性回归的概率假设中,我们注意到 σ2 的取值对我们最终选择的 θhθ(x) 都没有影响。所以我们可以给 σ2 取一个任意值。为了简化推导过程,就令 σ2=1。然后就有了下面的等式:

p(y;μ)=12πexp(12(yμ)2)=12πexp(12y2)exp(μy12μ2)

NOTE

如果我们把 σ2 留作一个变量,高斯分布也可以表达成指数分布的形式,其中 ηR2 是一个二维向量,同时依赖于 μσ。然而,对于 GLM, σ2 参数也可以看成是对指数分布族的更泛化的定义: p(y;η,τ)=b(a,τ)exp((ηTT(y)a(η))/c(τ))。这里面的 τ 叫做分散度参数(dispersion parameter),对于高斯分布, c(τ)=σ2 ;不过上文中我们已经进行了简化,所以对于我们接下来要考虑的各种案例,就不需要再进行更加泛化的定义了。

这样,我们就可以看出来高斯分布是属于指数分布族的,可以写成下面这样:

η=μT(y)=ya(η)=μ2/2=η2/2b(y)=(1/2π)exp(y2/2)

指数分布族里面还有很多其他的分布:

  • 例如多项式分布(multinomial这个稍后我们会看到;
  • 泊松分布(Poisson用于对计数类数据进行建模,后面再问题集里面也会看到;
  • 伽马和指数分布(the gamma and the exponential这个用于对连续的、非负的随机变量进行建模,例如时间间隔;
  • 贝塔和狄利克雷分布(the beta and the Dirichlet这个是用于概率的分布;

还有很多,这里就不一一列举了。