3.1 指数分布族

之前我们学习了回归问题和分类问题。在回归问题的例子中，我们使用了线性回归，并做了概率假设： $y ∣ x; θ \sim N (μ, σ^{2})$ ；在分类问题中，我们的概率假设是 $y ∣ x; θ \sim Bernoulli (ϕ)$ ，其中 $μ$ 和 $ϕ$ 都是 $x$ 和 $θ$ 的函数。在本节中，我们会揭示这两种方法都是某个更广义的模型的特殊情况，这种广义的模型被称作广义线性模型 (GLMs)。在接下来的几节中，我们会展示如何利用 GLM 推导得到其他分类和回归算法。

在开始介绍 GLM 之前，我们先引入一类分布：指数分布族。如果一个分布满足如下关系式：

p (y; η) = b (y) \exp (η^{T} T (y) - a (η)),

则称这类分布为指数分布族。这里， $η$ 被称为自然参数，又被称作典范参数； $T (y)$ 是充分统计量，在我们所研究的分布中，大多数情况下 $T (y) = y$ ； $a (η)$ 被称作对数配分函数。 $e^{- a (η)}$ 所起的作用是配平系数，使得概率函数在其支集上的积分为 $1$ 。

给定 $a, b, T$ ，就可以根据上式定义一族分布，以 $η$ 为参数；当 $η$ 变化时，产生这一族内的不同的分布。

接下来我们解释伯努利分布和高斯分布都是指数族分布的子成员。

伯努利分布

设 $y \sim Bernoulli (ϕ)$ ，则有

{\begin{cases} p (y = 1; ϕ) = ϕ \\ p (y = 0; ϕ) = 1 - ϕ \end{cases} .

上式可合并为

\begin{aligned} p (y; ϕ) & = ϕ^{y} (1 - ϕ)^{1 - y} \\ = \exp (y \log ϕ + (1 - y) \log (1 - ϕ)) \\ = \exp (\log (\frac{ϕ}{1 - ϕ}) y + \log (1 - ϕ)) . \end{aligned}

因此

\begin{aligned} T (y) & = y \\ a (η) & = - \log (1 - ϕ) = \log (1 + e^{η}) \\ b (y) & = 1 \end{aligned}

这说明伯努利分布可以写成指数族分布的形式，即伯努利分布是指数族分布的一种。

高斯分布

在线性回归的概率假设中，我们注意到 $σ^{2}$ 的取值对我们最终选择的 $θ$ 和 $h_{θ} (x)$ 都没有影响。所以我们可以给 $σ^{2}$ 取一个任意值。为了简化推导过程，就令 $σ^{2} = 1$ 。然后就有了下面的等式：

\begin{aligned} p (y; μ) & = \frac{1}{\sqrt{2 π}} \exp (- \frac{1}{2} (y - μ)^{2}) \\ = \frac{1}{\sqrt{2 π}} \exp (- \frac{1}{2} y^{2}) \cdot \exp (μ y - \frac{1}{2} μ^{2}) \end{aligned}

NOTE

如果我们把 $σ^{2}$ 留作一个变量，高斯分布也可以表达成指数分布的形式，其中 $η \in R^{2}$ 是一个二维向量，同时依赖于 $μ$ 和 $σ$ 。然而，对于 GLM， $σ^{2}$ 参数也可以看成是对指数分布族的更泛化的定义： $p (y; η, τ) = b (a, τ) e x p ((η^{T} T (y) - a (η)) / c (τ))$ 。这里面的 $τ$ 叫做分散度参数（dispersion parameter），对于高斯分布， $c (τ) = σ^{2}$ ；不过上文中我们已经进行了简化，所以对于我们接下来要考虑的各种案例，就不需要再进行更加泛化的定义了。

这样，我们就可以看出来高斯分布是属于指数分布族的，可以写成下面这样：

\begin{aligned} η & = μ \\ T (y) & = y \\ a (η) & = μ^{2} / 2 \\ = η^{2} / 2 \\ b (y) & = (1 / \sqrt{2 π}) e x p (- y^{2} / 2) \end{aligned}

指数分布族里面还有很多其他的分布：

例如多项式分布（multinomial），这个稍后我们会看到；
泊松分布（Poisson），用于对计数类数据进行建模，后面再问题集里面也会看到；
伽马和指数分布（the gamma and the exponential），这个用于对连续的、非负的随机变量进行建模，例如时间间隔；
贝塔和狄利克雷分布（the beta and the Dirichlet），这个是用于概率的分布；

还有很多，这里就不一一列举了。

3.1 指数分布族 ​

伯努利分布 ​

高斯分布 ​

3.1 指数分布族

伯努利分布

高斯分布