3.2 构造 GLM
假设你想要构造一个模型来预测在给定时间内到某商店购物的顾客人数,我们输入的特征为促销情况、宣传营销、天气、星期几等。由泊松过程相关知识,我们知道泊松分布对这类问题来说是一种良好的预测模型。在了解到以上信息后,我们该如何构建我们的模型呢?本节我们就着手构建广义线性模型(泊松分布是指数分布族的一种
假设这是一个回归问题或者分类问题,我们需要给出目标变量
; - 对于给定的
,我们的目标是预测条件期望 ;而在大多数情况下 ,所以亦即求 ; 与 是线性关系: . 若 是向量,则 .
普通最小二乘
在最小二乘问题中,我们假设
这就推导出了线性回归的公式。
逻辑回归
在逻辑回归中,响应变量
这就自然地解释了为什么在条件分布为伯努利分布的情况下,我们要采用逻辑回归。
术语
- 典范响应函数:
; - 典范链接函数:
.
有关指数族分布
以下讨论基于上面的三条假设。
非条件期望
性质 1.
[!证明]
由概率密度函数在
上的积分为 ,即 即
两边对
求导,有 将
移至左边,即 亦即
而在大多数情况下,
,因此我们可以得到非条件期望 这样,原本需要通过复杂的积分求解的期望,现在只需对
求导便可得到。
方差
.
[!证明]
在上面的证明中,我们得到了
两边对
求导,有 将
移到左边,有 即
然后结合上题结论,我们就得到了方差
在一般情况下,
,所以我们就得到了方差
损失函数
对指数族函数,我们一般用负对数似然函数
[!证明]
首先写出
的表达式 其对
的梯度为 对
的 Hessian 阵为 显然
半正定,故只需证 . 由
知
. 故 半正定。
从上面的讨论中我们可以看到:
- 所有的 GLM 模型都是对其参数都是凸的;
- 计算非条件期望和方差只需对
求一阶和二阶导。