2.1 逻辑回归

现在我们来讨论分类问题。在导言中我们提到，目标变量为连续型随机变量的学习问题称为回归问题，目标变量为离散型随机变量的问题称为分类问题。为推导之便利，我们在此只研究目标变量取值为 ${0, 1}$ 的情况，即二元分类问题。例如，假设我们想要将我们的邮件分为垃圾邮件和非垃圾邮件，设其分别对应 $y = 0$ 和 $y = 1$ ； $x_{j}$ 为邮件的输入特征。现在我们就要建立一个假设函数，使其能够根据输入特征预测邮件是否为垃圾邮件。在这里， $0$ 又称为负类， $1$ 又称为正类，它们有时又写作 $-$ 和 $+$ 。对于给定的 $x^{(i)}$ ，其对应的 $y^{(i)}$ 又称为训练样本的标签。

逻辑回归

我们大可以忽略 $y$ 是离散型随机变量这一事实，而用线性回归的知识对其加以解决；但线性回归在应对此类问题上所能发挥的作用极其有限：显然，线性回归的假设函数的值域为 $R$ ，但 $y$ 只能取 ${0, 1}$ ，显然这个假设函数是不合理的。

我们需要对假设函数的值域进行修正。定义

h_{θ} (x) = g (θ^{T} x) = \frac{1}{1 + e^{- θ^{T} x}},

其中

g (t) = \frac{1}{1 + e^{- t}}

称为逻辑函数或 S- 型函数。

可以注意到， $lim_{t \to - \infty} g (t) = 0, lim_{t \to + \infty} g (t) = 1$ ，且 $g (t)$ 在 $R$ 上单调递增，这就修正了值域上的问题。

像之前一样，我们设 $x_{0} = 1$ ，则有 $θ_{0} + \sum_{j = 0}^{d} θ_{j} x_{j} = θ^{T} x$ .

下面我们研究逻辑函数的一些有趣的性质：导数的特征。

\begin{aligned} g^{'} (t) & = \frac{1}{(1 + e^{- t})^{2}} (e^{- t}) \\ = \frac{1}{(1 + e^{- t})^{2}} (1 - \frac{1}{1 + e^{- t}}) (1 + e^{- t}) \\ = g (t) (1 - g (t)) . \end{aligned}

接下来，我们将利用这一性质，导出随即逻辑回归的算法。

首先，仿照线性回归的概率解释，我们先假设：

\begin{aligned} p (y = 1 ∣ x; θ) = h_{θ} (x), \\ p (y = 0 ∣ x; θ) = 1 - h_{θ} (x) . \end{aligned}

两个式子可统一为

p (y ∣ x; θ) = (h_{θ} (x))^{y} (1 - h_{θ} (x))^{1 - y} .

故似然函数为

L (θ) = \sum_{i = 1}^{n} (h (x^{(i)}))^{y^{(i)}} (1 - h (x^{(i)}))^{1 - y^{(i)}} .

我们的目标是找出使 $L (θ)$ 最大的 $θ$ ，这等价于求使得其对数似然函数最大的 $θ$ ：

l (θ) = \sum_{i = 1}^{n} y^{(i)} \log h (x^{(i)}) + (1 - y^{(i)}) \log (1 - h (x^{(i)})) .

接下来我们对 $θ$ 求导。不妨先假设只有一个训练样本，此时其对 $θ_{j}$ 的偏导为：

\begin{aligned} \frac{\partial}{\partial θ_{j}} l (θ) & = y \frac{\partial}{\partial θ_{j}} \log g (θ^{T} x) + (1 - y) \frac{\partial}{\partial θ_{j}} \log (1 - g (θ^{T} x)) \\ = y \frac{1}{g (θ^{T} x)} g (θ^{T} x) (1 - g (θ^{T} x)) x_{j} + (1 - y) \frac{1}{1 - g (θ^{T} x)} \cdot (- 1) \cdot g (θ^{T} x) (1 - g (θ^{T} x)) x_{j} \\ = y (1 - g (θ^{T} x)) x_{j} + (y - 1) g (θ^{T} x) x_{j} \\ = (y - g (θ^{T} x)) x_{j} . \end{aligned}

上式第二个等号利用了链式求导法则及逻辑函数导数的特点。

由此，根据梯度上升（因为我们要最大化对数似然函数，应该顺着梯度的方向改变），我们可以得到随机逻辑回归：

θ_{j} := θ_{j} + α (y - h (x)) x_{j} .

写成向量形式：

θ := θ + α (y - h (x)) x .

可以发现，这和随机线性回归的公式在形式上是一模一样的！但事实上它们是两种完全不同的算法，因为 $h (x)$ 的取值是不同的。那么，形式上的统一性是否暗示着存在某种隐藏在这一形式背后的规律呢？我们将在 GLM 中作出回答。

另一种记号

下面我们给出另一种记号体系，它同样是非常有用的。

记 $l_{logistic} : R \times {0, 1} \mapsto R_{\geq 0}$ 为逻辑损失函数，它的定义为：

l_{logistic} (t, y) ≜ y \log (1 + \exp (- t)) + (1 - y) \log (1 + \exp (t)) .

易见它是对数似然函数的相反数：

- l (θ) = l_{logistic} (θ^{T} x, y) .

有时 $θ^{T} x$ 又被叫做逻辑特 (logit)。根据微积分知识，可有

\frac{\partial}{\partial t} l_{logistic} (t, y) = g (t) - y = (1 + \exp (- t))^{- 1} - y .

由链式法则，可得

\frac{\partial}{\partial θ_{j}} l (θ) = - \frac{\partial l_{logistic} (t, y)}{\partial t} \frac{\partial t}{\partial θ_{j}} = (y - h (x)) x_{j} .

这与上面推导的结果相一致。

2.1 逻辑回归 ​

逻辑回归 ​

另一种记号 ​

2.1 逻辑回归

逻辑回归

另一种记号