2.3 多类分类

在二元分类中，目标变量 $y$ 的可能取值只有 ${0, 1}$ ；现在我们将二元分类进行拓展，让 $y$ 取 ${1, 2, \dots, k}$ ：即更多的类。我们该如何建模呢？

在这种情况下， $p (y ∣ x; θ)$ 是多项分布。多项分布包含了 $k$ 个参数 $ϕ_{1}, ϕ_{2}, \dots, ϕ_{k}$ ，它们表示了出现各个结果的概率，并满足 $\sum_{i = 1}^{k} ϕ_{k} = 1$ 。我们将会构造一个模型，使得输出的 $ϕ_{1}, \dots, ϕ_{k}$ 满足上述条件。

我们引入 $k$ 组参数 $θ_{1}, \dots, θ_{k}$ ，每一个都是 $R^{d}$ 中的向量。依照我们先前的经验，我们会使用 $θ_{1}^{T} x, \dots, θ_{k}^{T} x$ 来表示 $ϕ_{1}, \dots, ϕ_{k}$ ，但这种方法有两种问题：一是 $θ_{j}^{T} x$ 不一定落在区间 $[0, 1]$ 内部；二是 $\sum_{j = 1}^{n} θ_{j}^{T} x$ 不一定为 $1$ 。因此，我们不能使用这种简单的方法。一种解决思路是使用 $softmax$ 函数将 $(θ_{1}^{T} x, \dots, θ_{k}^{T} x)$ 转化为概率向量，使得每一个分量都非负且总和为 $1$ 。

定义函数 $softmax : R^{k} \to R^{k}$ 如下

softmax (t_{1}, \dots, t_{k}) = [\begin{matrix} \frac{\exp (t_{1})}{\sum_{j = 1}^{k} \exp (t_{j})} \\ ⋮ \\ \frac{\exp (t_{k})}{\sum_{j = 1}^{k} \exp (t_{j})} \end{matrix}] .

其中，输入项向量 $t$ 常常被称作逻辑特 (logits)。

下面，我们令 $(t_{1}, \dots, t_{k}) = (θ_{1}^{T} x, \dots, θ_{k}^{T} x)$ ，这样我们就能够利用 $softmax$ 函数，将线性向量转变为合法的概率向量。我们不妨将输出的概率向量作为条件概率 $P (y = 1 ∣ x; θ), \dots, P (y = k ∣ x; θ)$ ，然后我们就得到了下面的概率模型

[\begin{matrix} P (y = 1 ∣ x; θ) \\ ⋮ \\ P (y = k ∣ x; θ) \end{matrix}] = softmax (t_{1}, \dots, t_{k}) = [\begin{matrix} \frac{\exp (θ_{1}^{T} x)}{\sum_{j = 1}^{k} \exp (θ_{j}^{T} x)} \\ ⋮ \\ \frac{\exp (θ_{k}^{T} x)}{\sum_{j = 1}^{k} \exp (θ_{j}^{T} x)} \end{matrix}] .

为了记号的简洁，我们令 $ϕ_{i} = \frac{\exp (θ_{i}^{T} x)}{\sum_{j = 1}^{k} \exp (θ_{j}^{T} x)}$ ，于是有

P (y = i ∣ x; θ) = ϕ_{i} .

接下来我们对单个训练样本 $(x, y)$ 计算负对数似然函数：

- \log p (y ∣ x, θ) = - \log (\frac{\exp (t_{y})}{\sum_{j = 1}^{k} \exp (t_{j})}) = - \log (\frac{\exp (θ_{y}^{T} x)}{\sum_{j = 1}^{k} \exp (θ_{j}^{T} x)}) .

损失函数，即整个训练集的负对数似然函数为

l (θ) = \sum_{i = 1}^{n} - \log (\frac{\exp (θ_{y^{(i)}}^{T} x^{(i)})}{\sum_{j = 1}^{k} \exp (θ_{j}^{T} x^{(i)})}) .

我们定义交叉熵损失函数 $l_{ce} : R^{k} \times {1, \dots, k} \to R_{\geq 0}$ 为

l_{ce} ((t_{1}, \dots, t_{k}), y) = - \log (\frac{\exp (θ_{y}^{T} x)}{\sum_{j = 1}^{k} \exp (θ_{j}^{T} x)}) .

使用这个记号，我们可以把 $l (θ)$ 改写为

l (θ) = \sum_{i = 1}^{n} l_{ce} ((θ_{1}^{T} x^{(i)}, \dots, θ_{k}^{T} x^{(i)}), y^{(i)}) .

交叉熵损失函数的梯度表达式极其简洁。如果令 $t = (t_{1}, \dots, t_{k})$ ，结合 $ϕ_{i} = \frac{\exp (t_{i})}{\sum_{j = 1}^{k} \exp (t_{j})}$ ，可推导出

\frac{\partial}{\partial t_{i}} l_{ce} (t, y) = ϕ_{i} - I {y = i},

其中 $I {\cdot}$ 为指示函数，即

I {y = i} = {\begin{cases} 1 & if y = i, \\ 0 & otherwise . \end{cases}

若将上面的梯度写成向量形式，则有

\frac{\partial}{\partial t} l_{ce} (t, y) = ϕ - e_{y},

其中 $e_{y} \in R^{k}$ 是第 $y$ 个自然基向量。由链式法则，我们有

\frac{\partial}{\partial θ_{i}} l_{ce} ((θ_{1}^{T} x, \dots, θ_{k}^{T} x), y) = \sum_{j = 1}^{n} (ϕ_{i}^{(j)} - I {y^{(i)} = i}) \cdot x^{(j)},

其中 $ϕ_{i}^{(j)} = \frac{\exp (θ_{i}^{T} x^{(j)})}{\sum_{s = 1}^{k} \exp (θ_{s}^{T} x^{(j)})}$ 是模型预测 $x^{(i)}$ 样本的输出为 $i$ 的概率。

在计算出上面梯度的基础上，我们可以利用梯度下降法，使得损失函数 $l (θ)$ 最小化。

2.3 多类分类 ​

2.3 多类分类