4.2 朴素贝叶斯算法
在 GDA 中,特征向量
假设我们要做一个邮件分拣器,识别垃圾邮件与正常邮件。我们希望根据邮件的内容自动识别其是否为垃圾邮件。这其实是文本分类问题的一种。
假设我们有一个训练集,首先我们需要提取出数据的特征。我们可以构造一个特征向量,其长度与词典的长度相同,在第
用来表示一个含有 a 和 buy 两词,但不包含 aardvark, aardwolf, zygmurgy 三词。我们将其称之为词汇。所以
现在,在构建了词汇向量的基础上,我们想要构造一个生成模型。所以,我们需要拟合
为拟合
由带有额外条件的条件概率公式,我们有
我们的模型以
为使其最大化,需求各阶偏导数,经计算可有
对于上面三个式子,我们有着直观的解释:
是在 的情况下出现特征 的概率,分母是 的全体,即 ;分母是既满足 又满足 的样本个数,即 。 同理。 是先验概率,分母是全体样本量,分子是满足 的样本个数,为 。
在得到这些参数后,我们带入贝叶斯公式,得到
代入计算即可,只需比较其与
最后我们要注意,刚刚我们对朴素贝叶斯算法的使用中,特征向量
| 居住面积 | |||||
|---|---|---|---|---|---|
| 离散值 |
这样,对于一个面积为