1.2 概率理解
在本节,我们主要想解决的问题是为什么使用线性回归,以及为什么定义一个最小二乘代价函数
首先,假设目标变量和输入特征之间的关系满足下式:
其中
亦即
WARNING
- 记号
表示 在已知 下的条件分布,其中 为参数, 和 中间用分号隔开; - 记号
表示 在已知 和 下的条件分布, 和 中间用逗号隔开。
上式表示的是单个样本的条件分布,所有样本汇聚在一起的分布是:
其中
上面这个函数一般被看作是关于
由
最大似然估计告诉我们,我们需要找到一个
因此,求出使得
说明:我们刚刚基于一系列的概率假设论证了线性回归方法的合理性。但这些概率假设对于说明线性回归的合理性并不是必要的。事实上,存在其他的假设方式,来说明线性回归算法是一个自然的、合理的算法。
注意到我们刚刚求出