5 大数定律与中心极限定理

大数定律

依概率收敛

设 $Y_{1}, Y_{2}, \dots, Y_{n}, \dots$ 是随机变量序列， $Y$ 是随机变量，如果对于任意正数 $ε > 0$ ，都有 $lim_{n \to \infty} P (| Y_{n} - Y | \geq ε) = 0$ ，则称 $Y_{n}$ 依概率收敛于 $Y$ ，记作 $Y_{n} \overset{P}{\to} Y$ 。

特别地，当 $Y$ 服从退化分布，即 $P (Y = c) = 1$ ，称 $Y_{n}$ 依概率收敛于 $c$ ，记作 $Y_{n} \overset{P}{\to} c$ 。

NOTE

$Y_{n} \overset{P}{\to} Y$ 理解为：当样本容量 $n$ 充分大时， $Y_{n}$ 与 $Y$ 充分接近。

关于不依概率收敛到常数，而是依概率收敛到另一个随机变量的情况：完全可能出现，因为没说它们之间是相互独立的。例如有随机变量 $Y$ （分布任意）和噪声源 $X \sim U (- 1, 1)$ ，有随机变量序列 $Y_{i} = Y + \frac{1}{i} X$ ，那就有 $Y_{n} \overset{P}{\to} Y$ 。

两个概率不等式

马尔可夫不等式：对于非负随机变量 $X$ ， $\forall p, e > 0$ 有

P (X \geq ε) \leq \frac{E (X^{p})}{ε^{p}}

切比雪夫不等式：对于非负随机变量 $X$ ， $\forall ε > 0$ 有

P (| X - E (X) | \geq ε) \leq \frac{Var (x)}{ε^{2}}

理解两个不等式

取 $p = 1$ ，马尔可夫不等式在说：对于非负随机变量 $X$ ，如果知道了均值 $μ$ ，能约束它「大得离谱」的概率。

上界怎么来的？来源于非负。要让 $P (X \geq ε)$ 最大，那让 $X \geq ε$ 的部分尽可能小，取 $ε$ ；其余部分也尽可能小，取 $0$ 。那要维持均值 $μ$ ，就有 $ε P (X \geq ε) + 0 = μ$ ，自然得到这个概率是 $\frac{μ}{ε}$ 。

完整版再加个 $p$ 次方。

切比雪夫不等式在说：知道方差 $σ^{2}$ ，就能约束偏离均值的概率。偏离 $ε$ 的概率不会超过 $\frac{σ^{2}}{ε^{2}}$ 。

切比雪夫不等式是马尔可夫不等式中取 $p = 2$ 并用 $X - μ$ 替代 $X$ 得到的。

大数定律

设有随机变量 $X_{1}, X_{2}, \dots, X_{n}, \dots$ ，记 $\bar{X} = \frac{1}{n} \sum_{i = 0}^{n} X_{i}$ ，如果满足 $\bar{X} - E (\bar{X}) \overset{P}{\to} 0$ ，称随机变量序列 $X_{1}, X_{2}, \dots, X_{n}, \dots$ 服从大数定律。

马尔可夫大数定律：如果随机变量序列满足 $lim_{n \to \infty} \frac{1}{n^{2}} Var (\sum_{i = 1}^{n} X_{i}) = 0$ ，则服从大数定律。

辛钦大数定律：独立同分布的随机变量序列，只要期望存在，就服从大数定律。

理解大数定律

对于独立同分布的变量 $X_{1}, X_{2}, \dots, X_{n}, \dots$ ，设每次期望是 $μ$ ，方差是 $σ^{2}$ 。考虑其样本均值 $\bar{X}$ ，随着次数 $n$ 的增大：

均值期望不会变： $E (\bar{X}) = μ$
均值方差会变小： $Var (\bar{X}) = \frac{σ^{2}}{n}$

根据切比雪夫不等式， $\bar{X}$ 偏离均值 $ε$ 的概率不会超过 $\frac{σ^{2}}{n ε^{2}}$ 。当 $n \to \infty$ 时这个概率 $\to 0$ 。也就是说 $\bar{X} \overset{P}{\to} μ$ ，服从大数定律。

核心就在于均值方差在随着 $\frac{1}{n}$ 变小， $n \to \infty$ 的时候就彻底退化到 $0$ 了。

如果不是独立同分布，那「均值方差 $\to 0$ 」这件事就只能靠增加条件来约束了。

中心极限定理

按分布收敛

设随机变量 $Y, Y_{1}, Y_{2}, \dots, Y_{n}, \dots$ 的分布函数 $F (x), F_{1} (x), F_{2} (x), \dots, F_{n} (x), \dots$ ，若对 $F (x)$ 的任一连续点 $x$ 都有 $lim_{n \to \infty} F_{n} (x) = F (x)$ ，则称随机变量序列 $Y_{1}, Y_{2}, \dots, Y_{n}, \dots$ 按分布收敛于随机变量 $Y$ ，记作 $Y_{n} \overset{L}{\to} Y$ 。

TIP

也可以写「按分布收敛于某一分布」，例如 $X \overset{L}{\to} N (0, 1)$ 。

中心极限定理

中心极限定理是指这样的一类结论：在某些条件下，会有

(\bar{X})^{*} = (\sum X_{i})^{*} = \frac{\sum X_{i} - E (\sum X_{i})}{σ (\sum X_{i})} \overset{L}{\to} N (0, 1)

或者也可以表达为：

\bar{X} \overset{L}{\to} N (μ, \frac{σ^{2}}{n})

只介绍其中的一个。

林德伯格 - 莱维中心极限定理：对于独立同分布随机变量 $X_{1}, \dots, X_{n}, \dots$ ，有 $E (X_{1}) = μ$ ， $Var (X_{1}) = σ^{2}$ ，则

Y_{n} = \frac{\bar{X} - μ}{σ / \sqrt{n}} \overset{L}{\to} N (0, 1)

5 大数定律与中心极限定理 ​

大数定律 ​

依概率收敛 ​

两个概率不等式 ​

大数定律 ​

中心极限定理 ​

按分布收敛 ​

中心极限定理 ​

5 大数定律与中心极限定理

大数定律

依概率收敛

两个概率不等式

大数定律

中心极限定理

按分布收敛

中心极限定理