6 统计量及其分布

概念与符号约定

研究一个总体，该总体是一个随机变量 $X$ ， $X$ 的分布称为总体分布。

从总体中抽取 $n$ 个个体，称为样本，记作 $(X_{1}, X_{2}, \dots, X_{n})$ 。 $n$ 称为样本容量或样本大小。

抽样得到的 $n$ 个数据 $x_{1}, x_{2}, \dots, x_{n}$ 称为样本观测值。

统计量

对于样本的函数 $h (X_{1}, X_{2}, \dots, X_{n})$ ，只要不包含未知参数（即可以根据样本观测值直接求出），均称为统计量。

样本均值 $\overset{ˉ}{X} = \frac{1}{n} i = 1 \sum n X_{i}$
样本 $k$ 阶原点矩 $A_{k} = \frac{1}{n} i = 1 \sum n X_{i}^{k}$ ， $k = 1, 2, \dots$
样本 $k$ 阶中心矩 $B_{k} = \frac{1}{n} i = 1 \sum n (X_{i} - \overset{ˉ}{X})^{k}$
样本 $2$ 阶中心矩 $S_{n}^{2} = \frac{1}{n} i = 1 \sum n (X_{i} - \overset{ˉ}{X})^{2}$
样本方差 $S^{2} = \frac{1}{n - 1} i = 1 \sum n (X_{i} - \overset{ˉ}{X})^{2}$
最小次序统计量 $X_{(1)} = 1 \leq i \leq n min X_{i}$
最大次序统计量 $X_{(n)} = 1 \leq i \leq n max X_{i}$

定理对于任意常数 $c$ 有

i = 1 \sum n (X_{i} - \overset{ˉ}{X})^{2} = i = 1 \sum n (X_{i} - c)^{2} - n (\overset{ˉ}{X} - c)^{2}

TIP

$c$ 的常用候选： $0$

插入 $0$ 后变为：

i = 1 \sum n (X_{i} - \overset{ˉ}{X})^{2} = i = 1 \sum n X_{i}^{2} - n \overset{ˉ}{X}^{2}

定理设 $(X_{1}, \dots, X_{n})$ 是取自总体 $X$ 的一个样本，若 $E (X^{2}) < + \infty$ ，则

E (\overset{ˉ}{X}) = E (X), Var (\overset{ˉ}{X}) = \frac{Var ( x )}{n} E (S_{n}^{2}) = \frac{n - 1}{n} Var (x), E (S^{2}) = Var (X)

定理当 $n \to \infty$ 有

\overset{ˉ}{X} P E (X), S^{2} P Var (X), S_{n}^{2} P Var (X),

常用分布

$χ^{2}$ 分布

定义设 $X_{1}, X_{2}, \dots, X_{n}$ 为独立同分布随机变量，有 $X_{i} \sim N (0, 1)$ 。则定义随机变量 $U = i = 1 \sum n X_{i}^{2}$ 服从自由度为 $n$ 的 $χ^{2}$ 分布，记为 $U \sim χ^{2} (n)$ 。

$χ^{2}$ 分布的密度函数和分布函数均不能用初等函数表示。

期望 $E (X) = n$
方差 $Var (X) = 2 n$

特别地，

若 $X \sim N (0, 1)$ ，则 $X^{2} \sim χ^{2} (1)$
自由度为 $2$ 的 $χ^{2}$ 分布就是参数为 $\frac{1}{2}$ 的指数分布，即 $E (\frac{1}{2}) = χ^{2} (2)$ 。

显然 $χ^{2}$ 分布具有可加性：若 $Y_{1} \sim χ^{2} (m)$ ， $Y_{2} \sim χ^{2} (n)$ ，且 $Y_{1}, Y_{2}$ 相互独立，则有 $Y_{1} + Y_{2} \sim χ^{2} (m + n)$ 。

t 分布

定义设随机变量 $X \sim N (0, 1), Y \sim χ^{2} (n)$ 且 $X, Y$ 相互独立，称随机变量 $T = \frac{X}{Y / n}$ 所服从的分布为自由度 $n$ 的 t 分布，记为 $T \sim t (n)$ 。

当 $n \geq 30$ 时，t 分布可使用标准正态分布近似替代。

期望 $E (X) = 0$ 。

t 分布也称学生分布。

F 分布

定义设随机变量 $U \sim χ^{2} (m), V \sim χ^{2} (n)$ 且 $U, V$ 相互独立，则称随机变量 $F = \frac{U / m}{V / n}$ 服从自由度为 $(m, n)$ 的 F 分布，记为 $F \sim F (m, n)$ 。

正态分布抽样定理

设 $(X_{1}, \dots, X_{n})$ 是取自正态总体 $N (μ, σ^{2})$ 的一个样本，有

$\overset{ˉ}{X} \sim N (μ, \frac{σ ^{2}}{n})$ ，即 $\frac{X ˉ - μ}{σ / n} \sim N (0, 1)$ ；
$\frac{( n - 1 ) S ^{2}}{σ ^{2}} = \frac{n S _{n}^{2}}{σ ^{2}} \sim χ^{2} (n - 1)$ ；
$\frac{X ˉ - μ}{S / n} \sim t (n - 1)$ ，即 $\frac{X ˉ - μ}{S ^{2} / n} \sim t (n - 1)$
$\overset{ˉ}{X}$ 与 $S^{2}$ 相互独立。

IMPORTANT

非常重要，要求记忆。

NOTE

对 2 的理解

\frac{( n - 1 ) S ^{2}}{σ ^{2}} = i = 1 \sum n (\frac{X _{i} - X ˉ}{σ})^{2} = i = 1 \sum n (X_{i}^{*})^{2} \sim χ^{2} (n - 1)

$(X_{1}^{*}, \dots, X_{n}^{*})$ 相比原本的 $(X_{1}, \dots, X_{n})$ 少了一个自由度，是因为标准化之后 $\overset{ˉ}{X}$ 这一信息抹掉了，多了限制条件 $\sum X_{i}^{*} = 0$ 。

次序统计量的分布

一般地， $X_{(1)}, X_{(n)}$ 不相互独立。

最大次序统计量

X_{(n)} \Rightarrow F_{X_{(n)}} (x) \Rightarrow f_{X_{(n)}} (x) = 1 \leq i \leq n max X_{i} = [F (x)]^{n} = \frac{d}{d x} F_{X_{(n)}} (x) = n [F (x)]^{n - 1} f (x)

最小次序统计量

X_{(1)} \Rightarrow F_{X_{(1)}} (x) \Rightarrow f_{X_{(1)}} (x) = 1 \leq i \leq n min X_{i} = 1 - [1 - F (x)]^{n} = \frac{d}{d x} F_{X_{(1)}} (x) = n [1 - F (x)]^{n - 1} f (x)

6 统计量及其分布 ​

概念与符号约定 ​

统计量 ​

常用分布 ​

χ2 分布 ​

t 分布 ​

F 分布 ​

正态分布抽样定理 ​

次序统计量的分布 ​

最大次序统计量 ​

最小次序统计量 ​