统计量#

以样本为自变量的函数为统计量，不能含未知参数。

设 $X_1,X_2,\cdots,X_n$ 是来自总体 $X$ 的样本，若相互独立且与总体同分布，则称为简单随机样本。

常用统计量#

样本均值#

\overline{X} = \frac{1}{n}\sum_{i=1}^{n}X_i

若总体期望、方差分别为 $\mu,\sigma^2$ ，则：

E(\overline{X})=\mu,\qquad D(\overline{X})=\frac{\sigma^2}{n}

样本方差#

S^2 = \frac{1}{n-1} \sum_{i=1}^n{(X_i-\overline{X})^2} = \frac{1}{n-1} \left( \sum_{i=1}^n{X_i^2 - n\overline{X}^2} \right)

更常用的展开式是：

S^2=\frac{1}{n-1}\left(\sum_{i=1}^{n}X_i^2-n\overline{X}^2\right)

这里分母用 $n-1$ ，是为了让 $S^2$ 成为总体方差 $\sigma^2$ 的无偏估计：

E(S^2)=\sigma^2

样本k阶原点矩#

A_k=\frac{1}{n}\sum_{i=1}^{n}X_i^k

特别地：

A_1=\overline{X}

样本k阶中心矩#

B_k=\frac{1}{n}\sum_{i=1}^{n}(X_i-\overline{X})^k

其中：

B_2=\frac{1}{n}\sum_{i=1}^{n}(X_i-\overline{X})^2

注意 $B_2$ 不是样本方差 $S^2$ ，二者关系为：

S^2=\frac{n}{n-1}B_2

三大抽样分布和分位点#

$\chi^2$ 分布#

若 $X_1,X_2,\cdots,X_n$ 相互独立，且 $X_i\sim N(0,1)$ ，则：

\chi^2=X_1^2+X_2^2+\cdots+X_n^2\sim \chi^2(n)

$n$ 称为自由度。

数字特征：

E(\chi^2)=n,\qquad D(\chi^2)=2n

可加性：

X\sim \chi^2(n_1),\;Y\sim \chi^2(n_2),\;X,Y\text{ 独立} \Rightarrow X+Y\sim \chi^2(n_1+n_2)

上 $\alpha$ 分位点：

P\{\chi^2>\chi_{\alpha}^2(n)\}=\alpha

由于 $\chi^2$ 分布不对称，一般不能直接用 $1-\alpha$ 互换左右分位点。

t分布#

若 $X\sim N(0,1)$ ， $Y\sim \chi^2(n)$ ，且 $X,Y$ 独立，则：

T=\frac{X}{\sqrt{Y/n}}\sim t(n)

$t$ 分布关于0对称：

t_{1-\alpha}(n)=-t_{\alpha}(n)

上 $\alpha$ 分位点：

P\{T>t_{\alpha}(n)\}=\alpha

当 $n$ 较大时：

t(n)\approx N(0,1)

F分布#

若 $X\sim \chi^2(n_1)$ ， $Y\sim \chi^2(n_2)$ ，且 $X,Y$ 独立，则：

F=\frac{X/n_1}{Y/n_2}\sim F(n_1,n_2)

上 $\alpha$ 分位点：

P\{F>F_{\alpha}(n_1,n_2)\}=\alpha

倒数性质：

F_{1-\alpha}(n_1,n_2)=\frac{1}{F_{\alpha}(n_2,n_1)}

正态总体抽样分布#

设总体 $X\sim N(\mu,\sigma^2)$ ， $X_1,\cdots,X_n$ 为样本。

样本均值：

\overline{X}\sim N\left(\mu,\frac{\sigma^2}{n}\right)

标准化：

\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)

样本方差：

\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)

样本均值和样本方差独立：

\overline{X}\;\bot\;S^2

当 $\sigma^2$ 未知时：

\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1)

两个正态总体的抽样分布#

设 $X_1,\cdots,X_{n_1}$ 来自 $N(\mu_1,\sigma_1^2)$ ， $Y_1,\cdots,Y_{n_2}$ 来自 $N(\mu_2,\sigma_2^2)$ ，两样本相互独立。

样本均值差：

\overline{X}-\overline{Y}\sim N\left(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}\right)

若 $\sigma_1^2,\sigma_2^2$ 已知：

\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)} {\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \sim N(0,1)

若 $\sigma_1^2=\sigma_2^2=\sigma^2$ 未知，使用合并样本方差：

S_w^2= \frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}

则：

\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)} {S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2-2)

方差比：

\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1)

特别地，若 $\sigma_1^2=\sigma_2^2$ ，则：

\frac{S_1^2}{S_2^2}\sim F(n_1-1,n_2-1)

估计量#

设总体分布含未知参数 $\theta$ ，由样本构造统计量 $\hat\theta=\hat\theta(X_1,\cdots,X_n)$ 来估计 $\theta$ 。

矩估计#

核心思想是用样本矩替代总体矩。

若总体 $k$ 阶原点矩为：

\mu_k=E(X^k)

则令：

\mu_k=A_k=\frac{1}{n}\sum_{i=1}^{n}X_i^k

然后解出未知参数。

常见地：

E(X)=\overline{X}

D(X)=B_2

矩估计计算简单，但不一定最优，也不一定无偏。

最大似然估计#

核心思想是让已经发生的样本结果概率最大。

离散型似然函数：

L(\theta)=\prod_{i=1}^{n}P\{X=x_i;\theta\}

连续型似然函数：

L(\theta)=\prod_{i=1}^{n}f(x_i;\theta)

通常取对数似然：

\ln L(\theta)

然后令：

\frac{d}{d\theta}\ln L(\theta)=0

若有多个参数，则分别对每个参数求偏导。

Important

最大似然估计要求注意参数取值范围，有时最大值出现在边界点，不能只看导数为0的点。

评价标准#

无偏性#

若：

E(\hat\theta)=\theta

则称 $\hat\theta$ 是 $\theta$ 的无偏估计。

例如：

E(\overline{X})=\mu

所以 $\overline{X}$ 是 $\mu$ 的无偏估计。

又因为：

E(S^2)=\sigma^2

所以 $S^2$ 是 $\sigma^2$ 的无偏估计。

有效性#

若 $\hat\theta_1,\hat\theta_2$ 都是 $\theta$ 的无偏估计，且：

D(\hat\theta_1)<D(\hat\theta_2)

则称 $\hat\theta_1$ 比 $\hat\theta_2$ 更有效。

有效性是在无偏估计之间比较方差，方差越小，估计越集中。

一致性#

若当 $n\rightarrow\infty$ 时：

\hat\theta_n\overset{P}{\longrightarrow}\theta

则称 $\hat\theta_n$ 是 $\theta$ 的一致估计。

直观理解是样本量越大，估计量越稳定地靠近真实参数。

区间估计#

区间估计的核心是构造枢轴量，也就是含有未知参数但分布不依赖未知参数的统计量。

置信区间一般形如：

P\{L(X_1,\cdots,X_n)<\theta<U(X_1,\cdots,X_n)\}=1-\alpha

$1-\alpha$ 称为置信水平。

正态总体的区间估计#

单个#

设总体 $X\sim N(\mu,\sigma^2)$ 。

均值 $\mu$ ，方差 $\sigma^2$ 已知#

使用：

\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)

置信区间：

\left( \overline{X}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \overline{X}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \right)

均值 $\mu$ ，方差 $\sigma^2$ 未知#

使用：

\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1)

置信区间：

\left( \overline{X}-t_{\alpha/2}(n-1)\frac{S}{\sqrt{n}}, \overline{X}+t_{\alpha/2}(n-1)\frac{S}{\sqrt{n}} \right)

方差 $\sigma^2$ ，均值 $\mu$ 未知#

使用：

\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)

置信区间：

\left( \frac{(n-1)S^2}{\chi_{\alpha/2}^2(n-1)}, \frac{(n-1)S^2}{\chi_{1-\alpha/2}^2(n-1)} \right)

注意这里使用的是上分位点定义：

P\{\chi^2>\chi_{\alpha}^2(n)\}=\alpha

两个#

设两个正态总体相互独立。

均值差 $\mu_1-\mu_2$ ，方差已知#

使用：

\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)} {\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \sim N(0,1)

置信区间：

\left( \overline{X}-\overline{Y} -z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}, \overline{X}-\overline{Y} +z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}} \right)

均值差 $\mu_1-\mu_2$ ，方差未知但相等#

使用：

S_w^2= \frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}

\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)} {S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2-2)

置信区间：

\left( \overline{X}-\overline{Y} -t_{\alpha/2}(n_1+n_2-2)S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}, \overline{X}-\overline{Y} +t_{\alpha/2}(n_1+n_2-2)S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}} \right)

方差比 $\frac{\sigma_1^2}{\sigma_2^2}$ #

使用：

\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1)

置信区间：

\left( \frac{S_1^2/S_2^2}{F_{\alpha/2}(n_1-1,n_2-1)}, \frac{S_1^2/S_2^2}{F_{1-\alpha/2}(n_1-1,n_2-1)} \right)

假设检验#

假设检验一般先提出原假设 $H_0$ 和备择假设 $H_1$ ，再在 $H_0$ 成立的前提下构造统计量，根据小概率事件判断是否拒绝 $H_0$ 。

基本步骤：

写出 $H_0,H_1$
选择检验统计量
给定显著性水平 $\alpha$
确定拒绝域
代入样本值作判断

第一类错误：

P\{ 拒绝H_0 \mid H_0为真 \} = \alpha

第二类错误：

P\{ 接受H_0 \mid H_0为假 \} = \beta

常见检验#

单个正态总体均值检验#

若 $\sigma^2$ 已知：

Z=\frac{\overline{X}-\mu_0}{\sigma/\sqrt{n}}\sim N(0,1)

若 $\sigma^2$ 未知：

T=\frac{\overline{X}-\mu_0}{S/\sqrt{n}}\sim t(n-1)

单个正态总体方差检验#

\chi^2=\frac{(n-1)S^2}{\sigma_0^2}\sim \chi^2(n-1)

两个正态总体方差齐性检验#

F=\frac{S_1^2}{S_2^2}\sim F(n_1-1,n_2-1)

通常把较大的样本方差放在分子，做双侧检验时更方便查上分位点。

音乐

音乐

统计量#

常用统计量#

样本均值#

样本方差#

样本k阶原点矩#

样本k阶中心矩#

三大抽样分布和分位点#

$\chi^2$ 分布#

t分布#

F分布#

正态总体抽样分布#

两个正态总体的抽样分布#

估计量#

矩估计#

最大似然估计#

评价标准#

无偏性#

有效性#

一致性#

区间估计#

正态总体的区间估计#

单个#

均值 $\mu$ ，方差 $\sigma^2$ 已知#

均值 $\mu$ ，方差 $\sigma^2$ 未知#

方差 $\sigma^2$ ，均值 $\mu$ 未知#

两个#

均值差 $\mu_1-\mu_2$ ，方差已知#

均值差 $\mu_1-\mu_2$ ，方差未知但相等#

方差比 $\frac{\sigma_1^2}{\sigma_2^2}$ #

假设检验#

常见检验#

单个正态总体均值检验#

单个正态总体方差检验#

两个正态总体方差齐性检验#

文章分享

评论区

音乐

目录

音乐

音乐

17-数理统计

统计量#

常用统计量#

样本均值#

样本方差#

样本k阶原点矩#

样本k阶中心矩#

三大抽样分布和分位点#

χ2\chi^2χ2分布#

t分布#

F分布#

正态总体抽样分布#

两个正态总体的抽样分布#

估计量#

矩估计#

最大似然估计#

评价标准#

无偏性#

有效性#

一致性#

区间估计#

正态总体的区间估计#

单个#

均值μ\muμ，方差σ2\sigma^2σ2已知#

均值μ\muμ，方差σ2\sigma^2σ2未知#

方差σ2\sigma^2σ2，均值μ\muμ未知#

两个#

均值差μ1−μ2\mu_1-\mu_2μ1​−μ2​，方差已知#

均值差μ1−μ2\mu_1-\mu_2μ1​−μ2​，方差未知但相等#

方差比σ12σ22\frac{\sigma_1^2}{\sigma_2^2}σ22​σ12​​#

假设检验#

常见检验#

单个正态总体均值检验#

单个正态总体方差检验#

两个正态总体方差齐性检验#

文章分享

评论区

音乐

目录

$\chi^2$ 分布#

均值 $\mu$ ，方差 $\sigma^2$ 已知#

均值 $\mu$ ，方差 $\sigma^2$ 未知#

方差 $\sigma^2$ ，均值 $\mu$ 未知#

均值差 $\mu_1-\mu_2$ ，方差已知#

均值差 $\mu_1-\mu_2$ ，方差未知但相等#

方差比 $\frac{\sigma_1^2}{\sigma_2^2}$ #