17-数理统计

1176 字
6 分钟
17-数理统计

统计量#

以样本为自变量的函数为统计量,不能含未知参数。

X1,X2,,XnX_1,X_2,\cdots,X_n是来自总体XX的样本,若相互独立且与总体同分布,则称为简单随机样本。

常用统计量#

样本均值#

X=1ni=1nXi\overline{X} = \frac{1}{n}\sum_{i=1}^{n}X_i

若总体期望、方差分别为μ,σ2\mu,\sigma^2,则:

E(X)=μ,D(X)=σ2nE(\overline{X})=\mu,\qquad D(\overline{X})=\frac{\sigma^2}{n}

样本方差#

S2=1n1i=1n(XiX)2=1n1(i=1nXi2nX2)S^2 = \frac{1}{n-1} \sum_{i=1}^n{(X_i-\overline{X})^2} = \frac{1}{n-1} \left( \sum_{i=1}^n{X_i^2 - n\overline{X}^2} \right)

更常用的展开式是:

S2=1n1(i=1nXi2nX2)S^2=\frac{1}{n-1}\left(\sum_{i=1}^{n}X_i^2-n\overline{X}^2\right)

这里分母用n1n-1,是为了让S2S^2成为总体方差σ2\sigma^2的无偏估计:

E(S2)=σ2E(S^2)=\sigma^2

样本k阶原点矩#

Ak=1ni=1nXikA_k=\frac{1}{n}\sum_{i=1}^{n}X_i^k

特别地:

A1=XA_1=\overline{X}

样本k阶中心矩#

Bk=1ni=1n(XiX)kB_k=\frac{1}{n}\sum_{i=1}^{n}(X_i-\overline{X})^k

其中:

B2=1ni=1n(XiX)2B_2=\frac{1}{n}\sum_{i=1}^{n}(X_i-\overline{X})^2

注意B2B_2不是样本方差S2S^2,二者关系为:

S2=nn1B2S^2=\frac{n}{n-1}B_2

三大抽样分布和分位点#

χ2\chi^2分布#

X1,X2,,XnX_1,X_2,\cdots,X_n相互独立,且XiN(0,1)X_i\sim N(0,1),则:

χ2=X12+X22++Xn2χ2(n)\chi^2=X_1^2+X_2^2+\cdots+X_n^2\sim \chi^2(n)

nn称为自由度。

数字特征:

E(χ2)=n,D(χ2)=2nE(\chi^2)=n,\qquad D(\chi^2)=2n

可加性:

Xχ2(n1),  Yχ2(n2),  X,Y 独立X+Yχ2(n1+n2)X\sim \chi^2(n_1),\;Y\sim \chi^2(n_2),\;X,Y\text{ 独立} \Rightarrow X+Y\sim \chi^2(n_1+n_2)

α\alpha分位点:

P{χ2>χα2(n)}=αP\{\chi^2>\chi_{\alpha}^2(n)\}=\alpha

由于χ2\chi^2分布不对称,一般不能直接用1α1-\alpha互换左右分位点。

t分布#

XN(0,1)X\sim N(0,1)Yχ2(n)Y\sim \chi^2(n),且X,YX,Y独立,则:

T=XY/nt(n)T=\frac{X}{\sqrt{Y/n}}\sim t(n)

tt分布关于0对称:

t1α(n)=tα(n)t_{1-\alpha}(n)=-t_{\alpha}(n)

α\alpha分位点:

P{T>tα(n)}=αP\{T>t_{\alpha}(n)\}=\alpha

nn较大时:

t(n)N(0,1)t(n)\approx N(0,1)

F分布#

Xχ2(n1)X\sim \chi^2(n_1)Yχ2(n2)Y\sim \chi^2(n_2),且X,YX,Y独立,则:

F=X/n1Y/n2F(n1,n2)F=\frac{X/n_1}{Y/n_2}\sim F(n_1,n_2)

α\alpha分位点:

P{F>Fα(n1,n2)}=αP\{F>F_{\alpha}(n_1,n_2)\}=\alpha

倒数性质:

F1α(n1,n2)=1Fα(n2,n1)F_{1-\alpha}(n_1,n_2)=\frac{1}{F_{\alpha}(n_2,n_1)}

正态总体抽样分布#

设总体XN(μ,σ2)X\sim N(\mu,\sigma^2)X1,,XnX_1,\cdots,X_n为样本。

样本均值:

XN(μ,σ2n)\overline{X}\sim N\left(\mu,\frac{\sigma^2}{n}\right)

标准化:

Xμσ/nN(0,1)\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)

样本方差:

(n1)S2σ2χ2(n1)\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)

样本均值和样本方差独立:

X    S2\overline{X}\;\bot\;S^2

σ2\sigma^2未知时:

XμS/nt(n1)\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1)

两个正态总体的抽样分布#

X1,,Xn1X_1,\cdots,X_{n_1}来自N(μ1,σ12)N(\mu_1,\sigma_1^2)Y1,,Yn2Y_1,\cdots,Y_{n_2}来自N(μ2,σ22)N(\mu_2,\sigma_2^2),两样本相互独立。

样本均值差:

XYN(μ1μ2,σ12n1+σ22n2)\overline{X}-\overline{Y}\sim N\left(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}\right)

σ12,σ22\sigma_1^2,\sigma_2^2已知:

(XY)(μ1μ2)σ12n1+σ22n2N(0,1)\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)} {\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \sim N(0,1)

σ12=σ22=σ2\sigma_1^2=\sigma_2^2=\sigma^2未知,使用合并样本方差:

Sw2=(n11)S12+(n21)S22n1+n22S_w^2= \frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}

则:

(XY)(μ1μ2)Sw1n1+1n2t(n1+n22)\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)} {S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2-2)

方差比:

S12/σ12S22/σ22F(n11,n21)\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1)

特别地,若σ12=σ22\sigma_1^2=\sigma_2^2,则:

S12S22F(n11,n21)\frac{S_1^2}{S_2^2}\sim F(n_1-1,n_2-1)

估计量#

设总体分布含未知参数θ\theta,由样本构造统计量θ^=θ^(X1,,Xn)\hat\theta=\hat\theta(X_1,\cdots,X_n)来估计θ\theta

矩估计#

核心思想是用样本矩替代总体矩。

若总体kk阶原点矩为:

μk=E(Xk)\mu_k=E(X^k)

则令:

μk=Ak=1ni=1nXik\mu_k=A_k=\frac{1}{n}\sum_{i=1}^{n}X_i^k

然后解出未知参数。

常见地:

E(X)=XE(X)=\overline{X}D(X)=B2D(X)=B_2

矩估计计算简单,但不一定最优,也不一定无偏。

最大似然估计#

核心思想是让已经发生的样本结果概率最大。

离散型似然函数:

L(θ)=i=1nP{X=xi;θ}L(\theta)=\prod_{i=1}^{n}P\{X=x_i;\theta\}

连续型似然函数:

L(θ)=i=1nf(xi;θ)L(\theta)=\prod_{i=1}^{n}f(x_i;\theta)

通常取对数似然:

lnL(θ)\ln L(\theta)

然后令:

ddθlnL(θ)=0\frac{d}{d\theta}\ln L(\theta)=0

若有多个参数,则分别对每个参数求偏导。

Important

最大似然估计要求注意参数取值范围,有时最大值出现在边界点,不能只看导数为0的点。

评价标准#

无偏性#

若:

E(θ^)=θE(\hat\theta)=\theta

则称θ^\hat\thetaθ\theta的无偏估计。

例如:

E(X)=μE(\overline{X})=\mu

所以X\overline{X}μ\mu的无偏估计。

又因为:

E(S2)=σ2E(S^2)=\sigma^2

所以S2S^2σ2\sigma^2的无偏估计。

有效性#

θ^1,θ^2\hat\theta_1,\hat\theta_2都是θ\theta的无偏估计,且:

D(θ^1)<D(θ^2)D(\hat\theta_1)<D(\hat\theta_2)

则称θ^1\hat\theta_1θ^2\hat\theta_2更有效。

有效性是在无偏估计之间比较方差,方差越小,估计越集中。

一致性#

若当nn\rightarrow\infty时:

θ^nPθ\hat\theta_n\overset{P}{\longrightarrow}\theta

则称θ^n\hat\theta_nθ\theta的一致估计。

直观理解是样本量越大,估计量越稳定地靠近真实参数。

区间估计#

区间估计的核心是构造枢轴量,也就是含有未知参数但分布不依赖未知参数的统计量。

置信区间一般形如:

P{L(X1,,Xn)<θ<U(X1,,Xn)}=1αP\{L(X_1,\cdots,X_n)<\theta<U(X_1,\cdots,X_n)\}=1-\alpha

1α1-\alpha称为置信水平。

正态总体的区间估计#

单个#

设总体XN(μ,σ2)X\sim N(\mu,\sigma^2)

均值μ\mu,方差σ2\sigma^2已知#

使用:

Xμσ/nN(0,1)\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)

置信区间:

(Xzα/2σn,X+zα/2σn)\left( \overline{X}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \overline{X}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \right)

均值μ\mu,方差σ2\sigma^2未知#

使用:

XμS/nt(n1)\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1)

置信区间:

(Xtα/2(n1)Sn,X+tα/2(n1)Sn)\left( \overline{X}-t_{\alpha/2}(n-1)\frac{S}{\sqrt{n}}, \overline{X}+t_{\alpha/2}(n-1)\frac{S}{\sqrt{n}} \right)

方差σ2\sigma^2,均值μ\mu未知#

使用:

(n1)S2σ2χ2(n1)\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)

置信区间:

((n1)S2χα/22(n1),(n1)S2χ1α/22(n1))\left( \frac{(n-1)S^2}{\chi_{\alpha/2}^2(n-1)}, \frac{(n-1)S^2}{\chi_{1-\alpha/2}^2(n-1)} \right)

注意这里使用的是上分位点定义:

P{χ2>χα2(n)}=αP\{\chi^2>\chi_{\alpha}^2(n)\}=\alpha

两个#

设两个正态总体相互独立。

均值差μ1μ2\mu_1-\mu_2,方差已知#

使用:

(XY)(μ1μ2)σ12n1+σ22n2N(0,1)\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)} {\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \sim N(0,1)

置信区间:

(XYzα/2σ12n1+σ22n2,XY+zα/2σ12n1+σ22n2)\left( \overline{X}-\overline{Y} -z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}, \overline{X}-\overline{Y} +z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}} \right)

均值差μ1μ2\mu_1-\mu_2,方差未知但相等#

使用:

Sw2=(n11)S12+(n21)S22n1+n22S_w^2= \frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}(XY)(μ1μ2)Sw1n1+1n2t(n1+n22)\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)} {S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2-2)

置信区间:

(XYtα/2(n1+n22)Sw1n1+1n2,XY+tα/2(n1+n22)Sw1n1+1n2)\left( \overline{X}-\overline{Y} -t_{\alpha/2}(n_1+n_2-2)S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}, \overline{X}-\overline{Y} +t_{\alpha/2}(n_1+n_2-2)S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}} \right)

方差比σ12σ22\frac{\sigma_1^2}{\sigma_2^2}#

使用:

S12/σ12S22/σ22F(n11,n21)\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1)

置信区间:

(S12/S22Fα/2(n11,n21),S12/S22F1α/2(n11,n21))\left( \frac{S_1^2/S_2^2}{F_{\alpha/2}(n_1-1,n_2-1)}, \frac{S_1^2/S_2^2}{F_{1-\alpha/2}(n_1-1,n_2-1)} \right)

假设检验#

假设检验一般先提出原假设H0H_0和备择假设H1H_1,再在H0H_0成立的前提下构造统计量,根据小概率事件判断是否拒绝H0H_0

基本步骤:

  1. 写出H0,H1H_0,H_1
  2. 选择检验统计量
  3. 给定显著性水平α\alpha
  4. 确定拒绝域
  5. 代入样本值作判断

第一类错误:

P{拒绝真的 H0}=αP\{\text{拒绝真的 }H_0\}=\alpha

第二类错误:

P{接受假的 H0}=βP\{\text{接受假的 }H_0\}=\beta

常见检验#

单个正态总体均值检验#

σ2\sigma^2已知:

Z=Xμ0σ/nN(0,1)Z=\frac{\overline{X}-\mu_0}{\sigma/\sqrt{n}}\sim N(0,1)

σ2\sigma^2未知:

T=Xμ0S/nt(n1)T=\frac{\overline{X}-\mu_0}{S/\sqrt{n}}\sim t(n-1)

单个正态总体方差检验#

χ2=(n1)S2σ02χ2(n1)\chi^2=\frac{(n-1)S^2}{\sigma_0^2}\sim \chi^2(n-1)

两个正态总体方差齐性检验#

F=S12S22F(n11,n21)F=\frac{S_1^2}{S_2^2}\sim F(n_1-1,n_2-1)

通常把较大的样本方差放在分子,做双侧检验时更方便查上分位点。

文章分享

如果这篇文章对你有帮助,欢迎分享给更多人!

17-数理统计
https://skaco2.com/posts/02-math/17-数理统计/
作者
SKACO2
发布于
2026-05-28
许可协议
CC BY-NC-SA 4.0

评论区

Profile Image of the Author
SKACO2
Hello……
公告
欢迎来到我的博客!
音乐
封面

音乐

暂未播放

0:00 0:00
暂无歌词
分类
标签
站点统计
文章
53
分类
8
标签
54
总字数
58,255
运行时长
0
最后活动
0 天前

目录