统计量#
以样本为自变量的函数为统计量,不能含未知参数。
设X1,X2,⋯,Xn是来自总体X的样本,若相互独立且与总体同分布,则称为简单随机样本。
常用统计量#
样本均值#
X=n1i=1∑nXi若总体期望、方差分别为μ,σ2,则:
E(X)=μ,D(X)=nσ2样本方差#
S2=n−11i=1∑n(Xi−X)2=n−11(i=1∑nXi2−nX2)更常用的展开式是:
S2=n−11(i=1∑nXi2−nX2)这里分母用n−1,是为了让S2成为总体方差σ2的无偏估计:
E(S2)=σ2样本k阶原点矩#
Ak=n1i=1∑nXik特别地:
A1=X样本k阶中心矩#
Bk=n1i=1∑n(Xi−X)k其中:
B2=n1i=1∑n(Xi−X)2注意B2不是样本方差S2,二者关系为:
S2=n−1nB2
三大抽样分布和分位点#
χ2分布#
若X1,X2,⋯,Xn相互独立,且Xi∼N(0,1),则:
χ2=X12+X22+⋯+Xn2∼χ2(n)n称为自由度。
数字特征:
E(χ2)=n,D(χ2)=2n可加性:
X∼χ2(n1),Y∼χ2(n2),X,Y 独立⇒X+Y∼χ2(n1+n2)上α分位点:
P{χ2>χα2(n)}=α由于χ2分布不对称,一般不能直接用1−α互换左右分位点。
t分布#
若X∼N(0,1),Y∼χ2(n),且X,Y独立,则:
T=Y/nX∼t(n)t分布关于0对称:
t1−α(n)=−tα(n)上α分位点:
P{T>tα(n)}=α当n较大时:
t(n)≈N(0,1)F分布#
若X∼χ2(n1),Y∼χ2(n2),且X,Y独立,则:
F=Y/n2X/n1∼F(n1,n2)上α分位点:
P{F>Fα(n1,n2)}=α倒数性质:
F1−α(n1,n2)=Fα(n2,n1)1
正态总体抽样分布#
设总体X∼N(μ,σ2),X1,⋯,Xn为样本。
样本均值:
X∼N(μ,nσ2)标准化:
σ/nX−μ∼N(0,1)样本方差:
σ2(n−1)S2∼χ2(n−1)样本均值和样本方差独立:
X⊥S2当σ2未知时:
S/nX−μ∼t(n−1)
两个正态总体的抽样分布#
设X1,⋯,Xn1来自N(μ1,σ12),Y1,⋯,Yn2来自N(μ2,σ22),两样本相互独立。
样本均值差:
X−Y∼N(μ1−μ2,n1σ12+n2σ22)若σ12,σ22已知:
n1σ12+n2σ22(X−Y)−(μ1−μ2)∼N(0,1)若σ12=σ22=σ2未知,使用合并样本方差:
Sw2=n1+n2−2(n1−1)S12+(n2−1)S22则:
Swn11+n21(X−Y)−(μ1−μ2)∼t(n1+n2−2)方差比:
S22/σ22S12/σ12∼F(n1−1,n2−1)特别地,若σ12=σ22,则:
S22S12∼F(n1−1,n2−1)
估计量#
设总体分布含未知参数θ,由样本构造统计量θ^=θ^(X1,⋯,Xn)来估计θ。
矩估计#
核心思想是用样本矩替代总体矩。
若总体k阶原点矩为:
μk=E(Xk)则令:
μk=Ak=n1i=1∑nXik然后解出未知参数。
常见地:
E(X)=XD(X)=B2矩估计计算简单,但不一定最优,也不一定无偏。
最大似然估计#
核心思想是让已经发生的样本结果概率最大。
离散型似然函数:
L(θ)=i=1∏nP{X=xi;θ}连续型似然函数:
L(θ)=i=1∏nf(xi;θ)通常取对数似然:
lnL(θ)然后令:
dθdlnL(θ)=0若有多个参数,则分别对每个参数求偏导。
最大似然估计要求注意参数取值范围,有时最大值出现在边界点,不能只看导数为0的点。
评价标准#
无偏性#
若:
E(θ^)=θ则称θ^是θ的无偏估计。
例如:
E(X)=μ所以X是μ的无偏估计。
又因为:
E(S2)=σ2所以S2是σ2的无偏估计。
有效性#
若θ^1,θ^2都是θ的无偏估计,且:
D(θ^1)<D(θ^2)则称θ^1比θ^2更有效。
有效性是在无偏估计之间比较方差,方差越小,估计越集中。
一致性#
若当n→∞时:
θ^n⟶Pθ则称θ^n是θ的一致估计。
直观理解是样本量越大,估计量越稳定地靠近真实参数。
区间估计#
区间估计的核心是构造枢轴量,也就是含有未知参数但分布不依赖未知参数的统计量。
置信区间一般形如:
P{L(X1,⋯,Xn)<θ<U(X1,⋯,Xn)}=1−α1−α称为置信水平。
正态总体的区间估计#
设总体X∼N(μ,σ2)。
均值μ,方差σ2已知#
使用:
σ/nX−μ∼N(0,1)置信区间:
(X−zα/2nσ,X+zα/2nσ)均值μ,方差σ2未知#
使用:
S/nX−μ∼t(n−1)置信区间:
(X−tα/2(n−1)nS,X+tα/2(n−1)nS)方差σ2,均值μ未知#
使用:
σ2(n−1)S2∼χ2(n−1)置信区间:
(χα/22(n−1)(n−1)S2,χ1−α/22(n−1)(n−1)S2)注意这里使用的是上分位点定义:
P{χ2>χα2(n)}=α设两个正态总体相互独立。
均值差μ1−μ2,方差已知#
使用:
n1σ12+n2σ22(X−Y)−(μ1−μ2)∼N(0,1)置信区间:
X−Y−zα/2n1σ12+n2σ22,X−Y+zα/2n1σ12+n2σ22均值差μ1−μ2,方差未知但相等#
使用:
Sw2=n1+n2−2(n1−1)S12+(n2−1)S22Swn11+n21(X−Y)−(μ1−μ2)∼t(n1+n2−2)置信区间:
(X−Y−tα/2(n1+n2−2)Swn11+n21,X−Y+tα/2(n1+n2−2)Swn11+n21)方差比σ22σ12#
使用:
S22/σ22S12/σ12∼F(n1−1,n2−1)置信区间:
(Fα/2(n1−1,n2−1)S12/S22,F1−α/2(n1−1,n2−1)S12/S22)
假设检验#
假设检验一般先提出原假设H0和备择假设H1,再在H0成立的前提下构造统计量,根据小概率事件判断是否拒绝H0。
基本步骤:
- 写出H0,H1
- 选择检验统计量
- 给定显著性水平α
- 确定拒绝域
- 代入样本值作判断
第一类错误:
P{拒绝真的 H0}=α第二类错误:
P{接受假的 H0}=β常见检验#
单个正态总体均值检验#
若σ2已知:
Z=σ/nX−μ0∼N(0,1)若σ2未知:
T=S/nX−μ0∼t(n−1)单个正态总体方差检验#
χ2=σ02(n−1)S2∼χ2(n−1)两个正态总体方差齐性检验#
F=S22S12∼F(n1−1,n2−1)通常把较大的样本方差放在分子,做双侧检验时更方便查上分位点。