多元正态总体均值向量和协差阵的假设检验Word文档格式.docx
《多元正态总体均值向量和协差阵的假设检验Word文档格式.docx》由会员分享,可在线阅读,更多相关《多元正态总体均值向量和协差阵的假设检验Word文档格式.docx(23页珍藏版)》请在冰豆网上搜索。
X
(1),X
(2),…,X(n),XX(i),S=7(X(i)—X)(X(i)—X)o
ny
(1)[已知时均值向量的检验
H。
:
“为已知向量)
检验统计量:
T。
2二n(X-%)E」(X-•二。
)〜2(p)(在Ho成立时)
给出检验水平a,查2分布表使pTo2.■J-a,可确定出临界值爲,再用样本值计算出To2,若T02「a,则否定Ho,否则Ho相容。
这里要对统计量的选取作两点解释,一是说明它为什么取为这种形式。
二是说明它为什么服从2(p)分布。
一元统计中,当C2已知时,作均值检验所取的统计量为:
X-'
'
-o
Uo〜N(0,1)
CT
.n
2n(X-o)21
U厂n(X7。
)
(二)(X7。
)
cr
与上边给出的检验统计量To2形式相同。
另外根据二次型分布定理:
若X〜Np(0,1),则
XE4X~X2(p)。
显然,To2=n(X-%)-%)二.n(Xn(X-%)
邱扩丫。
其中,Y=n(X-^)~Np(0,Z),因此,T。
2二n(X-%)丁1(应-%)〜2(p)。
(2)三未知时均值向量的检验
Ho—°
比:
―°
°
9p片2〜F(p,n-p)(在Ho成立时)
(n-1)p
其中T2=(n-1)1n(X-%)'
S「.n(X
给定检验水平a,查F分布表,使p”n_pT2〉Fa]=a,可确定出临界值Fa,再用样本值计算
Jn-1)pJ
出T2,若n_pT2Fa,则否定H。
,否则H。
相容。
(n-1)paoo
这里需要解释的是,当匕未知时,自然想到要用样本协差阵—S去代替Z,因(n-1)S-1是匕'
的n—1
无偏估计量,而样本离差阵
n__
S7(X(a)-X)(X(a)-力〜Wp(n—1上)
x■
•、n(N」o)〜Np(O,1)
.T^(n-1)1.n(乂—%)S「n(X-%)Lt2(p,n一p)
再根据HotellingT2分布性质,所以
(n-1)一p•1〒2
T〜F(p,n-p)(n-1)p
3协差阵相等时,两个正态总体均值向量的检验
设
X(a)=(Xa「Xa2,…,Xap)~Np(叫,口Y(a)=(Ya1,Y32^'
Yap)~NpG^2^):
_1n-1
且两组样本相互独立,X二丄7X(j),Y=丄7Y(i)。
nym^
(1)有共同已知协差阵时
Ho:
叫二•二2
To2二巴工以-丫)、J(Y-Y)~2(p)(在Ho成立时)
n+m八
给出检验水平a,查x2(p)分布表使PT2•'
ala,可确定出临界值,a,再用样本值计算出T2,若T02「a,则否定H。
,否则H0相容。
在一元统计中作均值相等检验所给出的统计量:
X-Y
〜N(0,1)
c2c2
nm
显然,
(在H。
成立时)
其中:
SS2
n_
S1「(X(a)-X)(X(a)-X),X=収1,^2,,Xp)
a±
m
S2八(Y(a)-Y)(Y(a)-Y),Y=&
1,Y2,…,Y)'
a4
给定检验水平:
•,查F分布表使P「FFa:
—•,可确定出Fa,再用样本值计算出F,若
则否定Ho,否则Ho相容。
11
当两个总体的协差阵未知时,自然想到用每个总体的样本协差阵—S,和—S2去代替,
n_1m_1
n
so(X(a)-X)(X(:
.)—X)〜Wp(n一仁)
m__
S2八(Y(a)-Y)(Y(.)-Y)~Wp(m-1^)
a3
从而S=S!
亠S2〜Wp(n亠m-2,三)
所以
下述假设检验统计量的选取和前边统计量的选取思路是一样的,以下只提出待检验的假设,然后给出统计量及其分布,为节省篇幅,不做重复的解释。
4协差阵不等时,两个正态总体均值向量的检验设
X(a)~(Xal,Xa2,,Xap)~NpC-1):
-!
,,n
Y(a)=亿1亿2,…,Yap)〜Np上2):
=1,…,m
且两组样本相互独立,11.0,12.0
叫=)2H1"
2
分两种情况
(1)n=m
令
Z(i)=X(i)-Y(i)i=1^,n
-1n—-
ZZ(i)=X-Y
ni=1n__
s八(z(j)-Z)(z(j)-Z)'
j壬
n__
八•(X(j)-Y(i)-XY)(X(j^Y(0-XY)j丘
F=(n_p)nZ,s4z~F(p,n-p)(在H0成立时)
p
(2)n严m,不妨假设n:
——
ni丄
s八(z(i)—Z)(z(i)-Z)-
i4
-
:
1nxzJ
(X(i)-X)-
J-(Y(i)
—送丫(j))
V|
\m
nj£
检验统计量:
F=5P)nz'
SdZ~F(p,n-p)P
5多个正态总体均值向量的检验(多元方差分析)
多元方差分析是一元方差分析的推广。
为此先复习一下一元方差分析,之后为了对多个正态总体均值向量作检验,自然地先给出Wilks分布的定义。
(1)复习一元方差分析(单因素方差分析)设k个正态总体分别为N(叫,匚2),…,N(」k,;
「2),从k个总体取ni个独立样本如下:
(1)
(1)
(1)
X1,X2,)Xn1
SSAk-1
F'
~F(k-1,n-k)(在Ho成立时)
SSEn—k
k
9
SSA-7ni(Xi-X)……组间平方和
i二
km_
SSE、(Xf-Xi)2……组内平方和
i4j=1
kW_
SST二二(Xj-X)2……总平方和
i1jW
ni
、、X(i)
j1
-1kni
X二一7X(i)n=n^i亠亠nk
nidj
F值,
给定检验水平〉,查F分布表使p、F■F^■•,可确定出临界值R.,再用样本值计算出
若FFa则否定Ho,否则Ho相容。
(2)Wilks分布
在一元统计中,方差是刻划随机变量分散程度的一个重要特征,而方差概念在多变量情况下变为协
1
为样本广义方差。
其
差阵。
如何用一个数量指标来反映协差阵所体现的分散程度呢?
有的用行列式,有的用迹等方法,目前使用最多的是行列式。
定义1若X〜Np(7二),则称协差阵的行列式为X的广义方差。
称
中S八(X(a)-X)(X(a)—X)。
定义2若A1~Wp(山,匕),m_p,A2〜Wp(门2,匕),匕.0,且A1和A?
相互独立,则称,-计州]人A?
为Wilks统计量,上的分布称为Wilks分布,简记为上〜上(p,n「n2),其中n1,n2为自由度。
在实际应用中,经常把上统计量化为T2统计量进而化为F统计量,利用F统计量来解决多元统计分析中有关检验问题。
当n2=1时,用n代替m,可得到它们之间的关系式如下:
/八1
上(P,n,1)=
121T2(p,n)
T2=门丄(p,n,1)
A(p,n,1)
由前边定理知
n-p12
T~F(p,n-p1)np
gj上严呼〜F(p,n_p1)
p上(P,n,1)
n2=2时有如下关系:
n-p1-(p,n,2)
~F(2p,2(n-p))、(P,n,2)
p=1时有:
p=2时有:
以上几个关系式说明对一些特殊的计量或F统计量来近似表示,后面给出。
(3)多个正态总体均值向量检验(多元方差分析)
设有k个p元正态总体NpC'
]),…,Np(%=),从每个总体抽取独立样品个数分别为ni,“2,…,nk,门!
“k^n,每个样品观测p个指标得观测数据如下:
第二个总体:
Wilks分布表时
给定检验水平:
查Wilks分布表,确定临界值,然后作出统计判断。
当手头没有可用如下2分布或F分布来近似。
设一l~_'
;
(p,n,m)
V--(nm-(pm1);
2)In上
1—A匸tL—2丸R_丄•pmAl
式中
t=n+m_(p+m+1)/2f22人晋
pm-4
L-2丄2c
(p+m—5/
.pm_2
A=
4
则V近似服从2(pm),R近似服从F(pm,tL-2几),这里tL-2几不一定为整数,可用与它最近的整数
来作为F的自由度,且min(p,m)2。
3.2协差阵的检验
1一个正态总体协差阵检验
设X(a)=(Xai,Xa2,…,Xap)(;
n)来自p元正态总体Np(忙)的样本,匕未知,且匕■0。
⑴H°
「Ip
np
人=expdtrS
s八(X(a)-X)(X(a)a-1
Hi:
丄=丄0=Ip
(2)H。
—3。
=1p
因为Zo0,所以存在D(D-0)使D^oD'
lp令丫(a)=DX(a)〉=h…,n
则
**
Y(a)〜Np(D巴DUD疋Np(4,工)
因此,检验「-?
0等价于检验二=1P
检验统计量
、J1eae*;
feV
&
=exp』_—trS>
S2-|
l2:
j丿
S*八(Y(a)-Y)(Y(a)-丫)
ad
•,因为直接由■分布计算临界值'
0很困难,所以通常采用•的近似分布。
Z2
在Ho成立时,一2ln■极限分布是p(p分布。
因此当n…p,由样本值计算出,值,若-2In,•;
即■:
e2,则拒绝Ho,否则H0相容。
2多个协差阵相等检验
设k个正态总体分别为Np(叫,4),…,NpCi—lk),]且未知,i=1,…,k。
从k个总体分别取山个样本
(i)(i)(i)x-
X(a)=(Xa1,,Xap)
体分别取ni个样本
=1,…,k;
=1,…,Np(」k,3),二•0且未知,i=1,…,k。
从k个总
例1人的出汗多少与人体内钠和钾的含量有一定的关系。
今测20名健康成年女性的出汗多少
(X1)、钠的含量(X2)和钾的含量(X3),其数据如下表。
试检验H0:
」-」0=(4,50,10):
比「。
13
3.5
27.8
9.8
14
4.5
40.2
8.4
15
1.5
13.5
10.1
16
8.5
56.4
7.1
17
71.6
8.2
18
6.5
52.8
10.9
19
4.1
44.1
11.2
20
5.6
40.9
9.4
经计算
X=(4.64,45.4,9.965)
X7。
=(0.64,/.6,0.035)
55.764177.59-32.374
S=177.593795.98-107.16
-32.374-107.1668.9255
为了计算(X-丄。
)s」(X二°
令Y=S」(X-讥),则SY=(X-%),于是得如下方程组,
55.764y_177.59y2-32.374y^0.64
*177.59y1+3795.98y2—107.16y3=*.6
-32.374y1—107.16y2+68.9255y3=0.035
解得:
%=0.0151,y2=-0.0015,y3=—0.0020于是(X—%)s」(X一%)=(X_%)y
0.0151
=(0.64,4.6,0.035)-0.0015
-0.0020一
=0.016494
T2二n(n-1)(X
=20190.016494=6.26772
F6.26772=1.87
193
查F表得F3,17(0.05)=3.2,F3,17(0.01)=5.18
因此在a=0.05或0.01时接受H0假设。
例2为了研究日、美两国在华投资企业对中国经营环境的评价是否存在差异,今从两国在华投资
企业中各抽出10家,让其对中国的政治、经济、法律、文化等环境进行打分,其结果如下表:
序号
政治环境
经济环境
法律环境
文化环境
65
35
25
60
75
50
30
55
3
45
40
70
5
6
41
7
8
9
10
11
12
80
1~10号为美国在华投资企业代号,10~20号为日本在华投资企业的代号。
数据来源:
国务院发展研
究中心APEC在华投资企业情况调查。
设两组样本来自正态总体分别记为:
X(a)~gw"
):
=1,…,10
Y(a)~NTH):
"
,10
且两组样本相互独立,共同未知协差阵10
H0:
丄1="
2H1:
丄1=二
F=0匕迢p1T2~F(p,nm-p-1)
(n+m-2)p
X=(64,43,30.5,63)
Y=(50.5,51,40,40.5)
10__
S1=送(X(a)A壬
-X)(X
(a)-X)'
「410
-170
-80
—170
510
422
—80
332.5
84
S2八(Y(a)-丫的)-丫)
a生
512.5
165
-5
390
140
139
—165
475
-52.5
「5
252.5
S=S1+S2
922.5
-110
85
900
143
561
—85
807.5
31.5
-3
762.5
一0.0011
0.0003
-0.0002
-0.0002"
c10.0003
s—=
0.0022
-0.0004
-0.0016
1-0.0002
0.0013
0.0002
0.0025
代入统计量中得
F=7.6913
查F分布表得F0.01(4,5)=4.89
显然
FaFo.oi(4.15)
故否定H。
,即认为日、美两国在华投资企业对中国经营环境的评价存在显著差异。
3.3附注
近年来很多人,使用国际上著名的SAS或SPSS软件进行统计分析,为便于和国际接轨,这里简单
介绍一下现代国际统计学关于显著性检验的作法,它与国内多数统计教科书及期刊论文的处理方法不同。
为了便于直观说明这种作法的基本思想,下面以一元正态总体U检验法、t检验法为例作介绍,对
其它检验法也类似处理。
设样本来自正态总体N(~;
「2),;
「2已知,」未知,要对」作显著性检验,统计假设H。
」一°
Hi:
—0
X-^1观测值的平均-已知期望值|
U=1
2标准方差
\n
该统计量在Ho成立时服从N(0,1)
将给出的样本数据代入统计量中,算出统计量值,比如U=3,说明观测的平均值与期望值之差为
标准差的3倍,由3/原则知:
P(X—4。
<
3^)=99.7%。
因此可以计算出P(X—%>
3/)=0.3%,其中▽*=刃你。
从上图很直观看出,在正态曲线下,-3与+3左右两尾部的面积非常小,或者说要取得一个样本平
均值与期望值之差的绝对值大于它的标准方差三倍或三倍以上的概率是千分之三,此3/1000通常称为检
验的p值,这个p值是计算出来的。
p值越小,则否定原假设的证据越强。
由于检验统计量U值依赖于
样本数据,因而p值也如此,所以有的书又称p值为“观测”到的显著水平。
那么把“观测”到的显著水平定得多小才可以拒绝原假设呢?
许多统计工作者根据经验把界限定在
0.05或0.01处,若p低于0.05,认为这个检验结果是统计显著的,且以0.05的概率拒绝原假设,若p
低于0.01,认为这个检验结果是高度显著的,这里的0.05或0.01,在一般检验中通常称为检验水平,记
为〉,它是控制犯第一类错误的概率。
例如上例取:
=0.01,而计算出的p值为0.003,比0.01小。
因
此应该拒绝原假设,即认为检验是高度显著的,作出这个结论,冒犯错误的风险大约是百分之一。
如果统计假设H0:
「i0H1"
0、二2未知
即作单尾检验。
此时检验统计量为:
右方的面积。
查表知,1.34右方的面积比10%略大一点,因1.48之右的面积恰好是10%,而1.34正好在1.48左边,所以1.34之右的面积比10%稍微大一点。
综上所述,显著性检验过程可概括为以下四步:
(1)根据实际问题提出待检验的原假设和对立假设。
(2)给出一个合适的检验统计量并知道它的分布。
(3)将样本观测值代入统计量中计算出统计量值,
再求出p值。
(4)把p值同检验水平:
相比较,最后作出判断的结论。