基于秩次的非参数检验.docx
《基于秩次的非参数检验.docx》由会员分享,可在线阅读,更多相关《基于秩次的非参数检验.docx(7页珍藏版)》请在冰豆网上搜索。
基于秩次的非参数检验
第七章基于秩次的非参数检验
前言:
1.问题的提出:
前面学习了连续型资料两组样本均数差异的假设检验方法:
★小样本用t检验,条件是变量服从正态分布和方差齐。
★大样本用Z检验(中心极限定理)。
如果是小样本,变量的分布不清、已知不服从正态分布或经数学转换后仍不服从正态分布时,如何检验两个样本或多个样本均数差异的统计学意义呢?
★需要一种不依赖于分布假定的检验方法,即非参数检验。
2.基本概念:
前面介绍的检验方法首先假定变量服从特定的已知分布(如正态分布),然后对分布的参数(如均数)作检验。
这类检验方法称为参数检验。
今天介绍的检验方法不对变量的分布作严格假定,检验不针对特定的参数,而是模糊地对变量分布的中心位置或分布形态作检验。
这类检验称非参数检验,由于其对总体分布不作严格假定,所以又称任意分布检验。
(1)非参数检验的优点:
a.不受总体分布的限制,适用范围广。
b.适宜定量模糊的变量和等级变量。
c.方法简便易学。
(2)缺点:
对于适合用参数检验的资料,如用非参数检验会造成信息的丢失,犯第Ⅱ类错误的概率增大,造成检验功效下降。
(3)基于秩次的非参数检验(秩和检验)的基本思想:
例:
假设有一组观察值为1.1,1.3,1.7,4.3,11.4。
显然这一变量不服从正态分布,观察值间差异较大,既不对称,标准差也较大。
如果将变量作转换,变成秩变量Y=1,2,3,4,5,则分布对称了,观察值间的差异也均匀了,标准差也减小了。
对秩和分布的中心位置(平均秩和)作检验,这就是秩和检验。
一.配对样本的符号秩检验(Wilcoxonsignedranktest):
例7.1:
研究出生先后的孪生兄弟智力是否存在差异?
表7.312对孪生兄弟智力测试结果
对子号
兄的得分
弟的得分
兄弟得分差
秩次
1
86
88
2
3
2
71
77
6
7
3
77
76
-1
-1.5
4
68
64
-4
-4
5
91
96
5
5.5
6
72
72
0
-
7
77
65
-12
-10
8
91
90
-1
-1.5
9
70
65
-5
-5.5
10
71
80
9
9
11
88
81
-7
-8
12
87
72
-15
-11
差值一般在5左右,但个别较大,如15,可能不服从正态分布。
而且样本较小,不能利用中心极限定理作正态假定。
因此考虑使用非参数检验---符号秩检验。
1.符号秩检验的分布理论:
假定有四对观察值,如果H0成立时,这四个值有同等的概率取正值或负值,即每个值取正值的概率等于二分之一。
四个值共有24=16种组合,每种组合发生的可能性就是:
。
再考虑秩和,可能的结果数减少到11种,概率分布见表7.1。
表7.1n=4时所有可能秩和情况和T*的分布
正差数
的秩次
负差值
的秩次
正秩和
T+
负秩和
T-
概率
P
1,2,3,4
--
10
0
0.0625
2,3,4
1
9
1
0.0625
1,3,4
2
8
2
0.0625
1,2,4
3
7
3
0.1250
3,4
1,2
7
3
1,2,3
4
6
4
0.1250
2,4
1,3
6
4
1,4
2,3
5
5
0.1250
2,3
1,4
5
5
1,3
2,4
4
6
0.1250
4
1,2,3
4
6
1,2
3,4
3
7
0.1250
3
1,2,4
3
7
2
1,3,4
2
8
0.0625
1
2,3,4
1
9
0.0625
-
1,2,3,4
0
10
0.0625
如果零假设成立,观察的结果应该服从此分布,即出现极端的可能性很小。
如果真是出现小概率,那么我们对零假设的真实性产生怀疑,拒绝零假设。
2.具体计算步骤:
(1)检验假设:
H0:
差值的总体中位数为零。
Md=0
H1:
差值的总体中位数不等于零。
Md≠0
α=0.05。
(2)编秩和计算秩和:
求差值,差值的绝对值由小到大编秩,●差数为零不参加编秩,相同差值求平均秩。
分别求正号和负号的秩和,取绝对值小的为T。
(3)确定概率,下结论:
查附表10,在n=11时,T0.05=11。
现T=24.5>11,故P>0.05,按α=0.05的水准,不拒绝H0。
(★T小,P小)。
3.正态近似:
当研究例数较大时(n>50),秩和T的分布近似正态分布,可以用正态分布理论作假设检验:
这时正态分布的均数和标准差分别等于:
检验的公式为:
二.两独立样本的秩和检验(Wilcoxonranksumtest):
表7.5缺氧条件下猫与兔的生存时间(分)比较
猫
兔
生存时间
秩次
生存时间
秩次
生存时间
秩次
生存时间
秩次
25
9.5
15
1
21
6
28
12
34
15
15
2
21
7
28
13
44
17
16
3
23
8
30
14
46
18
17
4
25
9.5
35
16
46
19
19
5
27
11
n1=5
T1=78.5
n2=14T2=111.5
这是生存时间资料,一般不服从正态分布,个别寿命长的为特大值,样本也较小,需考虑用非参数检验---秩和检验。
1.具体计算步骤:
(1)检验假设:
H0:
两总体生存时间的中位数相等;
H1:
两总体生存时间的中位数不等;α=0.05。
(2)编秩和计算秩和:
两组由小到大混合编秩,有相同值求平均秩(同组相同值可不求平均秩),求例数较少组的秩和(T)。
(数值为零应编秩。
)
(3)确定概率,下结论:
T值在表中两数值之间时,p值大于相应界值,T位于区间之外,P<相应界值。
本例T=T1=78.5,查附表11,T=78.5>78,P<0.01,拒绝H0,可认为猫、兔在缺氧的条件下生存时间不等。
2.正态近似:
当样本较大时,秩和的分布近似正态分布,可以用正态分布理论作假设检验。
这时正态分布的均数和标准差分别等于:
检验公式为:
三.多个样本分布位置相同的假设检验:
完全随机化设计资料分布位置的假设检验(Kruskal-Wallistest)
表7.7不同吸烟习惯母亲的新生儿体重(秩次)(kg)
A
B
C
D
2.7(3)
2.9(4)
3.3(7)
3.5(11)
2.4
(2)
3.2(5)
3.6(12.5)
3.6(12.5)
2.2
(1)
3.2(6)
3.4(9)
3.7(14)
3.4(9)
3.4(9)
4(n)
3
4
3
15(R)
15
37.5
37.5
计算步骤:
1.检验假设:
H0:
k个总体中心位置相等
H1:
k个总体中心位置不全相等
α=0.05
2.计算统计量:
各组由小到大混合编秩;如不同组间出现相同值,求平均秩;计算各组的秩和。
当H0成立时,该检验统计量近似服从自由度为(k-1)的2分布。
校正公式:
tp为相同值的个数。
3.确定概率和判断结果:
自由度=k-1=4-1=3,查χ2值表得χ20.05(3)=7.815,p<0.05,故拒绝零假设,说明不同吸烟习惯对新生儿体重不同。
秩和检验的重点:
秩和检验的优缺点。
不同设计类型资料秩和检验的编秩方法。