第九章体育统计学.docx
《第九章体育统计学.docx》由会员分享,可在线阅读,更多相关《第九章体育统计学.docx(12页珍藏版)》请在冰豆网上搜索。
第九章体育统计学
第九章检验
检验是一种用途较广的显著性检验方法,它既适用于参数估计,也适用于非参数估计,同方差分析F检验一样,检验是一种能同时对多种资料进行检验的方法。
在本章将阐述如何将统计假设检验的概念加以推广,使之适用于样本来自元素可分成三个或更多个类目的总体的情形。
这里只介绍用检验在检验两个以上样本率或构成比之间差异时有无显著性的方法。
第一节分布与表
在第七章叙述总体方差的假设检验时,曾简单提到分布。
定义:
设从标准正态分布N(0,1)中,取出n个样品ui(i=1,2,……,),它们的平方和记作,即
=u12+u22+……+un2=(9-1)
一般称为服从参数为n的的分布。
(卡方分布)
如果从一般正态分布N(,)中,抽出n个样品xi,因为ui=,所以公式(9-1)转化为:
==(9-2)
有时在实用中,用代替,则有
==
这同第七章中提过的相同。
如果将的各种不同数值连同相应的相对出现频数列出,就得到=的抽样分布,这就是自由度为n的分布。
图9-1与几种自由度相对应的分布
由图9-1可看到的样本分布形式有两个特点:
(1)正态,而是正偏态分布,右侧无限延长以横轴为渐近线;
(2)不同自由度的取样分布不同。
随自由度增大,曲线趋于“对称”、“正态”分布。
实际上,在自由度为30时,曲线基本对称且近似正态分布。
分布的实际重要性是基本于这样的事实,即对大样本而言,量
X2=(9-3)
的分布接近于的分布。
式中:
Ai=观察频数,即“实际数”;
Ti=预期频数,即“理论数”;
K=给定情形下实际数与理论数的配对数。
所以近似地有
=(9-4)
公式(9-4)是下面进行检验的常用公式。
检验主要是根据样本算出的值与查值表所得的临界值作比较。
若≥,P(H0)≤,拒绝H0,则称在显著性水平上差异有显著性意义;否则称在水平上差异无显著性意义。
分布的尾端面积或概率P值在附表“值表”中按不同的自由度n′分别列出。
至于自由度n′是直接由资料划分类别的多少所决定的,与样本的大小无关。
确定n′的原则是:
互相排斥的类别数k,减去所受的限制数m,即n′=k-m。
第二节两个样本率差别的检验
当两个样率不同时,可能由两个原因造成:
一是差异由抽样误差所致;二是它们来自不同质的总体,确有不同。
为区分二者,则要做检验。
检验的步骤通过下例说明。
例9-1(资料同7-12)为研究游泳与患慢性鼻炎有无关系,随机抽测游泳与田径两专业的学生进行对比,抽测资料如下:
组别
患病人数
未患病人数
合计
患病率
游泳专业
20(13)
60(67)
80
25%
田径专业
6(13)
74(67)
80
7.5%
合计
26
134
160
16.25%
问患慢性鼻炎是否与专业有关?
(=0.05)
上表中,
20
60
这四个格子内的数字是整个表的基本数
6
74
字,故这种资料称为“四格表资料”,或称为“2×2列联表”。
解:
(1)无效假设H0:
=(两专业患病率相同,均为合计的患病率16.25%)
(2)计算值:
=
实际数A已知,理论数T(表中括号内的数字)是根据H0推算出来的:
先由合计的160人患病26人知理论上的患病率为=
16.25%,则游泳专业80人理论上的患病人数为
T11=80×=13
由此可知理论数的计算公式为:
Trc=(9-5)
式中:
r-行号,c-列号,nr-r行的合计数,
nc-c列的合计数,n-总例数。
这样,T12==67
T21==13
T22==67
∴=
=
=3.7692+0.7313+3.7692+0.7313=9.001
(3)取=0.05;
“行×列表”资料的自由度为:
=(行数-1)(列数-1)=(r-1)(c-1)(9-6)
本例=2-1)(2-1)=1
查值表得到=3.84
(4)判断结果:
∵=9.001>=3.84
∴P(H0)<0.05,拒绝H0,由数据上看,认为患慢性鼻炎与游泳专业有关。
此结论与例7-11用U检验去作的结论一致。
我们还可以用四格表专用公式计算值:
=(9-7)
式中a、b、c、d分别为四格表资料实际数,总例数n=a+b+c+d。
把上例数据
20(a)
60(b)
代入公式(9-7)得:
6(c)
74(d)
=
=≈9.001
结果与前法相同。
另外需要注意:
≈只是一种近似。
在1<T<5,且n>40时,对于自由度为1的四格表来说为减小偏差,需要计算校正的值。
此时:
=(9-8)
=(9-9)
公式(9-8)为公式(9-4)的校正;公式(9-9)为公式(9-7)的校正。
第三节多个样本率(行×列表)的检验
四格表是行×列表中最简单的形式。
至于行×列表(亦称r×c表)的理论与计算步骤均与四格表类同。
用公式=去计算行×列表的值较为麻烦,为简便可用下面公式,由实际数直接计算出值。
=(9-10)
例9-2上例的结论认为患慢性鼻炎与游泳专业有关。
为进一步了解患慢性鼻炎的发病率与游泳专项运动年限有无关系,收集调查资料如下表中。
解:
(1)无效假设H0:
发病率与运动年限无关。
(2)计算值:
=
=281×(+++++++-1)
≈10.36
(3)取=0.05,=(r-1)(c-1)=(4-1)(2-1)=3。
查值表(书后附表6)知=7.81
(4)判断结果:
>,拒绝H0,认为不同运动年限的游泳运动员鼻炎发病率的差别的显著性意义。
行×列表检验的注意事项:
(1)在行×列表中如果有五分之一以上的格子的理论数小于5,或有一个格子的理论数小于1时,则应使理论数小于5的格子与邻组合并以增大理论数。
否则易导致错误的结论。
但合并时要注意是否合理,不同质的资料不可并组!
此时只有增加观察例数再作统计分析。
(2)做行×列表检验得到P(H0)≤0.05,则拒绝无效假设H0,说明被比较的几个样本率之间总的差别有显著性,但不能作出任何两组间差别都有显著性的结论!
要比较某两个样本率之间的差别如何,需另作检验。
分布检验程序
一、程序功能
检验常用于符合度分析。
应用本程序时如按程序所问输入行元素的个数、列元素的个数和每个元素值,程序就能自动计算出其值、自由度数及其结尾值(检验水平)。
使用者将结尾值与给定的显著性水平比较即能得出检验的结果。
二、程序中使用的主要符号说明
Z:
TOTALX-SQUAREVALUE总计值;
V:
DEGREEOFFREEDOM自由度数;
X2:
TAILENDVALUE结尾值。
三、程序所依据的理论计算公式
Z=
其中:
foi为每一组的观察频数;
fei为相应的理论频数。
四、程序名称:
X-SQUARE.TES
5REMX-Square.TES
10PRINT“x-square.Tes”
20PRINT
30DIMV1(25),V2(5),A(5),M(4)
40INPUT“numberofrows=”,R
50PRINT“numberofrows=”;R
60INPUT“numberofcolumns=”,C
70PRINT“numberofcolumns=”;C
80PRINT“Contingencytable:
”
90FORI=1TOR
100PRINT“ROW”;I
110FORJ=1TOC
120PRINT“Element”;J;
125PRINT“Element”,J;
130INPUTE
131EA=(I-1)*C+J
132V1(EA)=E
135PRINTE
136PRINT
140NEXTJ
145PRINT
150NEXTI
160PRINT
170L=0
180M=1
190FORI=1TOR
200FORJ=1TOC
210A(I)=A(I)+V1(M)
220M=M+1
230NEXTJ
240L=L+A(I)
250NEXTI
260N=R*C
270FORI=1TOC
280FORJ=1TONSTEPC
290V2(I)=V2(I)+V1(J)
300NEXTJ
310NEXTI
320Z=0
330PRINT“Observedvalue”;“”;“Expectedvalue”;“”;
“X-SQUARECONTRIBUTION”
340FORI=1TOC
350PRINT“Column”;I
360FORJ=1TOR
370P=A(J)*V2(I)/L
380X=I+(J-1)*C
390Y=(V1(X)-P)^2/P
400Z=Z+Y
410PTINT“”V1(X),“”P,“”;Y
420NEXTJ
430NEXTI
440V=(C-1)*(R-1)
450PRINT“X-square=”;z
460PRINT“Degreeoffreedom=”;v
470PRINT“Tialendvalue=”;
480R=1
490FOTI=VTO2STEP-2
500R=R*I
510NEXTI
520K=Z^(INT((V+1)/2))*EXP(-Z/2)/R
530IFINT(V/2)=V/2THEN560
540J=SQR(2/Z/3.1415926536)
550GOTO570
560J=1
570L=1
580M=1
590V=V+2
600M=M*Z/V
610IFM<.0000001THEN640
620L=L+M
630GOTO590
640X2=1-J*K*L
650PRINTX2
660END
五、例题
用A和B两种方法,对同一物体进行处理的试验结果如下表:
类别有效无效
A4410
B8135
试有检验法检验这两种方法的处理结果有无显著性差别?
(=0.05)
解:
按程序所问输入数据,计算得到结果。
RUN
x-square.Tes
numberofrows=2
numberofcolumns=2
Contingencytable:
Row1
Element144
Element210
ROW2
Element181
Element235
ObservedvalueExpectedvaluex-SquareContribution
Column1
443