第四章非参数检验上课材料文档格式.docx
《第四章非参数检验上课材料文档格式.docx》由会员分享,可在线阅读,更多相关《第四章非参数检验上课材料文档格式.docx(16页珍藏版)》请在冰豆网上搜索。
卡方检验
二项分布检验
单样本k-s检验
单样本变量值随机性检验
两个独立样本
独立样本t检验法
两独立样本非参数检验
曼-惠特尼-U检验
两个相关样本
配对t检验法
两相关样本非参数检验
普通符号法(sign)
多个独立样本
单因素方差分析
多独立样本非参数检验
K-W-H方法
多个相关样本
多因素方差分析
多相关样本非参数检验
Friedman方法
3.2卡方检验(Chi-Square)
总体分布的卡方检验就是根据样本数据推断总体的分布与期望分布或某一理论分布是否有显著差异。
它的零假设是H0:
样本来自的总体其分布形态与期望分布或某一理论分布无显著差异。
总体分布的卡方检验是一种吻合性检验,比较适合于单个因素的多项分类的数据分析。
实例分析:
医学家在研究心脏病人猝死人数与日期的关系时发现,一周之中,星期一心脏病人猝死者较多,其他日期则基本相当,比例近似为2.8:
1:
1。
现收集到样本数据168个,据此推断其总体分布是否与假定的分布相吻合。
见“心脏病人猝死日期.sav”。
具体操作如下:
AnalyzeNonparametricTestsChi-Square,打开卡方检验对话框,如下图。
可以看出,由于相伴概率值大于显著性水平0.05,因此不能拒绝零假设,可以认为样本来自的总体分布于指定的理论分布无显著差异,即:
心脏病人猝死人数与日期的关系基本是2.8:
现实生活中有很多数据的取值是两类的,例如人群可以分成男性和女性,产品可以分为合格和不合格,学生可以分为三好学生和非三号学生等等。
这时,如果某一类情况出现的概率是P,则另一类出现的概率就是1-P,这种分布成为二项分布。
若说卡方检验是对单个因素多项分类(多重比例)进行检验,那么二项分布检验就是对单个因素的两项进行检验。
检验一种抗生素对于某种细菌的作用,看有效时间超过12小时的比例是否超过85%,为此进行了试验,结果如文件“抗菌时间.sav”。
从题中可以知道,等价于有效时间不超过12小时的比例为15%,因此,设分布比例为0.15:
0.85,H0:
P=0.15。
AnalyzeNonparametricTestsBinomial,打开二项分布检验对话框。
可以看出,由于检验结果中的P值为0.352,大于显著性水平0.05,因此不能拒绝“抗菌有效时间不高于12小时的比例为15%”的零假设。
习题1:
见文件“抛掷硬币结果binomial.sav”。
检验抛掷硬币结果(1为正面,0为反面)的比例大体相等。
若说前两种主要是对单样本的分布比例(多项或两项)的检验,那么单样本K(柯尔莫哥,Kolmogorov)-S(斯米诺夫,Smirnov)检验是利用样本数据推断总体是否服从某一理论分布,包括正态分布、均匀分布、指数分布、泊松分布。
其零假设是H0:
其中应用最多的是正态分布检验。
某条大街在一年内的交通事故按周次分为七类进行统计,见文件“交通事故周次分布.sav”。
试问事故的发生是否与星期几有关?
(a=0.05)
我们作的零假设为H0:
每天发生交通事故次数为均匀分布。
步骤:
AnalyzeNonparametricTests1SampleK-STests,打开单样本K-S检验对话框。
单样本k-s检验结果显示:
渐进的显著性概率为0.858,远远大于0.05这一给定的显著性水平值,因此没有理由拒绝原假设,即认为每天发生交通事故次数为均匀分布,也就是说事故的发生与星期几无关。
习题2:
见word文档:
练习2。
3.5单样本变量值随机性检验(游程检验,Runs)
单样本变量值随机性检验是对某一变量的变量值是否为随机性出现进行检验。
例如:
某厂质检员需要设计一个抽样方法,已保证质量检查的可靠。
生产线上抽取的产品检查结果可简单地分为两类:
有毛病、无毛病。
一般来说,如果有毛病的产品是成群出现,则每天应频繁抽取小样本,以保证估计可靠;
如果有毛病的产品随机出现,则每天以间隔较长地抽取大样本,就可以得到一个比较好的估计。
现随机抽取了30个产品,毛病编码为0,好的编码为1,按抽取顺序,结果为:
0000111111001111110001111111
问:
该生产线上的产品检验,应采取何种方式?
设H0:
有毛病的产品随机产生。
打开文件“有毛病产品出现的随机性.sav”。
AnalyzeNonparametricTestsrunsTest,打开单样本变量值随机性检验对话框。
结果显示:
渐进观察显著性水平为0.000,这相对于a=0.05来说,是一个极小的值,因而数据不支持原假设,而是成群产生,因此,应该每天频繁抽取小样本检验,以保证质量检查的可靠性。
习题3:
在投掷硬币后,出现了由1和0(1代表正面,0代表反面)组成的数据序列为:
1011011010011000101010000111,试判断,硬币的正反面出现是否是随机的?
两独立样本的非参数检验是在对总体分布不甚了解的情况下,通过分析样本数据,推断样本来自的两个独立总体的分布是否存在显著差异。
SPSS提供了四种用于两独立样本的非参数检验方法。
在此只以曼-惠特尼-U检验为例讲述。
美国某汽车协会每月编制一个顾客满意度指数,旨在测量顾客对新型汽车满意程度,此指数越高则顾客满意度越高。
下表给出了某年评比出的前10名汽车资料。
车型(制造商)
美国产或进口
顾客满意度指数
凌志(丰田)
进口
179
无限(日产)
167
土星(通用)
国产
160
阿拉库(本田)
148
梅塞德-奔驰
145
丰田
144
奥迪
139
卡迪拉克(通用)
138
本田
捷豹(福特)
137
试分析顾客是否对美国的进口品牌汽车更加满意?
我们建立的H0:
美国产汽车与进口汽车的顾客满意指数相同。
另外,我们还需对国产或进口资料进行重新编码(recode)以分出组别。
打开文件“汽车满意度评比.sav”。
步骤1:
transformrecodeintodifferentvariables,会弹出如下对话框。
之后会看到文件中生成新的变量“国产”,如下图。
步骤2:
AnalyzeNonparametricTests2independentSamples,打开两独立样本检验对话框。
可以看出,相应的渐进显著性检验值为0.253,大于给定的a值,因此,没有理由拒绝原假设,即认为顾客对美国产的新型汽车和进口汽车的满意指数没有显著性差异。
习题4:
某工厂用两种不同的工艺生产用一种产品,现在需要检验它们的使用寿命是否存在显著差异。
具体数据如下:
(单位:
百小时)
甲种工艺:
675,682,692,679,669,661,693
乙种工艺:
662,649,672,663,650,651,646,652
用1表示甲,用2表示乙。
两相关样本的非参数检验是在对总体分布不甚了解的情况下,通过分析样本数据,推断样本来自的两个相关总体的分布是否存在显著差异。
SPSS提供了三种用于两相关样本的非参数检验方法。
在此只以普通符号法(sign)为例讲述。
考察广告对某商品的每日销量是否起作用。
广告前后每日销售量见文件“广告对某商品的每日销量是否起作用.sav”。
我们设H0:
广告前与广告后每日销量相同。
AnalyzeNonparametricTests2RelatedSamples,打开两相关样本检验对话框。
Sig值为0.039,小于a值0.05,所以调查结果不支持H0,广告前后每日销量有显著的差异。
我们认定广告对该种商品的促销还是起作用的。
习题5:
见word文档“习题5”。
3.8多独立样本非参数检验(KindependentSamples)
在参数检验中,检验多个样本是否来自均值相同的总体,采用的是方差分析法。
运用方差分析的F检验的假定前提条件是:
样本是从正态分布的总体中抽选的,且总体具有相同的方差。
当这些条件不能满足时,就需要采用非参数检验方法了。
针对多个独立样本的非参数检验,SPSS通过KindependentSamples的子过程来完成,且提供了三种具体方法,在此以K-W-H方法(克鲁斯卡尔-瓦里斯)为例。
假设某公司有三种方法供员工执行某生产任务使用。
为检验这三种方法之间有无差异,设计了两个方案。
方案1:
先随机抽取6名员工,其中的每一名员工都使用方法1,然后再随机抽取6名员工,这6名都使用方法2。
最后在抽取6名,他们都使用方法3。
具体完成任务时间(分钟)见下表。
表员工完成任务所用时间(方案1)
员工
方法
1
2
3
4
5
6
方法1
7.2
6.8
7.3
6.0
6.6
7.0
方法2
6.5
6.2
5.1
6.1
5.9
6.9
方法3
7.6
7.1
7.4
6.3
7.5
6.4
方案2:
随机抽取6名员工,每一名员工都使用这三种方法执行该任务。
6名员工完成任务时间(分钟)见下表。
表员工完成任务所用时间(方案2)
5.0
5.4
5.2
5.8
6.7
可以看出,方案1是3个独立样本,我们使用K-W-H方法来对其进行检验。
首先建立零假设H0:
三种方法之间没有差异。
打开文件“例7-9(Kruskal-Wallis).sav”
AnalyzeNonparametricTestsKindependentSamples,打开多独立样本检验对话框。
P值为0.039,小于a值0.05,所以有理由拒绝H0,即认为三种方法之间完成该生产任务所用时间存在着显著性差异。
习题6:
假设要比较北京、上海、天津、广州四城市周岁儿童的身高,试分析各总体的分布是否存在显著性差异。
于是在四个城市随机抽取样本,得到以下20个数据。
北京:
79,75,78,76,72
上海:
72,71,74,74,73
天津:
76,78,78,77,75
广州:
70,72,71,71,69
3.9多相关样本非参数检验(KRelatedSamples)
另外,还可以看出,方案2是3个相关样本,我们使用Friedman方法来对其进行检验。
打开文件“例7-9(Friedman).sav”
注意:
可以看出此文件中的变量和刚才不同:
独立样本中不同样本可以在一个变量中体现,而在相关样本文件中,不同样本各自建立不同的变量。
AnalyzeNonparametricTestsKRelatedSamples,打开多相关样本检验对话框。
P值为0.016,小于a值0.05,所以有理由拒绝H0,即认为三种方法之间完成该生产任务所用时间存在着显著性差异。