非参数统计列联表卡方检验.docx
《非参数统计列联表卡方检验.docx》由会员分享,可在线阅读,更多相关《非参数统计列联表卡方检验.docx(20页珍藏版)》请在冰豆网上搜索。
非参数统计列联表卡方检验
非参数统计期末大作业
一、Wilcoxon符号秩检验
某个公司为了争夺竞争对手的市场,决定多公司重新定位进行宣传。
在广告创意中,预计广告投放后会产生效果。
一组不看广告组和一组看广告,抽取16位被调查者,让起给产品打分。
现有数据如下
不看广告
62
83
96
99
71
60
97
100
看广告
87
92
90
86
94
95
82
91
分析广告效应是否显著。
1、手算
建立假设:
H0:
广告效应不显著
H1:
广告效应显著
不看广告组记为x,看广告组记为y。
检验统计量计算表
X
Y
D=x-y
|D|
|D|的秩
D的符号
62
87
-25
25
7
-
83
92
-9
9
2.5
-
96
90
6
6
1
+
99
86
13
13
4
+
71
94
-23
23
6
-
60
95
-35
35
8
-
97
82
15
15
5
+
100
91
9
9
2.5
+
由表可知:
T+=1+4+5+2.5=12.5
T-=7+2.5+6+8=23.5
根据n=8,T+和T-中较大者T-=23.5,查表得,T+的右尾概率为0.230到0.273,在显著性水平
下,P值显然较大,故没有理由拒绝原假设,表明广告效应不显著。
2、Spss
在spss中输入八组数据(数据1):
选择非参数检验中的两个相关样本检验
对话框中选择Wilcoxon,输出如下结果(输出1):
Ranks
N
MeanRank
SumofRanks
看广告-不看广告
NegativeRanks
4a
3.12
12.50
PositiveRanks
4b
5.88
23.50
Ties
0c
Total
8
a.看广告<不看广告
b.看广告>不看广告
c.看广告=不看广告
由上表,负秩为4,正秩也为4,同分的情况为0,总共8。
负秩和为12.5,正秩和为23.5,与手算结果一致
TestStatisticsb
看广告-不看广告
Z
-.771a
Asymp.Sig.(2-tailed)
.441
a.Basedonnegativeranks.
b.WilcoxonSignedRanksTest
由上表,Z为负,说明是以负秩为基础计算的结果,其相应的双侧渐进显著性结果为0.441,明显大于0.05,因此在
的显著性水平下,没有理由拒绝原假设,即表明广告效应不显著,与手算的结论一致。
3、R语言(R语言1)
输入语句:
x=c(62,83,96,99,71,60,97,100)
y=c(87,92,90,86,94,95,82,91)
wilcox.test(x,y,exact=F,cor=F)
输出结果:
Wilcoxonranksumtest
data:
xandy
W=33,p-value=0.9164
alternativehypothesis:
truelocationshiftisnotequalto0
由输出结果可知,P=0.9164,远大于
=0.05,因此没有理由拒绝原假设,即广告效应并不显著,与以上结果一致。
二、Wald-Wolfowitz游程检验
有低蛋白和高蛋白两种料喂养大白鼠,以比较它们对大白鼠体重的增加是否有显著不同的影响,为此对m=10,n=10只大白鼠分别喂养低蛋白和高蛋白两种饲料,得增重量X,Y(单位:
g)的表如下:
饲料
增重量
低蛋白X
64
71
72
75
82
83
84
90
91
96
高蛋白Y
42
52
61
65
69
75
78
78
78
81
给定显著性水平
=0.05,试用游程检验法检验两种饲料的影响有无显著差异。
1、手算
建立假设:
H0:
两种饲料对大白鼠无显著差异
H1:
两种饲料对大白鼠有显著差异
将X,Y的数据按从小到大混合排列,得X,Y的混合样本序列:
YYYXYYXXXYYYYYXXXXXX
故得游程总数U=6,m=10,n=10,查表得,U=6的概率为0.019,由于是双侧检验,对于显著性水平
=0.05,对应的P值为2
因此拒绝原假设,即表明两种饲料对大白鼠有显著差异。
2、Spss
在spss中输入数据(数据2)
在非参数检验中选择两个独立样本检验
对话框:
在DefineGroups输入1和2。
在TestType选中Wald-Wolfowitzruns。
输出结果如下(输出2):
Frequencies
分组
N
增重量
1
10
2
10
Total
20
TestStatisticsb,c
NumberofRuns
Z
ExactSig.(1-tailed)
增重量
MinimumPossible
6a
-2.068
.019
MaximumPossible
8a
-1.149
.128
a.Thereare2inter-grouptiesinvolving4cases.
b.Wald-WolfowitzTest
c.GroupingVariable:
分组
由上表,P值与手算结果一致,因此也拒绝原假设,即表明两种饲料对大白鼠有显著差异。
三、Kolmogorov-Smirnov检验
为了研究两家电信运营商套餐在目标市场的年龄维度上的分布是否相同,该电信运营公司开展了一个社会调查活动。
数据如下:
两种通信套餐的用户年龄
套餐1
套餐2
18
22
18
48
25
51
22
34
24
42
23
26
26
44
31
38
分析两种套餐的目标市场年龄的分布是否存在显著性差异。
1、手算
建立假设:
H0:
两种套餐的目标市场年龄分布不存在显著差异
H1:
两种套餐的目标市场年龄分布存在显著差异
检验统计量D的计算表
年龄
f1
f2
S1(x)
S2(x)
S1(x)-S2(x)
18
1
0
1
0
1/7
0
1/7
18
1
0
2
0
2/7
0
2/7
22
1
1
3
1
3/7
1/9
20/63
23
1
0
4
1
4/7
1/9
29/63
24
1
0
5
1
5/7
1/9
38/63
25
1
0
6
1
6/7
1/9
47/63
26
1
1
7
2
1
2/9
7/9
31
0
1
7
3
1
3/9
6/9
34
0
1
7
4
1
4/9
5/9
38
0
1
7
5
1
5/9
4/9
42
0
1
7
6
1
6/9
3/9
44
0
1
7
7
1
7/9
2/9
48
0
1
7
8
1
8/9
1/9
51
0
1
7
9
1
1
0
由上表,找出检验统计量D=max
=7/9,m=7,n=9,mnD=
,查表得,相应的P值为0.008,在5%的显著性水平上,P值足够小,因此拒绝原假设,表明两种套餐的目标市场年龄分布存在显著差异。
2、spss
输入数据(数据3)
在非参数检验中选择两个独立样本检验:
对话框:
运营商1和2分类的变量输入到GroupingVariable,在DefineGroups输入1和2。
在TestType选中Kolmogorov-Smirnov。
在点Exact时打开的对话框中可以选择精确方法(Exact)。
输出结果如下(输出3);
Frequencies
运营商
N
年龄
1
7
2
9
Total
16
TestStatisticsa
年龄
MostExtremeDifferences
Absolute
.778
Positive
.000
Negative
-.778
Kolmogorov-SmirnovZ
1.543
Asymp.Sig.(2-tailed)
.017
ExactSig.(2-tailed)
.008
PointProbability
.006
a.GroupingVariable:
运营商
由上表:
精确计算的双尾P值为0.008,与手算结果一致,表明两种套餐的目标市场年龄分布存在显著差异。
四、k个独立样本的Kruskal-Wallis检验
为检测四种防护服对人脉搏的影响,找来20人试穿,每种有5人试穿,测量试穿者的脉搏,得到以下表格:
试穿者
防护服1
防护服2
防护服3
防护服4
1
130
104
123
133
2
111
116
119
128
3
114
106
115
130
4
123
98
120
112
5
115
104
117
110
问:
穿四种防护服测得的脉搏有无差异。
1、手算
建立假设:
H0:
测得的脉搏没有显著差异
H1:
测得的脉搏有显著差异
脉搏等级整理如下:
防护服1
防护服2
防护服3
防护服4
18.5
2.5
15.5
20
6
11
13
17
8
4
9.5
18.5
15.5
1
14
7
9.5
2.5
12
5
秩和
57.5
21
64
67.5
计算检验统计量H:
查表:
自由度df=3,显著性水平
临界值卡方=7.82。
显然,H=7.854>卡方=7.82,所以拒绝原假设,表明四种防护服对脉搏的影响有显著差异。
2、spss
输入20个观测值(数据4)
在非参数检验中选择k个独立样本检验
防护服分组定义为1到4
操作如下图:
输出结果如下(输出4):
Ranks
防护服
N
MeanRank
脉搏
1
5
11.50
2
5
4.20
3
5
12.80
4
5
13.50
Total
20
TestStatisticsa,b
脉搏
Chi-Square
7.878
df
3
Asymp.Sig.
.049
a.KruskalWallisTest
b.GroupingVariable:
防护服
由上表,卡方与手算十分接近,拒绝原假设,即表明四种防护服对脉搏的影响有显著性差异。
3、中位数检验
20个数,中位数为115.5,
整理每个总体中大于或小于该中位数的观测值个数,如下表:
1
2
3
4
>115.5
2
1
4
3
10
<=115.5
3
4
1
2
10
5
5
5
5
20
计算Q检验量
Q统计量小于卡方=7.82,没有理由拒绝原假设,表明四种防护服对脉搏的影响没有显著差异。
Spss:
在testtype中选择中位数,输出结果如下:
Frequencies
防护服
1
2
3
4
脉搏
>Median
2
1
4
3
<=Median
3
4
1
2
TestStatisticsb
脉搏
N
20
Median
115.50
Chi-Square
4.000a
df
3
Asymp.Sig.
.261
a.8cells(100.0%)haveexpectedfrequencieslessthan5.Theminimumexpectedcellfrequencyis2.5.
b.GroupingVariable:
防护服
卡方值为4,与手算结果一致,不拒绝原假设,即表明四种防护服对脉搏的影响没有显著性差异
综上,两种算法的结果不一致!
!
?
?
?
?
?
4、R语言
输入语句(R语言2):
x=c(130,111,114,123,115,104,116,106,98,104,123,119,115,120,117,133,128,130,112,110)
y=c(1,1,1,1,1,2,2,2,2,2,3,3,3,3,3,4,4,4,4,4)
kruskal.test(x,y)
输出结果:
>kruskal.test(x,y)
Kruskal-Wallisranksumtest
data:
xandy
Kruskal-Wallischi-squared=7.878,df=3,p-value=0.0486
与以上的手算和KS检验法结果一致,拒绝原假设,表明四种防护服防护服对脉搏的影响存在显著差异。
五、列联表卡方检验
一种原料来自三个不同的地区,原料质量被分成三个不同等级。
从这批原料中随机抽取500件进行检验,得样本数据如下表所示,要求检验地区与原料质量之间有无依赖关系。
一级
二级
三级
合计
地区1
52
64
24
140
地区2
60
59
52
171
地区3
50
65
74
189
合计
162
188
150
500
1、手算:
建立假设:
地区
等级
1
1
52
45.36
0.97
1
2
64
52.64
2.45
1
3
24
42
7.71
2
1
60
55.4
0.38
2
2
59
64.3
0.44
2
3
52
51.3
0.01
3
1
50
61.24
2.06
3
2
65
71.06
0.52
3
3
74
56.7
5.28
合计
19.82
查表得,
,由于Q=19.82>
,因此拒绝原假设,即认为地区与原料质量相关。
2、SPSS:
操作:
Data——WeightCases
Analyze——DescriptiveStatistics——Crosstabs
地区*等级Crosstabulation
等级
Total
一级
二级
三级
地区
地区1
Count
52
64
24
140
ExpectedCount
45.4
52.6
42.0
140.0
地区2
Count
60
59
52
171
ExpectedCount
55.4
64.3
51.3
171.0
地区3
Count
50
65
74
189
ExpectedCount
61.2
71.1
56.7
189.0
Total
Count
162
188
150
500
ExpectedCount
162.0
188.0
150.0
500.0
Chi-SquareTests
Value
df
Asymp.Sig.(2-sided)
ExactSig.(2-sided)
ExactSig.(1-sided)
PointProbability
PearsonChi-Square
19.822a
4
.001
.b
LikelihoodRatio
20.732
4
.000
.000
Fisher'sExactTest
20.510
.000
Linear-by-LinearAssociation
13.963c
1
.000
.000
.000
.000
NofValidCases
500
a.0cells(.0%)haveexpectedcountlessthan5.Theminimumexpectedcountis42.00.
b.Cannotbecomputedbecausethereisinsufficientmemory.
c.Thestandardizedstatisticis3.737.
由输出结果可知,检验统计量为19.822,精确双尾显著性概率P远远小于显著性水平0.05,因此拒绝原假设,即认为地区与原料质量相关。
与手算结果一致。