SPSS学习系列24 卡方检验Word文档下载推荐.docx
《SPSS学习系列24 卡方检验Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《SPSS学习系列24 卡方检验Word文档下载推荐.docx(23页珍藏版)》请在冰豆网上搜索。
检验某产品市场份额是否比以前更大;
检验某疾病的发病率是否比以前降低。
有数据文件:
检验“性别”的男女比例是否相同(各占1/2)。
1.【分析】——【非参数检验】——【单样本】,打开“单样本非参数检验”窗口,【目标】界面勾选“自动比较观察数据和假设数据”
2.【字段】界面,勾选“使用定制字段分配”,将变量“性别”选入【检验字段】框;
注意:
变量“性别”的度量标准必须改为“名义”类型。
3.【设置】界面,选择“自定义检验”,勾选“比较观察可能性和假设可能性(卡方检验)”;
4.点【选项】,打开“卡方检验选项”子窗口,本例要检验男女概率都=0.5,勾选“所有类别概率相等”;
注:
若有类别概率不等,需要勾选“自定义期望概率”,在其表中设置各类别水平及相应概率。
点【确定】回到原窗口,点【运行】得到
双击上表,得到更多的描述:
结果说明:
(1)男生的观察频数为28,理论频数为25,残差=3;
女生的观察频数为22,理论频数为25,残差=-3;
可以计算
卡方值=[32+(-3)2]/25=0.72
(2)卡方检验的P值=0.396>
0.05,故接受原假设H0,即认为男女性别人数无差异。
卡方检验的P值是近似P值,若用“二项分布检验”计算出精确P值=0.480.另外,上述卡方检验也可以用:
【分析】——【非参数检验】——【旧对话框】——【卡方】
得到的结果是一致的。
二、两样本或多样本案例——比较不同类的构成比或发生率的差异
问题:
两组收入不同的受访家庭其轿车拥有率的比较。
使用【交叉表】的卡方检验来实现,需要注意:
若交叉表中存在有序分类变量,则适合用秩和检验而不是卡方检验。
变量O1表示是否拥有轿车:
“1=有,2=没有”;
变量Ts9表示收入级别:
“1=4.8万以上,2=4.8万以上”。
1.【分析】——【描述统计】——【交叉表】,打开“交叉表”窗口,将变量“Ts9收入级别”选入【行】框,将变量“O1是否拥有轿车”选入【列】框,根据需要勾选“显示复式条形图”;
2.点【统计量】,打开“统计量”子窗口,勾选“卡方”表示进行卡方检验;
3.点【继续】回到原窗口,点【单元格】打开“单元显示”窗口,【计数】输出观察频数和理论频数,默认勾选“观察值”;
【百分比】勾选“行”;
【非整数权重】设置小数权重问题,保持默认;
“残差”设置残差的输出方式;
“z-检验”对多于两组的数据做两两组间比较;
点【继续】回到原窗口,点【确定】得到
案例处理摘要
案例
有效的
缺失
合计
N
百分比
家庭收入2级*O1.是否拥有家用轿车
989
86.2%
158
13.8%
1147
100.0%
家庭收入2级*O1.是否拥有家用轿车交叉制表
O1.是否拥有家用轿车
有
没有
家庭收入2级
Below48,000
计数
32
303
335
家庭收入2级中的%
9.6%
90.4%
Over48,000
225
429
654
34.4%
65.6%
257
732
26.0%
74.0%
低收入家庭有9.6%拥有轿车;
高收入家庭34.4%拥有轿车。
卡方检验
值
df
渐进Sig.(双侧)
精确Sig.(双侧)
精确Sig.(单侧)
Pearson卡方
71.134a
1
.000
连续校正b
69.848
似然比
80.146
Fisher的精确检验
线性和线性组合
71.062
有效案例中的N
a.0单元格(0.0%)的期望计数少于5。
最小期望计数为87.05。
b.仅对2x2表计算
脚注a说明没有单元格的期望频数<
5,满足Pearson卡方检验要求,故看Pearson卡方检验结果即可:
P值=0<
0.05,拒绝原假设H0,即高低收入不同的家庭轿车拥有上的差异有统计学意义。
(1)“Pearson卡方”:
最标准最常用;
(2)“连续校正”:
只适用于4格表,样本量>
40,所有期望频数都>
1,只有1/5以下的单元格期望频数<
5;
(3)“Fisher精确检验”:
不需要近似,结果最精确,但耗时多;
若样本量<
40,有单元格的期望频数<
1的4格表,需要用该检验;
若有单元格的期望频数<
1,或<
5的期望频数较多,也可采用该检验;
(4)“似然比”:
用似然比公式计算卡方,在处理多维表是有更大优势;
(5)“线性卡方”:
检验的原假设H0是行列变量间无线性相关,在列联表分类变量中很少用,更多用于连续变量。
(三)检验两分类变量间的关联程度
例如,进行客户满意度研究中,价格、质量、服务都与总体满意度相关,哪项与总体满意度关系更密切?
卡方值的大小可以粗略地反映两变量联系的强弱,更精确的描述可以用“相对危险度”和“优势比”。
(1)相对危险度(RR)
实验组人群反应阳性概率与对照组人群反应阳性概率的比值,即
用于反应实验因素与反应阳性的关联程度,RR=1表明二者无关联;
RR<
1表明实验因素导致反应阳性的发生率降低。
(2)优势比(OR)
有时反应阳性概率的估计值很难求得(如回顾性研究),往往使用优势比代替RR值。
优势比是反应阳性人群中实验因素有无的比例与反应阴性人群中实验因素有无的比例之比,即
若OR>
1,则表明实验因素更容易导致结果为阳性,或者说“采用的实验因素”与“结果为阳性”有关联。
当反应阳性概率<
0.1时,OR可作为RR的近似。
优势比是两个比数之比,例如,女性购买与不购买某产品的比数是男性该比数的3倍。
描述家庭收入级别与拥有轿车的关联程度
1.【分析】——【描述统计】——【交叉表】,打开“交叉表”窗口,将变量“Ts9收入级别”选入【行】框,将变量“O1是否拥有轿车”选入【列】框;
2.点【统计量】,打开“统计量”子窗口,勾选“风险”用来计算OR值和RR值;
风险估计
95%置信区间
下限
上限
家庭收入2级(Below48,000/Over48,000)的几率比
.201
.135
.300
用于cohortO1.是否拥有家用轿车=有
.278
.196
.392
用于cohortO1.是否拥有家用轿车=没有
1.379
1.291
1.472
(1)优势比OR是两个比数之比:
低收入家庭拥有轿车的比例为9.6%,没有轿车的比例是90.4%,其比数为9.6%/90.4%=0.106;
高收入家庭的比数为:
34.4%/65.6%=0.524;
故
OR值=0.106/0.524=0.201
该值的95%置信区间=[0.135,0.3],不包含1(有统计学意义);
(2)相对危险度RR1是两组人群拥有轿车的概率之比,其估计值为9.6%/34.4%=0.278,说明高收入家庭拥有轿车的概率是低收入家庭的1/0.278=3.597倍,RR1值的95%置信区间=[0.196,0.392],不包含1(有统计学意义);
(3)相对危险度RR2是两组人群没有轿车的概率之比,估计值为90.4%/65.6%=1.379.
上述三个指标实际上是等价的;
另外,OR值也等于有车与无车的相对危险度之比(0.278/1.379=0.201)。
(四)分层卡方检验
前文已经得到家庭收入级别会影响轿车拥有情况,那么进一步,不同城市是否存在差异?
即“城市”因素是否也是影响轿车拥有的协变量?
另外“学历”因素呢?
分层卡方检验就是解决上述问题常用的一种方法。
在前文的基础上,进一步在控制“城市”的影响的前提下,更准确地描述家庭收入与轿车拥有的关联程度。
1.【分析】——【描述统计】——【交叉表】,打开“交叉表”窗口;
将变量“Ts9收入级别”选入【行】框,将变量“O1是否拥有轿车”选入【列】框;
将变量“s1城市”选入【层1的1】框;
2.点【统计量】,打开“统计量”子窗口,勾选“风险”、“Cochran’sandMantel-Haenszel统计量”,点【继续】;
点【确定】,得到结果
家庭收入2级*O1.是否拥有家用轿车*S1.城市交叉制表
S1.城市
100北京
9
93
102
83
134
217
92
227
319
200上海
4
103
107
70
160
230
74
263
337
300广州
19
126
72
135
207
91
242
333