SPSS学习系列24卡方检验.docx
《SPSS学习系列24卡方检验.docx》由会员分享,可在线阅读,更多相关《SPSS学习系列24卡方检验.docx(23页珍藏版)》请在冰豆网上搜索。
![SPSS学习系列24卡方检验.docx](https://file1.bdocx.com/fileroot1/2023-2/24/d62287ef-e21f-42e0-8be7-1de42f260804/d62287ef-e21f-42e0-8be7-1de42f2608041.gif)
SPSS学习系列24卡方检验
24.卡方检验
卡方检验,是针对无序分类变量的一种非参数检验,其理论依据是:
实际观察频数f0与理论频数fe(又称期望频数)之差的平方再除以理论频数所得的统计量,近似服从2分布,即
2性成~G)
fe
卡方检验的一般是用来检验无序分类变量的实际观察频数和理论频
数分布之间是否存在显著差异,二者差异越小,2值越小。
卡方检验要求:
(1)分类相互排斥,互不包容;
(2)观察值相互独立;
(3)样本容量不宜太小,理论频数A5,否则需要进行校正(合并
单元格、增加样本数、去除样本法、使用校正公式校正卡方值)。
卡方校正公式为:
2(|f°fe|0.5)2
fe
卡方检验的原假设Ho:
2=0;备择假设Hi:
2丰0;
卡方检验的用途:
(1)检验某连续变量的数据是否服从某种分布(拟合优度检验);
(2)检验某分类变量各类的出现概率是否等于指定概率;
(3)检验两个分类变量是否相互独立(关联性检验);
(4)检验控制某几个分类因素之后,其余两个分类变量是否相互独
立;
(5)检验两种方法的结果是否一致,例如两种方法对同一批人进行
诊断,其结果是否一致。
(一)检验单样本某水平概率是否等于某指定概率
一、单样本案例
例如,检验彩票中奖号码的分布是否服从均匀分布(概率=某常值);
检验某产品市场份额是否比以前更大;检验某疾病的发病率是否比以
前降低。
有数据文件:
巳小
敏学成茨
英语成营
1
1
1
60
66
4
2
1
1
42
58
5
3
1
1
7S
95
3
4
1
2
65
74
4
[5
1
2
一68
B4
4
6'
1
1
57
58
5
1
1
1
55
68
5
8
1
1
<37
80
1
g
1
2
87
93
2
10
1
2
92
93
1
11
1
2
二75
85
3
12
1
1
55
54
5
检验“性别”的男女比例是否相同(各占1/2)
1.【分析】一一【非参数检验】一一【单样本】,打开“单样本非参数检验”窗口,【目标】界面勾选“白动比较观察数据和假设数据”
落点宇槎设苫
便用一命划争个非基敛信废阳剂单个字#中的在别*弗史敷槌股不唯定您的数据呈正态分布、
嘶目标割■会?
曜个目标射应-段登朝卡上的一F不E威以媛'如有得丑•培Rf『专冒匕A波萱-
•国祯比萩观葬数据和嵌设散据也卞
曲检助睫机序列【少
€>自一定又撕(③
|描述
使用二坂式堵验、卡方枝验洗Kolmogorw-SmiiiDV自劫EE勃观察教据和假设戡摆-根据您的题据建择不同的棍验。
7"]-.疝£I重吨-1心一l碎辂剧
2.【字段】界面,勾选“使用定制字段分配”,将变量“性别”选入
【检验字段】框;
注意:
变量“性别”的度量标准必须改为“名义”类型。
3.【设置】界面,选择“白定义检验”,勾选“比较观察可能性和假
4.点【选项】,打开“卡方检验选项”子窗口,本例要检验男女概率都=,勾选“所有类别概率相等”;
在其表中设
注:
若有类别概率不等,需要勾选“白定义期望概率”置各类别水平及相应概率。
点【确定】回到原窗口,点【运行】得到
偷役检髓汇总
Sig.
枯者
1健9I的舞到以粘同演蹬装宣.
蚣
39®
S3.
配示南派是营忤.是离哇极手电05.
双击上表,得到更多的描述:
启计N
50
72C
自由度
I
箔避也蔷姓(Z-sidod赣推)
.396
钉J":
fe响T.ILIH3最小期甲(SFK
结果说明:
(1)男生的观察频数为28,理论频数为25,残差=3;女生的观察频
数为22,理论频数为25,残差=-3;可以计算
卡方值=[32+(-3)2]/25=
(2)卡方检验的P值=>,故接受原假设成即认为男女性别人数无差异。
注:
卡方检验的P值是近似P值,若用“二项分布检验”计算出精确
P值=.另外,上述卡方检验也可以用:
【分析】一一【非参数检验】
——【旧对话框】一一【卡方】
二、两样本或多样本案例一一比较不同类的构成比或发生率的差异问题:
两组收入不同的受访家庭其轿车拥有率的比较。
使用【交叉表】的卡方检验来实现,需要注意:
若交叉表中存在有序分类变量,则适合用秩和检验而不是卡方检验。
有数据文件:
1.【分析】一一【描述统计】一一【交叉表】,打开“交叉表”窗口,将变量“Ts9收入级别”选入【行】框,将变量“O1是否拥有轿车”选入【列】框,根据需要勾选“显示复式条形图”;
2.点【统计量】,打开“统计量”子窗口,勾选“卡方”表示进行卡
方检验;
瞑交叉表:
舞计是
/丰方切!
□相宾性四
Cochran'sancMartelHaens^d统计量;(A)
3.点【继续】回到原窗口,点【单元格】打开“单元显示”窗口,【计数】输出观察频数和理论频数,默认勾选“观察值”;【百分比】勾选
“行”;【非整数权重】设置小数权重问题,保持默认;
注:
“残差”设置残差的输出方式;“z-检验”对多于两组的数据做两
两组间比较;
点【继续】回到原窗口,点【确定】得到
案例处理摘要
案例
有效的
缺失
合计
N
百分比
N
百分比
N
百分比
彖庭收入2级*O1.是否拥有家用轿车
989
%
158
%
1147
%
家庭收入2级*O1,是否拥有家用轿车交叉制表
O1.是否拥有家用轿车
合计
有
没有
计数
32
303
335
Below48,000
家庭收入2级中的%
%
%
%
家庭收入2级
计数
225
429
654
Over48,000
家庭收入2级中的%
%
%
%
计数
257
732
989
合计
家庭收入2级中的%
%
%
%
低收入家庭有帅有轿车;高收入家庭涮有轿车
卡方检验
值
df
渐进Sig.(双侧)
精确Sig.(M侧)
精确Sig.(单侧)
Pearson卡方
1
.000
连续校正b
1
.000
似然比
1
.000
Fisher的精确检验
.000
.000
线性和线性组合
1
.000
有效案例中的N
989
a.0单元格%)的期望计数少于5。
最小期望计数为
b.仅对2x2表计算
脚注a说明没有单元格的期望频数<5,满足Pearson卡方检验要求,
故看Pearson卡方检验结果即可:
P值=0<,拒绝原假设H0,即高低收入不同的家庭轿车拥有上的差异有统计学意义。
注:
(1)“Pearson卡方”:
最标准最常用;
(2)“连续校正”:
只适用于4格表,样本量>40,所有期望频数都>1,只有1/5以下的单元格期望频数<5;
(3)“Fisher精确检验”:
不需要近似,结果最精确,但耗时多;
若样本量<40,有单元格的期望频数<1的4格表,需要用该检验;若
有单元格的期望频数<1,或<5的期望频数较多,也可采用该检验;
(4)“似然比”:
用似然比公式计算卡方,在处理多维表是有更大优势;
(5)“线性卡方”:
检验的原假设H0是行列变量间无线性相关,在列联表分类变量中很少用,更多用于连续变量。
(3)检验两分类变量间的关联程度
例如,进行客户满意度研究中,价格、质量、服务都与总体满意度相
关,哪项与总体满意度关系更密切
卡方值的大小可以粗略地反映两变量联系的强弱,更精确的描述可以
用“相对危险度”和“优势比”。
(1)相对危险度(RR)
实验组人群反应阳性概率与对照组人群反应阳性概率的比值,即
RR呈业
Pcc/nc
用于反应实验因素与反应阳性的关联程度,RR=1表明二者无关联;
RR<1表明实验因素导致反应阳性的发生率降低。
(2)优势比(OR)
有时反应阳性概率的估计值很难求得(如回顾性研究),往往使用优
势比代替RR值。
优势比是反应阳性人群中实验因素有无的比例与反
应阴性人群中实验因素有无的比例之比,即
a/bad
OR-
c/dbc
若OR>1,则表明实验因素更容易导致结果为阳性,或者说“采用的实验因素”与“结果为阳性”有关联。
注:
当反应阳性概率<时,OR可作为RR的近似。
优势比是两个比数之比,例如,女性购买与不购买某产品的比数是男性该比数的3倍。
问题:
描述家庭收入级别与拥有轿车的关联程度
1.【分析】一一【描述统计】一一【交叉表】,打开“交叉表”窗口,将变量“Ts9收入级别”选入【行】框,将变量“O1是否拥有轿车”选入【列】框;
2.
2.点【统计量】,打开“统计量”子窗口,勾选“
OR值和RR值;
国交灵表:
细■t■星
'Cochran'sandMantd-Haenazd统计量(A)检验一般「留比等于-1
点【继续】回到原窗口,点【确定】得到
家庭收入2级*O1,是否拥有家用轿车交叉制表
O1.是否拥有家用轿车
合计
有
没有
计数
32
303
335
Below48,000
家庭收入2级中的%
%
%
%
家庭收入2级
计数
225
429
654
Over48,000
家庭收入2级中的%
%
%
%
计数
257
732
989
合计
家庭收入2级中的%
%
%
%
风险估计
值
95%置信区间
下限
上限
家庭收入2级(Below48,000/Over
48,000)的几率比
用于cohortO1.是否拥有家用轿车=
有
用于cohortO1.是否拥有家用轿车=
没有
有效案例中的N
.201
.278
989
.135
.196
.300
.392
(1)优势比OR是两个比数之比:
低收入家庭拥有轿车的比例
为%,没有轿车的比例是%,其比数为%/%=;高收入家庭的比数为:
%
/%=;故
OR值==
该值的95%置信区间=[,],不包含1(有统计学意义);
(2)相对危险度RR1是两组人群拥有轿车的概率之比,其估计值为%
/%=,说明高收入家庭拥有轿车的概率是低收入家庭的1/=倍,RR1
值的95%置信区间=[,],不包含1(有统计学意义);
(3)相对危险度RR握两组人群没有轿车的概率之比,估计值为%/%
注:
上述三个指标实际上是等价的;另外,OR值也等于有车与无车的相对危险度之比(/=)
(四)分层卡方检验
前文已经得到家庭收入级别会影响轿车拥有情况,那么进一步,不同
城市是否存在差异即“城市”因素是否也是影响轿车拥有的协变量另外“学历”因素呢
分层卡方检验就是解决上述问题常用的一种方法。
问题:
在前文的基础上,进一步在控制“城市”的影响的前提下,更准确地描述家庭收入与轿车拥有的关联程度。
1.【分析】一一【描述统计】一一【交叉表】,打开“交叉表”窗口;将变量“Ts9收入级别”选入【行】框,将变量“01是否拥有轿车”选入【列】框;将变量“si城市”选入【层1的1】框;
[确定J.枯贴©:
|a置[瞬][帮助:
2.点【统计量】,打开“统计量”子窗口,勾选“风险”、“CochranS
andMantel-Haenszel统计量”,点【继续】;
.辛方担)
-名义
相依系敬。
I"己ii和C「anifr蛮景
ULambdaiL)
□不定性策教。
按区闯标定
匚Eta_j相矣■性(B)
有序
LGamma(G)
Somers'd(S)
IKendall的taub(B)rKendall'stau-c(C)
IKappa-K)
2浏险。
)
McNem^r^M}
■■■■■■■■■Mill■■■■»■■■■»■■■■!
■■■■■■■■■■■nW1B■■■■■■■■■rMU■■■■MlB■VMllll■■■■■■■■■■■■■■»■■■■■■■■■
ViCochran^andHartclFacnszel统计量(A)谖屉钉…一-—-…一”-”一-
[卷取潸帮昉|
点【确定】,得到结果
家庭收入2级*O1.是否拥有家用轿车*S1.城市交叉制表
计数
风险估计
S1,城市
值
95%置信区间
下限
上限
家庭收入2级(Below48,000/Over
48,000)的几率比
用于cohortO1.是否拥有家用轿车=
.156
.075
.326
100北京有
用于cohortO1.是否拥有家用轿车=
没有
有效案例中的N
家庭收入2级(Below48,000/Over
.231
319
.121
.440
48,000)的几率比
用于cohortO1.是否拥有家用轿车=
.089
.031
.251
200上海有
用于cohortO1.是否拥有家用轿车=
没有
有效案例中的N
家庭收入2级(Below48,000/Over
.123
337
.046
.328
48,000)的几率比
用于cohortO1.是否拥有家用轿车=
.333
.189
.586
300广州有
用于cohortO1.是否拥有家用轿车=
没有
有效案例中的N
家庭收入2级(Below48,000/Over
.434
333
.275
.683
48,000)的几率比
用于cohortO1.是否拥有家用轿车=
.201
.135
.300
合计有
用于cohortO1.是否拥有家用轿车=
没有
有效案例中的N
.278
989
.196
.392
由于设置了分层变量,故按分层变量的水平值单独对每一层进行风险估计。
上海的OR值=,而广州的OR值=,说明是有地区差异的
几率比的均一性检验
卡方
df
渐进Sig.倒侧)
Breslow-Day
Tarone的
2
2
.046
.046
层间差异的检查结果(不同城市家庭收入与轿车拥有的联系是否
相同),原假设H0:
层间无差异;P值=<,拒绝原假设H0,即不同城市是有差异的,因此不能简单地将不同城市数据总体处理得到结果。
条件的独立性检验
卡方
df
渐进Sig.(双侧)
Cochran的
Mantel-Haenszel
1
1
.000
.000
在条件的独立性假定下,仅当层数固定时Cochran的统计量才渐进分布为1df卡方
分布,而Mantel-Haenszel统计量始终渐进分布为1df卡方分布。
注意,当观测值
和期望值差值之和为0时,将从Mantel-Haenszel统计量中删除连续校正。
分层卡方检验(即去除分层因素“城市”的影响之后,家庭收入与轿车拥有的关联性)的两种结果:
CMH卡方检验和MH卡方检验,前者是后者的改进。
P值=0<,说明“家庭收入”与“轿车拥有”有关联,但由于前面检验的层间差异有统计学意义,所以这个结论仅供参
考。
Mantel-Haenszel一般几率比估计
估计
.195
ln(估计)
ln(估计)的标准误差
.206
渐进Sig.倒侧)
.000
下限
.130
一般几率比
上限
.292
渐进.95%置信区间
下限
ln(一般几率比)
上限
Mantel-Haenszel一般几率比估计在假定的一般几率比下渐进地正态分布。
因此是估
计的自然对数。
给出了调整了分层因素作用后的综合OR值:
OFMh值=(原OR值=),P值=0<,说明结果显著。
注:
(1)分层卡方检验是一种很好的控制其他因素的方法,从而能得到更准确的结果,若样本量足够大还可用引入更多的分层。
(2)SPSS勺CMH卡方检验只能进行两分类变量检验,而不能进行多分类变量的检验;当分层变量和要分析的变量存在交互作用时,分
层卡方检验就不再适用,此时应当考虑用对数线性模型或Logistic模
型来进行更为深入和准确的分析。
(5)配对设计列联表的Kappa一致检验以及配对卡方检验
一、Kappa一致检验
配对设计列联表的行变量和列变量反应的是同一事物的同一属性的
相同水平,只是对该属性各水平的区分方法不同。
例如,某疾病的诊断结果表,行变量为一种诊断方法,列变量为另一种诊断方法;对某事物的评价等级表,行变量和列变量分别显示不同专家的评价。
对于配对设计列联表,希望检验两种方法给出的结果是否一致,适合
用Kappa一致检验。
注意:
Pearson卡方检验只能检验两种测量结果之间是否存在关联,不能判断其是否具有一致性。
问题:
某公司扩展业务开新分店选址,请两位顾问分别对20个地址
进行评价,分为好、中、差3个等级,想知道两人的评价结果是否一致
峰”的评价
含什
娉中好
,的评价罪
6
0
0
6
5
2
2
9
1
0
4
5
住比一
12
2
6
占1
count
consl
cons?
[
6
1
1
2
5
2
1
3
1
3
1
2
2
5
2F
2
3
6
4
3
3
count=频数,cons1,cons2表示两位顾问的评价:
1=差,2=中,3=好;
例如第一行数据:
6,1,1表示两顾问都评为“差”的有6个地址。
1.【数据】一一【加权个案】,打开“加权个案”窗口,勾选“加权个案”,将变量“频数”选入【频率变量】框,点【确定】
2.【分析】一一【统计描述】一一【交叉表】,打开“交叉表”窗口,将变量“cons1,cons2”分别选入【行】【列】框;
3.点【统计量】,打开“统计量”子窗口,
勾选“Kappsf,点【继续】;
卡万四
•名义
相依系敝(Q)
I.Phi和Cramer变量LLamtda'iL)□不定性系数也)
•按区向标定一
□Eta(E)
Cochran^and桔验一般几率t
'I相会性⑶有序
Gdrpurid(G)
Somersrd(S)0Kendal的xau-bB)[ZKendall'stauc(C)
V^Kappa(K)EMB■■■■HlIBm■■■■■■■■■■*
□风险〔!
)
_|McNemari(M'
Mantel-Haenszd统计量(A;
4.由于数据量较小才用精确检验,点【精确】,打开“精确检验”子窗口,勾选“精确”,点【继续】;
OMonteCarlofM}
\\置信泳■平理}.叫阻
样本数秘):
1。
|
^uLinaJinjuiiiiii.tunJluaiiijdjiK■■».■■■auiii!
■■=■jiihluiamkaiiJiuaiiii^iiiiiM
■瞬目I
■每个检验的时i祁艮制为(ir[『|分仲
当允在计都艮制时,使用精确方替FJonieCarloo
土序』障谴方法,计夏检噩部圈寸、总是曷单元格if教四舍五入我舍位’
[蟠制成浏|帮物
点【确定】得到
顾问一的评价*顾问二的评价交叉制表
计数
顾问二的评价
合计
差
中
好
差
6
0
0
6
顾问一的评价中
5
2
2
9
好
1
0
4
5
合计
12
2
6
20
对称度量
值
渐进标准误差a
近似值T3
近似值Sig.
精确Sig.
一致性度量Kappa
有效案例中的N
.429
20
.131
.001
.001
a.不假定零假设。
b.使用渐进标准误差假定零假设
结果说明:
Kappa检验的原假设H0:
Kappa值=0,即两者完全不一致;本例中,P值=<,拒绝原假设H0,即认为结果存在一致性。
注:
(1)Kappa值,即内部一致性系数。
根据经验,一般当Kappa值A时,认为一致性较好;<Kappa值<时,一致性一般;Kappa值<时,一致性较差;
n卡方吵
名义'
E相依蔻敬。
['Phi和CTanier变量
L_LsmbdatL)
匚不定性菜裁世)
口Eta(E)
J相矣唯回
-有序
..Gamma(G)
二Somers'd(S)
□Kendall的tau-b(B)
Kerdairstaj-c(G)
列Kappa(K)rimaiirBniiaiMaiiriBiiiamBin■wiain
B风险少
VMcNemarfM;
(2)一致性检验在医学上应用较多(简单异形的诊断方法是否能替代操作复杂的诊断方法);数据分析中,比较两种预测结果的一致性时,也可能用到一致性检验。
二、McNemar配对卡方检验
两位顾问的评价似乎不太一样,如何加以分析McNemar配对卡方检
验适合解决该问题。
在Kappa一致检验的第3步,勾选“McNemar”即可
Cjchran'san栓验一般倬比等于一1
得到结果:
卡方检验
值
df
渐进Sig.倒侧)
McNemar-Bowker检验
有效案例中的N
20
3
.046
原假设H0:
两顾问的评价无差别,P值=<,拒绝原假设H0,即两者评价有差别。
注:
Kappa一致检验会利用列联表的全部信息;McNemar配对卡方检验只利用非主对角线单元格的信息(更关心两者的差异)。