1、SPSS学习系列24卡方检验24. 卡方检验 卡方检验,是针对无序分类变量的一种非参数检验,其理论依据是:实际观察频数f0与理论频数fe(又称期望频数)之差的平方再除以理论频数所得的统计量,近似服从分布,即卡方检验的一般是用来检验无序分类变量的实际观察频数和理论频数分布之间是否存在显著差异,二者差异越小,值越小。卡方检验要求:(1)分类相互排斥,互不包容;(2)观察值相互独立;(3) 样本容量不宜太小,理论频数5,否则需要进行校正(合并单元格、增加样本数、去除样本法、使用校正公式校正卡方值)。卡方校正公式为:卡方检验的原假设H0: = 0; 备择假设H1: 0;卡方检验的用途:(1)检验某连续
2、变量的数据是否服从某种分布(拟合优度检验);(2)检验某分类变量各类的出现概率是否等于指定概率;(3)检验两个分类变量是否相互独立(关联性检验);(4)检验控制某几个分类因素之后,其余两个分类变量是否相互独立;(5)检验两种方法的结果是否一致,例如两种方法对同一批人进行诊断,其结果是否一致。(一)检验单样本某水平概率是否等于某指定概率一、单样本案例例如,检验彩票中奖号码的分布是否服从均匀分布(概率=某常值);检验某产品市场份额是否比以前更大;检验某疾病的发病率是否比以前降低。有数据文件:检验“性别”的男女比例是否相同(各占1/2)。1. 【分析】【非参数检验】【单样本】,打开“单样本非参数检验
3、”窗口,【目标】界面勾选“自动比较观察数据和假设数据”2.【字段】界面,勾选“使用定制字段分配”,将变量“性别”选入【检验字段】框;注意:变量“性别”的度量标准必须改为“名义”类型。3. 【设置】界面,选择“自定义检验”,勾选“比较观察可能性和假设可能性(卡方检验)”; 4. 点【选项】,打开“卡方检验选项”子窗口,本例要检验男女概率都=0.5,勾选“所有类别概率相等”;注:若有类别概率不等,需要勾选“自定义期望概率”,在其表中设置各类别水平及相应概率。点【确定】回到原窗口,点【运行】得到双击上表,得到更多的描述:结果说明:(1)男生的观察频数为28,理论频数为25,残差=3;女生的观察频数为
4、22,理论频数为25,残差=-3;可以计算卡方值=32+(-3)2/25=0.72(2)卡方检验的P值=0.3960.05, 故接受原假设H0,即认为男女性别人数无差异。注:卡方检验的P值是近似P值,若用“二项分布检验”计算出精确P值=0.480. 另外,上述卡方检验也可以用:【分析】【非参数检验】【旧对话框】【卡方】得到的结果是一致的。二、两样本或多样本案例比较不同类的构成比或发生率的差异问题:两组收入不同的受访家庭其轿车拥有率的比较。使用【交叉表】的卡方检验来实现,需要注意:若交叉表中存在有序分类变量,则适合用秩和检验而不是卡方检验。有数据文件:变量O1表示是否拥有轿车:“1=有,2=没有
5、”;变量Ts9表示收入级别:“1=4.8万以上,2=4.8万以上”。 1. 【分析】【描述统计】【交叉表】,打开“交叉表”窗口,将变量“Ts9收入级别”选入【行】框,将变量“O1是否拥有轿车”选入【列】框,根据需要勾选“显示复式条形图”;2. 点【统计量】,打开“统计量”子窗口,勾选“卡方”表示进行卡方检验;3. 点【继续】回到原窗口,点【单元格】打开“单元显示”窗口,【计数】输出观察频数和理论频数,默认勾选“观察值”;【百分比】勾选“行”;【非整数权重】设置小数权重问题,保持默认;注:“残差”设置残差的输出方式;“z-检验”对多于两组的数据做两两组间比较;点【继续】回到原窗口,点【确定】得到
6、案例处理摘要案例有效的缺失合计N百分比N百分比N百分比家庭收入2级 * O1. 是否拥有家用轿车98986.2%15813.8%1147100.0%家庭收入2级* O1. 是否拥有家用轿车 交叉制表O1. 是否拥有家用轿车合计有没有家庭收入2级Below 48,000计数32303335家庭收入2级 中的 %9.6%90.4%100.0%Over 48,000计数225429654家庭收入2级 中的 %34.4%65.6%100.0%合计计数257732989家庭收入2级 中的 %26.0%74.0%100.0% 低收入家庭有9.6%拥有轿车;高收入家庭34.4%拥有轿车。卡方检验值df渐进
7、Sig. (双侧)精确 Sig.(双侧)精确 Sig.(单侧)Pearson 卡方71.134a1.000连续校正b69.8481.000似然比80.1461.000Fisher 的精确检验.000.000线性和线性组合71.0621.000有效案例中的 N989a. 0 单元格(0.0%) 的期望计数少于 5。最小期望计数为 87.05。b. 仅对 2x2 表计算脚注a说明没有单元格的期望频数5, 满足Pearson卡方检验要求,故看Pearson卡方检验结果即可:P值=040, 所有期望频数都1, 只有1/5以下的单元格期望频数5;(3)“Fisher精确检验”:不需要近似,结果最精确,但
8、耗时多;若样本量40,有单元格的期望频数1的4格表,需要用该检验;若有单元格的期望频数1, 或5的期望频数较多,也可采用该检验;(4)“似然比”:用似然比公式计算卡方,在处理多维表是有更大优势;(5)“线性卡方”:检验的原假设H0是行列变量间无线性相关,在列联表分类变量中很少用,更多用于连续变量。(三)检验两分类变量间的关联程度例如,进行客户满意度研究中,价格、质量、服务都与总体满意度相关,哪项与总体满意度关系更密切? 卡方值的大小可以粗略地反映两变量联系的强弱,更精确的描述可以用“相对危险度”和“优势比”。(1)相对危险度(RR) 实验组人群反应阳性概率与对照组人群反应阳性概率的比值,即用于
9、反应实验因素与反应阳性的关联程度,RR=1表明二者无关联;RR1, 则表明实验因素更容易导致结果为阳性,或者说“采用的实验因素”与“结果为阳性”有关联。注:当反应阳性概率0.1时,OR可作为RR的近似。优势比是两个比数之比,例如,女性购买与不购买某产品的比数是男性该比数的3倍。问题:描述家庭收入级别与拥有轿车的关联程度1. 【分析】【描述统计】【交叉表】,打开“交叉表”窗口,将变量“Ts9收入级别”选入【行】框,将变量“O1是否拥有轿车”选入【列】框; 2. 点【统计量】,打开“统计量”子窗口,勾选“风险”用来计算OR值和RR值;点【继续】回到原窗口,点【确定】得到家庭收入2级* O1. 是否
10、拥有家用轿车 交叉制表O1. 是否拥有家用轿车合计有没有家庭收入2级Below 48,000计数32303335家庭收入2级 中的 %9.6%90.4%100.0%Over 48,000计数225429654家庭收入2级 中的 %34.4%65.6%100.0%合计计数257732989家庭收入2级 中的 %26.0%74.0%100.0%风险估计值95% 置信区间下限上限家庭收入2级 (Below 48,000 / Over 48,000) 的几率比.201.135.300用于 cohort O1. 是否拥有家用轿车 = 有.278.196.392用于 cohort O1. 是否拥有家用轿车
11、 = 没有1.3791.2911.472有效案例中的 N989 (1)优势比OR是两个比数之比:低收入家庭拥有轿车的比例为9.6%,没有轿车的比例是90.4%,其比数为9.6% / 90.4% = 0.106; 高收入家庭的比数为:34.4% / 65.6% = 0.524; 故OR值=0.106/0.524=0.201该值的95%置信区间=0.135, 0.3, 不包含1(有统计学意义);(2)相对危险度RR1是两组人群拥有轿车的概率之比,其估计值为9.6% / 34.4% = 0.278, 说明高收入家庭拥有轿车的概率是低收入家庭的1 /0.278 = 3.597倍,RR1值的95%置信区
12、间=0.196, 0.392, 不包含1(有统计学意义);(3)相对危险度RR2是两组人群没有轿车的概率之比,估计值为90.4% / 65.6% = 1.379. 注:上述三个指标实际上是等价的;另外,OR值也等于有车与无车的相对危险度之比(0.278 / 1.379 = 0.201)。(四)分层卡方检验前文已经得到家庭收入级别会影响轿车拥有情况,那么进一步,不同城市是否存在差异?即“城市”因素是否也是影响轿车拥有的协变量?另外“学历”因素呢?分层卡方检验就是解决上述问题常用的一种方法。问题:在前文的基础上,进一步在控制“城市”的影响的前提下,更准确地描述家庭收入与轿车拥有的关联程度。1.【分
13、析】【描述统计】【交叉表】,打开“交叉表”窗口;将变量“Ts9收入级别”选入【行】框,将变量“O1是否拥有轿车”选入【列】框;将变量“s1城市”选入【层1的1】框;2. 点【统计量】,打开“统计量”子窗口,勾选“风险”、“Cochrans and Mantel-Haenszel统计量”,点【继续】;点【确定】,得到结果家庭收入2级* O1. 是否拥有家用轿车* S1. 城市 交叉制表计数S1. 城市O1. 是否拥有家用轿车合计有没有100北京家庭收入2级Below 48,000993102Over 48,00083134217合计92227319200上海家庭收入2级Below 48,0004
14、103107Over 48,00070160230合计74263337300广州家庭收入2级Below 48,00019107126Over 48,00072135207合计91242333合计家庭收入2级Below 48,00032303335Over 48,000225429654合计257732989风险估计S1. 城市值95% 置信区间下限上限100北京家庭收入2级 (Below 48,000 / Over 48,000) 的几率比.156.075.326用于 cohort O1. 是否拥有家用轿车 = 有.231.121.440用于 cohort O1. 是否拥有家用轿车 = 没有1
15、.4771.3081.666有效案例中的 N319200上海家庭收入2级 (Below 48,000 / Over 48,000) 的几率比.089.031.251用于 cohort O1. 是否拥有家用轿车 = 有.123.046.328用于 cohort O1. 是否拥有家用轿车 = 没有1.3841.2611.519有效案例中的 N337300广州家庭收入2级 (Below 48,000 / Over 48,000) 的几率比.333.189.586用于 cohort O1. 是否拥有家用轿车 = 有.434.275.683用于 cohort O1. 是否拥有家用轿车 = 没有1.302
16、1.1511.474有效案例中的 N333合计家庭收入2级 (Below 48,000 / Over 48,000) 的几率比.201.135.300用于 cohort O1. 是否拥有家用轿车 = 有.278.196.392用于 cohort O1. 是否拥有家用轿车 = 没有1.3791.2911.472有效案例中的 N989 由于设置了分层变量,故按分层变量的水平值单独对每一层进行风险估计。上海的OR值=0.089,而广州的OR值=0.333,说明是有地区差异的。几率比的均一性检验卡方df渐进 Sig. (双侧)Breslow-Day6.1652.046Tarone 的6.1612.04
17、6 层间差异的检查结果(不同城市家庭收入与轿车拥有的联系是否相同),原假设H0: 层间无差异;P值=0.0460.05, 拒绝原假设H0, 即不同城市是有差异的,因此不能简单地将不同城市数据总体处理得到结果。条件的独立性检验卡方df渐进 Sig. (双侧)Cochran 的72.3971.000Mantel-Haenszel70.8791.000在条件的独立性假定下,仅当层数固定时 Cochran 的统计量才渐进分布为 1 df 卡方分布,而 Mantel-Haenszel 统计量始终渐进分布为 1 df 卡方分布。注意,当观测值和期望值差值之和为 0 时,将从 Mantel-Haenszel
18、 统计量中删除连续校正。 分层卡方检验(即去除分层因素“城市”的影响之后,家庭收入与轿车拥有的关联性)的两种结果:CMH卡方检验和MH卡方检验,前者是后者的改进。P值=00.05, 说明“家庭收入”与“轿车拥有”有关联,但由于前面检验的层间差异有统计学意义,所以这个结论仅供参考。Mantel-Haenszel 一般几率比估计估计.195ln(估计)-1.636ln (估计) 的标准误差.206渐进 Sig. (双侧).000渐进 .95% 置信区间一般几率比下限.130上限.292ln (一般几率比)下限-2.040上限-1.232Mantel-Haenszel 一般几率比估计在 1.000
19、假定的一般几率比下渐进地正态分布。因此是估计的自然对数。 给出了调整了分层因素作用后的综合OR值:ORMH值=0.195(原OR值=0.201),P值=00.05, 说明结果显著。注:(1)分层卡方检验是一种很好的控制其他因素的方法,从而能得到更准确的结果,若样本量足够大还可用引入更多的分层。(2)SPSS的CMH卡方检验只能进行两分类变量检验,而不能进行多分类变量的检验;当分层变量和要分析的变量存在交互作用时,分层卡方检验就不再适用,此时应当考虑用对数线性模型或Logistic模型来进行更为深入和准确的分析。(五)配对设计列联表的Kappa一致检验以及配对卡方检验一、Kappa一致检验配对设
20、计列联表的行变量和列变量反应的是同一事物的同一属性的相同水平,只是对该属性各水平的区分方法不同。例如,某疾病的诊断结果表,行变量为一种诊断方法,列变量为另一种诊断方法;对某事物的评价等级表,行变量和列变量分别显示不同专家的评价。对于配对设计列联表,希望检验两种方法给出的结果是否一致,适合用Kappa一致检验。注意:Pearson卡方检验只能检验两种测量结果之间是否存在关联,不能判断其是否具有一致性。问题:某公司扩展业务开新分店选址,请两位顾问分别对20个地址进行评价,分为好、中、差3个等级,想知道两人的评价结果是否一致?count=频数,cons1,cons2表示两位顾问的评价:1=差,2=中
21、,3=好;例如第一行数据:6,1,1表示两顾问都评为“差”的有6个地址。 1. 【数据】【加权个案】,打开“加权个案”窗口,勾选“加权个案”,将变量“频数”选入【频率变量】框,点【确定】2. 【分析】【统计描述】【交叉表】,打开“交叉表”窗口,将变量“cons1,cons2”分别选入【行】【列】框;3. 点【统计量】,打开“统计量”子窗口,勾选“Kappa”,点【继续】;4. 由于数据量较小才用精确检验,点【精确】,打开“精确检验”子窗口,勾选“精确”,点【继续】;点【确定】得到顾问一的评价* 顾问二的评价 交叉制表计数顾问二的评价合计差中好顾问一的评价差6006中5229好1045合计122
22、620对称度量值渐进标准误差a近似值 Tb近似值 Sig.精确 Sig.一致性度量Kappa.429.1313.333.001.001有效案例中的 N20a. 不假定零假设。b. 使用渐进标准误差假定零假设。结果说明:Kappa检验的原假设H0: Kappa值=0, 即两者完全不一致;本例中,P值=0.0010.05, 拒绝原假设H0, 即认为结果存在一致性。注:(1)Kappa值,即内部一致性系数。根据经验,一般当Kappa值0.75时,认为一致性较好;0.4Kappa值0.75时,一致性一般;Kappa值0.4时,一致性较差;(2)一致性检验在医学上应用较多(简单异形的诊断方法是否能替代操作复杂的诊断方法);数据分析中,比较两种预测结果的一致性时,也可能用到一致性检验。二、McNemar配对卡方检验两位顾问的评价似乎不太一样,如何加以分析?McNemar配对卡方检验适合解决该问题。在Kappa一致检验的第3步,勾选“McNemar”即可。得到结果:卡方检验值df渐进 Sig. (双侧)McNemar-Bowker 检验8.0003.046有效案例中的 N20原假设H0: 两顾问的评价无差别,P值=0.0460.05, 拒绝原假设H0,即两者评价有差别。注:Kappa一致检验会利用列联表的全部信息;McNemar配对卡方检验只利用非主对角线单元格的信息(更关心两者的差异)。
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1