SPSS学习系列24 卡方检验.docx

资源描述

SPSS学习系列24 卡方检验.docx

《SPSS学习系列24 卡方检验.docx》由会员分享，可在线阅读，更多相关《SPSS学习系列24 卡方检验.docx（23页珍藏版）》请在冰豆网上搜索。

SPSS学习系列24 卡方检验.docx

SPSS学习系列24卡方检验

24.卡方检验

卡方检验，是针对无序分类变量的一种非参数检验，其理论依据是：

实际观察频数f0与理论频数fe（又称期望频数）之差的平方再除以理论频数所得的统计量，近似服从

分布，即

卡方检验的一般是用来检验无序分类变量的实际观察频数和理论频数分布之间是否存在显著差异，二者差异越小，

值越小。

卡方检验要求：

（1）分类相互排斥，互不包容；

（2）观察值相互独立；

（3）样本容量不宜太小，理论频数≥5，否则需要进行校正（合并单元格、增加样本数、去除样本法、使用校正公式校正卡方值）。

卡方校正公式为：

卡方检验的原假设H0:

=0;备择假设H1:

≠0;

卡方检验的用途：

（1）检验某连续变量的数据是否服从某种分布（拟合优度检验）；

（2）检验某分类变量各类的出现概率是否等于指定概率；

（3）检验两个分类变量是否相互独立（关联性检验）；

（4）检验控制某几个分类因素之后，其余两个分类变量是否相互独立；

（5）检验两种方法的结果是否一致，例如两种方法对同一批人进行诊断，其结果是否一致。

（一）检验单样本某水平概率是否等于某指定概率

一、单样本案例

例如，检验彩票中奖号码的分布是否服从均匀分布（概率=某常值）；检验某产品市场份额是否比以前更大；检验某疾病的发病率是否比以前降低。

有数据文件：

检验“性别”的男女比例是否相同（各占1/2）。

1.【分析】——【非参数检验】——【单样本】，打开“单样本非参数检验”窗口，【目标】界面勾选“自动比较观察数据和假设数据”

2.【字段】界面，勾选“使用定制字段分配”，将变量“性别”选入【检验字段】框；

注意：

变量“性别”的度量标准必须改为“名义”类型。

3.【设置】界面，选择“自定义检验”，勾选“比较观察可能性和假设可能性（卡方检验）”；

4.点【选项】，打开“卡方检验选项”子窗口，本例要检验男女概率都=，勾选“所有类别概率相等”；

注：

若有类别概率不等，需要勾选“自定义期望概率”，在其表中设置各类别水平及相应概率。

点【确定】回到原窗口，点【运行】得到

双击上表，得到更多的描述：

结果说明：

（1）男生的观察频数为28，理论频数为25，残差=3；女生的观察频数为22，理论频数为25，残差=-3；可以计算

卡方值=[32+（-3）2]/25=

（2）卡方检验的P值=>,故接受原假设H0，即认为男女性别人数无差异。

注：

卡方检验的P值是近似P值，若用“二项分布检验”计算出精确P值=.另外，上述卡方检验也可以用：

【分析】——【非参数检验】——【旧对话框】——【卡方】

得到的结果是一致的。

二、两样本或多样本案例——比较不同类的构成比或发生率的差异

问题：

两组收入不同的受访家庭其轿车拥有率的比较。

使用【交叉表】的卡方检验来实现，需要注意：

若交叉表中存在有序分类变量，则适合用秩和检验而不是卡方检验。

有数据文件：

变量O1表示是否拥有轿车：

“1=有，2=没有”；

变量Ts9表示收入级别：

“1=万以上，2=万以上”。

1.【分析】——【描述统计】——【交叉表】，打开“交叉表”窗口，将变量“Ts9收入级别”选入【行】框，将变量“O1是否拥有轿车”选入【列】框，根据需要勾选“显示复式条形图”；

2.点【统计量】，打开“统计量”子窗口，勾选“卡方”表示进行卡方检验；

3.点【继续】回到原窗口，点【单元格】打开“单元显示”窗口，【计数】输出观察频数和理论频数，默认勾选“观察值”；【百分比】勾选“行”；【非整数权重】设置小数权重问题，保持默认；

注：

“残差”设置残差的输出方式；“z-检验”对多于两组的数据做两两组间比较；

点【继续】回到原窗口，点【确定】得到

案例处理摘要

案例

有效的

缺失

合计

百分比

家庭收入2级*O1.是否拥有家用轿车

989

158

1147

家庭收入2级*O1.是否拥有家用轿车交叉制表

O1.是否拥有家用轿车

合计

有

没有

家庭收入2级

Below48,000

计数

303

335

家庭收入2级中的%

Over48,000

计数

225

429

654

家庭收入2级中的%

合计

计数

257

732

989

家庭收入2级中的%

低收入家庭有%拥有轿车；高收入家庭%拥有轿车。

卡方检验

值

渐进Sig.（双侧）

精确Sig.（双侧）

精确Sig.（单侧）

Pearson卡方

.000

连续校正b

.000

似然比

.000

Fisher的精确检验

.000

线性和线性组合

.000

有效案例中的N

989

a.0单元格%）的期望计数少于5。

最小期望计数为。

b.仅对2x2表计算

脚注a说明没有单元格的期望频数<5,满足Pearson卡方检验要求，故看Pearson卡方检验结果即可：

P值=0<,拒绝原假设H0，即高低收入不同的家庭轿车拥有上的差异有统计学意义。

注：

（1）“Pearson卡方”：

最标准最常用；

（2）“连续校正”：

只适用于4格表，样本量>40,所有期望频数都>1,只有1/5以下的单元格期望频数<5；

（3）“Fisher精确检验”：

不需要近似，结果最精确，但耗时多；若样本量<40，有单元格的期望频数<1的4格表，需要用该检验；若有单元格的期望频数<1,或<5的期望频数较多，也可采用该检验；

（4）“似然比”：

用似然比公式计算卡方，在处理多维表是有更大优势；

（5）“线性卡方”：

检验的原假设H0是行列变量间无线性相关，在列联表分类变量中很少用，更多用于连续变量。

（三）检验两分类变量间的关联程度

例如，进行客户满意度研究中，价格、质量、服务都与总体满意度相关，哪项与总体满意度关系更密切

卡方值的大小可以粗略地反映两变量联系的强弱，更精确的描述可以用“相对危险度”和“优势比”。

（1）相对危险度（RR）

实验组人群反应阳性概率与对照组人群反应阳性概率的比值，即

用于反应实验因素与反应阳性的关联程度，RR=1表明二者无关联；RR<1表明实验因素导致反应阳性的发生率降低。

（2）优势比（OR）

有时反应阳性概率的估计值很难求得（如回顾性研究），往往使用优势比代替RR值。

优势比是反应阳性人群中实验因素有无的比例与反应阴性人群中实验因素有无的比例之比，即

若OR>1,则表明实验因素更容易导致结果为阳性，或者说“采用的实验因素”与“结果为阳性”有关联。

注：

当反应阳性概率<时，OR可作为RR的近似。

优势比是两个比数之比，例如，女性购买与不购买某产品的比数是男性该比数的3倍。

问题：

描述家庭收入级别与拥有轿车的关联程度

1.【分析】——【描述统计】——【交叉表】，打开“交叉表”窗口，将变量“Ts9收入级别”选入【行】框，将变量“O1是否拥有轿车”选入【列】框；

2.点【统计量】，打开“统计量”子窗口，勾选“风险”用来计算OR值和RR值；

点【继续】回到原窗口，点【确定】得到

家庭收入2级*O1.是否拥有家用轿车交叉制表

O1.是否拥有家用轿车

合计

有

没有

家庭收入2级

Below48,000

计数

303

335

家庭收入2级中的%

Over48,000

计数

225

429

654

家庭收入2级中的%

合计

计数

257

732

989

家庭收入2级中的%

风险估计

值

95%置信区间

下限

上限

家庭收入2级（Below48,000/Over48,000）的几率比

.201

.135

.300

用于cohortO1.是否拥有家用轿车=有

.278

.196

.392

用于cohortO1.是否拥有家用轿车=没有

有效案例中的N

989

（1）优势比OR是两个比数之比：

低收入家庭拥有轿车的比例为%，没有轿车的比例是%，其比数为%/%=;高收入家庭的比数为：

%/%=;故

OR值==

该值的95%置信区间=[,],不包含1（有统计学意义）；

（2）相对危险度RR1是两组人群拥有轿车的概率之比，其估计值为%/%=,说明高收入家庭拥有轿车的概率是低收入家庭的1/=倍，RR1值的95%置信区间=[,],不包含1（有统计学意义）；

（3）相对危险度RR2是两组人群没有轿车的概率之比，估计值为%/%=.

注：

上述三个指标实际上是等价的；另外，OR值也等于有车与无车的相对危险度之比（/=）。

（四）分层卡方检验

前文已经得到家庭收入级别会影响轿车拥有情况，那么进一步，不同城市是否存在差异即“城市”因素是否也是影响轿车拥有的协变量另外“学历”因素呢

分层卡方检验就是解决上述问题常用的一种方法。

问题：

在前文的基础上，进一步在控制“城市”的影响的前提下，更准确地描述家庭收入与轿车拥有的关联程度。

1.【分析】——【描述统计】——【交叉表】，打开“交叉表”窗口；将变量“Ts9收入级别”选入【行】框，将变量“O1是否拥有轿车”选入【列】框；将变量“s1城市”选入【层1的1】框；

2.点【统计量】，打开“统计量”子窗口，勾选“风险”、“Cochran’sandMantel-Haenszel统计量”，点【继续】；

点【确定】，得到结果

家庭收入2级*O1.是否拥有家用轿车*S1.城市交叉制表

计数

S1.城市

O1.是否拥有家用轿车

合计

有

没有

100北京

家庭收入2级

Below48,000

102

Over48,000

134

217

合计

227

319

200上海

家庭收入2级

Below48,000

103

107

Over48,000

160

230

合计

263

337

300广州

家庭收入2级

Below48,000

107

126

Over48,000

135

207

合计

242

333

合计

家庭收入2级

Below48,000

303

335

Over48,000

225

429

654

合计

257

732

989

风险估计

S1.城市

值

95%置信区间

下限

上限

100北京

家庭收入2级（Below48,000/Over48,000）的几率比

.156

.075

.326

用于cohortO1.是否拥有家用轿车=有

.231

.121

.440

用于cohortO1.是否拥有家用轿车=没有

有效案例中的N

319

200上海

家庭收入2级（Below48,000/Over48,000）的几率比

.089

.031

.251

用于cohortO1.是否拥有家用轿车=有

.123

.046

.328

用于cohortO1.是否拥有家用轿车=没有

有效案例中的N

337

300广州

家庭收入2级（Below48,000/Over48,000）的几率比

.333

.189

.586

用于cohortO1.是否拥有家用轿车=有

.434

.275

.683

用于cohortO1.是否拥有家用轿车=没有

有效案例中的N

333

合计

家庭收入2级（Below48,000/Over48,000）的几率比

.201

.135

.300

用于cohortO1.是否拥有家用轿车=有

.278

.196

.392

用于cohortO1.是否拥有家用轿车=没有

有效案例中的N

989

由于设置了分层变量，故按分层变量的水平值单独对每一层进行风险估计。

上海的OR值=，而广州的OR值=，说明是有地区差异的。

几率比的均一性检验

卡方

渐进Sig.（双侧）

Breslow-Day

.046

Tarone的

.046

层间差异的检查结果（不同城市家庭收入与轿车拥有的联系是否相同），原假设H0:

层间无差异；P值=<,拒绝原假设H0,即不同城市是有差异的，因此不能简单地将不同城市数据总体处理得到结果。

条件的独立性检验

卡方

渐进Sig.（双侧）

Cochran的

.000

Mantel-Haenszel

.000

在条件的独立性假定下，仅当层数固定时Cochran的统计量才渐进分布为1df卡方分布，而Mantel-Haenszel统计量始终渐进分布为1df卡方分布。

注意，当观测值和期望值差值之和为0时，将从Mantel-Haenszel统计量中删除连续校正。

分层卡方检验（即去除分层因素“城市”的影响之后，家庭收入与轿车拥有的关联性）的两种结果：

CMH卡方检验和MH卡方检验，前者是后者的改进。

P值=0<,说明“家庭收入”与“轿车拥有”有关联，但由于前面检验的层间差异有统计学意义，所以这个结论仅供参考。

Mantel-Haenszel一般几率比估计

估计

.195

ln（估计）

ln（估计）的标准误差

.206

渐进Sig.（双侧）

.000

渐进.95%置信区间

一般几率比

下限

.130

上限

.292

ln（一般几率比）

下限

上限

Mantel-Haenszel一般几率比估计在假定的一般几率比下渐进地正态分布。

因此是估计的自然对数。

给出了调整了分层因素作用后的综合OR值：

ORMH值=（原OR值=），P值=0<,说明结果显著。

注：

（1）分层卡方检验是一种很好的控制其他因素的方法，从而能得到更准确的结果，若样本量足够大还可用引入更多的分层。

（2）SPSS的CMH卡方检验只能进行两分类变量检验，而不能进行多分类变量的检验；当分层变量和要分析的变量存在交互作用时，分层卡方检验就不再适用，此时应当考虑用对数线性模型或Logistic模型来进行更为深入和准确的分析。

（五）配对设计列联表的Kappa一致检验以及配对卡方检验

一、Kappa一致检验

配对设计列联表的行变量和列变量反应的是同一事物的同一属性的相同水平，只是对该属性各水平的区分方法不同。

例如，某疾病的诊断结果表，行变量为一种诊断方法，列变量为另一种诊断方法；对某事物的评价等级表，行变量和列变量分别显示不同专家的评价。

对于配对设计列联表，希望检验两种方法给出的结果是否一致，适合用Kappa一致检验。

注意：

Pearson卡方检验只能检验两种测量结果之间是否存在关联，不能判断其是否具有一致性。

问题：

某公司扩展业务开新分店选址，请两位顾问分别对20个地址进行评价，分为好、中、差3个等级，想知道两人的评价结果是否一致

count=频数，cons1,cons2表示两位顾问的评价：

1=差，2=中，3=好；例如第一行数据：

6,1,1表示两顾问都评为“差”的有6个地址。

1.【数据】——【加权个案】，打开“加权个案”窗口，勾选“加权个案”，将变量“频数”选入【频率变量】框，点【确定】

2.【分析】——【统计描述】——【交叉表】，打开“交叉表”窗口，将变量“cons1，cons2”分别选入【行】【列】框；

3.点【统计量】，打开“统计量”子窗口，勾选“Kappa”，点【继续】；

4.由于数据量较小才用精确检验，点【精确】，打开“精确检验”子窗口，勾选“精确”，点【继续】；

点【确定】得到

顾问一的评价*顾问二的评价交叉制表

计数

顾问二的评价

合计

差

中

好

顾问一的评价

差

中

好

合计

对称度量

值

渐进标准误差a

近似值Tb

近似值Sig.

精确Sig.

一致性度量

Kappa

.429

.131

.001

有效案例中的N

a.不假定零假设。

b.使用渐进标准误差假定零假设。

结果说明：

Kappa检验的原假设H0:

Kappa值=0,即两者完全不一致；本例中，P值=<,拒绝原假设H0,即认为结果存在一致性。

注：

（1）Kappa值，即内部一致性系数。

根据经验，一般当Kappa值≥时，认为一致性较好；≤Kappa值<时，一致性一般；Kappa值<时，一致性较差；

（2）一致性检验在医学上应用较多（简单异形的诊断方法是否能替代操作复杂的诊断方法）；数据分析中，比较两种预测结果的一致性时，也可能用到一致性检验。

二、McNemar配对卡方检验

两位顾问的评价似乎不太一样，如何加以分析McNemar配对卡方检验适合解决该问题。

在Kappa一致检验的第3步，勾选“McNemar”即可。

得到结果：

卡方检验

值

渐进Sig.（双侧）

McNemar-Bowker检验

.046

有效案例中的N

原假设H0:

两顾问的评价无差别，P值=<,拒绝原假设H0，即两者评价有差别。

注：

Kappa一致检验会利用列联表的全部信息；McNemar配对卡方检验只利用非主对角线单元格的信息（更关心两者的差异）。

展开阅读全文