SPSS学习系列24卡方检验.docx

资源描述

SPSS学习系列24卡方检验.docx

《SPSS学习系列24卡方检验.docx》由会员分享，可在线阅读，更多相关《SPSS学习系列24卡方检验.docx（23页珍藏版）》请在冰豆网上搜索。

SPSS学习系列24卡方检验.docx

SPSS学习系列24卡方检验

24.卡方检验

卡方检验，是针对无序分类变量的一种非参数检验，其理论依据是：

实际观察频数f0与理论频数fe（又称期望频数）之差的平方再除以理论频数所得的统计量，近似服从

分布，即

卡方检验的一般是用来检验无序分类变量的实际观察频数和理论频数分布之间是否存在显著差异，二者差异越小，

值越小。

卡方检验要求：

（1）分类相互排斥，互不包容；

（2）观察值相互独立；

（3）样本容量不宜太小，理论频数≥5，否则需要进行校正（合并单元格、增加样本数、去除样本法、使用校正公式校正卡方值）。

卡方校正公式为：

卡方检验的原假设H0:

=0;备择假设H1:

≠0;

卡方检验的用途：

（1）检验某连续变量的数据是否服从某种分布（拟合优度检验）；

（2）检验某分类变量各类的出现概率是否等于指定概率；

（3）检验两个分类变量是否相互独立（关联性检验）；

（4）检验控制某几个分类因素之后，其余两个分类变量是否相互独立；

（5）检验两种方法的结果是否一致，例如两种方法对同一批人进行诊断，其结果是否一致。

（一）检验单样本某水平概率是否等于某指定概率

一、单样本案例

例如，检验彩票中奖号码的分布是否服从均匀分布（概率=某常值）；检验某产品市场份额是否比以前更大；检验某疾病的发病率是否比以前降低。

有数据文件：

检验“性别”的男女比例是否相同（各占1/2）。

1.【分析】——【非参数检验】——【单样本】，打开“单样本非参数检验”窗口，【目标】界面勾选“自动比较观察数据和假设数据”

2.【字段】界面，勾选“使用定制字段分配”，将变量“性别”选入【检验字段】框；

注意：

变量“性别”的度量标准必须改为“名义”类型。

3.【设置】界面，选择“自定义检验”，勾选“比较观察可能性和假设可能性（卡方检验）”；

4.点【选项】，打开“卡方检验选项”子窗口，本例要检验男女概率都=0.5，勾选“所有类别概率相等”；

注：

若有类别概率不等，需要勾选“自定义期望概率”，在其表中设置各类别水平及相应概率。

点【确定】回到原窗口，点【运行】得到

双击上表，得到更多的描述：

结果说明：

（1）男生的观察频数为28，理论频数为25，残差=3；女生的观察频数为22，理论频数为25，残差=-3；可以计算

卡方值=[32+（-3）2]/25=0.72

（2）卡方检验的P值=0.396>0.05,故接受原假设H0，即认为男女性别人数无差异。

注：

卡方检验的P值是近似P值，若用“二项分布检验”计算出精确P值=0.480.另外，上述卡方检验也可以用：

【分析】——【非参数检验】——【旧对话框】——【卡方】

得到的结果是一致的。

二、两样本或多样本案例——比较不同类的构成比或发生率的差异

问题：

两组收入不同的受访家庭其轿车拥有率的比较。

使用【交叉表】的卡方检验来实现，需要注意：

若交叉表中存在有序分类变量，则适合用秩和检验而不是卡方检验。

有数据文件：

变量O1表示是否拥有轿车：

“1=有，2=没有”；

变量Ts9表示收入级别：

“1=4.8万以上，2=4.8万以上”。

1.【分析】——【描述统计】——【交叉表】，打开“交叉表”窗口，将变量“Ts9收入级别”选入【行】框，将变量“O1是否拥有轿车”选入【列】框，根据需要勾选“显示复式条形图”；

2.点【统计量】，打开“统计量”子窗口，勾选“卡方”表示进行卡方检验；

3.点【继续】回到原窗口，点【单元格】打开“单元显示”窗口，【计数】输出观察频数和理论频数，默认勾选“观察值”；【百分比】勾选“行”；【非整数权重】设置小数权重问题，保持默认；

注：

“残差”设置残差的输出方式；“z-检验”对多于两组的数据做两两组间比较；

点【继续】回到原窗口，点【确定】得到

案例处理摘要

案例

有效的

缺失

合计

百分比

家庭收入2级*O1.是否拥有家用轿车

989

86.2%

158

13.8%

1147

100.0%

家庭收入2级*O1.是否拥有家用轿车交叉制表

O1.是否拥有家用轿车

合计

有

没有

家庭收入2级

Below48,000

计数

303

335

家庭收入2级中的%

9.6%

90.4%

100.0%

Over48,000

计数

225

429

654

家庭收入2级中的%

34.4%

65.6%

100.0%

合计

计数

257

732

989

家庭收入2级中的%

26.0%

74.0%

100.0%

低收入家庭有9.6%拥有轿车；高收入家庭34.4%拥有轿车。

卡方检验

值

渐进Sig.（双侧）

精确Sig.（双侧）

精确Sig.（单侧）

Pearson卡方

71.134a

.000

连续校正b

69.848

.000

似然比

80.146

.000

Fisher的精确检验

.000

线性和线性组合

71.062

.000

有效案例中的N

989

a.0单元格（0.0%）的期望计数少于5。

最小期望计数为87.05。

b.仅对2x2表计算

脚注a说明没有单元格的期望频数<5,满足Pearson卡方检验要求，故看Pearson卡方检验结果即可：

P值=0<0.05,拒绝原假设H0，即高低收入不同的家庭轿车拥有上的差异有统计学意义。

注：

（1）“Pearson卡方”：

最标准最常用；

（2）“连续校正”：

只适用于4格表，样本量>40,所有期望频数都>1,只有1/5以下的单元格期望频数<5；

（3）“Fisher精确检验”：

不需要近似，结果最精确，但耗时多；若样本量<40，有单元格的期望频数<1的4格表，需要用该检验；若有单元格的期望频数<1,或<5的期望频数较多，也可采用该检验；

（4）“似然比”：

用似然比公式计算卡方，在处理多维表是有更大优势；

（5）“线性卡方”：

检验的原假设H0是行列变量间无线性相关，在列联表分类变量中很少用，更多用于连续变量。

（三）检验两分类变量间的关联程度

例如，进行客户满意度研究中，价格、质量、服务都与总体满意度相关，哪项与总体满意度关系更密切？

卡方值的大小可以粗略地反映两变量联系的强弱，更精确的描述可以用“相对危险度”和“优势比”。

（1）相对危险度（RR）

实验组人群反应阳性概率与对照组人群反应阳性概率的比值，即

用于反应实验因素与反应阳性的关联程度，RR=1表明二者无关联；RR<1表明实验因素导致反应阳性的发生率降低。

（2）优势比（OR）

有时反应阳性概率的估计值很难求得（如回顾性研究），往往使用优势比代替RR值。

优势比是反应阳性人群中实验因素有无的比例与反应阴性人群中实验因素有无的比例之比，即

若OR>1,则表明实验因素更容易导致结果为阳性，或者说“采用的实验因素”与“结果为阳性”有关联。

注：

当反应阳性概率<0.1时，OR可作为RR的近似。

优势比是两个比数之比，例如，女性购买与不购买某产品的比数是男性该比数的3倍。

问题：

描述家庭收入级别与拥有轿车的关联程度

1.【分析】——【描述统计】——【交叉表】，打开“交叉表”窗口，将变量“Ts9收入级别”选入【行】框，将变量“O1是否拥有轿车”选入【列】框；

2.点【统计量】，打开“统计量”子窗口，勾选“风险”用来计算OR值和RR值；

点【继续】回到原窗口，点【确定】得到

家庭收入2级*O1.是否拥有家用轿车交叉制表

O1.是否拥有家用轿车

合计

有

没有

家庭收入2级

Below48,000

计数

303

335

家庭收入2级中的%

9.6%

90.4%

100.0%

Over48,000

计数

225

429

654

家庭收入2级中的%

34.4%

65.6%

100.0%

合计

计数

257

732

989

家庭收入2级中的%

26.0%

74.0%

100.0%

风险估计

值

95%置信区间

下限

上限

家庭收入2级（Below48,000/Over48,000）的几率比

.201

.135

.300

用于cohortO1.是否拥有家用轿车=有

.278

.196

.392

用于cohortO1.是否拥有家用轿车=没有

1.379

1.291

1.472

有效案例中的N

989

（1）优势比OR是两个比数之比：

低收入家庭拥有轿车的比例为9.6%，没有轿车的比例是90.4%，其比数为9.6%/90.4%=0.106;高收入家庭的比数为：

34.4%/65.6%=0.524;故

OR值=0.106/0.524=0.201

该值的95%置信区间=[0.135,0.3],不包含1（有统计学意义）；

（2）相对危险度RR1是两组人群拥有轿车的概率之比，其估计值为9.6%/34.4%=0.278,说明高收入家庭拥有轿车的概率是低收入家庭的1/0.278=3.597倍，RR1值的95%置信区间=[0.196,0.392],不包含1（有统计学意义）；

（3）相对危险度RR2是两组人群没有轿车的概率之比，估计值为90.4%/65.6%=1.379.

注：

上述三个指标实际上是等价的；另外，OR值也等于有车与无车的相对危险度之比（0.278/1.379=0.201）。

（四）分层卡方检验

前文已经得到家庭收入级别会影响轿车拥有情况，那么进一步，不同城市是否存在差异？

即“城市”因素是否也是影响轿车拥有的协变量？

另外“学历”因素呢？

分层卡方检验就是解决上述问题常用的一种方法。

问题：

在前文的基础上，进一步在控制“城市”的影响的前提下，更准确地描述家庭收入与轿车拥有的关联程度。

1.【分析】——【描述统计】——【交叉表】，打开“交叉表”窗口；将变量“Ts9收入级别”选入【行】框，将变量“O1是否拥有轿车”选入【列】框；将变量“s1城市”选入【层1的1】框；

2.点【统计量】，打开“统计量”子窗口，勾选“风险”、“Cochran’sandMantel-Haenszel统计量”，点【继续】；

点【确定】，得到结果

家庭收入2级*O1.是否拥有家用轿车*S1.城市交叉制表

计数

S1.城市

O1.是否拥有家用轿车

合计

有

没有

100北京

家庭收入2级

Below48,000

102

Over48,000

134

217

合计

227

319

200上海

家庭收入2级

Below48,000

103

107

Over48,000

160

230

合计

263

337

300广州

家庭收入2级

Below48,000

107

126

Over48,000

135

207

合计

242

333

合计

家庭收入2级

Below48,000

303

335

Over48,000

225

429

654

合计

257

展开阅读全文