SPSS学习系列24卡方检验.docx

资源描述

SPSS学习系列24卡方检验.docx

《SPSS学习系列24卡方检验.docx》由会员分享，可在线阅读，更多相关《SPSS学习系列24卡方检验.docx（23页珍藏版）》请在冰豆网上搜索。

SPSS学习系列24卡方检验.docx

SPSS学习系列24卡方检验

24.卡方检验

卡方检验，是针对无序分类变量的一种非参数检验，其理论依据是：

实际观察频数f0与理论频数fe（又称期望频数）之差的平方再除以理论频数所得的统计量，近似服从2分布，即

2性成~G）

卡方检验的一般是用来检验无序分类变量的实际观察频数和理论频

数分布之间是否存在显著差异，二者差异越小，2值越小。

卡方检验要求：

（1）分类相互排斥，互不包容；

（2）观察值相互独立；

（3）样本容量不宜太小，理论频数A5,否则需要进行校正（合并

单元格、增加样本数、去除样本法、使用校正公式校正卡方值）。

卡方校正公式为：

2（|f°fe|0.5）2

卡方检验的原假设Ho：

2=0;备择假设Hi:

2丰0;

卡方检验的用途：

（1）检验某连续变量的数据是否服从某种分布（拟合优度检验）；

（2）检验某分类变量各类的出现概率是否等于指定概率；

（3）检验两个分类变量是否相互独立（关联性检验）；

（4）检验控制某几个分类因素之后，其余两个分类变量是否相互独

立；

（5）检验两种方法的结果是否一致，例如两种方法对同一批人进行

诊断，其结果是否一致。

（一）检验单样本某水平概率是否等于某指定概率

一、单样本案例

例如，检验彩票中奖号码的分布是否服从均匀分布（概率=某常值）；

检验某产品市场份额是否比以前更大；检验某疾病的发病率是否比以

前降低。

有数据文件：

巳小

敏学成茨

英语成营

一68

<37

二75

检验“性别”的男女比例是否相同（各占1/2）

1.【分析】一一【非参数检验】一一【单样本】，打开“单样本非参数检验”窗口，【目标】界面勾选“白动比较观察数据和假设数据”

落点宇槎设苫

便用一命划争个非基敛信废阳剂单个字#中的在别*弗史敷槌股不唯定您的数据呈正态分布、

嘶目标割■会？

曜个目标射应-段登朝卡上的一F不E威以媛'如有得丑•培Rf『专冒匕A波萱-

•国祯比萩观葬数据和嵌设散据也卞

曲检助睫机序列【少

€＞自一定又撕（③

|描述

使用二坂式堵验、卡方枝验洗Kolmogorw-SmiiiDV自劫EE勃观察教据和假设戡摆-根据您的题据建择不同的棍验。

7"]-.疝£I重吨-1心一l碎辂剧

2.【字段】界面，勾选“使用定制字段分配”，将变量“性别”选入

【检验字段】框；

注意：

变量“性别”的度量标准必须改为“名义”类型。

3.【设置】界面，选择“白定义检验”，勾选“比较观察可能性和假

4.点【选项】，打开“卡方检验选项”子窗口，本例要检验男女概率都=，勾选“所有类别概率相等”；

在其表中设

注：

若有类别概率不等，需要勾选“白定义期望概率”置各类别水平及相应概率。

点【确定】回到原窗口，点【运行】得到

偷役检髓汇总

Sig.

枯者

1健9I的舞到以粘同演蹬装宣.

蚣

39®

S3.

配示南派是营忤.是离哇极手电05.

双击上表，得到更多的描述:

启计N

72C

自由度

箔避也蔷姓（Z-sidod赣推）

.396

钉J"：

fe响T.ILIH3最小期甲（SFK

结果说明:

（1）男生的观察频数为28,理论频数为25,残差=3;女生的观察频

数为22,理论频数为25,残差=-3;可以计算

卡方值=[32+（-3）2]/25=

（2）卡方检验的P值=>,故接受原假设成即认为男女性别人数无差异。

注：

卡方检验的P值是近似P值，若用“二项分布检验”计算出精确

P值=.另外，上述卡方检验也可以用：

【分析】一一【非参数检验】

——【旧对话框】一一【卡方】

二、两样本或多样本案例一一比较不同类的构成比或发生率的差异问题：

两组收入不同的受访家庭其轿车拥有率的比较。

使用【交叉表】的卡方检验来实现，需要注意：

若交叉表中存在有序分类变量，则适合用秩和检验而不是卡方检验。

有数据文件：

1.【分析】一一【描述统计】一一【交叉表】，打开“交叉表”窗口，将变量“Ts9收入级别”选入【行】框，将变量“O1是否拥有轿车”选入【列】框，根据需要勾选“显示复式条形图”；

2.点【统计量】，打开“统计量”子窗口，勾选“卡方”表示进行卡

方检验；

瞑交叉表:

舞计是

/丰方切！

□相宾性四

Cochran'sancMartelHaens^d统计量;（A）

3.点【继续】回到原窗口，点【单元格】打开“单元显示”窗口，【计数】输出观察频数和理论频数，默认勾选“观察值”；【百分比】勾选

“行”；【非整数权重】设置小数权重问题，保持默认;

注：

“残差”设置残差的输出方式；“z-检验”对多于两组的数据做两

两组间比较；

点【继续】回到原窗口，点【确定】得到

案例处理摘要

案例

有效的

缺失

合计

百分比

彖庭收入2级*O1.是否拥有家用轿车

989

158

1147

家庭收入2级*O1,是否拥有家用轿车交叉制表

O1.是否拥有家用轿车

合计

有

没有

计数

303

335

Below48,000

家庭收入2级中的％

家庭收入2级

计数

225

429

654

Over48,000

家庭收入2级中的％

计数

257

732

989

合计

家庭收入2级中的％

低收入家庭有帅有轿车；高收入家庭涮有轿车

卡方检验

值

渐进Sig.（双侧）

精确Sig.（M侧）

精确Sig.（单侧）

Pearson卡方

.000

连续校正b

.000

似然比

.000

Fisher的精确检验

.000

线性和线性组合

.000

有效案例中的N

989

a.0单元格%）的期望计数少于5。

最小期望计数为

b.仅对2x2表计算

脚注a说明没有单元格的期望频数<5,满足Pearson卡方检验要求，

故看Pearson卡方检验结果即可：

P值=0<,拒绝原假设H0,即高低收入不同的家庭轿车拥有上的差异有统计学意义。

注：

（1）“Pearson卡方”:

最标准最常用；

（2）“连续校正”：

只适用于4格表，样本量＞40,所有期望频数都＞1,只有1/5以下的单元格期望频数＜5;

（3）“Fisher精确检验”：

不需要近似，结果最精确，但耗时多；

若样本量＜40,有单元格的期望频数＜1的4格表，需要用该检验；若

有单元格的期望频数＜1,或＜5的期望频数较多，也可采用该检验；

（4）“似然比”：

用似然比公式计算卡方，在处理多维表是有更大优势；

（5）“线性卡方”：

检验的原假设H0是行列变量间无线性相关，在列联表分类变量中很少用，更多用于连续变量。

（3）检验两分类变量间的关联程度

例如，进行客户满意度研究中，价格、质量、服务都与总体满意度相

关，哪项与总体满意度关系更密切

卡方值的大小可以粗略地反映两变量联系的强弱，更精确的描述可以

用“相对危险度”和“优势比”。

（1）相对危险度（RR）

实验组人群反应阳性概率与对照组人群反应阳性概率的比值，即

RR呈业

Pcc/nc

用于反应实验因素与反应阳性的关联程度，RR=1表明二者无关联；

RR<1表明实验因素导致反应阳性的发生率降低。

（2）优势比（OR）

有时反应阳性概率的估计值很难求得（如回顾性研究），往往使用优

势比代替RR值。

优势比是反应阳性人群中实验因素有无的比例与反

应阴性人群中实验因素有无的比例之比，即

a/bad

OR-

c/dbc

若OR>1,则表明实验因素更容易导致结果为阳性，或者说“采用的实验因素”与“结果为阳性”有关联。

注：

当反应阳性概率<时，OR可作为RR的近似。

优势比是两个比数之比，例如，女性购买与不购买某产品的比数是男性该比数的3倍。

问题：

描述家庭收入级别与拥有轿车的关联程度

1.【分析】一一【描述统计】一一【交叉表】，打开“交叉表”窗口,将变量“Ts9收入级别”选入【行】框，将变量“O1是否拥有轿车”选入【列】框；

2.点【统计量】，打开“统计量”子窗口，勾选“

OR值和RR值;

国交灵表:

细■t■星

'Cochran'sandMantd-Haenazd统计量（A）检验一般「留比等于-1

点【继续】回到原窗口，点【确定】得到

家庭收入2级*O1,是否拥有家用轿车交叉制表

O1.是否拥有家用轿车

合计

有

没有

计数

303

335

Below48,000

家庭收入2级中的％

家庭收入2级

计数

225

429

654

Over48,000

家庭收入2级中的％

计数

257

732

989

合计

家庭收入2级中的％

风险估计

值

95%置信区间

下限

上限

家庭收入2级（Below48,000/Over

48,000）的几率比

用于cohortO1.是否拥有家用轿车=

有

用于cohortO1.是否拥有家用轿车=

没有

有效案例中的N

.201

.278

989

.135

.196

.300

.392

（1）优势比OR是两个比数之比：

低收入家庭拥有轿车的比例

为％，没有轿车的比例是％，其比数为%/%=;高收入家庭的比数为：

/%=;故

OR值==

该值的95%置信区间=[,],不包含1（有统计学意义）；

（2）相对危险度RR1是两组人群拥有轿车的概率之比，其估计值为％

/%=,说明高收入家庭拥有轿车的概率是低收入家庭的1/=倍，RR1

值的95%置信区间=[,],不包含1（有统计学意义）；

（3）相对危险度RR握两组人群没有轿车的概率之比，估计值为％/%

注：

上述三个指标实际上是等价的；另外，OR值也等于有车与无车的相对危险度之比（/=）

（四）分层卡方检验

前文已经得到家庭收入级别会影响轿车拥有情况，那么进一步，不同

城市是否存在差异即“城市”因素是否也是影响轿车拥有的协变量另外“学历”因素呢

分层卡方检验就是解决上述问题常用的一种方法。

问题：

在前文的基础上，进一步在控制“城市”的影响的前提下，更准确地描述家庭收入与轿车拥有的关联程度。

1.【分析】一一【描述统计】一一【交叉表】，打开“交叉表”窗口；将变量“Ts9收入级别”选入【行】框，将变量“01是否拥有轿车”选入【列】框；将变量“si城市”选入【层1的1】框；

［确定J.枯贴©:

|a置［瞬］［帮助:

2.点【统计量】，打开“统计量”子窗口，勾选“风险”、“CochranS

andMantel-Haenszel统计量”，点【继续】;

.辛方担）

-名义

相依系敬。

I"己ii和C「anifr蛮景

ULambdaiL）

□不定性策教。

按区闯标定

匚Eta

_j相矣■性（B）

有序

LGamma（G）

Somers'd（S）

IKendall的taub（B）rKendall'stau-c（C）

IKappa-K）

2浏险。

）

McNem^r^M}

■■■■■■■■■Mill■■■■»■■■■»■■■■!

■■■■■■■■■■■nW1B■■■■■■■■■rMU■■■■MlB■VMllll■■■■■■■■■■■■■■»■■■■■■■■■

ViCochran^andHartclFacnszel统计量（A）谖屉钉…一-—-…一”-”一-

［卷取潸帮昉|

点【确定】，得到结果

家庭收入2级*O1.是否拥有家用轿车*S1.城市交叉制表

计数

风险估计

S1,城市

值

95%置信区间

下限

上限

家庭收入2级（Below48,000/Over

48,000）的几率比

用于cohortO1.是否拥有家用轿车=

.156

.075

.326

100北京有

用于cohortO1.是否拥有家用轿车=

没有

有效案例中的N

家庭收入2级（Below48,000/Over

.231

319

.121

.440

48,000）的几率比

用于cohortO1.是否拥有家用轿车=

.089

.031

.251

200上海有

用于cohortO1.是否拥有家用轿车=

没有

有效案例中的N

家庭收入2级（Below48,000/Over

.123

337

.046

.328

48,000）的几率比

用于cohortO1.是否拥有家用轿车=

.333

.189

.586

300广州有

用于cohortO1.是否拥有家用轿车=

没有

有效案例中的N

家庭收入2级（Below48,000/Over

.434

333

.275

.683

48,000）的几率比

用于cohortO1.是否拥有家用轿车=

.201

.135

.300

合计有

用于cohortO1.是否拥有家用轿车=

没有

有效案例中的N

.278

989

.196

.392

由于设置了分层变量，故按分层变量的水平值单独对每一层进行风险估计。

上海的OR值=，而广州的OR值=,说明是有地区差异的

几率比的均一性检验

卡方

渐进Sig.倒侧）

Breslow-Day

Tarone的

.046

层间差异的检查结果（不同城市家庭收入与轿车拥有的联系是否

相同），原假设H0：

层间无差异；P值=<,拒绝原假设H0,即不同城市是有差异的，因此不能简单地将不同城市数据总体处理得到结果。

条件的独立性检验

卡方

渐进Sig.（双侧）

Cochran的

Mantel-Haenszel

.000

在条件的独立性假定下，仅当层数固定时Cochran的统计量才渐进分布为1df卡方

分布，而Mantel-Haenszel统计量始终渐进分布为1df卡方分布。

注意，当观测值

和期望值差值之和为0时，将从Mantel-Haenszel统计量中删除连续校正。

分层卡方检验（即去除分层因素“城市”的影响之后，家庭收入与轿车拥有的关联性）的两种结果：

CMH卡方检验和MH卡方检验,前者是后者的改进。

P值=0<,说明“家庭收入”与“轿车拥有”有关联，但由于前面检验的层间差异有统计学意义，所以这个结论仅供参

考。

Mantel-Haenszel一般几率比估计

估计

.195

ln（估计）

ln（估计）的标准误差

.206

渐进Sig.倒侧）

.000

下限

.130

一般几率比

上限

.292

渐进.95%置信区间

下限

ln（一般几率比）

上限

Mantel-Haenszel一般几率比估计在假定的一般几率比下渐进地正态分布。

因此是估

计的自然对数。

给出了调整了分层因素作用后的综合OR值：

OFMh值=（原OR值=）,P值=0<,说明结果显著。

注：

（1）分层卡方检验是一种很好的控制其他因素的方法，从而能得到更准确的结果，若样本量足够大还可用引入更多的分层。

（2）SPSS勺CMH卡方检验只能进行两分类变量检验，而不能进行多分类变量的检验；当分层变量和要分析的变量存在交互作用时，分

层卡方检验就不再适用，此时应当考虑用对数线性模型或Logistic模

型来进行更为深入和准确的分析。

（5）配对设计列联表的Kappa一致检验以及配对卡方检验

一、Kappa一致检验

配对设计列联表的行变量和列变量反应的是同一事物的同一属性的

相同水平，只是对该属性各水平的区分方法不同。

例如，某疾病的诊断结果表，行变量为一种诊断方法，列变量为另一种诊断方法；对某事物的评价等级表，行变量和列变量分别显示不同专家的评价。

对于配对设计列联表，希望检验两种方法给出的结果是否一致，适合

用Kappa一致检验。

注意：

Pearson卡方检验只能检验两种测量结果之间是否存在关联，不能判断其是否具有一致性。

问题：

某公司扩展业务开新分店选址，请两位顾问分别对20个地址

进行评价，分为好、中、差3个等级，想知道两人的评价结果是否一致

峰”的评价

含什

娉中好

，的评价罪

住比一

占1

count

consl

cons?

[

count=频数，cons1,cons2表示两位顾问的评价：

1=差，2=中，3=好;

例如第一行数据：

6,1,1表示两顾问都评为“差”的有6个地址。

1.【数据】一一【加权个案】，打开“加权个案”窗口，勾选“加权个案”，将变量“频数”选入【频率变量】框，点【确定】

2.【分析】一一【统计描述】一一【交叉表】，打开“交叉表”窗口,将变量“cons1,cons2”分别选入【行】【列】框;

3.点【统计量】，打开“统计量”子窗口,

勾选“Kappsf，点【继续】;

卡万四

•名义

相依系敝（Q）

I.Phi和Cramer变量LLamtda'iL）□不定性系数也）

•按区向标定一

□Eta（E）

Cochran^and桔验一般几率t

'I相会性⑶有序

Gdrpurid（G）

Somersrd（S）0Kendal的xau-bB）[ZKendall'stauc（C）

V^Kappa（K）EMB■■■■HlIBm■■■■■■■■■■*

□风险〔!

）

_|McNemari（M'

Mantel-Haenszd统计量（A；

4.由于数据量较小才用精确检验，点【精确】，打开“精确检验”子窗口，勾选“精确”，点【继续】；

OMonteCarlofM}

\\置信泳■平理}.叫阻

样本数秘）：

1。

^uLinaJinjuiiiiii.tunJluaiiijdjiK■■».■■■auiii!

■■=■jiihluiamkaiiJiuaiiii^iiiiiM

■瞬目I

■每个检验的时i祁艮制为（ir［『|分仲

当允在计都艮制时，使用精确方替FJonieCarloo

土序』障谴方法，计夏检噩部圈寸、总是曷单元格if教四舍五入我舍位’

［蟠制成浏|帮物

点【确定】得到

顾问一的评价*顾问二的评价交叉制表

计数

顾问二的评价

合计

差

中

好

差

顾问一的评价中

好

合计

对称度量

值

渐进标准误差a

近似值T3

近似值Sig.

精确Sig.

一致性度量Kappa

有效案例中的N

.429

.131

.001

a.不假定零假设。

b.使用渐进标准误差假定零假设

结果说明：

Kappa检验的原假设H0：

Kappa值=0,即两者完全不一致；本例中，P值=＜,拒绝原假设H0,即认为结果存在一致性。

注：

（1）Kappa值，即内部一致性系数。

根据经验，一般当Kappa值A时，认为一致性较好；＜Kappa值＜时，一致性一般；Kappa值＜时，一致性较差；

n卡方吵

名义'

E相依蔻敬。

['Phi和CTanier变量

L_LsmbdatL）

匚不定性菜裁世）

口Eta（E）

J相矣唯回

-有序

..Gamma（G）

二Somers'd（S）

□Kendall的tau-b（B）

Kerdairstaj-c（G）

列Kappa（K）rimaiirBniiaiMaiiriBiiiamBin■wiain

B风险少

VMcNemarfM；

（2）一致性检验在医学上应用较多（简单异形的诊断方法是否能替代操作复杂的诊断方法）；数据分析中，比较两种预测结果的一致性时，也可能用到一致性检验。

二、McNemar配对卡方检验

两位顾问的评价似乎不太一样，如何加以分析McNemar配对卡方检

验适合解决该问题。

在Kappa一致检验的第3步，勾选“McNemar”即可

Cjchran'san

栓验一般倬比等于一1

得到结果:

卡方检验

值

渐进Sig.倒侧）

McNemar-Bowker检验

有效案例中的N

.046

原假设H0：

两顾问的评价无差别，P值=<,拒绝原假设H0,即两者评价有差别。

注：

Kappa一致检验会利用列联表的全部信息；McNemar配对卡方检验只利用非主对角线单元格的信息（更关心两者的差异）。

展开阅读全文