X2检验spss.docx
《X2检验spss.docx》由会员分享,可在线阅读,更多相关《X2检验spss.docx(20页珍藏版)》请在冰豆网上搜索。
X2检验spss
X2 检验
X2检验是用途广泛的假设检验方法,它的原理是检验实际分布和理论分布的吻合程度。
主要用途有:
两个及以上样本率(或构成比)之间差异比较,推断两变量间有无相关关系,检验频数分布的拟合优度。
X2检验类型有:
四格表资料X2检验(用于两样本率的检验),行×列表X2检验(用于两个及两个以上样本率或构成比的检验),行×列列联表X2检验(用于计数资料的相关分析)。
在SPSS中,所有X2检验均用Crosstabs完成。
Crosstabls过程用于对计数资料和有序分类资料进行统计描述和统计推断。
在分析时可以产生二维至n维列联表,并计算相应的百分数指标。
统计推断则包括了我们常用的X2检验、Kappa值,分层X2(X2M-H)。
如果安装了相应模块,还可计算n维列联表的确切概率(Fisher'sExactTest)值。
Crosstabs过程不能产生一维频数表(单变量频数表),该功能由Frequencies过程实现。
界面说明
【Rows框】
用于选择行*列表中的行变量。
【Columns框】
用于选择行*列表中的列变量。
【Layer框】
Layer指的是层,对话框中的许多设置都可以分层设定,在同一层中的变量使用相同的设置,而不同层中的变量分别使用各自层的设置。
如果要让不同的变量做不同的分析,则将其选入Layer框,并用Previous和Next钮设为不同层。
Layer在这里用的比较少,在多元回归中我们将进行详细的解释。
【Displayclusteredbarcharts复选框】
显示重叠条图。
【Suppresstable复选框】
禁止在结果中输出行*列表。
【Statistics】按钮
弹出Statistics对话框,用于定义所需计算的统计量。
Chi-square复选框:
计算X2值。
Correlations复选框:
计算行、列两变量的Pearson相关系数和Spearman等级相关系数。
Norminal复选框组:
选择是否输出反映分类资料相关性的指标,很少使用。
Contingencycoefficient复选框:
即列联系数,其值界于0~1之间;
PhiandCramer'sV复选框:
这两者也是基于X2值的,Phi在四格表X2检验中界于-1~1之间,在R*C表X2检验中界于0~1之间;Cramer'sV则界于0~1之间;
Lambda复选框:
在自变量预测中用于反映比例缩减误差,其值为1时表明自变量预测应变量好,为0时表明自变量预测应变量差;
Uncertaintycoefficient复选框:
不确定系数,以熵为标准的比例缩减误差,其值接近1时表明后一变量的信息很大程度来自前一变量,其值接近0时表明后一变量的信息与前一变量无关。
Ordinal复选框组:
选择是否输出反映有序分类资料相关性的指标,很少使用。
Gamma复选框:
界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;
Somers'd复选框:
为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;
Kendall'stau-b复选框:
界于-1~1之间;
Kendall'stau-c复选框:
界于-1~1之间;
Eta复选框:
计算Eta值,其平方值可认为是应变量受不同因素影响所致方差的比例;
Kappa复选框:
计算Kappa值,即内部一致性系数;
Risk复选框:
计算比数比OR值;
McNemanr复选框:
进行McNemanr检验,即常用的配对计数资料的X2检验(一种非参检验);
Cochran'sandMantel-Haenszelstatistics复选框:
计算X2M-H统计量(分层X2,也有写为X2CMH的),可在下方输出H0假设的OR值,默认为1。
【Cells】按钮
弹出Cells对话框,用于定义列联表单元格中需要计算的指标:
Counts复选框组:
是否输出实际观察数(Observed)和理论数(Expected);
Percentages复选框组:
是否输出行百分数(Row)、列百分数(Column)以及合计百分数(Total);
Residuals复选框组:
选择残差的显示方式,可以是实际数与理论数的差值(Unstandardized)、标化后的差值(Standardized,实际数与理论数的差值除理论数),或者由标准误确立的单元格残差(Adj.Standardized);
【Format钮】
用于选择行变量是升序还是降序排列。
分析实例
一、四格表资料的X2检验
例6.1某医生用呋喃硝胺和甲氰咪胍治疗十二指肠溃疡,结果如下表,问两种药物治疗效果有无差别?
组别愈合未愈合合计有效率(%)
呋喃硝胺5486287.09
甲氰咪胍44206468.75
合计982812677.78
【建立数据文件】
由于此处给出的是频数表(大部分资料都以这种形式给出),因此在建立数据集时可以直接输入三个变量:
行变量(分组变量):
变量名取“R”,变量值为1=“呋喃硝胺组”,2=“甲氰咪胍组”
列变量(疗效变量):
变量名取“C”,变量值为1=“愈合”,2=“未愈合”
指示每个格子中频数的变量:
变量名取“F”,直接输入各个格子的频数。
所建立的数据集如下表。
然后用WeightCases对话框指定频数变量进行加权,最后调用Crosstabs过程进行X2检验。
R
C
F
1.00
1.00
54.00
1.00
2.00
44.00
2.00
1.00
8.00
2.00
2.00
20.00
【操作过程】
Data==>WeightCases(对数据按频数进行加权)
WeightCasesby单选框:
选中
FreqencyVariable:
选入F
单击OK钮
Analyze==>DescriptiveStatistics==>Crosstabs
Rows框:
选入R
Columns框:
C
Statistics按钮:
选中Chi-square复选框,单击Continue钮
Cells...按钮:
选中Row复选框,单击Continue钮
单击OK钮
【结果解释】
上题分析结果如下:
首先是有效记录数和处理记录缺失值情况报告,可见126例均为有效值。
上表为列出的四格表,其中加入变量值和变量值标签,看起来很清楚。
上表给出了一堆检验结果,从左到右为:
检验统计量值(Value)、自由度(df)、双侧近似概率(Asymp.Sig.2-sided)、双侧精确概率(ExactSig.2-sided)、单侧精确概率(ExactSig.1-sided);从上到下为:
Pearson卡方(PearsonChi-Square即常用的卡方检验)、连续性校正的卡方值(ContinuityCorrection)、对数似然比方法计算的卡方(LikelihoodRatio)、Fisher's确切概率法(Fisher'sExactTest)、线性相关的卡方值(LinearbyLinearAssociation)、有效记录数(NofValidCases)。
另外,ContinuityCorrection和Pearson卡方值处分别标注有a和b,表格下方为相应的注解:
a.只为2*2表计算。
b.0%个格子的期望频数小于5,最小的期望频数为13.78。
因此,这里无须校正,直接采用第一行的检验结果,即X2=6.133,P=0.013。
因P=0.013,可以认为两种药物疗效有差异,结合样本率,可以认为呋喃硝胺有效率高于甲氰米胍。
如何选用上面众多的统计结果令许多初学者头痛,实际上我们只需要在未校正卡方、校正卡方和确切概率法三种方法之间选择即可,其余的对我们而言用处不大,可以视而不见。
二、配对计数资料X2检验
例6.2有28份痰液标本,每份分别接种在甲、乙两种培养基中,观察结核杆菌生长情况,结果如下表,试检验甲、乙培养基生长率有无差别。
甲乙两种结核杆菌培养基的培养结果
乙培养基
甲培养基+—合计
+11920
—178
合计121628
【建立数据文件】
输入三个变量:
行变量(代表甲培养基):
变量名取“R”,变量值为1=“生长”,2=“未生长”
列变量(代表甲培养基):
变量名取“C”,变量值为1=“生长”,2=“未生长”
指示每个格子中频数的变量:
变量名取“F”,直接输入各个格子的频数。
所建立的数据集如下表。
然后用WeightCases对话框指定频数变量进行加权,最后调用Crosstabs过程进行X2检验。
R
C
F
1.00
1.00
11.00
1.00
2.00
9.00
2.00
1.00
1.00
2.00
2.00
7.00
【操作过程】
1.Data==>WeightCases(对数据按频数进行加权)
WeightCasesby单选框:
选中
FreqencyVariable:
选入F
单击OK钮
2.Analyze==>DescriptiveStatistics==>Crosstabs
Rows框:
选入R
Columns框:
C
Statistics按钮:
选中Chi-square复选框(做成组X2检验,分析甲乙两培养基分析结果有无相关)
选中McNemanr复选框:
(做配对X2检验,分析甲乙培养基阳性率有无差异)
单击Continue钮
Cells...按钮:
选中Row复选框,单击Continue钮
单击OK钮
【结果解释】
上表为有效例数,缺失例数和总例数的情况,28例均有效.
上表输出配对四格表数据。
上表为X2检验的结果。
首先是成组X2检验,X2=4.21,P=0.040,可以认为甲乙两培养基的结果有相关性(即甲阳性,乙可能也阳性)。
下面做了配对X2检验(McNemarTest),用精确概率法计算,P=0.021(双侧),可以认为甲乙两培养基阳性率差异有统计学意义。
三、R×C表X2检验
例6.3某市三个地区出生婴儿的畸形发生情况如下表,试比较这三个地区出生婴儿畸形率有无差异。
地区畸形数无畸形数合计发生率(‰)
重污染区1143278339233.61
一般市区444401034054710.95
农村67827583428.03
合计62551655228111.95
这是3×2表资料,要进行3个样本率的比较。
【建立数据文件】
直接输入三个变量:
行变量(分组变量):
变量名取“R”,变量值为1=“重污染区”,2=“一般市区”,“农村”。
列变量(疗效变量):
变量名取“C”,变量值为1=“畸形”,2=“非畸形”
指示每个格子中频数的变量:
变量名取“F”,直接输入各个格子的频数。
所建立的数据集如下表。
R
C
F
1
1
114
1
2
3278
2
1
444
2
2
40103
3
1
67
3
2
8275
【操作过程】
1.Data==>WeightCases(对数据按频数进行加权)
WeightCasesby单选框:
选中
FreqencyVariable:
选入F
单击OK钮
2.Analyze==>DescriptiveStatistics==>Crosstabs
Rows框:
选入R
Columns框:
C
Statistics按钮:
选中Chi-square复选框
单击Continue钮
Cells...按钮:
选中Row复选框
单击Continue钮
单击OK钮
【结果解释】
上表为有效例数,缺失例数和总例数的情况,52281例均有效。
上表输出原始数据,并计算行百分数,重污染区畸形率为3.4%,一般市区为1.1%,农村为0.8%。
上上表为X2检验的结果,X2=148.984,自由度=2,P=0.000,
可以认为这三个区新生儿畸形率差异有统计学意义,畸形率不同或不全相同。
至于哪些地区有差别,那些地区没有差别,或都有差别,可进行X2分割。
四、R×C列联表资料X2检验
列联表是指每个观察对象按两种属性交叉分组归类,而且每种属性的分类都是有序的,这样整理出的资料称双向有序列联表。
配对计数资料就是一个2×2列联表。
例6.4下表资料是492名不同期次矽肺患者其肺门密度级别的资料,试分析矽肺期次和肺门密度级别有无关系。
不同期次矽肺患者肺门密度级别分布
━━━━━━━━━━━━━━━━━━━━━━━
肺门密度级别
矽肺期次──────────合计
++++++
───────────────────────
Ⅰ4318814245
Ⅱ19672169
Ⅲ6175578
───────────────────
合计50301141492
━━━━━━━━━━━━━━━━━━━━━━━
该资料是一个3×3列联表。
每个矽肺病人按矽肺的期次和胸片肺门密度的级别进行交叉分类归组。
使用x2检验可以分析这两个属性之间有无相关性。
【建立数据文件】
直接输入三个变量:
行变量(分组变量):
变量名取“R”,代表矽肺期次,变量值为1=“Ⅰ期”,2=“Ⅱ期”,3=“Ⅲ期”。
列变量(疗效变量):
变量名取“C”,代表肺门密度,变量值为1=“+”,2=“++”,3=“+++”。
指示每个格子中频数的变量:
变量名取“F”,直接输入各个格子的频数。
所建立的数据集如下表。
R
C
F
1
1
43
1
2
188
1
3
14
2
1
1
2
2
96
2
3
72
3
1
6
3
2
17
3
3
55
【操作过程】
1.Data==>WeightCases(对数据按频数进行加权)
WeightCasesby单选框:
选中
FreqencyVariable:
选入F
单击OK钮
2.Analyze==>DescriptiveStatistics==>Crosstabs
Rows框:
选入R
Columns框:
C
Statistics按钮:
选中Chi-square复选框(做X2检验)
选种Kendall’stau-b复选框(计算列联系数)
选种Kappa复选框(计算Kappa值,分析一致性)
单击Continue钮
Cells...按钮:
选中Row复选框(计算行百分数)
单击Continue钮
单击OK钮
【结果解释】
上表为有效例数,缺失例数和总例数的情况,492例均有效。
上表输出原始数据,并计算行百分数。
上表结果为X2检验的结果,X2=163.007,自由度=4,P=0.000,可以认为矽肺期次和肺门密度有关,结合下表的列联系数(Kendall’stau-b)为0.498,两者呈正相关的关系,即矽肺期别越高,肺门密度级别也越高。
上表输出Kendall’stau-b列联系数,其值为0.498,标准误为0.034,对列联系数检验的统计量为13.680,P=0.000。
Kappa=0.127,其标准误=0.028,对Kappa值检验的统计量为5.070,P=0.000,可认为两者有一致性。
根据经验Kappa≥0.75,表明两者一致性好;0.75>Kappa≥0.4,表明一致性一般;Kappa<0.4表明一致性差。
矽肺期次和肺门密度有一致性,但一致性差。
习题
1、某卫生防疫站对屠宰场及肉食零售点的猪肉,检查其表层沙门氏菌带菌情况,如下表,问两者带菌率有无差别?
采样地点检查例数阳性例数带菌率(%)
屠宰场2827.14
零售点14535.71
合计42716.67
2.以眼为单位观察20岁以上居民眼睛的晶状体点状混浊程度与年龄间的关系得资料如下,分析两者之间有无关系。
──────────────────────
晶状体混浊程度
年龄(岁) ─────────── 合 计
++++++
──────────────────────
20- 225 67 44 336
30- 14110163305
40- 158128132418
──────────────────────
合计5242962391059
──────────────────────
3、某医院比较急性黄疸型肝炎与正常人在超声波肝波波型上的表现,结果如下。
问两组病人肝波波型的密度构成有无差别?
波型密度
组别正常较密很密合计
黄疸型肝炎组1243232287
正常人组2773911327
合计28982243614
4、为研究血型与胃溃疡、胃癌的关系,得下表资料,因AB型例数少而省略,问各组血型构成有无差别?
血 型
────────── 合计
OAB
────────────────────
胃溃疡 993 679 134 1806
胃 癌 39341684893
对 照 290226525706097
────────────────────
428837207888796
────────────────────
5、有21例急性心肌梗塞并发休克患者,分别采用西药和中西药结合的方法,疗效如下。
问两组疗效有无差别?
两种疗法对心肌梗塞的疗效比较
治疗组康复死亡合计
西药组6511
中西药组9110
合计15521
6、现有170例已确诊的乳癌患者,用两种方法对其进行诊断,问:
这两种诊断方法的诊断结果是否有关系?
两种方法何者为优?
两者的一致性如何?
────────────────
临床诊断
X线诊断─────────
乳癌非乳癌
────────────────
乳癌2430
非乳癌7046
────────────────
7、比较某市三个地区出生婴儿的畸形率有无差异。
某市三个地区出生婴儿的畸形率
地区畸形数无畸形数合计畸形率(‰)
重污染区1143278339233.61
一般市区444401034054710.95
农村67827583428.03
合计625516565228111.95