专题7交叉分类和卡方检验.docx

资源描述

专题7交叉分类和卡方检验.docx

《专题7交叉分类和卡方检验.docx》由会员分享，可在线阅读，更多相关《专题7交叉分类和卡方检验.docx（14页珍藏版）》请在冰豆网上搜索。

专题7交叉分类和卡方检验.docx

专题7交叉分类和卡方检验

专题7交叉分类（列联表）和卡方检验

（本专题较深入的理论和分析可参考Bishop等的《离散多元分析》）

（各部分较浅显、直观的说明可参考的资料在各部分列出）

Ä变量的测度

Ä交叉分类问题

ÄCrosstabs过程

变量的测度

英文名称

测度

量表

社科研究变量类型

性质

有序

有距

有绝对零

NominalMeasure

名义测度

名称量表

定类变量

OrdinalMeasure

序次测度

顺序量表

定序变量

IntervalMeasure

间距测度

区间量表

定距变量

ScaleMeasure

比例测度

比例量表

定比变量

注：

1、这里是按测度由低级到高级排列的，高级测度的变量可以看作或转化为低级测度的变量。

2、SPSS中变量定义时，没有IntervalMeasure，只有ScaleMeasure。

3、社科研究中常常将不专门列出定比变量这一类，而将其包含在定距变量中。

交叉分类问题

比较和对照是进行科学研究的基本手段。

对于间距测度和比例测度的资料，进行分组比较时可以用均数检验、方差分析等方法。

对于有较多可取值的序次测度资料，进行分组比较时可以用各种秩和检验方法。

而对于名义测度的资料、有序分类所得的资料（也属序次测度），分组比较时需用交叉分类进行统计描述，交叉分类所得的表格称为“列联表”，统计推断（检验）则要使用列联表分析的方法------卡方检验。

卡方分析是用来研究两个定类变量间是否独立即是否存在某种关联性的最常用的方法。

例：

按“性别”和“肥胖程度”交叉分类所得列联表如下：

性别

肥胖程度

不肥胖

轻度肥胖

中/重度肥胖

Total

男

女

106

Total

149

这里是按两个变量交叉分类的，该列联表称为两维列联表，若按3个变量交叉分类，所得的列联表称为3维列联表，依次类推。

3维及以上的列联表通常称为“多维列联表”或“高维列联表”，而一维列联表就是频数分布表。

卡方分析的方法：

假设两个变量是相互独立，互不关联的。

这在统计上称为原假设；对于调查中得到的两个变量的数据，用一个表格的形式来表示它们的分布（频数和百分数），这里的频数叫观测频数，这种表格叫列联表；如果原假设成立，在这个前提下，可以计算出上面列联表中每个格子里的频数应该是多少，这叫期望频数；比较观测频数与期望频数的差，如果两者的差越大，表明实际情况与原假设相去甚远；差越小，表明实际情况与原假设越相近。

这种差值用一个卡方

统计量来表示；对卡方值进行检验，如果卡方检验的结果不显著，则不能拒绝原假设，即两变量是相互独立、互不关联的，如果卡方检验的结果显著，则拒绝原假设，即两变量间存在某种关联，至于是如何关联的，这要看列联表中数据的分布形态。

　　应用交叉列联表卡方检验时，应注意以下几个问题：

Ø列联表各单元格中频数大小的问题

列联表中不应有期望频数小于1的单元格，或不应有大量的期望频数小于5的单元格。

如果交叉列联表中有20%以上的单元格中的期望频数小于5，则一般不宜用卡方检验。

Ø样本量大小的问题

卡方值的大小会受到样本量大小的影响,因此卡方检验受样本量的影响很大。

同样两个变量，不同的样本量，可能得出不同的结论。

例如：

在某列联表中，若各个单元格的样本数均同比例扩大10倍，卡方值也会随之扩大10倍。

由于自由度和显著度水平未改变，卡方的临界值不变，从而使拒绝原假设的可能性增加。

因此，有必要对Pearson卡方值进行修正，以消除样本量的影响。

可采用列联系数、Phi系数等进行修正。

Ø对变量取值的不同分类的问题

对变量取值的不同分类会引起卡方值的改变，有可能得到不同的结论。

所以在分类时不能随意，要有理论或统计上的依据。

特别是对定距或定序变量，要先将变量的取值分组归类，才能使用卡方分析，而且由于分组的方法不同，也会得出不同的结论；同时，对于定距或定序变量用卡方分析，没有充分利用它们的数量信息。

Crosstabs过程

Crosstabs过程的使用方法

☞Crosstabs过程的主界面

☞“Cells”按钮

☞“Format”按钮

☞“Statistics”按钮

☞“Exact”按钮

☞Crosstabs过程的主界面

通过菜单项“Analyze→DescriptiveStatistics→Crosstabs”可进入如下的Crosstabs过程主界面：

其中“Row[s]”矩形框用于放置列联表的行变量，即该变量不同的值对应列联表中不同的行。

“Column[s]”矩形框用于放置列联表的列变量。

行变量和列变量都是必须设置的。

“Layer”矩形框用于放置层变量。

层变量不是必需的，若设置了层变量，则行变量和列变量将针对层变量的每个取值（有多层时为取值组合）分别给出列联表。

SPSS的Crosstabs过程允许最多设置8个层，可以用“Previous”和“Next”按钮在各层之间切换。

“Layer”后面的数字表示当前显示的是总共多少层之中的第几层，如“2of3”表示共设置了3层，目前显示的是第2层的层变量。

行变量、列变量、各层的层变量都允许设置多个，SPSS将按照不同的组合逐个处理，相互之间不影响。

ØDisplayclusteredbarcharts复选项：

用于确定是否要作交互式直条图。

ØSuppresstable复选项：

用于确定是否要抑制列联表的输出。

Ø示例与练习：

使用tables.sav数据文件，以“性别”为行变量、“肥胖程度”为列变量，作频数分布表和直条图。

然后再加上层变量“文化程度”，重作频数分布表。

☞“Cells”按钮

单击“Cells”按钮将弹出如下对话框：

Cells对话框用于选择列联表的单元格中需要计算哪些统计量。

其中各选项含义如下。

●Counts复选框组：

用于选择输出何种观察值。

ØObserved：

输出实际观察数，这时默认的选项。

ØExpected：

输出理论观察数（期望值）。

●Percentages复选框组：

用于选择输出何种百分数。

ØRow：

输出按行计算的百分数

ØColumn：

输出按列计算的百分数

ØTotal：

输出按各行各列合计的百分数

●Residuals复选框组：

用于选择输出何种残差。

ØUnstandardized：

非标准化残差，即一般的残差（实际数与理论数的差值）。

（定义为观测频数f0—期望频数fe）

ØStandardized：

标准化残差（定义为

将差值转化为标准正态分布）

ØAdj.Standardized：

调整的标准化残差

Ø示例与练习：

使用tables.sav数据文件，以“性别”为行变量、“肥胖程度”为列变量，作频数分布表，并在单元格中输出各种统计量。

☞“Format”按钮

单击“Format”按钮将弹出如下对话框

Format对话框用于规定输出的列联表的格式。

其中两个选项的含义如下。

Ascending：

各行按升序排列（默认格式）。

Descending：

各行按降序排列。

Ø示例与练习：

使用tables.sav数据文件，以“性别”为行变量、“肥胖程度”为列变量，作频数分布表，要求在单元格中输出实际观察值、行百分比，分别使用按行变量升序和降序排列。

☞“Statistics”按钮

单击“Statistics”按钮将弹出如下对话框：

Statistics对话框用于选择除列联表之外，还要计算哪些统计量。

其中各选项的含义如下。

●Chi-square复选框

●Correlations复选框

●Nominal复选框组

●Ordinal复选框组

●Eta复选框

●Kappa复选框

●Risk复选框

●McNemanr复选框

●Cochran'sandMantel-Haenszelstatistics复选框

●Chi-square复选框：

计算χ2值，作χ2检验。

χ2检验（卡方检验）用于检验行变量与列变量是否相互独立，或者是：

对于行变量的不同取值，各列变量取值例数的比例是否相同。

对于2×2表也相当于率的检验。

◆SPSS会给出多种χ2值及检验结果，其意义如下：

（参艾沃日特的《列联表分析》）

ØPearsonChi-Square：

就是最常用的Pearson卡方检验。

ØContinuityCorrection：

进行了连续性修正的卡方检验，仅用于四格表（2×2表）。

ØLikelihoodRatio：

似然比卡方检验（当样本数较大时，似然比卡方与Pearson卡方非常接近）。

ØFisher'sExactTest：

Fisher的确切概率检验，仅用于四格表。

ØLinear-by-LinearAssociation：

线性结合趋势的卡方检验。

仅用于行变量、列变量都是序次测度的时候。

（参艾沃日特的《列联表分析》中3.6节：

有序表）

使用方面的建议：

当样本理论观察数小于5的格子不超过20％，且没有理论观察数小于1，可使用Pearson卡方检验（最普及），否则使用似然比卡方检验（较专业，经研究综合效果最好）。

另外，对于四格表也可作如下处理：

Ø当样本理论观察数T小于5的格子不超过20％，且没有理论观察数小于1，且n≥40时可使用Pearson卡方检验。

Ø当样本理论观察数小于5的格子超过20％，但没有理论观察数小于1，且n≥40时可以使用连续性修正的卡方检验。

Ø当有理论观察数小于1的时候或n＜40时，使用Fisher的确切概率检验或似然比卡方检验。

Ø示例与练习：

使用tables.sav数据文件，以“性别”为行变量、“肥胖程度”为列变量，作频数分布表和卡方检验，要求在单元格中输出实际观察值、行百分比。

使用tables.sav数据文件，以“性别”为行变量、“进行运动”为列变量，作频数分布表和卡方检验，要求在单元格中输出实际观察值、行百分比。

●Correlations复选框：

计算行变量和列变量的Pearson相关系数和Spearman等级相关系数。

仅用于行列变量均是定距型变量或均是定序变量。

Ø示例与练习：

使用tables.sav数据文件，以“文化程度”为行变量、“肥胖程度”为列变量，作卡方检验，要求输出相关系数、抑制列联表。

●Nominal复选框组：

反映两个名义测度的变量之间关联性的指标。

（计算行变量与列变量间的关联性。

）

这些指标对关联性的定义不同，是从不同的角度说明问题的，各有各的用。

引出各种各样的关联性指标这一事实本身就说明了：

选出一个可适用于各种场合的关联性指标是困难的。

要真正理解各个关联性指标的作用，必须搞清楚其定义和计算方法。

（这部分内容可参易丹辉的《非参数统计》、艾沃日特的《列联表分析》）

ØContingencycoefficient：

即列联系数，根据χ2值计算而得，其值介于0～1之间，注意列联表中行列数应相同。

ØPhiandCramer'sV：

Phi系数（-1~1,仅用于2×2表）和Cramer（克莱姆）的V系数，它们都是校正列联系数。

ØLambda：

给出λ系数和GoodmanandKruskal的τ系数（又常记为tau-y）。

它是用于反应自变量对因变量的预测效果，即知道自变量取值时对应因变量的预测有多少改进。

在0～1之间取值，1表示自变量可以很好的预测因变量；0表示两变量独立。

两者都可以反映自变量对应变量的预测效果。

（PRE）。

λ系数有对称形式和非对称形式之分。

GoodmanandKruskal的τ系数（tau-y）只有非对称形式，而没有对称形式，必须考虑方向性。

ØUncertaintycoefficient：

不确定系数。

不确定系数也有对称形式和非对称形式之分，它用于反映当知道自变量后，因变量的不确定性下降多少。

其值越接近于其上限1，表明从第一个观察量获得的有关第二个变量的值的信息越多；其值越接近于其下限0，表明第一个观察量获得的有关第二个变量的值的信息越少。

这也是PRE变量。

Ø示例与练习：

使用tables.sav数据文件，以“文化程度”为行变量、“职业”为列变量，作频数分布表和卡方检验，要求在单元格中输出实际观察值、行百分比，并输出各种名义测度间的关联指标。

●Ordinal复选框组：

反映两个序次测度的变量之间关联程度的指标。

同样地，在这里要选出一个可适用于各种场合的关联性指标是困难的。

要真正理解各个关联性指标的作用，必须搞清楚其定义和计算方法。

（这部分内容可参李佩良的《社会研究的统计方法》、艾沃日特的《列联表分析》）

ØGamma：

又称为γ系数，也是PRE指标，通常用于2×2表。

它是依据某一水平所测得的两变量之间的联系水平。

其值为1时，表示所有的观测量都集中在表格的左上角到右下角的对角线上，0表示观测量相互独立。

ØSomers'd：

即萨默尔d系数，具有PRE意义。

也有对称形式和非对称形式之分。

它是反应两个有序变量之间的联系水平。

ØKendall'stau-b：

又称为Kendall等级相关系数。

其值介于-1～1之间。

不具有PRE意义。

它是对相关的有序变量进行的非参数相关检验，通常用于方形列联表。

ØKendall'stau-c：

其值介于-1～1之间。

是在tau-b的基础上进一步考虑了表的大小的调整，通常用于任意格数的列联表。

不具有PRE意义。

Ø示例与练习：

使用tables.sav数据文件，以“居住情况”为行变量（变量值1、2、3分别为好、中、差）、“血压控制情况”为列变量，作频数分布表和卡方检验，要求在单元格中输出实际观察值、行百分比，并输出各种序次测度间的关联指标。

●Eta复选框：

计算η值（也有的书用大写英文字母E），用于说明一个名义测度的变量和一个间距测度的变量之间的关联程度，有方向性，其值介于0～1之间，是PRE指标。

该方法的核心思想类似于单因素方差分析。

通常将定类变量当作控制变量（Independent解释变量）,将定距变量当作观测变量（Dependent被解释变量）。

然后分析观测变量的变差中，有多少比例是由控制变量解释的。

Ø示例与练习：

使用coanova.sav数据文件，以“体重组”为行变量、“胆固醇”为列变量，计算Eta值，

●Kappa复选框：

计算κ系数。

（重在研究一致性）

κ系数即内部一致性系数，医学中非常常用的一致性指标，取值介于0～1之间。

κ系数用于反映两个名义测度变量配对取值的一致性程度，κ系数越大说明越一致。

例如，当配了对的两类观察者（各n个），分别将同一个观察对象归入c类中的某一类时，可以用κ系数综合地反映各对中的两人意见的一致程度。

同一批观察者两次将同一个观察对象归入c类中的某一类时，也可以用κ系数综合地反映每个人两次意见的一致程度。

两个观察者分别对N个对象进行归类（可以归入的类是相同的），也可以用κ系数综合地反映两个人意见的一致程度。

计算时，两类观察者（或同一批观察者的两次归类，或两个观察者）的意见安排在两个变量上，然后计算这两个变量的κ系数。

显然，要计算两个变量的κ系数，这两个变量必须具有相同的可取值。

k>=0.75,一致性较好；

0.75>k>=0.4，一致性一般；

k<0.4,一致性较差

Ø示例与练习：

使用agree.sav数据文件，以“count”为case的权重（频数），以“doct1”为行变量、“doct2”为列变量，求Kappa系数。

如果“医生甲诊断结果”、“医生乙诊断结果”是同一个医生的两次诊断结果，可否这样求Kappa系数？

这时的Kappa系数说明什么？

●McNemanr复选框：

（重在研究不一致性）

作McNemanr检验，即配对资料的χ2检验。

显然，该检验针对方形表格进行，且行变量和列变量应具有相同的可取值。

Ø示例与练习：

使用agree.sav数据文件，以“count”为case的权重（频数），以“doct1”为行变量、“doct2”为列变量，做McNemanr检验。

●Risk复选框：

计算比数比（OR值）和相对危险度（RR值）。

在发病率较小情况下，OR≈RR。

这是医学研究中非常常用的指标，仅用于2×2表。

SPSS是用OR值作相对危险度的近似估计值。

●Cochran'sandMantel-Haenszelstatistics复选框：

对2×2×k表计算χ2M-H统计量（即分层χ2，也有写为χ2CMH的），可在下方的输入框中输入原假设的公共OR值为多少，默认为1。

当层间存在混杂因素时，计算分层卡方可以很好的消除混杂因素对结果的影响。

该选项只有当行变量与列变量都是二分变量时才有效。

Ø选中该项程序将给出如下统计量：

✓两个分层χ2统计量及检验结果：

Cochran'sχ2统计量和Mantel-Haenszelχ2统计量。

两个层间同质性检验统计量及检验结果：

Breslow-Dayχ2统计量和Tarone'sχ2统计量。

✓关于公共OR值的统计量：

估计量、ln（OR）、ln（OR）的标准误、双侧检验显著性、OR值的95％置信区间、ln（OR）的95％置信区间。

Ø示例与练习：

某次病例对照研究调查了口服避孕药与心肌梗死的情况，考虑到年龄是个可能的混杂因素，将其也纳入调查，得到数据oc.sav，试分析口服oc与心肌梗死有无关系。

展开阅读全文