卡方检验与相关回归.docx

资源描述

卡方检验与相关回归.docx

《卡方检验与相关回归.docx》由会员分享，可在线阅读，更多相关《卡方检验与相关回归.docx（19页珍藏版）》请在冰豆网上搜索。

卡方检验与相关回归.docx

卡方检验与相关回归

————————————————————————————————作者：

————————————————————————————————日期：

卡方检验

本讲涉及的卡方检验（同上一讲的拟合优度检验有所不同）要用于推断两个或多个总体率、构成比是否有差别；两个分类变量间是否存在关联等；两个等级变量间是否存在线性趋势。

通常我们作卡方检验只用到了Crosstabs命令中极少部分的功能。

Crosstabs：

例如某医生用两种药物治疗十二指肠溃疡，问两种药物疗效是否不同，数据间胃溃疡.sav：

Rows框用于选择行变量；Columns框用于选择列变量；Layer指的是分层分析，将分层变量选入Layer框中，在同一层中的变量使用相同的设置，而不同层中的变量分别使用各自层的设置。

如果要让不同的变量做不同的分析，则将其选入Layer框，并用Previous和Next设为不同层。

Displayclusteredbarcharts复选框显示复式条图。

Suppresstable复选框禁止在结果中输出行×列表（主要用于表格过于巨大时为了节省空间）。

Exact选项含义同前Statistics对话框，用于定义所需计算的统计量。

接着要在statistics中定义如何分析，以及如果相了解两变量间关联应该如何选关联指标：

Chi-square复选框：

计算Pearsonχ2值。

请注意作卡方检验时一定要满足总例数与理论数足够大的要求，系统会在卡方检验表格下提示有多少格子的理论数小于5

Correlations复选框：

计算行、列两变量的Pearson相关系数（主要用于行、列变量都是计量资料的两变量相关分析，并计算Pearson关联系数r又称为ρ）和Spearman等级相关系数（主要用于分析行、列变量均为等级变量，计算Spearman等级相关系数又称为秩相关系数rs或又称为ρs）。

*比如两正态变量间的Pearson相关系数可以用crosstab过程计算，只要将correlations勾上即可

在列联表的分析中，除了计算卡方值外，有时还要了解行列变量间的关联密切程度；SPSS为我们提供了针对行列变量均为无序分类（Nominal）、等级变量（Ordinal）的列联表关联程度的衡量指标：

Nominal表示是否分析两个分类（通常指无序分类）变量间关联性，其下可计算4个指标：

1）Contingencycoefficient复选框：

即列联系数，在分析行列变量间关联性时使用；其值为

界于0～1之间（但是如果行列数较少比如仅有2行2列，该系数最大只能到0.707；而四行四列则可以达到0.87，所以它的大小除了放映两个变量间的关联性还和表格的维度有关，因此该指标较少用于不同维度列联表间关联性比较）；该系数越大表示两变量间关联性越大，反之则较小。

2）PhiandCramer'sV复选框：

φ（Phi）＝

，仅仅在四格表χ2检验中使用，界于0～1之间，反映行与列变量间的关联性大小；如果超过两行或两列，则关联系数可以用Cramer'sV表示，v＝

，它同样界于0～1之间。

在四格表中这两个系数相同。

3）Lambda复选框：

又称为Goodman&Kruskal'slambda（λ），表示用某个变量预测另外一个变量时能够减少估计错误概率的大小。

其值为1时表明自变量预测应变量时能够100％的减少估计错误，也就意味着它们间的联系极为密切；为0时表明自变量预测应变量差时不会减少任何估计错误，看来它们间不存在什么联系。

该系数通常情况下不是对称的（即用行变量估计列变量、用列变量估计行变量两种情况下误差减少的概率不一定相同），所以系统还会给出一个对称的系数值。

在与此同时系统还将提供Goodman&Kruskal'stau（τ），该系数同样是不对称的，它的含义同λ，都表示用某个变量预测另外一个变量时能够减少估计错误概率的大小，只不过计算的过程不太相同而已。

4）Uncertaintycoefficient复选框：

该系数与Lambda同属于误差概率减少指标（ProportionReductionofError），又称UC或Theil'sU（不确定系数），反映用某一个变量估计另外一个变量时能够减少其估计误差的大小；其值接近1时表明后一变量的信息很大程度来自前一变量，其值接近0时表明后一变量的信息与前一变量无关。

其计算步骤较为繁琐。

以上所有系数的计算可以参考SPSS中的Algorithm文件夹中的Crosstabs.pdf

Ordinal选择是否输出反映两个有序分类变量相关性的指标：

1）Gamma复选框：

又称为Goodman&Kruskal'sGamma（γ），其原理是分别计算列联表中分类一致（concordant，P）以及不一致（discordant，Q）的对比数，计算（P-Q）/（P+Q）即为伽马值。

如果一致的对比数大于不一致的，则伽马值为正值，表示在某一个变量的取值随着另一个变量有增大的倾向，两者存在正相关；如果一致的对比数小于不一致的，则伽马值为负值，表示在某一个变量的取值随着另一个变量有减小的倾向，两者存在负相关；而如果如果一致的对比数等于不一致的，则伽马值为0，表示在某一个变量的取值与另一个变量的取值没有关联。

伽马值是对称的。

但是伽马值没有考虑等秩（tie）的对比数，所以下面有三个指标用于解决这个问题。

2）Somers'd复选框：

γ以及下面介绍的τ-b、τ-c的计算过程中不区分自变量与因变量，因而它们是对称的；该系数的计算过程中假设行或列上的一个变量为自变量，Somers'd=（P-Q）/（P+Q+T），P、Q的含义同上，T为以因变量中等秩的对子数；其含义的解释同伽马值。

3）Kendall'stau-b复选框：

该值的含义与伽马几乎相同，不同的是他对列联表中的等秩（tie）的情况进行校正；τ-b＝

，P、Q的含义同上，TR为以行变量中等秩的对子数，TC为以列变量中等秩的对子数；τ-b界于-1～1之间；其含义的解释同伽马值，同时它也是对称的。

我们通常所说的Kendall相关系数就是指它。

4）Kendall'stau-c复选框：

该值的含义与伽马几乎相同，不同的是他对列联表的行数或列数进行校正，而且还使用了总例数进行校正；τ-c＝2m（P-Q）/[N2（m-1）]，P、Q的含义同上，N为总例数，m为行数或列数中较小的一个。

τ-c界于-1～1之间，其含义的解释同伽马值，同时它也是对称的。

NominalbyInterval复选框，列出了Eta（η）值供选择；所谓的NominalbyInterval是指一个变量为等间距的等级变量（该变量通常是数值型变量，通过一定标准划分为等距的等级；比如每个人的吸烟量原先是离散型数值变量，通过一定的标准划分为0～、5～、10～、15～、20～25几个等级），另外一个变量为无序分组；系统会给出两个η值，分别为行变量作为因变量以及列变量作为因变量的情况。

η2的含义见Comparemeans中的Means过程。

Kappa复选框：

计算Kappa（κ）值，即内部一致性系数，衡量两次分类结果间的一致性如果；如果该值大于0.75，表示一致性较好；小于0.4则意味着一致性较差，介于两者之间则一致性一般。

它仅仅适用于行列变量属性相同，而且行列数相等时。

Risk复选框：

计算比数比OR值（相对危险度RR的估计值）

McNemanr复选框：

进行McNemanr检验，如果资料采用配对设计（如配对四格表），分析时需要将其勾上；但是不会计算出卡方值，因为它是根据二项分布的原理计算出来的精确概率值。

Cochran'sandMantel-Haenszelstatistics复选框：

计算χ2M-H统计量（流行病学研究中常用的分层χ2，主要用于当数据中存在混杂因素时通过计算分层卡方值可以消除分层因素的影响），同时系统还会给出总的调整OR值（ORM-H）；该复选框下方的Testcommonoddsrationequal用于设定无效假设中的OR值，默认为1（无关联）。

以上所有系数的计算可以参考SPSS中的Algorithm文件夹中的Crosstabs.pdf

Cells对话框，用于定义列联表单元格中需要计算的指标；Counts复选框组：

是否输出实际观察数（Observed）和理论数（Expected）；Percentages复选框组：

是否输出行百分数（Row）、列百分数（Column）以及合计百分数（Total）；Residuals复选框组：

选择残差的显示方式，可以是实际数与理论数的差值A-T（Unstandardized）、标化后的差值

（Standardized），或者由行列合计值校正的标准化残差

（Adj.Standardized）。

Format用于选择行变量是升序还是降序排列。

完成设定后点击OK，系统提交结果：

该表为R×C表，列出了实际频数、理论频数、A-T、构成比等指标

该表为卡方检验的最终结果；最上一行为Pearson卡方值，第二行为进行连续性校正后的卡方值，由于本例中并没有理论数小于5的情况，所以看Pearson卡方即可；LikelihoodRatio为似然比卡方值

，它与Pearson卡方相似（其思想详见教科书Logistic回归模型的假设检验），目前认为它比Pearson卡方更稳定同时使用限制也较宽松，所以可以参考，通常情况下两者相差无几；Linear-by-linearassociation为对双向有序且属性不同的R×C表计算线性趋势，Pearson卡方值为总卡方值，该行计算的卡方就是教科书上计算的χ2回归。

综上所述可以认为两种方法结果不同。

如果有三组或三组以上比较，系统并没有提供两两比较的程序，需要通过data——selectcases中选择相应的比较组进行两两比较，同时要对检验水准作以下校正：

双变量（线性）回归与相关

一、双变量相关（Correlate-Bivariate）

SPSS的相关分析功能被集中在Statistics菜单的Correlate子菜单中，他一般包括以下三个过程：

Bivariate过程此过程用于进行两个/多个变量间的参数/非参数相关分析，如果是多个变量，则分别给出两两相关的分析结果。

这是Correlate子菜单中最为常用的一个过程，下面的讲述也以该过程为主。

Partial过程如果需要进行相关分析的两个变量其取值均受到其他变量的影响，就可以利用偏相关分析对其他变量进行控制，输出控制其他变量影响后的相关系数，这种分析思想和协方差分析非常类似。

Partial过程就是专门进行偏相关分析的。

Distances过程，用于表示统计量间的相似性或不相似性（即距离）从而为进一步的聚类分析提供参考线索；所以该过程实际上是在进行聚类、多维尺度分析前所采用的预分析过程。

Bivariate：

研究者想了解8名正常儿童的尿肌酐含量与其年龄间的关系，数据见相关.sav：

在原始数据中既有正常儿童的数据也有大骨节病儿童的数据，相关分析前最好对两个变量作散点图以了解它们间大致的关联态势：

可以看到的确不论是正常儿童还是大骨节病儿童年龄和尿肌酐间都存在线性趋势；由于我们仅仅要分析正常儿童，所以先通过data——selectcases，选择分组变量取值为2的观察对象（正常儿童）。

Variables框用于选入需要进行相关分析的变量，至少需要选入两个。

先将年龄与尿肌酐选入。

CorrelationCoefficients用于选择需要计算的相关分析指标：

Pearson选择进行积差相关分析，即最常用的参数相关分析，并计算Pearson相关系数r（要求双正态分布）；Kendall'stau-b计算Kendall's等级相关系数τ-b；Spearman复选框计算Spearman相关系数rS，即最常用的非参数相关分析（秩相关）。

TestofSignificance为用于确定是进行相关系数的单侧（One-tailed）或双侧（Two-tailed）检验，一般选双侧检验。

Flagsignificantcorrelations用于确定是否在结果中用星号标记有统计学意义的相关系数，一般选中。

此时P<0.05的系数值旁会标记一个星号，P<0.01的则标记两个星号。

Options对话框中可以选择需要计算的描述统计量和统计分析；Statistics复选框组可选的描述统计量。

它们是：

Meansandstandarddeviations每个变量的均数和标准差Cross-productdeviationsandcovariances各对变量的离均差积和以及协方差

MissingValues单选框组定义分析中对缺失值的处理方法，可以是具体分析用到的两个变量有缺失值才去除该记录（Excludecasespairwise），或只要该记录中进行相关分析的变量有缺失值（无论具体分析的两个变量是否缺失），则在所有分析中均将该记录去除（Excludescaseslistwise）。

默认为前者，以充分利用数据。

设置结束后点击OK：

该表结果提示，年龄与尿肌酐间存在线性相关关系，P=0.004，r＝0.881，二者存在正相关。

*请问能否根据以上结果认为年龄和尿肌酐间存在依存关系？

如果想要得到相关系数的可信区间，可以通过手工计算，详见教科书；如果想比较一下相关系数间是否有差别（本例中如果想要了解两种儿童的关联系数间是否有差别），可以通过比较两个系数的可信区间，或者作如下U检验：

二、两变量的线性回归（Regression-Linear）

此过程可完成二元或多元的线性回归分析。

在多元线性回归分析中，用户还可根据需要，选用不同筛选自变量的方法（如：

逐步法、向前法、向后法，等）。

本节内容仅仅限于对两变量进行线性回归分析。

例如研究者想分析某地12名一年级的女大学生体重与肺活量间的线性回归方程，数据见回归.sav。

这里体重是模型中的因变量，根据回归模型的要求，它必须是正态分布的变量才可以。

先用散点图观测两个变量间是否存在线性关系：

从图中可以看出两变量间基本满足线性趋势（严格说来，使用回归分析要满足LINE准则：

linear、independent、normaldistribution、equalvariance）。

接着我们用线性回归分析这种线性趋势：

需要说明的对于两变量或是多元线性回归，SPSS提供的操作界面是相同的。

Dependent框用于选入回归分析的应变量，本例中欲用体重估计肺活量，所以肺活量为因变量，选入该框中。

Independent框用于选入回归分析的自变量，将体重选入。

Block按钮由Previous和Next两个按钮组成，用于将下面Independent框中选入的自变量分组。

在多元回归分析中自变量的选入方式有多种，如果对不同的自变量选入的方法不同，则用该按钮组将自变量分组选入即可。

Method下拉列表用于选择对自变量的选入方法。

但是在本例中由于只有一个自变量－体重，所以Enter（强行进入法）、Stepwise（逐步法）、Remove（强制剔除法）、Backward（向后法）、Forward（向前法）五种的结果是一样的。

SelectionVariable框选入一个筛选变量，并利用右侧的Rules钮建立一个选择条件，这样，只有满足该条件的记录才会进入回归分析。

实际上它的作用完全可以通过data——selectcases代替。

CaseLabels框选择一个变量，他的取值将作为每条记录的标签。

最典型的情况是使用记录ID号的变量。

该功能基本不会使用。

WLS>>钮可利用该按钮进行权重最小二乘法的回归分析。

单击该按钮会扩展当前对话框，出现WLSWeight框，在该框内选入权重变量即可。

（该法的原理和前面统计描述explore中提供的M-estimator很相似）

接下来要定义计算的统计量：

RegressionCoefficients复选框组：

定义回归系数的输出情况，选中Estimates可输出回归系数B及其标准误，t值和p值，还有标准化的回归系数beta；选中Confidenceintervals则输出每个回归系数的95%可信区间；选中covariancematrix则会输出各个自变量的相关矩阵和方差、协方差矩阵（该选项只有在多元回归时才会有结果）。

以上选项默认只选中Estimates。

Residuals复选框组：

用于选择输出残差信息，可选的有Durbin-Watson残差序列相关性检验（该统计量的取值从0到4；如果参差间相互独立的话，则该值在2附近，所以该选项也可以用于分析回归分析的条件是否被满足）、超出规定的n倍标准误的残差列表（系统默认为3倍，该选项用于观察回归中可能出现的异常点，通常这些点的残差较大）。

Modelfit复选框：

模型拟合过程中进入、退出的变量的列表，以及一些有关拟合优度的检验，复相关系数R，决定系数R2和调整的R2，标准误及方差分析表。

Rsquaredchange复选框：

显示模型拟合过程中R2、F值和p值的改变情况。

Descriptives复选框：

提供一些变量描述，如有效例数、均数、标准差等，同时还给出一个自变量间的相关矩阵（由于本例中只有一个自变量，所以相关矩阵相当于两变量的相关分析）。

Partandpartialcorrelations复选框：

显示自变量间的相关、部分相关和偏相关系数。

Collinearitydiagnostics复选框：

给出一些用于共线性诊断的统计量，如特征根（Eigenvalues）、方差膨胀因子（VIF）等（该选项只有在多元分析过程使用）。

以上各项在默认情况下只有Estimates和Modelfit复选框被选中。

为了考察线性回归的使用条件是否被满足，我们选择勾上Durbin-Watson统计量；同时为了观测是否有极端值存在，将casewise-diagnostics勾上，极端值定义为2倍标准离差（根据无效假设，残差的总体均数为0，残差经过Z标化后，应该满足标准正态分布，那么Z值超过±2的可能性应该很小，所以将标准离差的倍数定为2）。

Plot对话框，可绘制的有标准化残差的直方图和正态分布图，应变量、预测值和各自变量残差间两两的散点图等，这些图形主要用于回归诊断。

Save对话框中可以对预测值系列（predictedvalues）、残差系列（residuals）、距离系列（Distances）、预测值可信区间系列（Predictionintervals）、波动统计量系列（Influencestatistics）等选项；事实上这些统计量特别是Distances、Predictionintervals、Influencestatistics中的统计量常用于自变量中极端值或强影响点的判断。

其具体的判断标准大致如下：

Mahalanobis：

马氏距离，如果较大则该记录可能为离群值或强影响点。

Cook’s：

如果该值超过1，则该记录可能为离群值或强影响点。

Leveragevalues：

杠杆值，如果超过2×变量数/样本含量，则该记录可能为强影响点。

Differenceinβ：

如果去除该记录后回归系数变化大，则该记录可能为强影响点。

StandardizedDfBeta：

如果大于

，则则该记录可能为强影响点。

Covarianceratio：

除去该记录后协方差阵与包含全部观测值的协方差阵的比率，如果绝对值大于2×变量数/样本含量，则该记录可能为强影响点。

Options设置回归分析的一些选项：

SteppingMethodCriteria单选钮组：

设置逐步法时纳入和排除标准，可按P值或F值来设置。

Includeconstantinequation复选框：

用于决定是否在模型中包括常数项，默认选中。

MissingValues单选钮组：

用于选择对缺失值的处理方式，可以是不分析任一选入的变量有缺失值的记录（Excludecaseslistwise）而无论该缺失变量最终是否进入模型；不分析具体进入某变量时有缺失值的记录（Excludecasespairwise）；将缺失值用该变量的均数代替（Replacewithmean）。

它的设置基本与成组t检验相同。

设置结束后，点击OK如下：

上两表中表现了变量进入模型的方式，以及模型的决定系数、标准化的决定系数。

标准化的决定系数为0.518，可见回归的贡献不算很大。

方差分析结果提示体重与肺活量间的确存在回归关系。

上表为回归方程的常数项以及自变量的回归系数，并对二者作检验。

回归方程最终可以写成：

最后是残差分析结果：

上表中列出最大与最小的预测值、最大与最小的残差、最大与最小的标准化残差、最大与最小的标准化预测值；可从图中看出各观测对象的残差的分布还是较为随机的，而且最大的标准化残差来源于第7个观测对象；最大的标准化残差也没有超过2，所以回归的使用条件基本满足。

纵上所述，体重与肺活量间存在线性回归关系，二者的的回归关系可以用下列方程表达：

。

展开阅读全文