相关分析.docx
《相关分析.docx》由会员分享,可在线阅读,更多相关《相关分析.docx(8页珍藏版)》请在冰豆网上搜索。
相关分析
第17章相关分析
唯物论者认为,任何事物之间都是有联系的,这种联系间存在着强弱、直接或间接的差别。
相关分析就是通过定量的指标来描述这种联系。
提到相关分析,许多人会认为,研究的是两个变量间的关系。
但实际上,广义的相关分析研究的可以是一个变量和多个变量之间的关系,也可以是研究两个变量群,甚至于多个变量群之间的关系。
17.1相关分析简介
测量相关程度的相关系数有很多,各种参数的计算方法、特点各异。
有的基于卡方值、有的则主要考虑预测效果。
有些是对称性的,有些是非对称性的(在将变量的位置互换时,对称性参数将不变,非对称性参数则会改变)。
大部分关联强度参数的取值范围在0~1之间,0代表完全不相关,1代表完全相关,但是,对于反映定序变量或连续变量间关联程度的参数,其取值范围则在-1到1之间,绝对值代表相关程度,而符号则代表是正相关还是负相关。
1.连续变量的相关指标
这种情况是最多见的,此时一般使用积差相关系数,又称为Pearson相关系数,来表示其相关性的大小,其数值介于-1~1之间,当两个变量的相关性达到最大,散点呈一条直线时取值为-1或1,正负号表明了相关的方向;如两变量完全无关,则取值为0。
积差相关系数应用非常广泛,但严格地讲只适用于两变量呈线性相关时。
此外,作为参数方法,积差相关分析有一定的适用条件,当数据不能满足这些条件时,分析者可以考虑使用Spearman等级相关系数来解决这一问题。
2.有序变量的相关指标
对于有序的等级资料的相关性,又往往称其为一致性,所谓一致性高,就是指行变量等级高的列变量等级也高,行变量等级低的列变量等级也低。
如果行变量等级高而列变量等级低,则称其为不一致。
3.名义变量的相关指标见教材,p328-329。
4.其他特殊指标见教材,p329。
也可参考李沛良书第四章p80-118。
17.1.2SPSS中的相应功能
SPSS的相关分析功能基本可以在两个过程中完成。
1.“交叉表:
统计量”子对话框
(1)“相关性”复选框:
适用于两个连续变量的分析,计算行-列变量的Pearson相关系数和Spearman相关系数。
(2)“按区间标定”框组:
包含了一个变量为数值变量,而另一个变量为分类变量时度量两者关联程度的指标,Eta的平方表示:
由组间变异所解释的因变量的方差的比例,即SS组间/SS总。
系统一共会给出两个Eta值,分别对应了行变量为因变量(数值变量)和列变量为因变量的情况。
(3)“有序”复选框组:
包含了一组用于反映分类变量一致性的指标,这些指标只能在两个变量均属于有序分类时使用。
它们均是由Gamma统计量衍生出来的。
(4)“名义”复选框组:
包含了一组用于反映分类变量相关性的指标,这些指标在变量属于有序和无序分类时均可使用,但两变量均为有序分类时效率没有“有序”复选框组中的统计量高。
(5)“Kappa”:
内部一致性系数。
(6)“风险”:
计算OR值(比数比/优势比)和RR(相对危险度)。
2.“相关”子菜单
由于针对连续变量的相关分析更为常用,因此SPSS还专门提供了“相关”子菜单中的3个过程用于满足相应的分析需求。
(1)双变量(Bivariate)过程:
此过程用于进行两个/多个变量间的参数/非参数相关分析,如果是多个变量,则给出两两相关的分析结果。
这是相关分析中最为常用的一个过程,实际上人们对它的使用可能占到相关分析的95%以上。
(2)偏相关(Partial)过程:
如果需要进行相关分析的两个变量其取值均受到其他变量的影响,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数,偏相关过程就是专门进行偏相关分析的。
(3)距离(Distance)过程:
不做要求。
17.2简单相关分析
17.2.1方法原理
1.一些基本概念
连续变量相关分析的一个基本特点是变量不分主次,被置于同等的地位。
它的一些常用术语如下。
(1)直线相关:
这是最简单的一种情况,两变量呈线性共同增长,或者呈线性一增一减的情况。
这里讨论的范围基本上限于直线相关。
(请尝试画出共同增长和一增一减的直线图)
(2)两变量存在相关趋势,但并非线性,而是呈各种可能的曲线趋势。
此时如果直接进行直线相关分析,有可能得出无相关性的结论。
(3)正相关与负相关:
如果A变量增加时,B变量也增加,则称为正相关,如A变量增加时,B变量减小,则称为负相关。
(4)完全相关:
两变量的相关程度达到了亲密无间的程度,当得知A变量取值时,就可以准确推算出B变量的取值。
又分为完全正相关和完全负相关两种。
2.系数计算
当两个连续变量在散点图上的散点呈现直线趋势时,就可以认为两者存在直线相关趋势,也称为简单相关趋势。
Pearson相关系数,也称为积差相关系数就是人们定量地描述线性相关程度高低的一个常用指标。
在相关分析中,协方差是一个非常重要的概念,用符号lxy来表示,其计算公式和方差非常类似:
公式见教材p331下。
可见,样本协方差是离均差乘积在样本中的平均,可以认为其近似反映了变量x与y之间的联系强弱和方向。
若离均差乘积平均后接近0,则表明变量x和y的部分取值同向,部分取值反方向,因而离均差乘积有正有负相互抵消,其和就接近于0。
而如果x、y为同向变化,则离均差乘积大多为正,其和也为正,反之则离均差积和为负。
显然,协方差可以反映两变量相关性的大小,但由于协方差的大小与x、y的量纲有关,不同问题中的协方差不可直接比较。
因此考虑使用x、y的方差对其进行标准化,得到确定系数R2,也被称为决定系数。
确定系数取值范围为0—1。
R2越大,说明回归方程拟合数据越好,或者说x与y线性关系越强,即回归方程中的自变量对y的解释力越强。
R2越小,说明x与y的线性关系越弱,它们之间的独立性越强,或者说对x的了解无助于对y的预测。
但是,确定系数仍然存在问题,它不能反映相关的方向。
于是有了相关系数r,它也是标准化后的协方差,可以很好地反映相关程度的强弱,而且数值介于-1和+1之间,其正负就反应了相关的方向,便于应用。
R2和r的计算公式见教材p332。
归纳起来相关系数具有如下特点:
(1)相关系数r是一个无单位的量值,且-1(2)r>0为正相关,r<0为负相关。
(3)r的绝对值越接近于1,说明相关性越好,r的绝对值越接近于0,说明相关性越差。
3.相关系数的检验方法
H0:
两变量之间无直线相关关系。
H1:
两变量之间有直线相关关系。
4.积差相关系数的适用条件
任何一种统计方法都是有适用条件的,对统计方法运用的好坏和正确不在于是否能写出公式或能否计算出结果,而在于针对数据特征懂得运用正确的统计方法。
在相关分析中,首先要考虑的问题就是两个变量是否可能存在相关关系,如果得到了肯定的结论,那么才有必要进行下一步的定量分析。
另外,在相关分析前必须注意以下几个问题。
(1)积差相关系数适用于线性相关的情形,对于曲线相关等更为复杂的情形,积差相关系数的大小并不能代表其相关性的强弱。
(2)样本中存在的极端值对积差相关系数的计算影响极大,因此要慎重考虑和处理,必要时可以对其进行剔除,或者进行变量转换,以避免由一两个数值导致出现错误的结论。
(郭志刚教材p36图示)
(3)积差相关系数要求相应的变量呈双变量正态分布,注意,双变量正态分布并非简单的要求x变量和y变量各自服从正态分布,而是要求服从一个联合的双变量正态分布。
在以上几条要求中,前两者要求最严,第三条比较宽松,违反时系数的计算结果也是比较稳健的。
17.2.2案例:
考察信心指数值和年龄的相关性。
例17.1利用相关分析考察总信心指数值和年龄的相关性。
对于本例,首先应该意识到的是题中的变量均为连续性变量,因此在相关系数指标体系中,应当首先考虑使用描述两个连续性变量相关性的指标。
SPSS界面的下方有“标记显著性相关”复选框,要求在结果中用星号标记有统计学意义的相关系数,一般选中。
此时P<0.05的系数值旁会标记一个星号,P<0.01则标记两个星号。
(0.001为三个星号。
思考:
哪一种要求更严格,更难拒绝原假设?
)
操作说明与结果解释:
--选择“分析”——“相关”——“双变量”菜单项,打开“双变量相关”对话框。
--将“总指数”、“年龄”选入变量列表框中。
--单击“确定”按钮。
相关性
S3.年龄
总指数
S3.年龄
Pearson相关性
1
-.219**
显著性(双侧)
.000
N
1147
1147
总指数
Pearson相关性
-.219**
1
显著性(双侧)
.000
N
1147
1147
**.在.01水平(双侧)上显著相关。
结果是以对角线的形式给出的,由于这里只分析了两个变量,因此给出的是2×2的方阵。
每个单元格共分为3行,分别是相关系数、P值和样本数。
总信心指数和年龄的相关系数为-0.219,对相关系数的检验的双侧P值小于0.001,所以可以认为,两变量间的负相关是有统计学意义的,随着年龄的增加,总指数呈现减小的趋势。
17.2.3秩相关系数
积差相关系数的要求较高,要求x、y都要服从正态分布,如果数据达不到那么高的要求,但是又要衡量两个变量之间的相关关系,SPSS为用户提供了其他方法,最常用的就是Spearman等级相关系数。
Spearman相关系数又称为秩相关系数,是利用两变量的秩次大小进行线性相关分析的,对原始变量的分布不作要求,属于非参数统计方法。
因此它的适用范围较Pearson相关系数要广得多。
相关系数
S3.年龄
总指数
Spearman的rho
S3.年龄
相关系数
1.000
-.213**
Sig.(双侧)
.
.000
N
1147
1147
总指数
相关系数
-.213**
1.000
Sig.(双侧)
.000
.
N
1147
1147
**.在置信度(双测)为0.01时,相关性是显著的。
从结果中可以看到,Spearson相关系数为-0.213,P值小于0.001,在a=0.05的水平上是拒绝无效假设的,结论和前面相同。
17.2.4Kendall等级相关系数
在双变量相关的对话框中,还提供了Kendall’stau-b等级相关系数的选项。
这个Kendall’stau-b等级相关系数是用于反映分类变量相关性的指标,适用于两个变量均为有序分类的情况。
对于上例,如果计算等级相关系数,则结果如图。
相关系数
S3.年龄
总指数
Kendall的tau_b
S3.年龄
相关系数
1.000
-.152**
Sig.(双侧)
.
.000
N
1147
1147
总指数
相关系数
-.152**
1.000
Sig.(双侧)
.000
.
N
1147
1147
**.在置信度(双测)为0.01时,相关性是显著的。
可见分析结论和前面相同。
(思考:
尽管我们这里是以一个例子进行了三种系数的分析,但是哪一种分析对信息利用的最充分?
)
17.3偏相关分析
17.3.1方法原理
之所以要通过现象看本质,就是因为某些现象可能会干扰人们对于本质的认识。
在相关分析中也存在这样的问题。
在研究两个事物或现象之间的关系时,只有充分考虑到其他事物和现象对两者之间的影响,才可能发现两者真正的联系。
(冰淇淋和强奸案的之间的正相关)
但是前面介绍的相关分析是分析两个变量之间的关系,在计算积差相关系数、Spearman相关系数和Kendall相关系数的时候都没有考虑第三方的影响,这就有可能导致对事物的解释出现偏差。
例如,上面总信心指数和年龄的相关分析,在前面章