spss软件相关分析.docx
《spss软件相关分析.docx》由会员分享,可在线阅读,更多相关《spss软件相关分析.docx(13页珍藏版)》请在冰豆网上搜索。
spss软件相关分析
两变量间相关关系的测量方法
在物理类文献中见到判断相关的方法比较单一,不如社会学那么丰富。
尽管有不少相关系数以前并未遇到,但也在整理的过程中同时学习。
下面是自己整理的两变量间相关关系的测量方法。
难免疏漏,请各位加以修正补充。
一、相关关系
事物之间的联系大致可以分为两类,一类是确定性关系,变量之间存在着一一对应的关系,即函数关系;另一类是不完全确定的关系,两个变量之间存在着相互依赖、相互影响的关系,却不是严格的一一对应关系,称为相关关系。
相关关系反映的是变量之间是否存在联系亦即联系的程度。
确定性关系与相关关系之间往往无法截然区分,一方面,由于测量误差等随机因素的影响,确定性关系在现实中往往通过相关关系表现出来;另一方面,当人们对客观事物的内部规律了解得更深刻时,相关关系又有可能转化为确定性关系。
二、变量类型
依据测量尺度,在社会科学研究中一般将变量分为定类变量、定序变量和定距变量三大类(此外,还有“定比变量”,社会科学研究不作区分)。
它们之间的关系是从定类变量开始,后一个变量比前一个变量的层次高,后一个变量除具有前一个变量的特征外,还具有自己的特点。
定类变量:
变量的取值仅仅只有类别属性之分,例如性别,没有大小、优劣之别。
在社会调查研究活动中,凡是涉及到类型划分社会现象均属于定类变量。
定序变量:
变量的取值除了有类别属性之分外,还有等级或次序的区别,例如教育程度,态度量度。
凡属于等级或次序上有区别的变量均为定序变量。
定距/定比变量:
变量的取值除了具有类别、次序区别之外,还有类别之间、序列之间的标准化距离的变量。
变量的值之间可以比较大小,两个值的差有实际意义。
在对社会现象的调查研究中,凡是可以用固定标准测量的、可以划分出距离的变量,均属于定距变量。
其中,定距/定比变量的区别:
定距变量=0,不表示“没有”,因此这一测量类型所得出的数据在数学运算上只能进行加、减运算,而不能做乘除等运算;定比变量=0,表示“没有”,即有一个有实际意义的零点(绝对零点),因此,定比变量除了可做加减运算,又能做乘除运算。
(但两者在SPSS中没有太大的区别)。
分 类
定 义
举 例
数学特征
定类变量
按照对象的某种特征划分类别
性别
科目
=、≠
定序变量
按照对象的某种特征,把类别按顺序、等级排列
评价等级
=、≠
>、<
定距变量
对象不仅可按特征排序,而且还可以测量序列间的距离
年龄
工资
=、≠;>、<;+、—
(定比变量还包括×、÷)
对研究变量的不同特征遵循如下的分类方法:
定类变量
要求变量的特征分类具有可辨别性,且不同类别应无同一性的性质。
定序变量
要求变量的特征与属性可以排序或分等级。
定距变量
要求测量单位具有相等的意义,且没有绝对意义的“零点”。
定比变量
要求测量单位具有相等的意义,且有一个绝对意义的“零点”。
三、基本方法
(一)绘制散点图
(略)
(二)计算相关系数
对不同类型的变量数据,应采用不同的相关系数来度量。
1.定类变量——定类变量
(1)φ-Phi系数
描述2×2数据相关程度最常用的一种相关系数
对于一个具体的2×2维列联表
X1 X2
Y1 a b
Y2 c d
(2)C系数,也称列联系数
列联表是观测数据按两个或更多属性(定类变量)分类时所列出的频数(或概率)表。
当一张表格超过2维时,Phi的值不一定是在0---1之间,为了获得0≤Phi≤1,皮尔逊建议用列联系数
C的最高限取决于行数和列数,一般达不到上限1。
(3)Cramer'sV系数
V的最高上限可以达到1。
PRE(减少误差比例测量法,Propoctionatereductioninerror)数值的意义:
就是用一个现象(如变量X)来预测另一个现象(如变量Y)时能够减除百分之几的误差。
PRE=(E1—E2)/E1
E1:
当不知道X变量去估计Y变量时所产生的误差(全部误差)
E2:
知道X变量再去估计Y变量产生的误差
E1—E2为剩余的误差
Lambda和Tau-y系数都是具有PRE性质的系数
(4)Lambda(λ)系数
这种相关测量法也叫做Cuttman’scoefficientofpredictability,它的基本的逻辑是计算以一个定类变量的值来预测另一个定类变量的值时,如果以众值作为预测的准则,可以减除多少误差。
消减的误差再全部误差中所占的比例越大,表示两个变量之间相关的程度越大。
分为:
对称形式——用于测量两个变量间的关系是对等的,即无自变量与因变量之分。
简写成λ系数。
非对称形式——测量两个变量间的关系有自变量与因变量之分。
简写成λy(x为自变量,y为因变量)
一般来说,系数在0~1之间取值,值越大表明相关程度越高。
Lambda相关测量法是以众数作为预测的工具,没有考虑其他的条件。
如果众数都出现在频数分布表的某一行或某一列时,Lambda系数将等于0,但并不说明X和Y一定完全无关。
同时,这也说明Lambda系数测量X、Y的相关水平是较为粗糙的一种方法。
因此社会学研究中有时采用Goodman和Kruskal的Tau-y系数。
(5)GoodmanandKruskal的Tau-y系数
这个系数的敏感度高于Lambda系数,但只适合于分析不对称的关系,属于不对称相关测量法,要求两个定类变量中有一个是自变量,有一个是因变量。
Tau-y系数的值介于0—1之间,具有消减误差比例的意义,这个系数的特色是在计算时会包括所有的边缘次数和条件次数。
在那么多相关系数中,在进行研究时,一般选择哪一个比较好?
在定类——定类关系中,如果是不对称关系,最好选择用的是Tau-y,如果是对称的关系,则最好选择用的是Lambda系数,Phi、C、V系数没有消减误差比例的意义,而且假定两个变量之间的关系是对称的。
在这三个系数中,由于V不受表的大小的影响,因此用得比较多,也比较适合于进行社会学研究。
三、基本方法
(一)绘制散点图
(略)
(二)计算相关系数
对不同类型的变量数据,应采用不同的相关系数来度量。
常用的I行J列表格
Y
(因变量)
X(自变量)
1 2 j J
1
n11 n12… n1j… n1J
n1·
2
n21 n22… n2j… n2J
n2·
…
i
ni1 ni2… nij… niJ
ni·
…
I
nI1 nI2… nIj… nIJ
nI·
总和
n·1 n·2… n·j… n·J
1.定类变量——定类变量
2×2表格的相关度量
以卡方为基础的量度
(1)φ-Phi系数
在相关度量法中不采用拟合优度卡方是因为拟合优度卡方过分依赖于样本数大小。
将卡方除以n针对样本量n进行修正就是φ系数:
,或者
变量X和Y的边缘分布的变异影响φ的大小。
在其他数值保持不变的情况下,边缘分布越不平衡,φ值越小。
当一个或两个边缘分布非常偏斜的时候,较不敏感的量度方法可能是更好的选择。
φ是一个对称量度系数,对φ的计算并不依赖于哪个变量是因变量。
I×J表格的相关量度法
当I和J都大于2时,φ随I和J的增加而增大,因此φ没有上限,这样系数间就缺乏了比较。
部分因为这个原因,统计学家提出了许多新的φ修正系数。
这些修正系数全都是对称的,并且当变量是统计独立时等于零。
然而,最大的两个缺点是,它们通常不能获得它们的最大值,并且取值范围在0和1.0之间很难解释。
(2)C系数,也称列联系数
列联表是观测数据按两个或更多属性(定类变量)分类时所列出的频数(或概率)表。
当一张表格超过2维时,Phi的值不一定是在0---1之间,为了获得0≤Phi≤1,皮尔逊建议用列联系数
当列联表中两个变量不相关时,C=0,若两个变量相关时,则C随着I和J的变化而变化,但0≤C<1。
C<1表现出C系数的一个缺陷,这不满足作为相关系数应该具备的特点(两个变量完全相关时,相关系数应为1)。
一些研究者建议不要将C系数用在小于5×5的表格中(Garson,1976)
(3)Cramer'sV系数
Cramer’sV系数修正了φ系数无上限和C系数的上限小于1的不足。
当变量X和Y不相关时,V=0,当两个变量完全相关时,则V=1。
除了对表格唯独和边缘分布灵敏之外,这几个基于卡方的量度系数并没有直观的有吸引力的解释。
即使它们取值范围在0和1.0之间,也很难说0.49这么一个数值反映了什么关系。
很可能这个关系是微弱的,但是没有可以操作的标准来评估他的大小。
这类量度系数最早是作为通常的相关系数的近似值发展起来的,现在已经被更多的易于解释的量度系数所补充。
为了避免以卡方为基础的量度系数的弱点,统计学家已经发展出各种其他方法,其中最流行的就是减少误差比例量度法(Proportional-reduction-in-errormeasures,简称PRE)
PRE数值的意义:
就是用一个现象(如变量X)来预测另一个现象(如变量Y)时能够减除百分之几的误差。
PRE=(E1—E2)/E1
E1:
当不知道X变量去估计Y变量时所产生的误差(全部误差)
E2:
知道X变量再去估计Y变量产生的误差
E1—E2为剩余的误差
Lambda和Tau-y系数都是具有PRE性质的系数
(4)Lambda(λ)系数
这种相关测量法也叫做Cuttman’scoefficientofpredictability,它的基本的逻辑是计算以一个定类变量的值来预测另一个定类变量的值时,如果以众值作为预测的准则,可以减除多少误差。
消减的误差再全部误差中所占的比例越大,表示两个变量之间相关的程度越大。
分为:
对称形式——用于测量两个变量间的关系是对等的,即无自变量与因变量之分。
简写成λ系数。
非对称形式——测量两个变量间的关系有自变量与因变量之分。
简写成λy(x为自变量,y为因变量)
一般来说,系数在0~1之间取值,值越大表明相关程度越高。
例:
性别与吸烟态度的交互分类(人)
态度
Y
性别 X
合计
男 女
赞同
反对
96 18
24 62
114
86
合计
120 80
200
根据λ系数公式有
因此,我们可以说,性别与对吸烟态度之间存在中等程度的相关。
Lambda相关测量法是以众数作为预测的工具,没有考虑其他的条件。
如果众数都出现在频数分布表的某一行或某一列时,Lambda系数将等于0,但并不说明X和Y一定完全无关。
同时,这也说明Lambda系数测量X、Y的相关水平是较为粗糙的一种方法。
因此社会学研究中有时采用Goodman和Kruskal的Tau-y系数。
(5)GoodmanandKruskal的Tau-y系数
这个系数的敏感度高于Lambda系数,但只适合于分析不对称的关系,属于不对称相关测量法,要求两个定类变量中有一个是自变量,有一个是因变量。
Tau-y系数的值介于0—1之间,具有消减误差比例的意义,这个系数的特色是在计算时会包括所有的边缘次数和条件次数。
当X与Y不相关时,τ=0;当X与Y完全相关时,τ=1。
τ值具有非对称性,它是以X为自变量,用对Y的预测来定义的,所以τ值也称作τy。
在那么多相关系数中,在进行研究时,一般选择哪一个比较好?
在定类——定类关系中,如果是不对称关系,最好选择用的是Tau-y,如果是对称的关系,则最好选择用的是Lambda系数。
2.定序变量——定序变量
(1)Gamma系数(G系数):
分析两个变量间的对等关系,即无自变量与因变量之分。
式中,γ为系数;ns为同序对数目;nd为异序对数目。
所谓序对是指表明高低位次的两两配对,如果一对个案在变量x,y的分类表现位次一致,则为同序对;如果位次相反,则为异序对。
(同序对数量等于表内每个频数乘以其右下方全部频数之和,然后加总,而异序对数量则等于表内每个频数乘以其左下方全部频数之和,然后加总。
)
-1≤γ≤1,γ>0且越接近1,表明X、Y两变量正相关的程度越高;γ<0且越接近-1,表明X、Y两变量负相关的程度越高。
例:
文化程度与收入的交互分类表
收入水平
文 化 程 度
合计
大专以上 中学 小学以下
高
中
低
12 10 3
8 30 5
4 16 12
25
43
32
合计
24 56 20
100
ns=12×(30+5+16+12)+10×(5+12)+8×(16+12)+30×12=1510
nd=3×(30+8+16+4)+10×(8+4)+5×(4+16)+30×4=514
说明用文化程度去预测收入水平,可以消减49%的误差。
Gamma相关测量法是一对称形式的测量,即如果X、Y都是定序层次的变量则用X预测Y,与用Y预测X相比,其相关程度一样。
(2) Somer’sD系数(d):
适用于描述两定序变量X、Y为非对称关系。
ny表示仅在Y变量上的同分对数目;nx表示仅在X变量上的同分对数目。
dxy系数表示大小是以X变量预测Y变量时所能减少的误差;dyx系数表示大小是以Y变量预测X变量时所能减少的误差。
dxy系数具有减少误差比例的意义。
例:
子女的文化程度高低是否受父辈文化程度影响。
子辈文化程度
父辈文化程度
大学 中学 小学
大学
中学
小学
41 4 3
20 14 4
2 3 9
48
38
14
63 21 16
100
这是一个非对称的两定序变量的相关问题研究。
ns=41×(14+4+3+9)+4×(4+9)+20×(3+9)+14×9=1648
nd=3×(20+14+3+2)+4×(20+2)+4×(2+3)+14×2=253
ny=41×(4+3)+4×3+20×(14+4)+14×4+2×(3+9)+3×9=796
所以,
这说明子辈的文化程度与父辈的文化程度呈正相关关系,同时以父辈的文化程度预测子辈的文化程度可以减少51.72%的误差。
(3) 斯皮尔曼(Spearman)等级相关系数(R)(又称秩相关或名次相关):
考虑单个个案在两个变量上的等级差异,测量两变量间对等相关关系。
适用两组配对的顺序数据。
设有配对样本观测值
与
式中,di=Rxi-Ryi,Rxi表示xi的名次,Ryi表示yi的名次(从大到小排名次,或从小到大排名次,都可以)。
两个相同的名次,要加起来除以2。
(4)Kendalltau等级相关系数(τ)
要求数据至少具有定序测量级,与Gamma系数不同的是,Gamma系数没有考虑同分对,而Kendall等级相关技术考虑了同分对影响的等级关系。
τa=1说明两样本秩完全正相关,τa=-1说明两样本秩完全负相关,一般|τ|>0.8可认为相关程度较高。
当配对数据出现同分对时,对τa的计算公式作如下校正,校正后的相关系数记作τb:
其中:
Tx表示变量X方向的全部同分对数;
Ty表示变量Y方向的全部同分对数。
当同分对很多时,可先做成等级的列联表,此时Kendall等级相关系数为:
其中m是等级列联表中行数和列数中的较小者,即m=min(I,J)。
Kendalltau在本质上与SpearmanR一样。
从统计效力上来说,两者是不相上下的。
不过因为所构成的逻辑及计算的方程不同,因此SpearmanR与Kendalltau数值大小是不一致的,SiegelandCastellan(1988)将两种方法的关系用不等式表达如下:
-1≤3×Kendalltau–2×SpearmanR≤1
更为重要的是,Kendalltau与SpearmanR内涵有着不同的解释:
SpearmanR可认为是排序变量的普通Pearson时间效应相关系数,而Kendalltau是概率。
具体地说是两变量实际数据处于相同顺序的概率与处于不同顺序的概率差别。
当数据中包含许多一致性的观察对象时,Gamma统计量优于SpearmanR或Kendalltau。
从本质上来讲,Gamma与SpearmanR或Kendalltau是相同的;从解释与计算的角度上讲,Gamma与Kendalltau更为相似,简言之Gamma也是一种概率,具体地说,通过计算两变量排序一致的概率减去排序不一致的概率再除以1减去一致性概率而得到的,因此Gamma与Kendalltau基本上一致,只是Gamma明确地考虑了数据一致性问题。
3.定距变量——定距变量 测量两个定距变量相关系数的最常用指标是皮尔森(Pearson)相关系数(r)。
(要求N≥50而且两个变量的分布应近似于正态分布。
)
(常见,所以略)
需要注意极端值。
极端值是非典型、不常出现的观察值。
由于回归线不是由最小距离和,而是由最小距离平方和决定的,极值对回归线的斜率和相关系数的值的大小都会有很大的影响。
只要有一个极值就能够改变回归线的斜率和相关系数。
不言而喻,不能仅仅根据相关系数值而妄下结论。
(所以在进行相关分析前先考察其散点图)
偏相关分析
在诸多相关的变量中,剔除了(控制了)其中的一个或若干个变量的影响后,两变量之间的相关关系。
偏相关的概念,在管理科学、经济科学等社会科学中有着广泛的应用;而且,正确地使用它,对正确地得出相应的结论至关重要。
剔除了一个变量Z的影响后,两个变量X、Y之间的偏相关系数是
式中,
是普通样本相关系数。
4.定类变量——定距变量
两个变量中,自变量为定类变量,因变量为定距变量时,采用相关比率来测量两者间相关程度。
(又称eta2系数E2)
式中,n是样本观察值总数;ni是自变量X的每组观察值数目,
;yi是因变量的数值;
是第i组因变量均值;
为因变量均值。
5.定类变量——定序变量 对一个定类变量例如性别,与一个定序变量例如收入水平关系的分析:
(1)用theta系数(θ),专门测量定类变量与定序变量间关系有无和强度,非对称关系,并且不具有消减误差比例的含义
(2)采用λ系数和Tau-y系数,即将定序变量作为定类变量处理。
6.定序变量——定距变量 处理一个定序变量例如教育水平,与一个定距变量如年均收入之间的关系,采用二种办法:
(1)将定序变量看作定类变量,采用相关比例测量法。
(2)将定序变量看作定距变量,采用γ相关系数。
小结:
在分析两个变量关系时,选择哪种相关系数,主要考虑两个方面:
1、 变量的测量层次;
2、 变量关系的类别,即是对等的还是非对称的。
注意:
由于是通过抽样的方法来研究变量之间的关系,所以,当求出各类样本相关系数不为0时,并不能真正表明变量之间是相关的,还需要通过显著性检验来判别是否显著异于0.
拖了那么长的时间总算有个阶段性的结束,今后还会对其进行补充。
也欢迎各位圈友补充修正。