SPSS4多变量的描述性统计.ppt
《SPSS4多变量的描述性统计.ppt》由会员分享,可在线阅读,更多相关《SPSS4多变量的描述性统计.ppt(21页珍藏版)》请在冰豆网上搜索。
第四讲多变量的描述性统计,一、相关的概念二、交互分类表三、简化相关与消减误差四、相关测量法和测量层次,一、相关的概念,案例:
在某地区调查1000名青年人的最大志愿,其中有40%的人选择快乐家庭、50%的人选择理想工作和10%的人选择增广见闻。
我们要问:
为什么这些青年的最大志愿会有不同?
若同时调查了这些青年人的受教育水平,分为高(本科或以上程度)、中(高中程度)、低(初中或以下程度),人数比例分别为10%、60%和30%。
我们可以追问:
青年人的志愿与其受教育水平是否相关呢?
换言之,是否因为教育水平不同,所以人生志愿也不同?
一、相关的概念,1、相关:
是指一个变量的值与另一个变量的值有连带关系。
换言之,如果一个变量的值发生变化,另一个变量的值也有变化,则两个变量就是相关了。
2、相关程度:
相关有强弱之分0:
无相关1:
完全相关介于0与1之间的数值越大,表示相关的程度越强。
3、相关的方向:
+0.8-0.8正相关一个变量值越大,另一个变量值也越大。
负相关一个变量值越大,另一个变量值却越小。
一、相关的概念,正相关负相关,不相关线性相关-正相关非线性相关1非线性相关2,一、相关的概念,4、相关除了注意强弱与方向这两个性质外,还要注意两个变量是否有因果关系。
两个变量的相关可能有因果关系(当原因变量发生变化时,结果变量也随着发生变化);两个变量的相关也可能没有因果关系,而是发生共同变化。
XY一个变量为因X(称为自变量,Independentvariable)一个变量为果Y(称为因变量,dependentvariable)不对称关系(asymmetricalrelationship):
变量X影响Y,而Y不影响X。
表示为:
XY对称关系(symmetricalrelationship):
变量X和Y不确定或不区分影响的方向。
表示为:
XY,二、交互分类表Crosstable,1、交互分类表:
同时根据两个变量的值,将所研究的个案分类。
表1000名青年人的教育水平与志愿,交互分类表又称列联表。
一般将自变量(如,教育水平)放在表的列(Columns,即表的顶端);将因变量(如,志愿)放在表的行(Rows,即表的旁边)。
上表单元格中显示的是频数,而且表下端显示的总数也不相等,因而不利于进行比较;为求相互比较从而知道两个变量间的相互关系,就必须标准化;最常用的,将频数显示为百分比,就按照100进行了标准化,这样就利于比较了。
二、交互分类表Crosstable,2、SPSS的实现AnalyzeDescriptiveStatisticsCrosstabs,在左图中将因变量志愿y选到行中(Row),将自变量教育水平x选到列中(Column)。
左图中Layer是分层变量框,如果还要考察不同性别的人关于志愿与教育水平的关系,可以将性别变量选入此框中,还可以进一步的分层下去。
二、交互分类表Crosstable,右图是志愿与教育水平的交互分类表,且只是频数表,没有显示百分比。
显示百分比:
AnalyzeDescriptiveStatisticsCrosstabsCells,在左图左下角Percentages栏显示的就是百分比选项:
Row:
选中,显示行百分比;例:
显示占行变量“志愿”中“快乐家庭”的总人数的百分比。
Column:
选中,显示列百分比;例:
显示占列变量“教育水平”中“高”的总人数的百分比。
Total:
选中,显示总和百分比;例:
显示占所有被调查人数的百分比。
三、简化相关与消减误差,1、相关系数(Coefficientofassociation)相关测量法就是以一个统计值表示变量与变量之间的关系。
这个值,通常称为相关系数。
2、相关测量法有很多种,怎样选择?
首先要注意变量的测量层次:
定类、定序、定距。
属于不同测量层次的变量,就要用不同的相关测量法。
3、相关系数的意义
(1)表示两变量间的相关程度的大小
(2)还希望具有消减误差比例的作用。
三、简化相关与消减误差,4、消减误差比例(PRE测量法)ProportionateReductioninError(简称PRE)社会学研究的主要目标是预测或解释社会现象的变化。
如,有一种社会现象Y(志愿),我们想预测或理解其变化的情况。
预测或解释时,难免有误差(即错误);假定另一种社会现象X(教育水平)是与Y有关系的,如果我们根据X的值来预测Y的值理应可以减少若干误差。
而且,X与Y的关系越强,所能减少的预测误差就越多;换言之,所消减的误差有多少,可以反映X与Y的相关强弱程度。
三、简化相关与消减误差,4、消减误差比例(PRE测量法),现在假定不知道X的值,我们在预测Y值时所产生的全部误差是E1(见图1);如果知道X的值,我们可以根据X的每个值来预测Y的值;假定误差总数是E2(见图2),则以X的每个值来预测Y值时所减少的误差就是:
E1-E2(见图2的阴影部分)。
这个数值(E1-E2)与原来的全部误差(E1)相比,就是消减误差比例。
用公式表示为:
PRE=(E1-E2)/E1PRE的数值越大,就表示以X值预测Y值时能够减少的误差所占的比例越大;也就是说,X与Y的相互关系越强。
若E1=E2,表示用X预测Y产生的误差与不以X来预测Y所产生的误差相等,则PRE=0,反映X与Y是不相关的。
四、相关测量法和测量层次1、两个定类变量:
Lambda(),tau-y(),若两个变量都属于定类测量层次,可用Lambda相关测量法,也可用古德曼(Goodman)和古鲁斯卡(Kruskal)的tau-y相关测量法。
两者各有不同特色,但相关系数都具有PRE的意义。
(1)相关测量法是基于消减误差比例的原理(PRE)上的相关测度,反映了当用一个变量的值来预测其它变量的值时误差的减少量。
它是一种对称关系(Symmetrical)的测度,即两变量不区分自变量和因变量,因而可以计算三种不同的值,一种是两变量对称考量时的值;还有两种是两变量处于不对称考量时,以行变量作为因变量的值,以及以列变量作为因变量的值。
这三种方法通常不会产生相同的值,因此,必须注意两变量的对称关系,若是非对称的,要指明哪一个是因变量,即最令人感兴趣的被预测的那个变量。
当要计算统计量时,SPSS将显示出这个对称的和两个不对称的三个值。
四、相关测量法和测量层次1、两个定类变量:
Lambda(),tau-y(),
(2)相关测量法由于相关测量法是以众数作为预测准则,不理会众数以外的次数分布,因此若众数集中在条件次数表的同一行或同一列,则值便会等于0,这时测量法就失效了;这种情况下就要采用另一种方法相关测量法。
这是一种不对称的相关测量法,因此也必须将研究中最感兴趣的被预测变量指明为因变量。
同样在计算统计量时,SPSS将同时算出两个不对称的值。
(3)对于定类定序变量,可将其中的定序变量看作是定类变量,这样就可以使用相关测量法和相关测量法。
(4)对比上面两种方法,相关测量法比相关测量法具有更高的灵敏性。
四、相关测量法和测量层次1、两个定类变量:
Lambda(),tau-y(),(5)SPSS的实现AnalyzeDescriptiveStatisticsCrosstabsStatistics,在左图Nominal(定类)栏中选择Lanmbda项,即可得到Lambda值和tau-y值。
下列也是对两定序变量相关系数的测量方法:
Contingencycoefficient:
列联系数。
PhiandCramersV:
计算Phi系数和CramersV系数。
Uncertaintycoefficient:
不确定性系数。
四、相关测量法和测量层次2、两个定序变量:
Gamma,dy,对于定序定序变量,用得最多的有两种测量方法:
古德曼和古鲁斯卡(Goodman-Kruskal)的Gamma相关测量法;萨默斯(Somers)的dy系数相关测量法。
Gamma相关测量法Gamma也是基于消减误差比例原理(PRE)上的相关测度,Gamma反映了当用一个变量上观测的等级来预测它们在另一变量上的等级时可以减少的误差量。
这也是一种对称关系的测量法。
G=(P-Q)/(P+Q)dy系数相关测量法Gamma测量法是对称关系的,如果我们认定某定序变量是自变量(X),另一定序变量是因变量(Y),最好是采用适于简化不对称关系的萨默斯dy系数法。
dy=(P+Q)/(P+Q+Ty)P:
同序对数,Q:
异序对数,Ty:
具有相同Y值而不同X值的同序对数。
四、相关测量法和测量层次2、两个定序变量:
Gamma,dy,(3)SPSS的实现AnalyzeDescriptiveStatisticsCrosstabsStatistics,在左图Ordinal(定序)栏中选择Gamma和Somersd项,即可得到Gamma值和dy值。
Kendallstau-b和Kendallstau-c两系数也是用于测量两定序变量间的相关系数的。
四、相关测量法和测量层次2、两个定序变量:
Gamma,dy,(4)案例:
计算2000级课堂调查数据.sav中变量t8(对本科所学专业的态度)和t18(你对自己事业发展前途的评价)之间的相关系数。
结果显示:
上表显示的是dy值,变量t8和t18的相互影响的相关系数为0.262;变量t18对t8的影响系数为0.278;变量t8对t18的影响系数为0.247。
下表显示的是Gamma值,表示变量t8和t18的相互影响的相关系数为0.421。
四、相关测量法和测量层次3、定类(序)变量定距变量:
Eta系数,
(1)Eta系数适合于因变量以定距层次进行测量而自变量以定类层次或定序层次测量的数据。
显然这是一种不对称的相关测量法。
Eta的平方也具有消除误差(PRE)的意义。
(2)SPSS的实现AnalyzeDescriptiveStatisticsCrosstabsStatistics,在左图OrdinalByInterval(定类-定距)栏中选择Eta项,即可得到Eta值。
对于定序-定距变量的相关系数测量,可将定序变量降低为定类变量处理,仍用Eta值来计算。
四、相关测量法和测量层次3、定类(序)变量定距变量:
Eta系数,(3)案例:
计算2000级课堂调查数据.sav中变量t1(性别)和t3(身高)之间的相关系数。
结果显示:
t3(身高)对t1(性别)的相关系数为0.939,说明用身高来推测其性别的准确度可达93.9%;t1(性别)对t3(身高)的相关系数为0.809,说明用性别来推测其身高的准确度可达80.9%。
四、相关测量法和测量层次4、定距变量定距变量:
积矩相关系数R,
(1)对于定距定距变量用得最多的方法是Pearson相关系数(积矩相关系数)R测量法,它是线性的、对称关系的。
R的平方具有消除误差(PRE)的意义,称为决定系数。
(2)SPSS的实现AnalyzeDescriptiveStatisticsCrosstabsStatistics,在左图选中Correlations项,即可得到R值。
四、相关测量法和测量层次4、定距变量定距变量:
积矩相关系数R,(3)案例:
计算2000级课堂调查数据.sav中变量t2(年龄)和t7(政治成绩)之间的相关系数。
结果显示:
t2(年龄)与t7(政治成绩)之间的积矩相关系数R为-0.513,说明年龄越大的考生所取得的政治成绩越低。
下表中第二行,OrdinalbyOrdianlSpearmanCorrelation是针对定序-定序变量测得的Spearman(斯皮尔曼)相关系数。
即将两定距变量的值按大小顺序排列,只使用其定序的数学特征,来检测两数列秩序之间的相互关联。