第三篇 SPSS深入分析第9章相关分析与一般线性模型.docx

上传人:b****6 文档编号:7072386 上传时间:2023-01-16 格式:DOCX 页数:19 大小:159.04KB
下载 相关 举报
第三篇 SPSS深入分析第9章相关分析与一般线性模型.docx_第1页
第1页 / 共19页
第三篇 SPSS深入分析第9章相关分析与一般线性模型.docx_第2页
第2页 / 共19页
第三篇 SPSS深入分析第9章相关分析与一般线性模型.docx_第3页
第3页 / 共19页
第三篇 SPSS深入分析第9章相关分析与一般线性模型.docx_第4页
第4页 / 共19页
第三篇 SPSS深入分析第9章相关分析与一般线性模型.docx_第5页
第5页 / 共19页
点击查看更多>>
下载资源
资源描述

第三篇 SPSS深入分析第9章相关分析与一般线性模型.docx

《第三篇 SPSS深入分析第9章相关分析与一般线性模型.docx》由会员分享,可在线阅读,更多相关《第三篇 SPSS深入分析第9章相关分析与一般线性模型.docx(19页珍藏版)》请在冰豆网上搜索。

第三篇 SPSS深入分析第9章相关分析与一般线性模型.docx

第三篇SPSS深入分析第9章相关分析与一般线性模型

第三篇SPSS深入分析

本篇要点导读:

第9章相关分析与广义线性模型

一般相关分析和偏相关分析,偏相关系数计算,以及广义线性模型简单应用;

第10章回归分析

一元线性回归、多元线性回归、非线性回归及Logistic回归的模型和应用;

第11章聚类分析和判别分析

聚类和判别分析的适用条件,聚类分析包括层次聚类和K-均值聚类,判别分析包括Fisher判别和Bayes判别;

第12章因子分析和对应分析

因子分析的一般模型,因子分析的应用;对应分析的一般模型和应用;

第13章时间序列分析

时间序列的建立,预处理,时间序列中常用的ARIMA模型和季节调整模型。

 

本篇说明:

1.本篇讲述的内容都是涉及两个以上变量的,称为多元统计分析,本篇重点说明多元统计分析方法的应用条件,统计方法的模型和统计方法的SPSS操作实现即结果分析;

2.虽然本篇对各种多元统计分析方法的模型进行了比较详细的介绍,然而本书毕竟是以SPSS应用为重点,因此不可能对多元统计分析模型面面俱到详细介绍,模型的详细内容请读者参考专业多元统计分析书籍;

3.请读者在阅读本篇时注意两个问题:

一方面要注意各种多元统计分析方法应用的条件,条件不满足不能轻易使用多元统计分析模型;另一方面要注意归纳各种多元统计方法之间的区别和联系,书中列出了各方法的主要区别和联系,读者注意理解。

同时读者也可能自己发现方法间新的区别与联系。

4.由于篇幅关系,对于前面的基本SPSS操作和一元统计分析SPSS操作本篇不再详细说明,只是列出简要操作步骤,请读者注意自行练习,操作验证。

第9章相关分析与一般线性模型

在前面的第2篇中,我们讲解的统计方法基本都是一元统计方法,只分析一个变量。

这其中有几个例外:

多选项分析中涉及多个SPSS变量,但是经过多选项集定义以后,还是将多选项集当作一个变量在分析;参数检验和非参数检验中都有配对样本检验,也涉及多个SPSS变量,只是对于配对变量来说,都是同一性质的变量,分析时也是结合在一起分析的,因此可以算作分析一个变量;方差分析中涉及多个变量;但是方差分析主要是分析观测变量,控制变量只是用来对观测变量分类的,因此仍然是分析一个变量。

当然一元统计分析的模型还有很多,本书限于篇幅只是列举了SPSS中常用的功能,对于其他模型有兴趣的读者可以查阅相关统计专业书籍。

从本章开始,我们开始介绍多元统计分析的模型和方法,和一元统计分析对应,多元统计分析方法分析的是多个性质不同的SPSS变量;一元统计只是分析总体的某个特征,而多元统计分析则是分析总体的多个特征,分析这些特征各自的情况,并分析这些特征的联系,对这些特征进行处理的方法等等。

因此多元统计的问题比一元统计复杂,处理的方法也更多。

在本篇中将给读者介绍SPSS中常用的多元统计方法:

相关分析、回归分析、聚类和判别、因子与对应分析,以及时间序列分析。

相关分析是比较简单的多元分析方法,但是也是经常使用的多元统计分析方法,它能快速发现总体特征(变量)之间关系,并检验这些特征的显著性。

这一方面对于简单的统计分析已经可以提供足够的结论,另一方面也为后续的更加复杂的多元统计分析模型提供条件和依据。

因此,相关分析在多元统计分析中的作用是非常大的。

一般线性模型是方差分析的推广和延伸,其作用是分析一个或多个自变量对一个或多个应变量的线性关系,其内容非常丰富,包含方差分析、重复测量方差分析、多元线性回归等等,在第8章我们已经接触过它的强大功能了,掌握一般线性模型对于我们提高自身的统计分析能力有很大帮助。

我们就从这两个简单而又重要的方法开始学习多元统计分析的模型。

9.1相关分析

现代自然科学研究、经济检验、企业管理等活动中普遍存在的相互影响、相互依存的关系可以概括为两大类:

函数关系和相关关系,函数关系是一种严格的确定对应关系,而相关关系是一种不要求确定对应,具有一定随机性的关系,实际中,并且相关关系更具有一般性。

相关分析是处理变量之间相关关系的一种统计方法。

通过相关分析,可以了解两个或两个以上的变量之间是否有相关关系,相关关系的方向、形式以及相关密切程度。

下面我们就为读者简单介绍相关分析。

9.1.1引例,相关分析概述

相关分析是用来研究变量间相关关系的,因此读者必须对相关关系有一个比较清楚的概念。

在现实生产生活中,各种事物特征、各种现象之间相互联系、相互制约、相互依存,某些现象发生变化时,另一现象也会随之变化,例如,居民收入的高低会影响银行储蓄额的增减,商品价格的变化会影响商品销售量的变化等等。

这些影响依存的关系又可分为函数关系和相关关系两大类。

1.相关关系的定义

函数关系是指现象、变量之间一种严格的确定性关系。

在这种关系中,当一个变量数值确定时,根据函数关系,另一变量的取值也就唯一确定了,例如:

恒速运动的物体运动位移和时间的关系就是函数关系。

相关关系是指客观变量之间确实存在的,但数量上不是严格对应的依存关系。

在这种关系中,对于其中一个变量的确定取值,另一个变量取值并不是确定的,而是有多个不同的值与之对应。

例如投资和GDP增长有密切关系,一般说来投资加大会促进GDP增长,但是固定的投资值与之对应的GDP增长值却不固定,这是因为GDP增长还会受到消费、经济环境、国家政策等诸多因素影响,会围绕一个平均数上下波动。

函数关系和相关关系并没有严格的界限,在实际中,相关关系更具一般性,因为即使是函数关系,也会因为测量误差,偶然因素的影响使得结果并不是严格确定的,因此函数关系就变成了相关关系;而相关关系很多场合也要借助函数关系的模型和公式来表达,只是加上随机因素的扰动,如果能够完全消除扰动,那么相关关系就转化为函数关系了。

2.相关关系的种类

弄清楚两种关系的联系后,我们来看相关关系的分类:

相关关系按照涉及的变量个数,可以分为单相关和复相关。

单相关是指研究一个变量和另一个变量之间的相关关系,复相关是指研究一个变量和另一组变量之间的相关关系,当然还有研究一组变量和另一组变量之间的多对多的相关关系,我们称之为典型相关,因为SPSS没有提供典型相关的菜单,因此本书不介绍典型相关。

相关关系按照表现形式不同,分为直线相关和曲线相关,直线相关又称线性相关,是指一个变量变化时,其变化量与另一个变量的变化量有大致按比例变化,两个变量的散点图近似落在一条直线附近。

曲线相关又称非线性相关,是指两个变量的变化不是直线变化,散点图也不是落在直线附近,而是呈现比较复杂的变化情况。

相关关系按照相关方向不同,分为正相关和负相关,如果两个变量变化方向相同,即同增同减,则两个变量正相关;相反,如果两个变量一增一减,则是负相关。

另外相关关系按照相关程度,还可以将相关关系分为不相关、低度相关、显著相关、高度相关和完全相关,我们将结合相关关系的测定对相关关系的程度进行解释。

3.相关关系的测定

要判断两个变量有没有相关关系,主要从两方面:

一是定性分析,二是定量分析。

在定量分析之前需进行定性分析,定性分析主要是根据理论知识、专业知识和实践经验,对变量之间是否有相关关系进行判断,即回答相关关系的合理性和科学性问题,例如:

GDP的增长和儿童体重的增加在理论上并没有相关关系,因为儿童体重始终会增加,如果一段时间内GDP也增长,数据上可能表现出一定的相关性,但是这种相关性没有科学依据,如果这段时间GDP停止增长,那么这种相关性就没有了,因此这只是一段时间内巧合。

同样的道理,大树下蚂蚁窝的数量和经济增长率之间也呈现数据上的相关性,但是依然没有科学依据,是一种偶然。

许多读者进行相关分析时是不管变量是什么,直接就分析数据的相关性了,这显然是不可取的。

一定要首先确定变量之间缺失存在理论上的相关可能,在定性分析的基础上才能进行定量的分析,判断相关的方向、形式及密切程度,确定相关关系,否则,就会闹蚂蚁窝和经济增长高度相关的笑话。

相关分析的工具主要有相关表、相关图和线性相关系数等,下面我们通过一个简单的例子来看看这些工具:

例9-1某企业1992-2001年某种产品的产量与单位成本资料如表9-1所示:

请分析该企业产量与单位成本是否存在相关关系,相关关系方向、形式和相关程度如何?

表9-1某企业产品产量与单位成本数据

年份

1

2

3

4

5

6

7

8

9

10

产量(万件)

6

8

9

11

12

14

15

17

19

20

单位成本(元)

52

50

50

48

49

47

46

44

43

42

本例中,要求判断是否存在相关关系,分析相关的方向、形式和程度,在进行定量分析之前要进行定性分析,产品的产量和单位成本之间是可能存在相关关系的,因为随着产量增加形成规模效应以后,可以降低产品的单位成本,因此可以进行定量分析。

此时要充分利用相关分析的三种主要工具。

相关表是一种统计表,它是直接观察原始资料,将一变量按照升序或降序排列,观察对应的另一变量的值,如果另一变量取值也有相应的增加或减小趋势,则可以判断存在相关关系,如果另一变量取值大小随机,则无相关关系。

同时可以判断相关关系的方向,如果同增同减则是正相关,反之为负相关。

从本例中看表9-1中产量是按照升序排列的,而单位成本明显有减少的趋势,因此可以判断相关关系存在,且为负相关,但是相关关系的形式、程度不宜从相关表直接得出,应该利用其他的相关分析工具。

相关图也称散点图,它是用一个变量作为x轴,另一个变量作为y轴,将两个变量对应取值作为坐标,将所有数据在图中描绘出来,用以表明相关点分布状况的图形,从相关图可以看出变量的相关关系、相关方向、相关形式,大致也可以看出相关程度,但是相关程度没有具体数值描述,图9-1是表9-1数据描绘的散点图。

图9-1产量与单位成本散点图

从图中可以看出,产量和单位成本呈现负相关关系,相关关系的形式从散点的分布可以出,大致是分布在一条直线附近,因此是线性相关,至于相关程度主要从散点离直线的远近来判断,如果所有的散点都在直线上,则是完全相关,如果离直线很近,则相关程度高,离直线都较远,那么相关程度就较低,本例来看,相关程度较高。

相关图虽然能大致看出相关关系的方向、形式、相关程度,但是这种判断并不精确,根据图形也无法对相关程度是否显著进行判断,因此我们还需要将相关程度数值化的相关分析工具,这就是相关系数。

相关系数是用以反映变量之间相关关系密切程度的统计量,依据相关关系之间的不同特性,相关系数有多种,反映两变量线性相关关系的统计量称为线性相关系数,反映两变量非线性相关关系的称为非线性相关系数。

本节我们主要讨论线性相关系数,根据线性相关系数计算方法不同,线性相关系数具体又分为:

Person简单相关系数:

这是最简单,也是最常用的相关系数,用于度量两个间隔尺度变量之间的相关性,其数学定义为:

式中n为样本数,

代表两个变量的样本观测值,计算出的r称为样本相关系数,它实质是两变量样本标准化后的乘积再取平均数,因此也称为积矩相关系数。

它有如下特点:

Øx、y对称,x、y变量互换位置,r不变;

Ø无量纲数,r是标准化后计算的,因此无量纲;

Ø简单相关系数只能刻画线性相关关系,不能对非线性相关很好刻画。

Spearman等级相关系数:

这是利用变量的秩构造的线性相关系数,是一种非参数的方法,由于只利用变量的秩,顺序尺度变量也可以计算Spearman等级相关系数,且不易受极端值的影响。

其计算公式与Person简单相关系数类似,只是使用变量的秩

而非变量的值

进行计算,公式为:

由于:

上述公式可以简化为:

Spearman等级相关系数的特点是:

Ø如果两变量正相关性较强,则它们秩变化同步,则D值较小,等级相关系数趋于1;

Ø如果两变量负相关性较强,则它们秩变化相反,则D值较大,等级相关系数趋于-1;

Ø如果两变量相关性较弱,则它们秩变化互不影响,则D值趋于中间值,等级相关系数趋于0。

Kendall

相关系数:

这是采用非参数方法度量顺序尺度变量间的线性相关关系,它利用变量秩数据计算一致对数目(U)和非一致对数目(V)来构造统计量,例如例9-1中数据的秩为:

(1,10)、(2,9)、(3,9)、(4,6)、(5,7)、(6,5)、(7,4)、(8,3)、(9,2)、(10,1),一致(即秩同时增大)的对数只有1对(4,6)→(5,7),即U=1;而秩不一致对数为44对,即V=44。

Kendall

相关系数定义为:

显然,Kendall

相关系数具有如下性质:

Ø如果两变量正相关性强,秩变化同步,U应该较大,V应该较小,

趋于1;

Ø如果具有较强负相关关系,秩变化相反,V较大而U较小,

趋于-1;

Ø如果相关关系弱,则U、V大致相等,

趋于0。

根据计算,在例9-1中,三个相关系数为:

计算出的数值很接近,从而可以判断出两个变量是负相关的,并且高度线性相关。

关于相关的程度,一般认为r=0,完全不相关;0<|r|<0.4,低度线性相关;0.4<|r|<0.7,显著线性相关;0.7<|r|<1,高度线性相关;|r|=1,完全相关。

9.1.2显著性检验

9.1.1中,我们已经计算出Person简单相关系数,Spearman等级相关系数和Kendall

相关系数的数值,但是我们还需要通过显著性检验来确认这些相关系数在统计上是否显著不为0。

根据相关系数的不同,其统计检验的统计量也不相同,构建的假设检验也略有差异,下面我们就分别介绍:

1.Person相关系数假设检验:

其检验的原假设是相关系数等于0,即相关系数不显著,检验t统计量为:

在原假设为真的条件下,t统计量服从自由度为n-2的t分布。

2.Spearman相关系数假设检验

检验原假设也是相关系数等于0,在小样本下,Spearman等级相关系数就是检验统计量,在大样本时,采用正态检验统计量:

当原假设为真时,小样本下统计量服从Spearman分布,大样本下Z统计量近似服从标准正态分布。

3.Knedall相关系数假设检验

检验的原假设也是相关系数等于0,在小样本下,Kendall相关系数

就是检验统计量,在大样本时,采用正态统计量:

当原假设为真是,小样本统计量服从Kendall分布,大样本Z统计量近似服从标准正态分布。

SPSS会自动根据统计量观测值计算相应的检验概率P值,根据P值和显著水平比较就能够完成假设检验了。

在下面的SPSS操作中将具体介绍如何进行相关分析和检验。

9.1.3相关分析的SPSS操作

对于例9-1,需要首先建立数据文件,这点留给读者完成,一共建立三个变量分别代表年份、产量和单位成本,建好的数据文件可见光盘(9-1.sav)

对于相关表的操作,只需按照一个变量,例如产量排序,观察令一个变量是否有顺序就可以得出两个变量是否相关,相关方向是正相关还是负相关的结论,排序操作就留给读者自行完成了。

对于相关图,是SPSS中经常用到的一个操作,因此比较重要,我们进行如下操作:

Step1:

选择【Graphs】菜单→【LegacyDialogs】菜单→【Scatter/Dot】菜单→【SimpleScatter】菜单

在图9-2所示的对话框中,将变量“单位成本(元)(dwcb)”选入YAxis框中,指定该变量为Y轴变量,将变量“年产量(万件)(cl)”选入XAxis框中,指定该变量为X轴变量。

图9-2散点图对话框

Step2:

进行其他设置

在对话框中,还可以选择标注数值的变量选入SetMarkedby框中,可以将标准名称的变量选入LabeledCasesby框中,还可以通过右边的

设置散点图标题,通过

按钮计算样本统计量和处理缺失数据,这里由于仅仅是看散点图判断相关性,就不进行其他的操作了,设置完成以后点击

完成操作。

关于相关分析我们也介绍其操作步骤:

Step1:

选择【Analysis】菜单→【Correlate】菜单→【Bivariate】菜单

在图9-3的对话框中,将需要进行相关分析的变量“年产量(万件)”、“单位成本(元)”选入Variables:

对话框中。

图9-3相关分析主对话框

Step2:

选择需要计算的相关系数和需要完成的假设检验

在9-3对话框下部“CorrelationCoefficients”复选框组中选择需要计算的相关系数种类,选项Person表示Person简单相关系数,适宜两个变量都是间隔尺度变量的情形;选项Kendalltau-b表示Kendall

相关系数,适宜间隔尺度或顺序尺度变量;选项Spearman表示Spearman等级相关系数,适宜间隔尺度和顺序尺度变量。

由于本例中两个变量都是间隔尺度变量,因此三个系数我们都选中,要求计算。

在“CorrelationCoefficients”复选框组中的下方的“TestofSignificance”单选框中,选择进行单尾还是双尾检验,此处选择默认双尾检验。

Step3:

完成其他设置

在对话框下方按钮上方还有一个Flagsignificantcorrelations复选框,选择此复选框后在结果中SPSS会自动在显著的相关系数右上角作上标记。

同时还可以点击

,在图9-4所示的子对话框选择计算统计量和处理缺失数据。

设置完成以后点击

完成操作。

图9-4Option子对话框

9.1.4相关分析结果分析

下面我们看相关分析的结果:

相关图的结果已经在图9-1中列出了,这里就不再重复列出了。

Person简单相关分析的结果如表9-2所示:

从表中结果可以看到,Person简单相关系数等于-0.987,显然两变量是高度负相关,而相关系数的假设检验P值接近于0,说明相关系数是显著不为0的,注意到相关系数右上角有两个“*”,说明相关系数在0.01的显著水平上是显著的,即检验P值小于0.01,这也说明两个变量的相关关系显著成立。

表9-3显示了Spearman相关系数和Kendall相关系数,两个变量的Spearman等级相关系数等于-0.944,显示变量高度负相关,相关系数比Person相关系数略小,可能是采用秩而没有采用值的影响,检验的P值接近于0,根据相关系数右上角的标记也是在0.01显著水平下显著。

Kendall

相关系数等于-0.985,两变量高度负相关,检验P值接近0,而且根据相关系数标记,在0.01显著水平下显著。

表9-2Correlations

年产量(万件)

单位成本(元)

年产量(万件)

PearsonCorrelation

1

-.987**

Sig.(2-tailed)

.000

N

10

10

单位成本(元)

PearsonCorrelation

-.987**

1

Sig.(2-tailed)

.000

N

10

10

**.Correlationissignificantatthe0.01level(2-tailed).

表9-3Correlations

年产量(万件)

单位成本(元)

Kendall'stau_b

年产量(万件)

CorrelationCoefficient

1.000

-.944**

Sig.(2-tailed)

.

.000

N

10

10

单位成本(元)

CorrelationCoefficient

-.944**

1.000

Sig.(2-tailed)

.000

.

N

10

10

Spearman'srho

年产量(万件)

CorrelationCoefficient

1.000

-.985**

Sig.(2-tailed)

.

.000

N

10

10

单位成本(元)

CorrelationCoefficient

-.985**

1.000

Sig.(2-tailed)

.000

.

N

10

10

**.Correlationissignificantatthe0.01level(2-tailed).

如果想查看具体的P值到底是多少,需要在SPSS输出窗口Viewer中,双击P值对应的单元格,进入表格编辑状态,就可以看到P值的准确数值,在其他显示P值的窗口中也可以通过类似操作查看P值。

9.2偏相关分析

相关分析中通过相关系数可以获知变量之间相关关系的方向、强弱。

然而,相关系数有时并不是描述变量间相关关系的最好统计指标,往往会有夸大和缩小的嫌疑。

在前面对相关分析的定性分析中我们已经遇到这样一类问题:

儿童体重增加和GDP增长呈现数据上的正相关关系,但是我们从理论上否定了这种相关关系的存在。

那又是什么原因导致了数据上体现出相关关系了呢?

这是因为,儿童体重的增加包含了时间的因素,随着时间的往后推移,儿童体重不断增加,两者成正相关;如果一段时间内GDP持续增长,那么其中也含有时间的因素,随着时间推移,GDP不断增长。

从而,通过“时间”这一纽带,原来不相关的变量从数据上看就“相关”了,但是,如果扣除时间的因素,两个变量就没有相关关系了,或者GDP中如果不含有时间因素(例如GDP保持微幅震荡),那么两个变量也没有相关关系了。

在此例中,可以看到,线性相关系数扩大了两个变量的相关性。

由此可见,线性相关系数可能还有两方面的因素:

一是两个变量直接的相关信息,二是两个变量通过中间相关因素“传递”的相关信息。

如果两种信息相关方向相同,则夸大相关程度,如果两种信息相关方向相反,则减小相关程度。

在这种传递信息特别大的情况下,仅仅利用线性相关系数来评价变量间的相关性是不准确的,需要在剔除中间相关因素“传递”的相关信息基础上,计算变量之间直接的相关程度,偏相关分析就是为了处理这类问题而引入的统计分析方法。

9.2.1偏相关分析概述

偏相关分析也称净相关分析,它在控制其他变量线性影响的条件下,分析两变量间的线性相关,采用的工具是偏相关系数(净相关系数)。

控制变量个数称为偏相关系数的阶数,如果控制变量是1个,称为1阶偏相关系数,控制变量是2个称为2阶偏相关系数,没有控制变量时,称为零阶偏相关系数,即是Person简单相关系数。

进行偏相关分析需要进行两大步骤:

第一、计算样本偏相关系数,用以反映两变量的净相关程度。

假设两相关变量是x和y,控制变量是z,1阶偏相关系数定义为:

式中,

分别表示变量x和y、y和z、x和z的Person简单相关系数。

偏相关系数的取值也是从-1到1,符号正负代表净相关的方向。

绝对值越大,代表净相关程度越高,这些性质和普通相关系数是相同的。

第二、针对样本观测值,对两变量代表的两总体的净相关显著性进行假设检验。

假设检验的原假设是两总体净相关系数与0无显著差异,假设检验的样本统计量为:

式中,q为偏相关的阶数,即控制变量的个数。

当原假设为真时,统计量服从自由度为n-q-2的t分布。

SPSS会自动计算偏相关系数的样本观测值并计算相应的概率P值,根据概率P值就可以完成假设检验了。

9.2.2引例,偏相关分析SPSS操作

本小节我们将对前面的例9-1进行偏相关分析,通过具体分析和操作的过程,让读者了解偏相关分析的原理和操作过程。

例9-2在前面的例9-1中,因为年销量和单位成本都含有时间因素,年销量随时间而增加,单位成本随时间而下降,现考虑去除时间的影响而分析销量和单位成本的净相关关系。

同时通过净相关系数和简单相关系数的比较说明时间因素的作用。

在例9

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 幼儿教育 > 幼儿读物

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1