第三篇SPSS深入分析第9章相关分析与一般线性模型Word文档下载推荐.docx
《第三篇SPSS深入分析第9章相关分析与一般线性模型Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《第三篇SPSS深入分析第9章相关分析与一般线性模型Word文档下载推荐.docx(18页珍藏版)》请在冰豆网上搜索。
第13章时间序列分析
时间序列的建立,预处理,时间序列中常用的ARIMA模型和季节调整模型。
本篇说明:
1.本篇讲述的内容都是涉及两个以上变量的,称为多元统计分析,本篇重点说明多元统计分析方法的应用条件,统计方法的模型和统计方法的SPSS操作实现即结果分析;
2.虽然本篇对各种多元统计分析方法的模型进行了比较详细的介绍,然而本书毕竟是以SPSS应用为重点,因此不可能对多元统计分析模型面面俱到详细介绍,模型的详细内容请读者参考专业多元统计分析书籍;
3.请读者在阅读本篇时注意两个问题:
一方面要注意各种多元统计分析方法应用的条件,条件不满足不能轻易使用多元统计分析模型;
另一方面要注意归纳各种多元统计方法之间的区别和联系,书中列出了各方法的主要区别和联系,读者注意理解。
同时读者也可能自己发现方法间新的区别与联系。
4.由于篇幅关系,对于前面的基本SPSS操作和一元统计分析SPSS操作本篇不再详细说明,只是列出简要操作步骤,请读者注意自行练习,操作验证。
第9章相关分析与一般线性模型
在前面的第2篇中,我们讲解的统计方法基本都是一元统计方法,只分析一个变量。
这其中有几个例外:
多选项分析中涉及多个SPSS变量,但是经过多选项集定义以后,还是将多选项集当作一个变量在分析;
参数检验和非参数检验中都有配对样本检验,也涉及多个SPSS变量,只是对于配对变量来说,都是同一性质的变量,分析时也是结合在一起分析的,因此可以算作分析一个变量;
方差分析中涉及多个变量;
但是方差分析主要是分析观测变量,控制变量只是用来对观测变量分类的,因此仍然是分析一个变量。
当然一元统计分析的模型还有很多,本书限于篇幅只是列举了SPSS中常用的功能,对于其他模型有兴趣的读者可以查阅相关统计专业书籍。
从本章开始,我们开始介绍多元统计分析的模型和方法,和一元统计分析对应,多元统计分析方法分析的是多个性质不同的SPSS变量;
一元统计只是分析总体的某个特征,而多元统计分析则是分析总体的多个特征,分析这些特征各自的情况,并分析这些特征的联系,对这些特征进行处理的方法等等。
因此多元统计的问题比一元统计复杂,处理的方法也更多。
在本篇中将给读者介绍SPSS中常用的多元统计方法:
相关分析、回归分析、聚类和判别、因子与对应分析,以及时间序列分析。
相关分析是比较简单的多元分析方法,但是也是经常使用的多元统计分析方法,它能快速发现总体特征(变量)之间关系,并检验这些特征的显著性。
这一方面对于简单的统计分析已经可以提供足够的结论,另一方面也为后续的更加复杂的多元统计分析模型提供条件和依据。
因此,相关分析在多元统计分析中的作用是非常大的。
一般线性模型是方差分析的推广和延伸,其作用是分析一个或多个自变量对一个或多个应变量的线性关系,其内容非常丰富,包含方差分析、重复测量方差分析、多元线性回归等等,在第8章我们已经接触过它的强大功能了,掌握一般线性模型对于我们提高自身的统计分析能力有很大帮助。
我们就从这两个简单而又重要的方法开始学习多元统计分析的模型。
9.1相关分析
现代自然科学研究、经济检验、企业管理等活动中普遍存在的相互影响、相互依存的关系可以概括为两大类:
函数关系和相关关系,函数关系是一种严格的确定对应关系,而相关关系是一种不要求确定对应,具有一定随机性的关系,实际中,并且相关关系更具有一般性。
相关分析是处理变量之间相关关系的一种统计方法。
通过相关分析,可以了解两个或两个以上的变量之间是否有相关关系,相关关系的方向、形式以及相关密切程度。
下面我们就为读者简单介绍相关分析。
9.1.1引例,相关分析概述
相关分析是用来研究变量间相关关系的,因此读者必须对相关关系有一个比较清楚的概念。
在现实生产生活中,各种事物特征、各种现象之间相互联系、相互制约、相互依存,某些现象发生变化时,另一现象也会随之变化,例如,居民收入的高低会影响银行储蓄额的增减,商品价格的变化会影响商品销售量的变化等等。
这些影响依存的关系又可分为函数关系和相关关系两大类。
1.相关关系的定义
函数关系是指现象、变量之间一种严格的确定性关系。
在这种关系中,当一个变量数值确定时,根据函数关系,另一变量的取值也就唯一确定了,例如:
恒速运动的物体运动位移和时间的关系就是函数关系。
相关关系是指客观变量之间确实存在的,但数量上不是严格对应的依存关系。
在这种关系中,对于其中一个变量的确定取值,另一个变量取值并不是确定的,而是有多个不同的值与之对应。
例如投资和GDP增长有密切关系,一般说来投资加大会促进GDP增长,但是固定的投资值与之对应的GDP增长值却不固定,这是因为GDP增长还会受到消费、经济环境、国家政策等诸多因素影响,会围绕一个平均数上下波动。
函数关系和相关关系并没有严格的界限,在实际中,相关关系更具一般性,因为即使是函数关系,也会因为测量误差,偶然因素的影响使得结果并不是严格确定的,因此函数关系就变成了相关关系;
而相关关系很多场合也要借助函数关系的模型和公式来表达,只是加上随机因素的扰动,如果能够完全消除扰动,那么相关关系就转化为函数关系了。
2.相关关系的种类
弄清楚两种关系的联系后,我们来看相关关系的分类:
相关关系按照涉及的变量个数,可以分为单相关和复相关。
单相关是指研究一个变量和另一个变量之间的相关关系,复相关是指研究一个变量和另一组变量之间的相关关系,当然还有研究一组变量和另一组变量之间的多对多的相关关系,我们称之为典型相关,因为SPSS没有提供典型相关的菜单,因此本书不介绍典型相关。
相关关系按照表现形式不同,分为直线相关和曲线相关,直线相关又称线性相关,是指一个变量变化时,其变化量与另一个变量的变化量有大致按比例变化,两个变量的散点图近似落在一条直线附近。
曲线相关又称非线性相关,是指两个变量的变化不是直线变化,散点图也不是落在直线附近,而是呈现比较复杂的变化情况。
相关关系按照相关方向不同,分为正相关和负相关,如果两个变量变化方向相同,即同增同减,则两个变量正相关;
相反,如果两个变量一增一减,则是负相关。
另外相关关系按照相关程度,还可以将相关关系分为不相关、低度相关、显著相关、高度相关和完全相关,我们将结合相关关系的测定对相关关系的程度进行解释。
3.相关关系的测定
要判断两个变量有没有相关关系,主要从两方面:
一是定性分析,二是定量分析。
在定量分析之前需进行定性分析,定性分析主要是根据理论知识、专业知识和实践经验,对变量之间是否有相关关系进行判断,即回答相关关系的合理性和科学性问题,例如:
GDP的增长和儿童体重的增加在理论上并没有相关关系,因为儿童体重始终会增加,如果一段时间内GDP也增长,数据上可能表现出一定的相关性,但是这种相关性没有科学依据,如果这段时间GDP停止增长,那么这种相关性就没有了,因此这只是一段时间内巧合。
同样的道理,大树下蚂蚁窝的数量和经济增长率之间也呈现数据上的相关性,但是依然没有科学依据,是一种偶然。
许多读者进行相关分析时是不管变量是什么,直接就分析数据的相关性了,这显然是不可取的。
一定要首先确定变量之间缺失存在理论上的相关可能,在定性分析的基础上才能进行定量的分析,判断相关的方向、形式及密切程度,确定相关关系,否则,就会闹蚂蚁窝和经济增长高度相关的笑话。
相关分析的工具主要有相关表、相关图和线性相关系数等,下面我们通过一个简单的例子来看看这些工具:
例9-1某企业1992-2001年某种产品的产量与单位成本资料如表9-1所示:
请分析该企业产量与单位成本是否存在相关关系,相关关系方向、形式和相关程度如何?
表9-1某企业产品产量与单位成本数据
年份
1
2
3
4
5
6
7
8
9
10
产量(万件)
11
12
14
15
17
19
20
单位成本(元)
52
50
48
49
47
46
44
43
42
本例中,要求判断是否存在相关关系,分析相关的方向、形式和程度,在进行定量分析之前要进行定性分析,产品的产量和单位成本之间是可能存在相关关系的,因为随着产量增加形成规模效应以后,可以降低产品的单位成本,因此可以进行定量分析。
此时要充分利用相关分析的三种主要工具。
相关表是一种统计表,它是直接观察原始资料,将一变量按照升序或降序排列,观察对应的另一变量的值,如果另一变量取值也有相应的增加或减小趋势,则可以判断存在相关关系,如果另一变量取值大小随机,则无相关关系。
同时可以判断相关关系的方向,如果同增同减则是正相关,反之为负相关。
从本例中看表9-1中产量是按照升序排列的,而单位成本明显有减少的趋势,因此可以判断相关关系存在,且为负相关,但是相关关系的形式、程度不宜从相关表直接得出,应该利用其他的相关分析工具。
相关图也称散点图,它是用一个变量作为x轴,另一个变量作为y轴,将两个变量对应取值作为坐标,将所有数据在图中描绘出来,用以表明相关点分布状况的图形,从相关图可以看出变量的相关关系、相关方向、相关形式,大致也可以看出相关程度,但是相关程度没有具体数值描述,图9-1是表9-1数据描绘的散点图。
图9-1产量与单位成本散点图
从图中可以看出,产量和单位成本呈现负相关关系,相关关系的形式从散点的分布可以出,大致是分布在一条直线附近,因此是线性相关,至于相关程度主要从散点离直线的远近来判断,如果所有的散点都在直线上,则是完全相关,如果离直线很近,则相关程度高,离直线都较远,那么相关程度就较低,本例来看,相关程度较高。
相关图虽然能大致看出相关关系的方向、形式、相关程度,但是这种判断并不精确,根据图形也无法对相关程度是否显著进行判断,因此我们还需要将相关程度数值化的相关分析工具,这就是相关系数。
相关系数是用以反映变量之间相关关系密切程度的统计量,依据相关关系之间的不同特性,相关系数有多种,反映两变量线性相关关系的统计量称为线性相关系数,反映两变量非线性相关关系的称为非线性相关系数。
本节我们主要讨论线性相关系数,根据线性相关系数计算方法不同,线性相关系数具体又分为:
Person简单相关系数:
这是最简单,也是最常用的相关系数,用于度量两个间隔尺度变量之间的相关性,其数学定义为:
式中n为样本数,代表两个变量的样本观测值,计算出的r称为样本相关系数,它实质是两变量样本标准化后的乘积再取平均数,因此也称为积矩相关系数。
它有如下特点:
Ø
x、y对称,x、y变量互换位置,r不变;
无量纲数,r是标准化后计算的,因此无量纲;
简单相关系数只能刻画线性相关关系,不能对非线性相关很好刻画。
Spearman等级相关系数:
这是利用变量的秩构造的线性相关系数,是一种非参数的方法,由于只利用变量的秩,顺序尺度变量也可以计算Spearman等级相关系数,且不易受极端值的影响。
其计算公式与Person简单相关系数类似,只是使用变量的秩而非变量的值进行计算,公式为:
由于:
上述公式可以简化为:
Spearman等级相关系数的特点是:
如果两变量正相关性较强,则它们秩变化同步,则D值较小,等级相关系数趋于1;
如果两变量负相关性较强,则它们秩变化相反,则D值