第三篇SPSS深入分析第9章相关分析与一般线性模型.docx

上传人:b****2 文档编号:2435372 上传时间:2022-10-29 格式:DOCX 页数:18 大小:164.02KB
下载 相关 举报
第三篇SPSS深入分析第9章相关分析与一般线性模型.docx_第1页
第1页 / 共18页
第三篇SPSS深入分析第9章相关分析与一般线性模型.docx_第2页
第2页 / 共18页
第三篇SPSS深入分析第9章相关分析与一般线性模型.docx_第3页
第3页 / 共18页
第三篇SPSS深入分析第9章相关分析与一般线性模型.docx_第4页
第4页 / 共18页
第三篇SPSS深入分析第9章相关分析与一般线性模型.docx_第5页
第5页 / 共18页
点击查看更多>>
下载资源
资源描述

第三篇SPSS深入分析第9章相关分析与一般线性模型.docx

《第三篇SPSS深入分析第9章相关分析与一般线性模型.docx》由会员分享,可在线阅读,更多相关《第三篇SPSS深入分析第9章相关分析与一般线性模型.docx(18页珍藏版)》请在冰豆网上搜索。

第三篇SPSS深入分析第9章相关分析与一般线性模型.docx

第三篇SPSS深入分析第9章相关分析与一般线性模型

第三篇SPSS深入分析

本篇要点导读:

第9章相关分析与广义线性模型

一般相关分析和偏相关分析,偏相关系数计算,以及广义线性模型简单应用;

第10章回归分析

一元线性回归、多元线性回归、非线性回归及Logistic回归的模型和应用;

第11章聚类分析和判别分析

聚类和判别分析的适用条件,聚类分析包括层次聚类和K-均值聚类,判别分析包括Fisher判别和Bayes判别;

第12章因子分析和对应分析

因子分析的一般模型,因子分析的应用;对应分析的一般模型和应用;

第13章时间序列分析

时间序列的建立,预处理,时间序列中常用的ARIMA模型和季节调整模型。

 

本篇说明:

1.本篇讲述的内容都是涉及两个以上变量的,称为多元统计分析,本篇重点说明多元统计分析方法的应用条件,统计方法的模型和统计方法的SPSS操作实现即结果分析;

2.虽然本篇对各种多元统计分析方法的模型进行了比较详细的介绍,然而本书毕竟是以SPSS应用为重点,因此不可能对多元统计分析模型面面俱到详细介绍,模型的详细内容请读者参考专业多元统计分析书籍;

3.请读者在阅读本篇时注意两个问题:

一方面要注意各种多元统计分析方法应用的条件,条件不满足不能轻易使用多元统计分析模型;另一方面要注意归纳各种多元统计方法之间的区别和联系,书中列出了各方法的主要区别和联系,读者注意理解。

同时读者也可能自己发现方法间新的区别与联系。

4.由于篇幅关系,对于前面的基本SPSS操作和一元统计分析SPSS操作本篇不再详细说明,只是列出简要操作步骤,请读者注意自行练习,操作验证。

第9章相关分析与一般线性模型

在前面的第2篇中,我们讲解的统计方法基本都是一元统计方法,只分析一个变量。

这其中有几个例外:

多选项分析中涉及多个SPSS变量,但是经过多选项集定义以后,还是将多选项集当作一个变量在分析;参数检验和非参数检验中都有配对样本检验,也涉及多个SPSS变量,只是对于配对变量来说,都是同一性质的变量,分析时也是结合在一起分析的,因此可以算作分析一个变量;方差分析中涉及多个变量;但是方差分析主要是分析观测变量,控制变量只是用来对观测变量分类的,因此仍然是分析一个变量。

当然一元统计分析的模型还有很多,本书限于篇幅只是列举了SPSS中常用的功能,对于其他模型有兴趣的读者可以查阅相关统计专业书籍。

从本章开始,我们开始介绍多元统计分析的模型和方法,和一元统计分析对应,多元统计分析方法分析的是多个性质不同的SPSS变量;一元统计只是分析总体的某个特征,而多元统计分析则是分析总体的多个特征,分析这些特征各自的情况,并分析这些特征的联系,对这些特征进行处理的方法等等。

因此多元统计的问题比一元统计复杂,处理的方法也更多。

在本篇中将给读者介绍SPSS中常用的多元统计方法:

相关分析、回归分析、聚类和判别、因子与对应分析,以及时间序列分析。

相关分析是比较简单的多元分析方法,但是也是经常使用的多元统计分析方法,它能快速发现总体特征(变量)之间关系,并检验这些特征的显著性。

这一方面对于简单的统计分析已经可以提供足够的结论,另一方面也为后续的更加复杂的多元统计分析模型提供条件和依据。

因此,相关分析在多元统计分析中的作用是非常大的。

一般线性模型是方差分析的推广和延伸,其作用是分析一个或多个自变量对一个或多个应变量的线性关系,其内容非常丰富,包含方差分析、重复测量方差分析、多元线性回归等等,在第8章我们已经接触过它的强大功能了,掌握一般线性模型对于我们提高自身的统计分析能力有很大帮助。

我们就从这两个简单而又重要的方法开始学习多元统计分析的模型。

9.1相关分析

现代自然科学研究、经济检验、企业管理等活动中普遍存在的相互影响、相互依存的关系可以概括为两大类:

函数关系和相关关系,函数关系是一种严格的确定对应关系,而相关关系是一种不要求确定对应,具有一定随机性的关系,实际中,并且相关关系更具有一般性。

相关分析是处理变量之间相关关系的一种统计方法。

通过相关分析,可以了解两个或两个以上的变量之间是否有相关关系,相关关系的方向、形式以及相关密切程度。

下面我们就为读者简单介绍相关分析。

9.1.1引例,相关分析概述

相关分析是用来研究变量间相关关系的,因此读者必须对相关关系有一个比较清楚的概念。

在现实生产生活中,各种事物特征、各种现象之间相互联系、相互制约、相互依存,某些现象发生变化时,另一现象也会随之变化,例如,居民收入的高低会影响银行储蓄额的增减,商品价格的变化会影响商品销售量的变化等等。

这些影响依存的关系又可分为函数关系和相关关系两大类。

1.相关关系的定义

函数关系是指现象、变量之间一种严格的确定性关系。

在这种关系中,当一个变量数值确定时,根据函数关系,另一变量的取值也就唯一确定了,例如:

恒速运动的物体运动位移和时间的关系就是函数关系。

相关关系是指客观变量之间确实存在的,但数量上不是严格对应的依存关系。

在这种关系中,对于其中一个变量的确定取值,另一个变量取值并不是确定的,而是有多个不同的值与之对应。

例如投资和GDP增长有密切关系,一般说来投资加大会促进GDP增长,但是固定的投资值与之对应的GDP增长值却不固定,这是因为GDP增长还会受到消费、经济环境、国家政策等诸多因素影响,会围绕一个平均数上下波动。

函数关系和相关关系并没有严格的界限,在实际中,相关关系更具一般性,因为即使是函数关系,也会因为测量误差,偶然因素的影响使得结果并不是严格确定的,因此函数关系就变成了相关关系;而相关关系很多场合也要借助函数关系的模型和公式来表达,只是加上随机因素的扰动,如果能够完全消除扰动,那么相关关系就转化为函数关系了。

2.相关关系的种类

弄清楚两种关系的联系后,我们来看相关关系的分类:

相关关系按照涉及的变量个数,可以分为单相关和复相关。

单相关是指研究一个变量和另一个变量之间的相关关系,复相关是指研究一个变量和另一组变量之间的相关关系,当然还有研究一组变量和另一组变量之间的多对多的相关关系,我们称之为典型相关,因为SPSS没有提供典型相关的菜单,因此本书不介绍典型相关。

相关关系按照表现形式不同,分为直线相关和曲线相关,直线相关又称线性相关,是指一个变量变化时,其变化量与另一个变量的变化量有大致按比例变化,两个变量的散点图近似落在一条直线附近。

曲线相关又称非线性相关,是指两个变量的变化不是直线变化,散点图也不是落在直线附近,而是呈现比较复杂的变化情况。

相关关系按照相关方向不同,分为正相关和负相关,如果两个变量变化方向相同,即同增同减,则两个变量正相关;相反,如果两个变量一增一减,则是负相关。

另外相关关系按照相关程度,还可以将相关关系分为不相关、低度相关、显著相关、高度相关和完全相关,我们将结合相关关系的测定对相关关系的程度进行解释。

3.相关关系的测定

要判断两个变量有没有相关关系,主要从两方面:

一是定性分析,二是定量分析。

在定量分析之前需进行定性分析,定性分析主要是根据理论知识、专业知识和实践经验,对变量之间是否有相关关系进行判断,即回答相关关系的合理性和科学性问题,例如:

GDP的增长和儿童体重的增加在理论上并没有相关关系,因为儿童体重始终会增加,如果一段时间内GDP也增长,数据上可能表现出一定的相关性,但是这种相关性没有科学依据,如果这段时间GDP停止增长,那么这种相关性就没有了,因此这只是一段时间内巧合。

同样的道理,大树下蚂蚁窝的数量和经济增长率之间也呈现数据上的相关性,但是依然没有科学依据,是一种偶然。

许多读者进行相关分析时是不管变量是什么,直接就分析数据的相关性了,这显然是不可取的。

一定要首先确定变量之间缺失存在理论上的相关可能,在定性分析的基础上才能进行定量的分析,判断相关的方向、形式及密切程度,确定相关关系,否则,就会闹蚂蚁窝和经济增长高度相关的笑话。

相关分析的工具主要有相关表、相关图和线性相关系数等,下面我们通过一个简单的例子来看看这些工具:

例9-1某企业1992-2001年某种产品的产量与单位成本资料如表9-1所示:

请分析该企业产量与单位成本是否存在相关关系,相关关系方向、形式和相关程度如何?

表9-1某企业产品产量与单位成本数据

年份

1

2

3

4

5

6

7

8

9

10

产量(万件)

6

8

9

11

12

14

15

17

19

20

单位成本(元)

52

50

50

48

49

47

46

44

43

42

本例中,要求判断是否存在相关关系,分析相关的方向、形式和程度,在进行定量分析之前要进行定性分析,产品的产量和单位成本之间是可能存在相关关系的,因为随着产量增加形成规模效应以后,可以降低产品的单位成本,因此可以进行定量分析。

此时要充分利用相关分析的三种主要工具。

相关表是一种统计表,它是直接观察原始资料,将一变量按照升序或降序排列,观察对应的另一变量的值,如果另一变量取值也有相应的增加或减小趋势,则可以判断存在相关关系,如果另一变量取值大小随机,则无相关关系。

同时可以判断相关关系的方向,如果同增同减则是正相关,反之为负相关。

从本例中看表9-1中产量是按照升序排列的,而单位成本明显有减少的趋势,因此可以判断相关关系存在,且为负相关,但是相关关系的形式、程度不宜从相关表直接得出,应该利用其他的相关分析工具。

相关图也称散点图,它是用一个变量作为x轴,另一个变量作为y轴,将两个变量对应取值作为坐标,将所有数据在图中描绘出来,用以表明相关点分布状况的图形,从相关图可以看出变量的相关关系、相关方向、相关形式,大致也可以看出相关程度,但是相关程度没有具体数值描述,图9-1是表9-1数据描绘的散点图。

图9-1产量与单位成本散点图

从图中可以看出,产量和单位成本呈现负相关关系,相关关系的形式从散点的分布可以出,大致是分布在一条直线附近,因此是线性相关,至于相关程度主要从散点离直线的远近来判断,如果所有的散点都在直线上,则是完全相关,如果离直线很近,则相关程度高,离直线都较远,那么相关程度就较低,本例来看,相关程度较高。

相关图虽然能大致看出相关关系的方向、形式、相关程度,但是这种判断并不精确,根据图形也无法对相关程度是否显著进行判断,因此我们还需要将相关程度数值化的相关分析工具,这就是相关系数。

相关系数是用以反映变量之间相关关系密切程度的统计量,依据相关关系之间的不同特性,相关系数有多种,反映两变量线性相关关系的统计量称为线性相关系数,反映两变量非线性相关关系的称为非线性相关系数。

本节我们主要讨论线性相关系数,根据线性相关系数计算方法不同,线性相关系数具体又分为:

Person简单相关系数:

这是最简单,也是最常用的相关系数,用于度量两个间隔尺度变量之间的相关性,其数学定义为:

式中n为样本数,代表两个变量的样本观测值,计算出的r称为样本相关系数,它实质是两变量样本标准化后的乘积再取平均数,因此也称为积矩相关系数。

它有如下特点:

Øx、y对称,x、y变量互换位置,r不变;

Ø无量纲数,r是标准化后计算的,因此无量纲;

Ø简单相关系数只能刻画线性相关关系,不能对非线性相关很好刻画。

Spearman等级相关系数:

这是利用变量的秩构造的线性相关系数,是一种非参数的方法,由于只利用变量的秩,顺序尺度变量也可以计算Spearman等级相关系数,且不易受极端值的影响。

其计算公式与Person简单相关系数类似,只是使用变量的秩而非变量的值进行计算,公式为:

由于:

上述公式可以简化为:

Spearman等级相关系数的特点是:

Ø如果两变量正相关性较强,则它们秩变化同步,则D值较小,等级相关系数趋于1;

Ø如果两变量负相关性较强,则它们秩变化相反,则D值

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 医药卫生 > 基础医学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1