ImageVerifierCode 换一换
格式:DOCX , 页数:19 ,大小:159.04KB ,
资源ID:7072386      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/7072386.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(第三篇 SPSS深入分析第9章相关分析与一般线性模型.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

第三篇 SPSS深入分析第9章相关分析与一般线性模型.docx

1、第三篇 SPSS深入分析第9章相关分析与一般线性模型第三篇 SPSS深入分析本篇要点导读:第9章 相关分析与广义线性模型 一般相关分析和偏相关分析,偏相关系数计算,以及广义线性模型简单应用; 第10章 回归分析 一元线性回归、多元线性回归、非线性回归及Logistic回归的模型和应用;第11章 聚类分析和判别分析 聚类和判别分析的适用条件,聚类分析包括层次聚类和K-均值聚类,判别分析包括Fisher判别和Bayes判别; 第12章 因子分析和对应分析 因子分析的一般模型,因子分析的应用;对应分析的一般模型和应用;第13章 时间序列分析 时间序列的建立,预处理,时间序列中常用的ARIMA模型和季

2、节调整模型。 本篇说明:1. 本篇讲述的内容都是涉及两个以上变量的,称为多元统计分析,本篇重点说明多元统计分析方法的应用条件,统计方法的模型和统计方法的SPSS操作实现即结果分析;2. 虽然本篇对各种多元统计分析方法的模型进行了比较详细的介绍,然而本书毕竟是以SPSS应用为重点,因此不可能对多元统计分析模型面面俱到详细介绍,模型的详细内容请读者参考专业多元统计分析书籍;3. 请读者在阅读本篇时注意两个问题:一方面要注意各种多元统计分析方法应用的条件,条件不满足不能轻易使用多元统计分析模型;另一方面要注意归纳各种多元统计方法之间的区别和联系,书中列出了各方法的主要区别和联系,读者注意理解。同时读

3、者也可能自己发现方法间新的区别与联系。4. 由于篇幅关系,对于前面的基本SPSS操作和一元统计分析SPSS操作本篇不再详细说明,只是列出简要操作步骤,请读者注意自行练习,操作验证。第9章 相关分析与一般线性模型在前面的第2篇中,我们讲解的统计方法基本都是一元统计方法,只分析一个变量。这其中有几个例外:多选项分析中涉及多个SPSS变量,但是经过多选项集定义以后,还是将多选项集当作一个变量在分析;参数检验和非参数检验中都有配对样本检验,也涉及多个SPSS变量,只是对于配对变量来说,都是同一性质的变量,分析时也是结合在一起分析的,因此可以算作分析一个变量;方差分析中涉及多个变量;但是方差分析主要是分

4、析观测变量,控制变量只是用来对观测变量分类的,因此仍然是分析一个变量。当然一元统计分析的模型还有很多,本书限于篇幅只是列举了SPSS中常用的功能,对于其他模型有兴趣的读者可以查阅相关统计专业书籍。从本章开始,我们开始介绍多元统计分析的模型和方法,和一元统计分析对应,多元统计分析方法分析的是多个性质不同的SPSS变量;一元统计只是分析总体的某个特征,而多元统计分析则是分析总体的多个特征,分析这些特征各自的情况,并分析这些特征的联系,对这些特征进行处理的方法等等。因此多元统计的问题比一元统计复杂,处理的方法也更多。在本篇中将给读者介绍SPSS中常用的多元统计方法:相关分析、回归分析、聚类和判别、因

5、子与对应分析,以及时间序列分析。相关分析是比较简单的多元分析方法,但是也是经常使用的多元统计分析方法,它能快速发现总体特征(变量)之间关系,并检验这些特征的显著性。这一方面对于简单的统计分析已经可以提供足够的结论,另一方面也为后续的更加复杂的多元统计分析模型提供条件和依据。因此,相关分析在多元统计分析中的作用是非常大的。一般线性模型是方差分析的推广和延伸,其作用是分析一个或多个自变量对一个或多个应变量的线性关系,其内容非常丰富,包含方差分析、重复测量方差分析、多元线性回归等等,在第8章我们已经接触过它的强大功能了,掌握一般线性模型对于我们提高自身的统计分析能力有很大帮助。我们就从这两个简单而又

6、重要的方法开始学习多元统计分析的模型。9.1 相关分析现代自然科学研究、经济检验、企业管理等活动中普遍存在的相互影响、相互依存的关系可以概括为两大类:函数关系和相关关系,函数关系是一种严格的确定对应关系,而相关关系是一种不要求确定对应,具有一定随机性的关系,实际中,并且相关关系更具有一般性。相关分析是处理变量之间相关关系的一种统计方法。通过相关分析,可以了解两个或两个以上的变量之间是否有相关关系,相关关系的方向、形式以及相关密切程度。下面我们就为读者简单介绍相关分析。9.1.1 引例,相关分析概述相关分析是用来研究变量间相关关系的,因此读者必须对相关关系有一个比较清楚的概念。在现实生产生活中,

7、各种事物特征、各种现象之间相互联系、相互制约、相互依存,某些现象发生变化时,另一现象也会随之变化,例如,居民收入的高低会影响银行储蓄额的增减,商品价格的变化会影响商品销售量的变化等等。这些影响依存的关系又可分为函数关系和相关关系两大类。1. 相关关系的定义函数关系是指现象、变量之间一种严格的确定性关系。在这种关系中,当一个变量数值确定时,根据函数关系,另一变量的取值也就唯一确定了,例如:恒速运动的物体运动位移和时间的关系就是函数关系。相关关系是指客观变量之间确实存在的,但数量上不是严格对应的依存关系。在这种关系中,对于其中一个变量的确定取值,另一个变量取值并不是确定的,而是有多个不同的值与之对

8、应。例如投资和GDP增长有密切关系,一般说来投资加大会促进GDP增长,但是固定的投资值与之对应的GDP增长值却不固定,这是因为GDP增长还会受到消费、经济环境、国家政策等诸多因素影响,会围绕一个平均数上下波动。函数关系和相关关系并没有严格的界限,在实际中,相关关系更具一般性,因为即使是函数关系,也会因为测量误差,偶然因素的影响使得结果并不是严格确定的,因此函数关系就变成了相关关系;而相关关系很多场合也要借助函数关系的模型和公式来表达,只是加上随机因素的扰动,如果能够完全消除扰动,那么相关关系就转化为函数关系了。2. 相关关系的种类弄清楚两种关系的联系后,我们来看相关关系的分类:相关关系按照涉及

9、的变量个数,可以分为单相关和复相关。单相关是指研究一个变量和另一个变量之间的相关关系,复相关是指研究一个变量和另一组变量之间的相关关系,当然还有研究一组变量和另一组变量之间的多对多的相关关系,我们称之为典型相关,因为SPSS没有提供典型相关的菜单,因此本书不介绍典型相关。相关关系按照表现形式不同,分为直线相关和曲线相关,直线相关又称线性相关,是指一个变量变化时,其变化量与另一个变量的变化量有大致按比例变化,两个变量的散点图近似落在一条直线附近。曲线相关又称非线性相关,是指两个变量的变化不是直线变化,散点图也不是落在直线附近,而是呈现比较复杂的变化情况。相关关系按照相关方向不同,分为正相关和负相

10、关,如果两个变量变化方向相同,即同增同减,则两个变量正相关;相反,如果两个变量一增一减,则是负相关。另外相关关系按照相关程度,还可以将相关关系分为不相关、低度相关、显著相关、高度相关和完全相关,我们将结合相关关系的测定对相关关系的程度进行解释。3. 相关关系的测定要判断两个变量有没有相关关系,主要从两方面:一是定性分析,二是定量分析。在定量分析之前需进行定性分析,定性分析主要是根据理论知识、专业知识和实践经验,对变量之间是否有相关关系进行判断,即回答相关关系的合理性和科学性问题,例如:GDP的增长和儿童体重的增加在理论上并没有相关关系,因为儿童体重始终会增加,如果一段时间内GDP也增长,数据上

11、可能表现出一定的相关性,但是这种相关性没有科学依据,如果这段时间GDP停止增长,那么这种相关性就没有了,因此这只是一段时间内巧合。同样的道理,大树下蚂蚁窝的数量和经济增长率之间也呈现数据上的相关性,但是依然没有科学依据,是一种偶然。许多读者进行相关分析时是不管变量是什么,直接就分析数据的相关性了,这显然是不可取的。一定要首先确定变量之间缺失存在理论上的相关可能,在定性分析的基础上才能进行定量的分析,判断相关的方向、形式及密切程度,确定相关关系,否则,就会闹蚂蚁窝和经济增长高度相关的笑话。相关分析的工具主要有相关表、相关图和线性相关系数等,下面我们通过一个简单的例子来看看这些工具:例9-1 某企

12、业1992-2001年某种产品的产量与单位成本资料如表9-1所示:请分析该企业产量与单位成本是否存在相关关系,相关关系方向、形式和相关程度如何?表9-1 某企业产品产量与单位成本数据年份12345678910产量(万件)68911121415171920单位成本(元)52505048494746444342本例中,要求判断是否存在相关关系,分析相关的方向、形式和程度,在进行定量分析之前要进行定性分析,产品的产量和单位成本之间是可能存在相关关系的,因为随着产量增加形成规模效应以后,可以降低产品的单位成本,因此可以进行定量分析。此时要充分利用相关分析的三种主要工具。相关表是一种统计表,它是直接观察

13、原始资料,将一变量按照升序或降序排列,观察对应的另一变量的值,如果另一变量取值也有相应的增加或减小趋势,则可以判断存在相关关系,如果另一变量取值大小随机,则无相关关系。同时可以判断相关关系的方向,如果同增同减则是正相关,反之为负相关。从本例中看表9-1中产量是按照升序排列的,而单位成本明显有减少的趋势,因此可以判断相关关系存在,且为负相关,但是相关关系的形式、程度不宜从相关表直接得出,应该利用其他的相关分析工具。 相关图也称散点图,它是用一个变量作为x轴,另一个变量作为y轴,将两个变量对应取值作为坐标,将所有数据在图中描绘出来,用以表明相关点分布状况的图形,从相关图可以看出变量的相关关系、相关

14、方向、相关形式,大致也可以看出相关程度,但是相关程度没有具体数值描述,图9-1是表9-1数据描绘的散点图。图9-1 产量与单位成本散点图从图中可以看出,产量和单位成本呈现负相关关系,相关关系的形式从散点的分布可以出,大致是分布在一条直线附近,因此是线性相关,至于相关程度主要从散点离直线的远近来判断,如果所有的散点都在直线上,则是完全相关,如果离直线很近,则相关程度高,离直线都较远,那么相关程度就较低,本例来看,相关程度较高。相关图虽然能大致看出相关关系的方向、形式、相关程度,但是这种判断并不精确,根据图形也无法对相关程度是否显著进行判断,因此我们还需要将相关程度数值化的相关分析工具,这就是相关

15、系数。相关系数是用以反映变量之间相关关系密切程度的统计量,依据相关关系之间的不同特性,相关系数有多种,反映两变量线性相关关系的统计量称为线性相关系数,反映两变量非线性相关关系的称为非线性相关系数。本节我们主要讨论线性相关系数,根据线性相关系数计算方法不同,线性相关系数具体又分为:Person简单相关系数:这是最简单,也是最常用的相关系数,用于度量两个间隔尺度变量之间的相关性,其数学定义为:式中n为样本数,代表两个变量的样本观测值,计算出的r称为样本相关系数,它实质是两变量样本标准化后的乘积再取平均数,因此也称为积矩相关系数。它有如下特点:x、y对称,x、y变量互换位置,r不变;无量纲数,r是标

16、准化后计算的,因此无量纲;简单相关系数只能刻画线性相关关系,不能对非线性相关很好刻画。Spearman等级相关系数:这是利用变量的秩构造的线性相关系数,是一种非参数的方法,由于只利用变量的秩,顺序尺度变量也可以计算Spearman等级相关系数,且不易受极端值的影响。其计算公式与Person简单相关系数类似,只是使用变量的秩而非变量的值进行计算,公式为:由于:上述公式可以简化为:Spearman等级相关系数的特点是:如果两变量正相关性较强,则它们秩变化同步,则D值较小,等级相关系数趋于1;如果两变量负相关性较强,则它们秩变化相反,则D值较大,等级相关系数趋于-1;如果两变量相关性较弱,则它们秩变

17、化互不影响,则D值趋于中间值,等级相关系数趋于0。Kendall相关系数:这是采用非参数方法度量顺序尺度变量间的线性相关关系,它利用变量秩数据计算一致对数目(U)和非一致对数目(V)来构造统计量,例如例9-1中数据的秩为:(1,10)、(2,9)、(3,9)、(4,6)、(5,7)、(6,5)、(7,4)、(8,3)、(9,2)、(10,1),一致(即秩同时增大)的对数只有1对(4,6)(5,7),即U=1;而秩不一致对数为44对,即V=44。Kendall 相关系数定义为:显然,Kendall 相关系数具有如下性质:如果两变量正相关性强,秩变化同步,U应该较大, V应该较小,趋于1;如果具有

18、较强负相关关系,秩变化相反,V较大而U较小,趋于-1;如果相关关系弱,则U、V大致相等,趋于0。根据计算,在例9-1中,三个相关系数为:计算出的数值很接近,从而可以判断出两个变量是负相关的,并且高度线性相关。 关于相关的程度,一般认为r=0,完全不相关;0|r|0.4,低度线性相关;0.4|r|0.7,显著线性相关;0.7|r|1,高度线性相关;|r|=1,完全相关。9.1.2 显著性检验9.1.1中,我们已经计算出Person简单相关系数,Spearman等级相关系数和Kendall 相关系数的数值,但是我们还需要通过显著性检验来确认这些相关系数在统计上是否显著不为0。根据相关系数的不同,其

19、统计检验的统计量也不相同,构建的假设检验也略有差异,下面我们就分别介绍:1. Person相关系数假设检验:其检验的原假设是相关系数等于0,即相关系数不显著,检验t统计量为:在原假设为真的条件下,t统计量服从自由度为n-2的t分布。2. Spearman相关系数假设检验检验原假设也是相关系数等于0,在小样本下,Spearman等级相关系数就是检验统计量,在大样本时,采用正态检验统计量:当原假设为真时,小样本下统计量服从Spearman分布,大样本下Z统计量近似服从标准正态分布。3. Knedall相关系数假设检验检验的原假设也是相关系数等于0,在小样本下,Kendall 相关系数就是检验统计量

20、,在大样本时,采用正态统计量:当原假设为真是,小样本统计量服从Kendall分布,大样本Z统计量近似服从标准正态分布。SPSS会自动根据统计量观测值计算相应的检验概率P值,根据P值和显著水平比较就能够完成假设检验了。在下面的SPSS操作中将具体介绍如何进行相关分析和检验。9.1.3 相关分析的SPSS操作对于例9-1,需要首先建立数据文件,这点留给读者完成,一共建立三个变量分别代表年份、产量和单位成本,建好的数据文件可见光盘(9-1.sav)对于相关表的操作,只需按照一个变量,例如产量排序,观察令一个变量是否有顺序就可以得出两个变量是否相关,相关方向是正相关还是负相关的结论,排序操作就留给读者

21、自行完成了。对于相关图,是SPSS中经常用到的一个操作,因此比较重要,我们进行如下操作:Step1: 选择【Graphs】菜单【Legacy Dialogs】菜单【Scatter/Dot】菜单【Simple Scatter】菜单在图9-2所示的对话框中,将变量“单位成本(元)(dwcb)”选入Y Axis框中,指定该变量为Y轴变量,将变量“年产量(万件)(cl)”选入X Axis框中,指定该变量为X轴变量。图9-2 散点图对话框Step2:进行其他设置在对话框中,还可以选择标注数值的变量选入Set Marked by框中,可以将标准名称的变量选入Labeled Cases by框中,还可以通过

22、右边的设置散点图标题,通过按钮计算样本统计量和处理缺失数据,这里由于仅仅是看散点图判断相关性,就不进行其他的操作了,设置完成以后点击完成操作。关于相关分析我们也介绍其操作步骤:Step1: 选择【Analysis】菜单【Correlate】菜单【Bivariate】菜单在图9-3的对话框中,将需要进行相关分析的变量“年产量(万件)”、“单位成本(元)”选入Variables:对话框中。图9-3 相关分析主对话框Step2: 选择需要计算的相关系数和需要完成的假设检验在9-3对话框下部“Correlation Coefficients”复选框组中选择需要计算的相关系数种类,选项Person表示P

23、erson简单相关系数,适宜两个变量都是间隔尺度变量的情形;选项Kendall tau-b表示Kendall 相关系数,适宜间隔尺度或顺序尺度变量;选项Spearman表示Spearman等级相关系数,适宜间隔尺度和顺序尺度变量。由于本例中两个变量都是间隔尺度变量,因此三个系数我们都选中,要求计算。在“Correlation Coefficients”复选框组中的下方的“Test of Significance”单选框中,选择进行单尾还是双尾检验,此处选择默认双尾检验。Step3: 完成其他设置在对话框下方按钮上方还有一个Flag significant correlations复选框,选择此

24、复选框后在结果中SPSS会自动在显著的相关系数右上角作上标记。同时还可以点击,在图9-4所示的子对话框选择计算统计量和处理缺失数据。设置完成以后点击完成操作。图9-4 Option子对话框9.1.4 相关分析结果分析下面我们看相关分析的结果:相关图的结果已经在图9-1中列出了,这里就不再重复列出了。Person简单相关分析的结果如表9-2所示:从表中结果可以看到,Person简单相关系数等于-0.987,显然两变量是高度负相关,而相关系数的假设检验P值接近于0,说明相关系数是显著不为0的,注意到相关系数右上角有两个“*”,说明相关系数在0.01的显著水平上是显著的,即检验P值小于0.01,这也

25、说明两个变量的相关关系显著成立。表9-3显示了Spearman相关系数和Kendall相关系数,两个变量的Spearman等级相关系数等于-0.944,显示变量高度负相关,相关系数比Person相关系数略小,可能是采用秩而没有采用值的影响,检验的P值接近于0,根据相关系数右上角的标记也是在0.01显著水平下显著。Kendall 相关系数等于-0.985,两变量高度负相关,检验P值接近0,而且根据相关系数标记,在0.01显著水平下显著。表 9-2 Correlations年产量(万件)单位成本(元)年产量(万件)Pearson Correlation1-.987*Sig. (2-tailed).

26、000N1010单位成本(元)Pearson Correlation-.987*1Sig. (2-tailed).000N1010*. Correlation is significant at the 0.01 level (2-tailed).表9-3 Correlations年产量(万件)单位成本(元)Kendalls tau_b年产量(万件)Correlation Coefficient1.000-.944*Sig. (2-tailed).000N1010单位成本(元)Correlation Coefficient-.944*1.000Sig. (2-tailed).000.N1010

27、Spearmans rho年产量(万件)Correlation Coefficient1.000-.985*Sig. (2-tailed).000N1010单位成本(元)Correlation Coefficient-.985*1.000Sig. (2-tailed).000.N1010*. Correlation is significant at the 0.01 level (2-tailed). 如果想查看具体的P值到底是多少,需要在SPSS输出窗口Viewer中,双击P值对应的单元格,进入表格编辑状态,就可以看到P值的准确数值,在其他显示P值的窗口中也可以通过类似操作查看P值。9.2

28、 偏相关分析相关分析中通过相关系数可以获知变量之间相关关系的方向、强弱。然而,相关系数有时并不是描述变量间相关关系的最好统计指标,往往会有夸大和缩小的嫌疑。在前面对相关分析的定性分析中我们已经遇到这样一类问题:儿童体重增加和GDP增长呈现数据上的正相关关系,但是我们从理论上否定了这种相关关系的存在。那又是什么原因导致了数据上体现出相关关系了呢?这是因为,儿童体重的增加包含了时间的因素,随着时间的往后推移,儿童体重不断增加,两者成正相关;如果一段时间内GDP持续增长,那么其中也含有时间的因素,随着时间推移,GDP不断增长。从而,通过“时间”这一纽带,原来不相关的变量从数据上看就“相关”了,但是,

29、如果扣除时间的因素,两个变量就没有相关关系了,或者GDP中如果不含有时间因素(例如GDP保持微幅震荡),那么两个变量也没有相关关系了。在此例中,可以看到,线性相关系数扩大了两个变量的相关性。由此可见,线性相关系数可能还有两方面的因素:一是两个变量直接的相关信息,二是两个变量通过中间相关因素“传递”的相关信息。如果两种信息相关方向相同,则夸大相关程度,如果两种信息相关方向相反,则减小相关程度。在这种传递信息特别大的情况下,仅仅利用线性相关系数来评价变量间的相关性是不准确的,需要在剔除中间相关因素“传递”的相关信息基础上,计算变量之间直接的相关程度,偏相关分析就是为了处理这类问题而引入的统计分析方

30、法。9.2.1偏相关分析概述偏相关分析也称净相关分析,它在控制其他变量线性影响的条件下,分析两变量间的线性相关,采用的工具是偏相关系数(净相关系数)。控制变量个数称为偏相关系数的阶数,如果控制变量是1个,称为1阶偏相关系数,控制变量是2个称为2阶偏相关系数,没有控制变量时,称为零阶偏相关系数,即是Person简单相关系数。进行偏相关分析需要进行两大步骤:第一、计算样本偏相关系数,用以反映两变量的净相关程度。假设两相关变量是x和y,控制变量是z,1阶偏相关系数定义为:式中,、分别表示变量x和y、y和z、x和z的Person简单相关系数。偏相关系数的取值也是从-1到1,符号正负代表净相关的方向。绝

31、对值越大,代表净相关程度越高,这些性质和普通相关系数是相同的。第二、针对样本观测值,对两变量代表的两总体的净相关显著性进行假设检验。假设检验的原假设是两总体净相关系数与0无显著差异,假设检验的样本统计量为:式中,q为偏相关的阶数,即控制变量的个数。当原假设为真时,统计量服从自由度为n-q-2的t分布。SPSS会自动计算偏相关系数的样本观测值并计算相应的概率P值,根据概率P值就可以完成假设检验了。9.2.2引例,偏相关分析SPSS操作本小节我们将对前面的例9-1进行偏相关分析,通过具体分析和操作的过程,让读者了解偏相关分析的原理和操作过程。例9-2 在前面的例9-1中,因为年销量和单位成本都含有时间因素,年销量随时间而增加,单位成本随时间而下降,现考虑去除时间的影响而分析销量和单位成本的净相关关系。同时通过净相关系数和简单相关系数的比较说明时间因素的作用。在例9

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1