线性相关分析与线性回归分析Word下载.docx
《线性相关分析与线性回归分析Word下载.docx》由会员分享,可在线阅读,更多相关《线性相关分析与线性回归分析Word下载.docx(21页珍藏版)》请在冰豆网上搜索。
Analyze→Correlate(相关)→Bivariate(双变量)打开双变量相关分析对话框,如图11-1所示。
图11-1双变量相关分析对话框
2.选择进行相关分析的变量
从左侧的源变量窗口中选择两个要进行相关分析的变量进入Variable窗口。
3.选择相关系数。
CorrelationCoefficient是相关系数的选项栏。
栏中提供了三个相关系数的选项:
(1)Pearson:
皮尔逊相关,即积差相关系数。
适用于两个变量都为定距以上变量,且两个变量都服从正态分布的情况。
这是系统默认的选项。
(2)Kendall:
肯德尔相关系数。
它表示的是等级相关,适用于两个变量都为定序变量的情况。
(3)Spearman:
斯皮尔曼等级相关。
它表示的也是等级相关,也适用于两个变量都为定序变量的情况。
4.确定显著性检验的类型。
TestofSignificance是显著性检验类型的选项栏,栏中包括两个选项:
(1)Two-tailed:
双尾检验。
(2)One-tailed:
单尾检验。
5.确定是否输出相关系数的显著性水平
FlagsignificantCorrelations:
是标出相关系数的显著性选项。
如果选中此项,系统在输出结果时,在相关系数的右上方使用“*”表示显著性水平为0.05;
用“**”表示显著性水平为0.01。
6.选择输出的统计量
单击Options打开对话框,如图11-2所示。
图11-2相关分析选项对话框
(1)Statistics是输出统计量的选项栏。
1)Meansandstandarddeviations是均值与标准差选项。
选择此项,系统将在输出文件中输出均值与标准差。
2)Cross-productdeviationsandcovariances是叉积离差与协方差选项。
选择此项,系统将在输出文件中输出每个变量的离差平方和与两个变量的协方差。
上述两项选择只有在主对话框中选择了Pearson:
皮尔逊相关后,计算结果才有价值。
(2)缺失值的处理办法
MissingValuess是处理缺失值的选项栏。
1)Excludecasespairwise是成对剔除参与相关系数计算的两个变量中有缺失值的个案。
2)Excludecaseslistwise是剔除带有缺失值的所有个案。
上述选项做完以后,单击Continue按钮,返回双变量相关分析对话框。
8.单击OK按钮,提交运行。
系统在输出文件窗口中输出相关分析的结果。
11.1.2两个变量之间的线性相关分析实例分析
实例:
在“休闲调查1”中,对被调查者的“住房面积”和“家月收入”作相关分析
打开数据文件“休闲调查1”后,执行下述操作:
1.Analyze→Correlate→Bivariate打开双变量相关分析对话框。
2.从左侧的源变量中选择“住房面积”和“家月收入”进入Variable窗口。
其它选项采用系统默认状态。
3.单击Options按钮,打开对话框。
选择Meansandstandarddeviations选项和Cross-productdeviationsandcovariances选项。
单击Continue按钮,返回双变量相关分析对话框。
4.单击OK按钮,提交运行。
可以在输出文件中看到相关分析的结果如表11-1、表11-2所示
表11-1变量的描述统计
表11-2相关分析表
由于在选项中选择了Meansandstandarddeviations选项。
所以在输出文件中出现了表11-1,表中的内容就是两个变量的平均值、标准差和个案数。
表11-2是以交叉表的形式表现的相关分析的结果。
下面将表的内容作如下解释:
PearsonCorrelation是皮尔逊相关系数。
在它右侧“住房使用面积”一列中对应的数据为1.000,这是“住房使用面积”与“住房使用面积”的相关系数。
由于使用同一个变量计算相关,数据完全一一对应,所以计算的相关系数为1。
在“家月收入”下面对应的数据为0.393,这是“住房使用面积”与“家月收入”的皮尔逊相关系数。
Sig.(2-tailed)是双端检验的显著性水平。
可以看出,相关系数0.393的显著性水平为0.000,表明总体中两个变量的相关是显著的。
0.393的“**”和表下面的英文说明Correlationissignificantatthe0.05level(2-tailed)(相关系数在0.01的水平上显著)即说明了这一点。
SumofSquaresandCross-products是离差平方和与叉积和。
如果以
“家月收入”为X变量,“住房使用面积”为Y变量的话,离差平方和是指或。
差积和是指Σ(x−x)(y−y)。
表11-2中“家月收入”一列下面所对应的94462797是“家月收入”变量的离差平方和。
而879447.51则是差积和。
Covariance是协方差。
表11-2中“家月收入”一列下面所对应的3118.608是“家月收入”的方差。
“住房使用面积”一列下面所对应的187.904是“家月收入”变量与“住房使用面积”变量的协方差。
从输出的情况来看,“住房面积”和“家月收入”呈正相关,其相关系数为0.393,在总体中这个相关系数在0.01的水平上是显著的。
11.2线性回归分析
回归分析是用确定性的方法来研究变量之间的非确定性关系的最重要的方法之一。
非确定性关系是指变量在变化过程中表现出来的数量上具有一定的依存性,但并非象函数关系那样一一对应的关系。
如果把其中的一个或几个变量作为自变量,把另一个随着自变量的变化而变化的变量作为因变量,通过建立线性关系的数学模型来研究它们之间的非确定性的关系的方法就是回归分析的方法。
由于回归分析中表现的是自变量和因变量之间的关系,所以这种方法也多用于研究因果关系的数量表现。
在SPSS中的回归分析方法有七种,本节只介绍最简单、最常用的线性回归分析。
回归分析在Analyze的下拉菜单中,如图11-3所示。
图11-3回归分析的指令菜单
图中的主菜单中Regression是回归,二级菜单中的Linear是线性。
11.2.1一元线性回归
11.2.1.1一元线性回归的原理
1.一元线性回归方程
一元线性回归也就是直线回归。
适用于对两个定距以上变量之间关系的分析。
是通过给一定数量的样本观测值拟合一条直线,来研究变量之间关系的方法。
这条直线也叫回归直线或回归方程。
求回归方程的过程就是利用观测值求出方程中的回归直线中的a、b两个系数。
一般采用最小二乘法。
a是回归直线的截距,b是回归直线的斜率,也称为回归系数。
2.回归方程的假定条件
有了回归直线,每一个样本观测值都可以表示为yi=a+bxi+εi。
(i=1,2…n)εi称为随机误差项。
用回归方程来表示变量之间的关系需要满足一定的假定条件。
这些假定条件是:
(1)正态性假定。
即随机误差项εi服从正态分布。
(2)零均值假定。
εi的均值为零,即E(εi)=0。
(3)同方差假定。
εi分布的方差相等。
(4)独立性假定。
εi是相互独立的随机变量。
(5)无系列相关假定。
εi的变化与xi的变化无相关
上述的假定条件中有一个不满足,回归方程都是没有价值的。
由于上述的假定都是对总体而言的,而总体的情况又属于未知。
因此在建立回归方程后应该用样本观测值对上述假定进行检验。
3.回归方程的显著性检验
由于回归方程是用样本观测值建立的,用它来描述总体情况时,需要进行假设检验。
(1)回归系数的显著性检验
1)对回归系数b的检验:
检验的原假设是b=0,检验的方法是T检验。
2)对截距a的检验:
检验的原假设是a=0,检验的方法是T检验。
(2)对回归直线拟合优度的检验
采用最小二乘法可以给任何一组数据配合一条直线。
但只有两个变量之间的相关较强时,用回归直线来描述它们之间的关系才有意义。
回归直线拟合优度检验的指标是判定系数R2。
R2=r2,即相关系数的平方。
它说明因变量的变化中有多少是由自变量的变化引起的。
如R2=0.65,则说明,因变量的变化中的65%是由自变量的变化引起的。
R2越接近1,说明拟合优度越好。
R2=0,说明自变量与因变量没有任何关系,配合回归直线没有价值。
(3)对回归直线意义的检验
对一组数据配合回归直线是否有意义,可以通过方差分析和F检验的方法来确定。
把某一样本观测值到回归直线的距离的平方和定义为残差平方和。
它反映了除自变量以外的其它因素对因变量的影响。
把回归直线到总平均值之间的距离的平方和定义为回归平方和。
它反映了自变量对因变量的影响。
如果回归平方和很大而残差平方和很小,说明自变量对因变量的解释能力很大,则配合回归直线有意义。
反之则说明配合回归直线没有意义。
将两个平方和分别除以各自的自由度,就得到了平均回归平方和及平均残差平方和。
统计量F=平均回归平方和/平均残差平方和。
F值过小,达不到显著性水平,说明自变量对因变量的解释力度很差,配合回归直线没有意义。
(4)残差的独立性检验
残差的独立性检验也称系列相关检验。
如果随机误差项不独立,那么对回归模型的任何估计与假设所做出的结论都是不可靠的。
残差的独立性检验是通过Durbin-Watson检验来完成的。
Durbin-Watson检验的参数用D表示。
D的取值范围是0<D<4。
当残差与自变量相互独立时,D≈2。
当相邻两点的残差正相关时,D<2。
当相邻两点的残差负相关时,D>
2。
其它如随机误差项的零均值,同方差,独立性的检验可根据残差散点图来进行。
将在后面的输出文件中介绍。
11.2.1.2一元线性回归的分析过程
1.打开回归分析对话框
Analyze→Regression→Linear打开对话框,如图11-4所示。
由于回归分析的选项很多,本节只介绍与一元线性回归模型的建立及各种检验有关的选项。
图11-4回归分析对话框
2.选择回归分析的因变量与自变量
从左侧源变量窗口中选择一个变量作为因变量进入Dependent(s)窗口。
再选择一个变量作为自变量进入Independent窗口。
3.确定回归分析结果的输出内容
单击Statistics按钮,打开对话框,如图11-5所示。
图11-5回归分析统计量输出对话框
该对话框包括三部分。
(1)RegressionCoefficients是回归系数选项栏。
该栏中包括三项内容。
与一元回归有关的选项是:
1)Estimates是输出估计值的选项。
若选择此项,则在输出文件中输出回归系数B、B的标准误、标准化回归系数beta、B的T检验值以及T值的双侧检验的显著性水平Sig。
这是系统默认选项。
2)Co