SPSS学习系列27回归分析报告Word文件下载.docx
《SPSS学习系列27回归分析报告Word文件下载.docx》由会员分享,可在线阅读,更多相关《SPSS学习系列27回归分析报告Word文件下载.docx(27页珍藏版)》请在冰豆网上搜索。
变量Height表示“击球高度”,Distance表示“球飞出的距离”,用回归分析研究球飞出的距离与击球高度的关系。
1.【分析】——【回归】——【线性】,打开“线性回归”窗口,将变量“Distance”选入【因变量】框,“Height”选入【自变量】框;
注:
【选择变量+规则】:
可以对某个变量,只对满足某条件的个案做回归分析;
【WLS权重】:
可选择加权变量进行加权最小二乘法的回归分析;
2.点【统计量】,打开“统计量”子窗口,勾选【回归系数】下的“估计”、“置信区间”,勾选【残差】下的“Durbin-Watson”,勾选“模型拟合度”、“描述性”;
点【继续】;
3.【保存】可选项
点【保存】,打开“保存”子窗口,【预测值】给出用回归方程计算的预测值;
勾选“未标准化”,【残差】给出做残差分析模型诊断用的各种残差,勾选“标准化”;
将在原数据上增加两列PRE_1和ZRE_1分别存储预测值和残差值;
点【确定】,得到
描述性统计量
均值
标准偏差
N
球飞出的距离
130.73
11.194
30
击球高度
48.97
2.371
相关性
Pearson相关性
1.000
.613
Sig.(单侧)
.000
给出了两个变量的相关性描述,相关系数为0.613.
输入/移去的变量a
模型
输入的变量
移去的变量
方法
1
击球高度b
输入
a.因变量:
球飞出的距离
b.已输入所有请求的变量。
选入回归模型的变量以及剔除的变量,本例只有一个自变量。
模型汇总b
R
R方
调整R方
标准估计的误差
Durbin-Watson
.613a
.376
.353
9.001
1.569
a.预测变量:
(常量),击球高度。
b.因变量:
模型的R2反映了自变量所能解释的方差占总方差的百分比,值越大说明模型拟合效果越好,本例R2=0.376,说明线性回归关系并不强,球飞出的距离可能还和其它因素如选手的年龄、经验有关。
Durbin-Watson检验值=1.569,说明残差基本上是独立的(靠近2说明误差基本上是独立的,小于2说明是正相关。
Anovaa
平方和
df
均方
F
Sig.
回归
1365.508
16.855
.000b
残差
2268.358
28
81.013
总计
3633.867
29
b.预测变量:
回归模型的F检验,原假设H0:
回归系数=0;
本例P值<
0.001<
0.05,故拒绝原假设H0,即回归系数不为0.
对一元线性回归模型,由于T值=F值的平方根,故T检验与F检验是等价的。
系数a
非标准化系数
标准系数
t
B的95.0%置信区间
B
标准误差
试用版
下限
上限
(常量)
-11.009
34.564
-.319
.752
-81.809
59.792
2.895
.705
4.106
1.450
4.339
给出回归方程的常数项、回归系数的估计值及置信区间,以及检验结果(原假设H0:
其值=0),得到回归方程:
Distance=-11.009+2.895*Height
斜率2.895的t检验P值=0.0003<
0.05,说明该结果在显著水平α下有统计学意义;
但截距的t检验结果并不显著。
残差统计量a
极小值
极大值
预测值
119.25
142.41
6.862
-23.724
20.276
8.844
标准预测值
-1.673
1.701
标准残差
-2.636
2.253
.983
(二)多元线性回归
多元线性回归模型:
Y=𝛽
1X1+…+𝛽
NXN+ε
其中X1,…,XN是自变量,Y是因变量,𝛽
0,𝛽
1…,𝛽
N是待求的未知参数,ε是随机误差项(残差),若记
多元线性回归模型可写为矩阵形式:
Y=Xβ+ε
通常要求:
矩阵X的秩为k+1(保证不出现共线性),且k<
N;
ε为正态分布,E(ε)=0和E(εε’)=𝜎
2I,其中I为N×
N单位矩阵。
用最小二乘法原理,令残差平方和
最小,得到
为β的最佳线性无偏估计量(高斯-马尔可夫定理)。
2.𝜎
2的估计和T检验
选取𝜎
2的估计量:
则
假如t值的绝对值相当大,就可以在适当选定的置信水平上否定原假设,参数的1-α置信区间可由下式得出:
其中tα/2为与α%显著水平有关的t分布临界值。
3.R2和F检验
若因变量不具有0平均值,则必须对R2做如下改进:
随着模型中增添新的变量,R2的值必定会增大,为了去掉这种增大的干扰,还需要对R2进行修正(校正拟合优度对自由度的依赖关系):
做假设检验:
1=…=𝛽
N=0;
H1:
N至少有一个≠0;
使用F统计量做检验,
若F值较大,则否定原假设。
4.回归诊断
(1)残差图分析
残差图就是以残差
为纵坐标,某一个合适的自变量为横坐标的散点图。
回归模型中总是假定误差项是独立的正态分布随机变量,且均值为零和方差相等为𝜎
2.如果模型适合于观察到的数据,那么残差作为误差的无偏估计,应基本反映误差的假设特征。
即残差图应该在零点附近对称地密布,越远离零点的地方就疏散(在形象上似有正态趋势),则认为模型与数据拟合得很好。
若残差图呈现如图(a)所示的形式,则认为建立的回归模型正确,更进一步再诊断“学生化残差”是否具有正态性:
图(b)表明数据有异常点,应处理掉它重新做回归分析(在SAS的REG回归过程步中用来度量异常点影响大小的统计量是COOKD统计量);
图(c)残差随x的增大而增大,图(d)残差随x的增大而先增后减,都属于异方差。
此时应该考虑在回归之前对数据y或x进行变换,实现方差稳定后再拟合回归模型。
原则上,当误差方差变化不太快时取变换
;
当误差方差变化较快时取变换logy或lny;
当误差方差变化很快时取变换1/y;
还有其他变换,如著名的Box-Cox幂变换
图(e)(f)表示选用回归模型是错误的。
(2)共线性
回归分析中很容易发生模型中两个或两个以上的自变量高度相关,从而引起最小二乘估计可能很不精确(称为共线性问题)。
在实际中最常见的问题是一些重要的自变量很可能由于在假设检验中t值不显著而被不恰当地剔除了。
共线性诊断问题就是要找出哪些变量间存在共线性关系。
(3)误差的独立性
回归分析之前,要检验误差的独立性。
若误差项不独立,那么回归模型的许多处理,包括误差项估计、假设检验等都将没有推导依据。
由于残差是误差的合理估计,因此检验统计量通常是建立在残差的基础上。
检验误差独立性的最常用方法,是对残差的一阶自相关性进行Durbin-Watson检验。
误差项是相互独立的;
误差项是相关的
检验统计量:
DW接近于0,表示残差中存在正自相关;
如果DW接近于4,表示残差中存在负自相关;
如果DW接近于2,表示残差独立性。
例2有31位成年人心肺功能的调查数据:
用多元线性回归模型,研究耗氧量的是如何依赖其它变量的。
1.【分析】——【回归】——【线性】,打开“线性回归”窗口,将变量“Oxygen”选入【因变量】框,将变量“age”、“weight”、“runtime”、“rstpulse”、“runpulse”、“Maxpulse”选入【自变量】框;
【方法】下拉菜单选择“向后”;
多元线性回归涉及到自变量的筛选,SPSS提供了5种筛选方法:
(1)进入法——选入【自变量】框的自变量都加入模型;
(2)向前法——先将部分自变量加入模型,再逐个添加其它变量,若自变量对模型有统计学意义的影响则加入(只进不出);
(3)向后法——先把全部自变量加入模型,若自变量对模型无统计学意义的影响则剔除(只出不进);
(4)逐步回归法——综合“向前法”和“向后法”逐个引入自变量;
(5)删除法——规定为删除的自变量被强制剔除出模型,运行结果会给出若将其引入的参数估计和检验结果(做对比时用)。
2.点【统计量】打开“统计量”子窗口,勾选【回归系数】的“估计”;
勾选【残差】的“Durbin-Watson”(残差独立性检验);
勾选“模型拟合度”、“R方变化”、“部分相关和偏相关性”、“共线性诊断”;
多元线性回归要求变量基本相互独立,所以有必要进行共线性诊断,若有共线性将对结果造成较大误差。
3.用【图形】进行残差独立性检验。
点【绘制】,打开“图”子窗口,勾选【标准化残差图】的“直方图”、“正态概率图”;
残差的方差齐性,可用回归标准化残差图考察:
将“ZPRED”(标准化预测值)选入【X2(X)】框,将“ZRESID”(标准化残差)选入【Y(Y)】框;
注意:
若自变量与因变量的关系并非线性、残差方差不齐、变量间不独立,都会导致残差的直方图、正态概率图非正态性。
4.点【选项】,打开“选项”子窗口,设置选入或剔除变量的标准,以及回归模型是否保留常数项,默认设置即可。
5.若需要将回归分析的结果存储起来,然后用得到的残差、预测值等做进一步的分析。
点【保存】,打开“保存”子窗口,设置想要保存的预测值、残差、距离、波动统计量等;
先看共线性诊断结果:
共线性统计量
容差
VIF
102.238
12.453
8.210
年龄
-.220
.100
-.215
-2.208
.037
.667
1.499
体重
-.072
.055
-.113
-1.324
.198
.867
1.154
跑15英里的时间
-2.681
.375
-.698
-7.150
.664
1.505
休息时每分钟心跳次数
-.001
.059
-.014
.989
.760
1.316
跑步时每分钟心跳次数
-.373
.121
-.718
-3.092
.005
.117
8.517
每分钟心跳次数的最大值
.305
.137
.524
2.221
.036
.114
8.799
2
102.204
11.979
8.532
.096
-2.300
.030
.697
1.436
.053
-1.356
.187
.875
1.143
-2.683
.341
-.699
-7.867
.771
1.297
-.719
-3.188
.004
.120
8.359
.134
.525
2.277
.032
.115
8.731
3
98.148
11.786
8.328
-.198
-.193
-2.068
.049
.717
1.395
-2.768
-.721
-8.127
.798
1.253
-.348
-.670
-2.963
.006
.123
8.147
.271
.465
2.024
.119
8.418
耗氧量
模型1-3分别是做了三次剔除变量的回归,判断共线性看VIF值,若VIF值大于2则表明共线性很强。
本例中国,“跑步时每分钟心跳次数”为8.517,“每分钟心跳次数的最大值”为8.799,表明二者有极强的共线性,应去掉“每分钟心跳次数的最大值”,重新做回归分析。
在【线性回归】窗口,将【自变量】框的变量“Maxpulse”移出,点【确定】,得到
跑步时每分钟心跳次数,体重,休息时每分钟心跳次数,年龄,跑15英里的时间b
向后(准则:
F-to-remove>
=.100的概率)。
采用“向后法”筛选变量结果为:
第2步剔除了变量“休息时每分钟心跳次数”、第3步剔除了变量“体重”;
最终选入变量“跑步时每分钟心跳次数”、“年龄”、“跑15英里的时间”。
模型汇总d
更改统计量
R方更改
F更改
df1
df2
Sig.F更改
.904a
.817
.780
2.497982
22.288
5
25
.904b
.816
.788
2.451333
.038
.847
.901c
.811
.790
2.440634
-.005
.765
26
.390
1.960
(常量),跑步时每分钟心跳次数,体重,休息时每分钟心跳次数,年龄,跑15英里的时间。
(常量),跑步时每分钟心跳次数,体重,年龄,跑15英里的时间。
c.预测变量:
(常量),跑步时每分钟心跳次数,年龄,跑15英里的时间。
d.因变量:
整个回归模型的修正R2=0.790,表明模型拟合程度较好,Durbin-Watson值=1.96接近2,表明残差的度量性很好。
695.384
139.077
155.998
6.240
851.382
695.147
4
173.787
28.921
.000c
156.235
6.009
690.551
230.184
38.643
.000d
160.831
27
5.957
d.预测变量:
回归模型的F值较大,P值远小于0.05,故回归模型是有统计学意义的。
零阶
偏
部分
116.046
11.607
9.998
-.280
.103
-.274
-2.719
.012
-.305
-.478
-.233
.721
1.387
-.051
.058
-.079
-.875
-.163
-.172
-.075
.896
1.117
-2.743
.402
-.714
-6.819
-.862
-.806
-.584
.668
1.497
-.012
.063
-.019
-.195
-.346
-.039
-.017
.766
1.306
-.128
.052
-.246
-2.444
.022
-.398
-.439
-.209
.723
1.383
115.662
11.226
10.303
-.276
.099
-.270
-2.783
.010
-.479
-.234
.748
1.338
-.049
.056
-.077
-.169
-.073
.908
1.102
-2.772
.365
-.722
-7.597
-.830
-.638
.781
1.280
-.129
.051
-.249
-2.544
.017
-.446
-.214
.737
1.356
111.718
10.235
10.915
-.256
-.251
-2.664
.013
-.456
-.223
1.267
-2.825
.358
-.736
-7.886
-.835
-.660
.804
1.244
-.131
-.252
-2.588
.015
-.216
.738
1.355
根据回归系数的估计,可以得到多元线性回归方程:
Oxygen=111.718-0.256*age-2.825*runtime-0.131*runpulse
共线性诊断a
维数
特征值
条件索引
方差比例
5.950
.00
.020
17.067
.11
.02
.01
.54
.014
20.412
.19
.35
.07
24.954
.81
.23
34.721
.03
.16
.51
.21
.26
6
.001
77.423
.96
.47
.10
.73
4.967
18.529
.30
.29
.011
20.838
.12
.04
.83
29.476
.59
.06
70.426
.46
.09
.79
3.978
18.340
.38