回归分析应用实例讲解Word文档格式.docx
《回归分析应用实例讲解Word文档格式.docx》由会员分享,可在线阅读,更多相关《回归分析应用实例讲解Word文档格式.docx(18页珍藏版)》请在冰豆网上搜索。
4107.00
1986
4058.00
13068.80
5064.00
8.94
4495.00
1987
4356.00
13414.00
5503.00
9.28
4973.00
1988
4689.00
13704.60
5704.00
9.80
5452.00
1989
4859.00
13764.10
5820.00
10.54
5848.00
1990
5153.00
13830.60
6238.00
10.80
6212.00
1991
5638.00
14009.20
6765.00
10.87
6775.00
1992
6697.00
14209.70
7589.00
11.16
7539.00
1993
7716.00
14523.00
8739.00
11.51
8395.00
1994
8482.00
14608.20
9741.00
12.40
9281.00
1995
8979.80
15004.94
10529.27
13.61
10070.30
1996
9338.02
15733.39
10722.50
13.97
10813.10
1997
9978.93
16074.14
11511.41
13.73
11355.53
将中国成品
一、模型的设定
设因变量y与自变量
、
的一般线性回归模型为:
y=
+
是随机变量,通常满足
;
Var(
)=
二参数估计
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
170.287
494.572
.344
.736
原油(万吨)
-.041
.090
-.031
-.457
.655
生铁(万吨)
.554
.170
.608
3.267
.006
原煤(万吨)
-17.818
115.468
-.018
-.154
.880
发电量(亿千瓦时)
.389
.199
.438
1.952
.073
a.因变量:
成品钢材(万吨)
再用spss做回归线性,根据系数表得出回归方程为:
再做回归预测,得出如下截图:
三回归方程检验
描述性统计量
均值
标准偏差
N
成品钢材(万吨)
5465.0028
2460.34926
18
13190.6372
1875.78873
6489.9544
2700.79676
9.9683
2.54018
6220.8794
2768.11191
相关性
Pearson相关性
1.000
.909
.998
.961
.997
.912
.973
.920
.962
.971
Sig.(单侧)
.
.000
由相关系数表看出,因变量与各个自变量的相关系数都很高,都在0.9以上,说明变量间的线性相关程度很高,适合做多元线性回归模型。
模型汇总b
R
R方
调整R方
标准估计的误差
.999a
140.71641
a.预测变量:
(常量),发电量(亿千瓦时),原油(万吨),原煤(万吨),生铁(万吨)。
b.因变量:
由
=0.997以及调整之后的
=0.997知,模型对样本观测数据的拟合度很好。
Anovab
平方和
df
均方
F
回归
1.026E8
4
2.566E7
1296.001
.000a
残差
257414.404
13
19801.108
总计
1.029E8
17
由F=1296.001P值=0.000<
=0.05,故拒绝原假设,认为自变量联合起来对因变量有显著影响,通过F检验。
因为
=-0.154P值=0.880远远大于
=0.05,故接受原假设,认为
对因变量y没有显著影响,故应剔除
。
用后退法剔除变量后,再做回归线性,得如下表:
2
197.734
445.099
.444
.664
-.053
.045
-1.172
.261
.564
.150
.620
3.760
.002
.371
.153
.417
2.417
.030
3
-309.403
105.079
-2.944
.010
.591
.649
3.937
.001
.311
.147
.350
2.125
.051
Anovad
3.422E7
1857.513
.000b
257885.884
14
18420.420
5.131E7
2718.023
.000c
283174.324
15
18878.288
b.预测变量:
(常量),发电量(亿千瓦时),原油(万吨),生铁(万吨)。
c.预测变量:
(常量),发电量(亿千瓦时),生铁(万吨)。
d.因变量:
最后剔除
两个自变量,得出新的回归方程为:
F=2718.023P值=0.000故拒绝原假设,通过F检验。
四基本假定检验
1、异方差检验
等级相关系数检验
做abs(e)与x的等级相关系数,得出表如下
相关系数
abse
Spearman的rho
.998**
.994**
.263
Sig.(双侧)
.291
.989**
.988**
.294
.236
.997**
.227
.365
.212
.399
**.在置信度(双测)为0.01时,相关性是显著的。
由表中P值全大于0.01,故接受原假设,模型中不存在异方差。
2、自相关检验
Durbin-Watson
.922
DW=0.992n=18k=5,查表得出
,故DW落入无法确定的领域。
自相关性不明显,由此也看出DW检验的局限性。
3、多重共线性
共线性统计量
容差
VIF
.041
24.672
180.105
.014
73.861
.004
261.480
共线性诊断a
维数
特征值
条件索引
方差比例
4.878
.00
.118
6.435
.02
37.106
.36
.03
.09
88.718
.57
.46
.28
.21
.16
5
137.100
.05
.51
.68
.70
.84
因为VIF中有两个远远的大于10,故模型存在严重的多重共线性。
由共线性诊断表中数据得出,
之间存在多重共线性。
故先剔除变量
,再做线性回归,得出表如下:
59.520
538.378
.111
.914
-.108
.092
-.082
-1.178
.258
.047
21.142
.871
.054
.956
16.144
.066
15.176
118.233
100.887
.122
1.172
.021
46.956
3.917
.079
7.042
.06
.003
33.686
.33
.04
.66
.13
87.743
.64
.96
.87
由于模型中仍然存在多重共线性,故继续剔除VIF最大的变量
,再做线性回归,得出表如下
-282.131
458.218
-.616
.547
-.017
.049
-.013
-.345
.735
.168
5.967
.034
1.010
26.871
2.922
.076
6.204
.19
38.315
.97
1.00
.81
由于剔除变量
后,VIF值都小于10,故多重共线性得以消除,得出新的回归方程:
4、异常值和强影响值
残差统计量a
极小值
极大值
预测值
2738.5310
10059.5371
2457.27013
标准预测值
-1.110
1.870
预测值的标准误差
53.220
117.717
72.288
17.057
调整的预测值
2770.4775
10140.2559
5485.8900
2473.44774
-182.88765
241.19569
.00000
123.05293
标准残差
-1.300
1.714
.874
Student化残差
-1.710
1.887
-.057
1.022
已删除的残差
-316.76953
292.42792
-20.88723
173.80682
Student化已删除的残差
-1.867
2.128
-.045
1.070
Mahal。
距离
1.487
10.953
3.778
Cook的距离
.523
.095
.145
居中杠杆值
.087
.644
.222
.142
因为p/n=4/18=0.22表中
=0.644>
0.44故关于x异常。