最新回归分析应用实例讲解.docx
《最新回归分析应用实例讲解.docx》由会员分享,可在线阅读,更多相关《最新回归分析应用实例讲解.docx(19页珍藏版)》请在冰豆网上搜索。
最新回归分析应用实例讲解
回归分析应用实例讲解
影响成品钢材量的多元回归分析
故当原油产量为16225.86万吨,生铁产量为12044.54万吨,原煤产量为13.87万吨以及发电量为12334.89亿千瓦时时,成品钢材量预测值为10727.33875万吨;当原油产量为17453万吨,生铁产量为12445.96万吨,原煤产量为14.54万吨以及发电量为13457亿千瓦时时,成品钢材量预测值为10727.33875万吨。
钢材的需求量设为y,作为被解释变量,而原油产量
、生铁产量
、原煤产量
、发电量
作为解释变量,通过建立这些经济变量的线性模型来研究影响成品钢材需求量的原因。
能源转换技术等因素。
在此,收集的数据选择与其相关的四个因素:
原油产量、生铁产量、原煤产量、发电量,1980—1997的有关数据如下表。
理论上成品钢材的需求量的影响因素主要有经济发展水平、收入水平、产业发展、人民生活水平提高、
原始数据(中国统计年鉴)
年份
y
1980
2716.20
10595.00
3802.40
6.20
3006.20
1981
2670.10
10122.00
3416.60
6.20
3092.70
1982
2902.00
10212.00
3551.00
6.66
3277.00
1983
3072.00
10607.00
3738.00
7.15
3514.00
1984
3372.00
11461.30
4001.00
7.89
3770.00
1985
3693.00
12489.50
4384.00
8.72
4107.00
1986
4058.00
13068.80
5064.00
8.94
4495.00
1987
4356.00
13414.00
5503.00
9.28
4973.00
1988
4689.00
13704.60
5704.00
9.80
5452.00
1989
4859.00
13764.10
5820.00
10.54
5848.00
1990
5153.00
13830.60
6238.00
10.80
6212.00
1991
5638.00
14009.20
6765.00
10.87
6775.00
1992
6697.00
14209.70
7589.00
11.16
7539.00
1993
7716.00
14523.00
8739.00
11.51
8395.00
1994
8482.00
14608.20
9741.00
12.40
9281.00
1995
8979.80
15004.94
10529.27
13.61
10070.30
1996
9338.02
15733.39
10722.50
13.97
10813.10
1997
9978.93
16074.14
11511.41
13.73
11355.53
将中国成品
一、模型的设定
设因变量y与自变量
、
、
、
的一般线性回归模型为:
y=
+
是随机变量,通常满足
;Var(
)=
二参数估计
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
170.287
494.572
.344
.736
原油(万吨)
-.041
.090
-.031
-.457
.655
生铁(万吨)
.554
.170
.608
3.267
.006
原煤(万吨)
-17.818
115.468
-.018
-.154
.880
发电量(亿千瓦时)
.389
.199
.438
1.952
.073
a.因变量:
成品钢材(万吨)
再用spss做回归线性,根据系数表得出回归方程为:
再做回归预测,得出如下截图:
故当原油产量为16225.86万吨,生铁产量为12044.54万吨,原煤产量为13.87万吨以及发电量为12334.89亿千瓦时时,成品钢材量预测值为10727.33875万吨;当原油产量为17453万吨,生铁产量为12445.96万吨,原煤产量为14.54万吨以及发电量为13457亿千瓦时时,成品钢材量预测值为10727.33875万吨。
三回归方程检验
描述性统计量
均值
标准偏差
N
成品钢材(万吨)
5465.0028
2460.34926
18
原油(万吨)
13190.6372
1875.78873
18
生铁(万吨)
6489.9544
2700.79676
18
原煤(万吨)
9.9683
2.54018
18
发电量(亿千瓦时)
6220.8794
2768.11191
18
相关性
成品钢材(万吨)
原油(万吨)
生铁(万吨)
原煤(万吨)
发电量(亿千瓦时)
Pearson相关性
成品钢材(万吨)
1.000
.909
.998
.961
.997
原油(万吨)
.909
1.000
.912
.973
.920
生铁(万吨)
.998
.912
1.000
.962
.997
原煤(万吨)
.961
.973
.962
1.000
.971
发电量(亿千瓦时)
.997
.920
.997
.971
1.000
Sig.(单侧)
成品钢材(万吨)
.
.000
.000
.000
.000
原油(万吨)
.000
.
.000
.000
.000
生铁(万吨)
.000
.000
.
.000
.000
原煤(万吨)
.000
.000
.000
.
.000
发电量(亿千瓦时)
.000
.000
.000
.000
.
N
成品钢材(万吨)
18
18
18
18
18
原油(万吨)
18
18
18
18
18
生铁(万吨)
18
18
18
18
18
原煤(万吨)
18
18
18
18
18
发电量(亿千瓦时)
18
18
18
18
18
由相关系数表看出,因变量与各个自变量的相关系数都很高,都在0.9以上,说明变量间的线性相关程度很高,适合做多元线性回归模型。
模型汇总b
模型
R
R方
调整R方
标准估计的误差
1
.999a
.997
.997
140.71641
a.预测变量:
(常量),发电量(亿千瓦时),原油(万吨),原煤(万吨),生铁(万吨)。
b.因变量:
成品钢材(万吨)
由
=0.997以及调整之后的
=0.997知,模型对样本观测数据的拟合度很好。
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
1.026E8
4
2.566E7
1296.001
.000a
残差
257414.404
13
19801.108
总计
1.029E8
17
a.预测变量:
(常量),发电量(亿千瓦时),原油(万吨),原煤(万吨),生铁(万吨)。
b.因变量:
成品钢材(万吨)
由F=1296.001P值=0.000<
=0.05,故拒绝原假设,认为自变量联合起来对因变量有显著影响,通过F检验。
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
170.287
494.572
.344
.736
原油(万吨)
-.041
.090
-.031
-.457
.655
生铁(万吨)
.554
.170
.608
3.267
.006
原煤(万吨)
-17.818
115.468
-.018
-.154
.880
发电量(亿千瓦时)
.389
.199
.438
1.952
.073
a.因变量:
成品钢材(万吨)
因为
=-0.154P值=0.880远远大于
=0.05,故接受原假设,认为
对因变量y没有显著影响,故应剔除
。
用后退法剔除变量后,再做回归线性,得如下表:
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
170.287
494.572
.344
.736
原油(万吨)
-.041
.090
-.031
-.457
.655
生铁(万吨)
.554
.170
.608
3.267
.006
原煤(万吨)
-17.818
115.468
-.018
-.154
.880
发电量(亿千瓦时)
.389
.199
.438
1.952
.073
2
(常量)
197.734
445.099
.444
.664
原油(万吨)
-.053
.045
-.041
-1.172
.261
生铁(万吨)
.564
.150
.620
3.760
.002
发电量(亿千瓦时)
.371
.153
.417
2.417
.030
3
(常量)
-309.403
105.079
-2.944
.010
生铁(万吨)
.591
.150
.649
3.937
.001
发电量(亿千瓦时)
.311
.147
.350
2.125
.051
a.因变量:
成品钢材(万吨)
Anovad
模型
平方和
df
均方
F
Sig.
1
回归
1.026E8
4
2.566E7
1296.001
.000a
残差
257414.404
13
19801.108
总计
1.029E8
17
2
回归
1.026E8
3
3.422E7
1857.513
.000b
残差
257885.884
14
18420.420
总计
1.029E8
17
3
回归
1.026E8
2
5.131E7
2718.023
.000c
残差
283174.324
15
18878.288
总计
1.029E8
17
a.预测变量:
(常量),发电量(亿千瓦时),原油(万吨),原煤(万吨),生铁(万吨)。
b.预测变量:
(常量),发电量(亿千瓦时),原油(万吨),生铁(万吨)。
c.预测变量:
(常量),发电量(亿千瓦时),生铁(万吨)。
d.因变量:
成品钢材(万吨)
最后剔除
、
两个自变量,得出新的回归方程为:
F=2718.023P值=0.000故拒绝原假设,通过F检验。
四基本假定检验
1、异方差检验
等级相关系数检验
做abs(e)与x的等级相关系数,得出表如下
相关系数
原油(万吨)
生铁(万吨)
原煤(万吨)
发电量(亿千瓦时)
abse
Spearman的rho
原油(万吨)
相关系数
1.000
.998**
.994**
.994**
.263
Sig.(双侧)
.
.000
.000
.000
.291
N
18
18
18
18
18
生铁(万吨)
相关系数
.998**
1.000
.989**
.988**
.294
Sig.(双侧)
.000
.
.000
.000
.236
N
18
18
18
18
18
原煤(万吨)
相关系数
.994**
.989**
1.000
.997**
.227
Sig.(双侧)
.000
.000
.
.000
.365
N
18
18
18
18
18
发电量(亿千瓦时)
相关系数
.994**
.988**
.997**
1.000
.212
Sig.(双侧)
.000
.000
.000
.
.399
N
18
18
18
18
18
abse
相关系数
.263
.294
.227
.212
1.000
Sig.(双侧)
.291
.236
.365
.399
.
N
18
18
18
18
18
**.在置信度(双测)为0.01时,相关性是显著的。
由表中P值全大于0.01,故接受原假设,模型中不存在异方差。
2、自相关检验
模型汇总b
模型
R
R方
调整R方
标准估计的误差
Durbin-Watson
1
.999a
.997
.997
140.71641
.922
a.预测变量:
(常量),发电量(亿千瓦时),原油(万吨),原煤(万吨),生铁(万吨)。
b.因变量:
成品钢材(万吨)
DW=0.992n=18k=5,查表得出
,故DW落入无法确定的领域。
自相关性不明显,由此也看出DW检验的局限性。
3、多重共线性
系数a
模型
非标准化系数
标准系数
t
Sig.
共线性统计量
B
标准误差
试用版
容差
VIF
1
(常量)
170.287
494.572
.344
.736
原油(万吨)
-.041
.090
-.031
-.457
.655
.041
24.672
生铁(万吨)
.554
.170
.608
3.267
.006
.006
180.105
原煤(万吨)
-17.818
115.468
-.018
-.154
.880
.014
73.861
发电量(亿千瓦时)
.389
.199
.438
1.952
.073
.004
261.480
a.因变量:
成品钢材(万吨)
共线性诊断a
模型
维数
特征值
条件索引
方差比例
(常量)
原油(万吨)
生铁(万吨)
原煤(万吨)
发电量(亿千瓦时)
1
1
4.878
1.000
.00
.00
.00
.00
.00
2
.118
6.435
.02
.00
.00
.00
.00
3
.004
37.106
.36
.03
.03
.09
.00
4
.001
88.718
.57
.46
.28
.21
.16
5
.000
137.100
.05
.51
.68
.70
.84
a.因变量:
成品钢材(万吨)
因为VIF中有两个远远的大于10,故模型存在严重的多重共线性。
由共线性诊断表中数据得出,
、
、
之间存在多重共线性。
故先剔除变量
,再做线性回归,得出表如下:
系数a
模型
非标准化系数
标准系数
t
Sig.
共线性统计量
B
标准误差
试用版
容差
VIF
1
(常量)
59.520
538.378
.111
.914
原油(万吨)
-.108
.092
-.082
-1.178
.258
.047
21.142
生铁(万吨)
.871
.054
.956
16.144
.000
.066
15.176
原煤(万吨)
118.233
100.887
.122
1.172
.261
.021
46.956
a.因变量:
成品钢材(万吨)
共线性诊断a
模型
维数
特征值
条件索引
方差比例
(常量)
原油(万吨)
生铁(万吨)
原煤(万吨)
1
1
3.917
1.000
.00
.00
.00
.00
2
.079
7.042
.02
.00
.06
.00
3
.003
33.686
.33
.04
.66
.13
4
.001
87.743
.64
.96
.28
.87
a.因变量:
成品钢材(万吨)
由于模型中仍然存在多重共线性,故继续剔除VIF最大的变量
,再做线性回归,得出表如下
系数a
模型
非标准化系数
标准系数
t
Sig.
共线性统计量
B
标准误差
试用版
容差
VIF
1
(常量)
-282.131
458.218
-.616
.547
原油(万吨)
-.017
.049
-.013
-.345
.735
.168
5.967
生铁(万吨)
.920
.034
1.010
26.871
.000
.168
5.967
a.因变量:
成品钢材(万吨)
共线性诊断a
模型
维数
特征值
条件索引
方差比例
(常量)
原油(万吨)
生铁(万吨)
1
1
2.922
1.000
.00
.00
.00
2
.076
6.204
.03
.00
.19
3
.002
38.315
.97
1.00
.81
a.因变量:
成品钢材(万吨)
系数a
模型
非标准化系数
标准系数
t
Sig.
共线性统计量
B
标准误差
试用版
容差
VIF
1
(常量)
-282.131
458.218
-.616
.547
原油(万吨)
-.017
.049
-.013
-.345
.735
.168
5.967
生铁(万吨)
.920
.034
1.010
26.871
.000
.168
5.967
a.因变量:
成品钢材(万吨)
由于剔除变量
后,VIF值都小于10,故多重共线性得以消除,得出新的回归方程:
4、异常值和强影响值
残差统计量a
极小值
极大值
均值
标准偏差
N
预测值
2738.5310
10059.5371
5465.0028
2457.27013
18
标准预测值
-1.110
1.870
.000
1.000
18
预测值的标准误差
53.220
117.717
72.288
17.057
18
调整的预测值
2770.4775
10140.2559
5485.8900
2473.44774
18
残差
-182.88765
241.19569
.00000
123.05293
18
标准残差
-1.300
1.714
.000
.874
18
Student化残差
-1.710
1.887
-.057
1.022
18
已删除的残差
-316.76953
292.42792
-20.88723
173.80682
18
Student化已删除的残差
-1.867
2.128
-.045
1.070
18
Mahal。
距离
1.487
10.953
3.778
2.417
18
Cook的距离
.002
.523
.095
.145
18
居中杠杆值
.087
.644
.222
.142
18
a.因变量:
成品钢材(万吨)
因为p/n=4/18=0.22表中
=0.644>0.44故关于x异常。