回归分析应用实例讲解.docx
《回归分析应用实例讲解.docx》由会员分享,可在线阅读,更多相关《回归分析应用实例讲解.docx(20页珍藏版)》请在冰豆网上搜索。
回归分析应用实例讲解
-------------
影响成品钢材量的多元回归分析
故当原油产量为16225.86万吨,生铁产量为12044.54万吨,原煤产量为13.87万吨以及发电量为12334.89亿千瓦时时,成品钢材量预测值为10727.33875万吨;当原油产量为17453万吨,生铁产量为12445.96万吨,原煤产量为14.54万吨以及发电量为13457亿千瓦时
时,成品钢材量预测值为10727.33875万吨。
钢材的需求量设为y,作为被解释变量,而原油产量x1、生铁产量
x2、原煤产量x3、发电量x4作为解释变量,通过建立这些经济变量的线性模型来研究影响成品钢材需求量的原因。
能源转换技术等因素。
在此,收集的数据选择与其相关的四个因素:
原油产量、生铁产量、原煤产量、发电量,1980—1997的有关数据如下表。
理论上成品钢材的需求量的影响因素主要有经济发展水平、收入水平、产业发展、人民生活水平提高、
原始数据(中国统计年鉴)
年份
y
x1
x2
x3
x4
1980
2716.20
10595.00
3802.40
6.20
3006.20
1981
2670.10
10122.00
3416.60
6.20
3092.70
1982
2902.00
10212.00
3551.00
6.66
3277.00
1983
3072.00
10607.00
3738.00
7.15
3514.00
1984
3372.00
11461.30
4001.00
7.89
3770.00
1985
3693.00
12489.50
4384.00
8.72
4107.00
1986
4058.00
13068.80
5064.00
8.94
4495.00
1987
4356.00
13414.00
5503.00
9.28
4973.00
1988
13704.60
5704.00
4689.00
9.80
5452.00
4859.00
13764.10
5820.00
5848.00
1989
10.54
-------------
-------------
1990
6238.00
5153.00
13830.60
10.80
6212.00
1991
14009.20
6765.00
10.87
6775.00
5638.00
1992
6697.00
14209.70
7589.00
11.16
7539.00
1993
7716.00
14523.00
8739.00
11.51
8395.00
1994
8482.00
14608.20
9741.00
12.40
9281.00
1995
8979.80
15004.94
10529.27
13.61
10070.30
1996
9338.02
15733.39
10722.50
13.97
10813.10
1997
9978.93
16074.14
11511.41
13.73
11355.53
将中国成品
一、模型的设定
设因变量y与自变量x1、x2、x3、x4的一般线性回归模型为:
y=0+1x12x2
3x3
4x4
是随机变量,通常满足
()
0;Var()=2
二参数估计
系数a
非标准化系数
标准系数
模型
B
标准误差
试用版
t
Sig.
1
(常量)
170.287
494.572
.344
.736
原油(万吨)
-.041
.090
-.031
-.457
.655
生铁(万吨)
.554
.170
.608
3.267
.006
原煤(万吨)
-17.818
115.468
-.018
-.154
.880
发电量(亿千瓦时)
.389
.199
.438
1.952
.073
a.因变量:
成品钢材(万吨)
再用spss做回归线性,根据系数表得出回归方程为:
-------------
-------------
y170.2870x.041
x0.554
x
17.81x8
0.389
1
2
3
4
再做回归预测,得出如下截图:
故当原油产量为16225.86万吨,生铁产量为12044.54万吨,原煤产
量为13.87万吨以及发电量为12334.89亿千瓦时时,成品钢材量预测
值为10727.33875万吨;当原油产量为17453万吨,生铁产量为
12445.96万吨,原煤产量为14.54万吨以及发电量为13457亿千瓦时
时,成品钢材量预测值为10727.33875万吨。
三回归方程检验
描述性统计量
均值标准偏差N
-------------
-------------
成品钢材(万吨)
原油(万吨)
生铁(万吨)
原煤(万吨)
发电量(亿千瓦时)
Pearson相关性成品钢材(万吨)
原油(万吨)
生铁(万吨)
原煤(万吨)
发电量(亿千瓦时)
Sig.(单侧)成品钢材(万吨)
原油(万吨)
生铁(万吨)
原煤(万吨)
发电量(亿千瓦时)
N成品钢材(万吨)
原油(万吨)
生铁(万吨)
原煤(万吨)
发电量(亿千瓦时)
5465.0028
2460.34926
18
13190.6372
1875.78873
18
6489.9544
2700.79676
18
9.9683
2.54018
18
6220.8794
2768.11191
18
相关性
发电量(亿千瓦
成品钢材(万吨)
原油(万吨)
生铁(万吨)
原煤(万吨)
时)
1.000
.909
.998
.961
.997
.909
1.000
.912
.973
.920
.998
.912
1.000
.962
.997
.961
.973
.962
1.000
.971
.997
.920
.997
.971
1.000
.
.000
.000
.000
.000
.000
.
.000
.000
.000
.000
.000
.
.000
.000
.000
.000
.000
.
.000
.000
.000
.000
.000
.
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
18
由相关系数表看出,因变量与各个自变量的相关系数都很高,都在
0.9以上,说明变量间的线性相关程度很高,适合做多元线性回归模
型。
模型汇总b
模型
R
R方
调整R方
标准估计的误差
1
a
.997
.997
140.71641
.999
a.预测变量:
(常量),发电量(亿千瓦时)
原油(万吨),原煤(万吨),生铁(万吨)。
-------------
-------------
模型汇总b
模型RR方调整R方标准估计的误差
1.999a.997.997140.71641
a.预测变量:
(常量),发电量(亿千瓦时),原油(万吨),原煤(万吨),生铁(万吨)。
b.因变量:
成品钢材(万吨)
由R2=0.997以及调整之后的R2=0.997知,模型对样本观测数据的拟合度很好。
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
1.026E8
4
2.566E7
1296.001
.000a
残差
257414.404
13
19801.108
总计
1.029E8
17
a.预测变量:
(常量),发电量(亿千瓦时)
原油(万吨),原煤(万吨),生铁(万吨)。
b.因变量:
成品钢材(万吨)
由F=1296.001P值=0.000<=0.05,故拒绝原假设,认为自变量联合起来对因变量有显著影响,通过F检验。
系数a
非标准化系数
标准系数
模型
B
标准误差
试用版
t
Sig.
1
(常量)
170.287
494.572
.344
.736
原油(万吨)
-.041
.090
-.031
-.457
.655
生铁(万吨)
.554
.170
.608
3.267
.006
原煤(万吨)
-17.818
115.468
-.018
-.154
.880
发电量(亿千瓦时)
.389
.199
.438
1.952
.073
a.因变量:
成品钢材(万吨)
因为t3=-0.154P值=0.880远远大于=0.05,故接受原假设,认为x3对因变量
y没有显著影响,故应剔除x3。
用后退法剔除变量后,再做回归线性,
得如下表:
-------------
-------------
系数a
非标准化系数
标准系数
模型
B
标准误差
试用版
t
Sig.
1
(常量)
170.287
494.572
.344
.736
原油(万吨)
-.041
.090
-.031
-.457
.655
生铁(万吨)
.554
.170
.608
3.267
.006
原煤(万吨)
-17.818
115.468
-.018
-.154
.880
发电量(亿千瓦时)
.389
.199
.438
1.952
.073
2
(常量)
197.734
445.099
.444
.664
原油(万吨)
-.053
.045
-.041
-1.172
.261
生铁(万吨)
.564
.150
.620
3.760
.002
发电量(亿千瓦时)
.371
.153
.417
2.417
.030
3
(常量)
-309.403
105.079
-2.944
.010
生铁(万吨)
.591
.150
.649
3.937
.001
发电量(亿千瓦时)
.311
.147
.350
2.125
.051
a.因变量:
成品钢材(万吨)
Anovad
模型
平方和
df
均方
F
Sig.
1
回归
1.026E8
4
2.566E7
1296.001
.000a
残差
257414.404
13
19801.108
总计
1.029E8
17
2
回归
1.026E8
3
3.422E7
1857.513
.000b
残差
257885.884
14
18420.420
总计
1.029E8
17
3
回归
1.026E8
2
5.131E7
2718.023
.000c
残差
283174.324
15
18878.288
总计
1.029E8
17
a.预测变量:
(常量),发电量(亿千瓦时)
原油(万吨),原煤(万吨),生铁(万吨)。
b.预测变量:
(常量),发电量(亿千瓦时),原油(万吨),生铁(万吨)。
c.预测变量:
(常量),发电量(亿千瓦时),生铁(万吨)。
d.因变量:
成品钢材(万吨)
-------------
-------------
最后剔除x1、x3两个自变量,得出新的回归方程为:
y309.4030.591x20.311x4
F=2718.023P值=0.000故拒绝原假设,通过F检验。
四基本假定检验
1、异方差检验
等级相关系数检验
做abs(e)与x的等级相关系数,得出表如下
相关系数
发电量(亿千瓦
原油(万吨)
生铁(万吨)
原煤(万吨)
时)
abse
Spearman的rho
原油(万吨)
相关系数
1.000
.998**
.994**
.994**
.263
Sig.(双侧)
.
.000
.000
.000
.291
N
18
18
18
18
18
生铁(万吨)
相关系数
.998**
1.000
.989**
.988**
.294
Sig.(双侧)
.000
.
.000
.000
.236
N
18
18
18
18
18
原煤(万吨)
相关系数
.994**
.989**
1.000
.997**
.227
Sig.(双侧)
.000
.000
.
.000
.365
N
18
18
18
18
18
发电量(亿千瓦时)
相关系数
.994**
.988**
.997**
1.000
.212
Sig.(双侧)
.000
.000
.000
.
.399
N
18
18
18
18
18
abse
相关系数
.263
.294
.227
.212
1.000
Sig.(双侧)
.291
.236
.365
.399
.
N
18
18
18
18
18
**.在置信度(双测)为
0.01时,相关性是显著的。
由表中P值全大于0.01,故接受原假设,模型中不存在异方差。
-------------
-------------
2、自相关检验
模型汇总b
模型RR方调整R方标准估计的误差Durbin-Watson
1.999a.997.997140.71641.922
a.预测变量:
(常量),发电量(亿千瓦时),原油(万吨),原煤(万吨),生铁(万吨)。
b.因变量:
成品钢材(万吨)
DW=0.992n=18k=5,查表得出dl0.82,du1.87,故DW落入无法确定
的领域。
自相关性不明显,由此也看出DW检验的局限性。
3、多重共线性
系数a
非标准化系数
标准系数
共线性统计量
模型
B
标准
误差
试用版
t
Sig.
容差
VIF
1
(常量)
170.287
494.572
.344
.736
原油(万吨)
-.041
.090
-.031
-.457
.655
.041
24.672
生铁(万吨)
.554
.170
.608
3.267
.006
.006
180.105
原煤(万吨)
-17.818
115.468
-.018
-.154
.880
.014
73.861
发电量(亿千瓦时)
.389
.199
.438
1.952
.073
.004
261.480
a.因变量:
成品钢材(万吨)
共线性诊断a
方差比例
发电量(亿千瓦
模型
维数
特征值
条件索引
(常量)
原油(万吨)
生铁(万吨)
原煤(万吨)
时)
1
1
4.878
1.000
.00
.00
.00
.00
.00
2
.118
6.435
.02
.00
.00
.00
.00
3
.004
37.106
.36
.03
.03
.09
.00
4
.001
88.718
.57
.46
.28
.21
.16
5
.000
137.100
.05
.51
.68
.70
.84
-------------
-------------
a.因变量:
成品钢材(万吨)
因为VIF中有两个远远的大于10,故模型存在严重的多重共线性。
由共线性诊断表中数据得出,x2、x3、x4之间存在多重共线性。
故先剔除变量x4,再做线性回归,得出表如下:
系数a
非标准化系数
标准系数
共线性统计量
模型
B
标准
误差
试用版
t
Sig.
容差
VIF
1
(常量)
59.520
538.378
.111
.914
原油(万吨)
-.108
.092
-.082
-1.178
.258
.047
21.142
生铁(万吨)
.871
.054
.956
16.144
.000
.066
15.176
原煤(万吨)
118.233
100.887
.122
1.172
.261
.021
46.956
a.因变量:
成品钢材(万吨)
共线性诊断a
方差比例
模型
维数
特征值
条件索引
(常量)
原油(万吨)
生铁(万吨)
原煤(万吨)
1
1
3.917
1.000
.00
.00
.00
.00
2
.079
7.042
.02
.00
.06
.00
3
.003
33.686
.33
.04
.66
.13
4
.001
87.743
.64
.96
.28
.87
a.因变量:
成品钢材(万吨)
由于模型中仍然存在多重共线性,故继续剔除VIF最大的变量x3,再做线性回
归,得出表如下
系数a
非标准化系数标准系数共线性统计量
模型B标准误差试用版tSig.容差VIF
-------------
-------------
1
(常量)
-282.131
458.218
-.616
.547
原油(万吨)
-.017
.049
-.013
-.345
.735
.168
5.967
生铁(万吨)
.920
.034
1.010
26.871
.000
.168
5.967
a.因变量:
成品钢材(万吨)
共线性诊断a
方差比例
模型
维数
特征值
条件索引
(常量)
原油(万吨)
生铁(万吨)
1
1
2.922
1.000
.00
.00
.00
2
.076
6.204
.03
.00
.19
3
.002
38.315
.97
1.00
.81
a.因变量:
成品钢材(万吨)
系数a
非标准化系数
标准系数
共线性统计量
模型
B
标准
误差
试用版
t
Sig.
容差
VIF
1
(常量)
-282.131
458.218
-.616
.547
原油(万吨)
-.017
.049
-.013
-.345
.735
.168
5.967
生铁(万吨)
.920
.034
1.010
26.871
.000
.168
5.967
a.因变量:
成品钢材(万吨)
由于剔除变量x3后,VIF值都小于10,故多重共线性得以消除,得出
新的回归方程:
y
282.131
0.017x1
0.92x2
4、异常值和强影响值
残差统计量a
极小值极大值均值标准偏差N
预测值2738.531010059.53715465.00282457.2701318
-------------
-------------
标准预测值
-1.110
1.870
.000
1.000
18
预测值的标准误差
53.220
117.717
72.288
17.057
18
调整的预测值
2770.4775
10140.2559
5485.8900
2473.44774
18
残差
-182.88765
241.19569
.00000
123.05293
18
标准残差
-1.300
1.714
.000
.874
18
Student化残差
-1.710
1.887
-.057
1.022
1