多元线性回归分析在数据模型中的应用.docx
《多元线性回归分析在数据模型中的应用.docx》由会员分享,可在线阅读,更多相关《多元线性回归分析在数据模型中的应用.docx(16页珍藏版)》请在冰豆网上搜索。
多元线性回归分析在数据模型中的应用
2010年我国各省市财政支出对生产总值的影响
————多元线性回归分析在数据模型中的应用
摘要:
本案例研究财政支出对生产总值的影响。
首先建立多元回归模型,通过逐步回归法剔除变量,筛选出有效的财政支出项,确定自变量。
再对自变量进行多重共线性的诊断和消除,使回归方程显著;最终做残差分析,消除异常值,检验异方差性,确定最优模型;判断影响2010年我国生产总值的财政支出中的教育、住房保障支出、粮油物资储备管理事务、城乡社区事务四项因素最为主要,以此提出相关较科学具体的理论依据。
关键词:
生产总值逐步回归多重共线性经济
引言:
国内生产总值(GrossDomesticProduct,简称GDP)是指在一定时期内(一个季度或一年),一个国家或地区的经济中所生产出的全部最终产品和劳务的价值,常被公认为衡量国家经济状况的最佳指标。
它不但可反映一个国家的经济表现,更可以反映一国的国力与财富。
影响一个国家或地区生产总值的因素包括消费、资源、进出口、国家基础设施建设等多方面的因素。
其中用财政支出占国民生产总值的比重来衡量财政支出的规模,中国统计年鉴把财政支出划为22个组成部分,其中并非所有支出项对国内生产总值都有着显著的影响,通过多元回归的思想建立回归模型,求出回归方程,可对影响国内生产总值的因素做出准确的判断。
一、数据的来源及整理
通过查找《中国统计年鉴2011》中“2-14地区生产总值和指数”,得到2010年各地区生产总值;“8-8各地区财政支出(2010年)”得到2010年各地区财政支出各项指标。
数据整理如下:
其中地区包括北京、天津、河北、山西、内蒙古、辽宁、吉林、黑龙江、上海、江苏、浙江、安徽、福建、江西、山东、河南、湖北、湖南、广东、广西、上海、重庆、四川、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆31个城市,财政支出包括一般预算支出、一般公共服务、国防、公共安全、教育、科学技术、文化体育与传媒、社会保障和就业、医疗卫生、环境保护、城乡社区事务、农林水事务、交通运输、资源勘探电力信息等事务、商业服务业等事务、金融监管等事务支出、地震灾后恢复重建支出、国土资源气象等事务、住房保障支出、粮油物资储备管理事务、国债还本付息支出、其他支出22项。
二、模型的构建
设定模型为下面所示的形式:
其中Y为各地区生产总值;X1=一般预算支出;X2=一般公共服务;X3=国防;X4=公共安全;X5=教育;X6=科学技术;X7=文化体育与传媒;X8=社会保障和就业;X9=医疗卫生;X10=环境保护;X11=城乡社区事务;X12=农林水事务;X13=交通运输;X14=资源勘探电力信息等事务;X15=商业服务业等事务;X16=金融监管等事务支出;X17=地震灾后恢复重建支出;X18=国土资源气象等事务;X19=住房保障支出;X20=粮油物资储备管理事务;X21=国债还本付息支出;X22=其他支出。
三、参数估计
(1)逐步回归:
表1:
模型汇总g
模型
R
R方
调整R方
标准估计的误差
Durbin-Watson
1
.967a
.934
.931
3272.00825
2
.975b
.951
.946
2902.86541
3
.981c
.963
.957
2595.38190
4
.986d
.973
.966
2305.37586
5
.991e
.982
.976
1936.51052
6
.994f
.988
.982
1649.88453
1.584
a.预测变量:
(常量),教育。
b.预测变量:
(常量),教育,住房保障支出。
c.预测变量:
(常量),教育,住房保障支出,公共安全。
d.预测变量:
(常量),教育,住房保障支出,公共安全,粮油物资储备管理事务。
e.预测变量:
(常量),教育,住房保障支出,公共安全,粮油物资储备管理事务,城乡社区事务。
f.预测变量:
(常量),教育,住房保障支出,公共安全,粮油物资储备管理事务,城乡社区事务,科学技术。
g.因变量:
生产总值
该表显示各模型的拟合情况。
从表中可以看出,模型6的负相关系数为0.994,判定系数为0.988,调整判定系数为0.982,估计值的标准误差为1.584.拟合程度最优。
表2:
Anovaa
模型
平方和
df
均方
F
Sig.
1
回归
2899165326.547
1
2899165326.547
270.797
.000b
残差
203414722.088
19
10706038.005
总计
3102580048.635
20
2
回归
2950900751.766
2
1475450375.883
175.094
.000c
残差
151679296.869
18
8426627.604
总计
3102580048.635
20
3
回归
2988067926.041
3
996022642.014
147.865
.000d
残差
114512122.594
17
6736007.211
总计
3102580048.635
20
4
回归
3017543923.290
4
754385980.822
141.942
.000e
残差
85036125.345
16
5314757.834
总计
3102580048.635
20
5
回归
3046328953.833
5
609265790.767
162.468
.000f
残差
56251094.802
15
3750072.987
总计
3102580048.635
20
6
回归
3064470383.286
6
510745063.881
187.628
.000g
残差
38109665.349
14
2722118.953
总计
3102580048.635
20
a.因变量:
生产总值
b.预测变量:
(常量),教育。
c.预测变量:
(常量),教育,住房保障支出。
d.预测变量:
(常量),教育,住房保障支出,公共安全。
e.预测变量:
(常量),教育,住房保障支出,公共安全,粮油物资储备管理事务。
f.预测变量:
(常量),教育,住房保障支出,公共安全,粮油物资储备管理事务,城乡社区事务。
g.预测变量:
(常量),教育,住房保障支出,公共安全,粮油物资储备管理事务,城乡社区事务,科学技术。
从方差分析表中可以看出,模型6的f统计量为187.682,概率p值为0.000,在显著性水平为0.05的情形下,可以认为y(生产总值)与x5(教育),x19(住房保障支出),x4(公共安全),x20(粮油物资储备管理事务),x11(城乡社区事务),x6(科学技术)之间有线性关系。
表3:
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
-7273.266
1634.089
-4.451
.000
教育
55.584
3.378
.967
16.456
.000
2
(常量)
-2445.903
2428.451
-1.007
.327
教育
55.101
3.003
.958
18.349
.000
住房保障支出
-65.935
26.610
-.129
-2.478
.023
3
(常量)
-648.156
2302.157
-.282
.782
教育
38.696
7.482
.673
5.172
.000
住房保障支出
-83.390
24.925
-.164
-3.346
.004
公共安全
37.927
16.146
.305
2.349
.031
4
(常量)
-459.825
2046.479
-.225
.825
教育
36.715
6.699
.639
5.480
.000
住房保障支出
-104.375
23.866
-.205
-4.373
.000
公共安全
39.056
14.350
.315
2.722
.015
粮油物资储备管理事务
78.159
33.189
.108
2.355
.032
5
(常量)
-720.909
1721.619
-.419
.681
教育
32.685
5.812
.568
5.623
.000
住房保障支出
-99.633
20.120
-.196
-4.952
.000
公共安全
33.462
12.222
.269
2.738
.015
粮油物资储备管理事务
85.993
28.021
.119
3.069
.008
城乡社区事务
11.746
4.240
.148
2.771
.014
6
(常量)
-15.359
1492.044
-.010
.992
教育
23.445
6.110
.408
3.837
.002
住房保障支出
-120.351
18.928
-.236
-6.358
.000
公共安全
63.720
15.678
.513
4.064
.001
粮油物资储备管理事务
82.580
23.910
.114
3.454
.004
城乡社区事务
22.391
5.482
.282
4.085
.001
科学技术
-45.777
17.732
-.229
-2.582
.022
a.因变量:
生产总值
根据模型6建立的多元线性回归方程为:
经t检验p值均小于0.05,按给定的显著水平情形下,均有显著性意义。
(2)多重共线性诊断
表4:
地区
y
x4
x5
x6
x11
x19
x20
北京
14113.58
180.94
450.22
178.92
294.30
45.81
6.14
天津
9224.46
84.92
229.56
43.25
355.29
6.32
4.59
河北
20394.26
176.08
514.30
29.65
178.75
52.00
23.71
山西
9200.86
121.84
328.58
20.12
111.57
53.30
12.15
内蒙古
11672.00
120.45
322.11
21.39
237.75
83.72
60.41
辽宁
18457.27
191.29
405.39
68.90
360.31
83.79
25.42
吉林
8667.58
109.30
250.20
19.12
108.90
86.84
60.52
黑龙江
10368.60
134.85
299.14
27.69
141.13
108.94
63.93
上海
17165.98
187.25
417.28
202.03
475.47
52.45
13.53
江苏
41425.48
326.80
865.36
150.35
624.53
72.77
27.70
浙江
27722.31
260.67
606.54
121.40
272.30
29.60
11.75
安徽
12359.33
119.48
386.31
57.98
236.18
93.36
30.71
福建
14737.12
120.60
327.77
32.31
107.68
28.13
13.86
江西
9451.26
107.49
297.50
18.26
102.47
68.08
45.21
山东
39169.92
244.03
770.45
84.36
388.40
35.25
30.81
河南
23092.36
189.72
609.37
44.67
165.30
77.25
45.35
湖北
15967.61
166.87
366.57
30.09
119.63
56.59
24.58
湖南
16037.96
159.14
403.10
35.04
186.98
81.75
28.20
广东
46013.06
495.80
921.48
214.44
407.64
88.57
39.32
广西
9569.85
125.14
366.84
21.66
103.87
58.93
11.98
海南
2064.50
43.94
98.33
7.47
36.81
23.83
1.64
重庆
7925.58
91.84
240.46
17.90
251.26
79.91
9.91
四川
17185.48
218.38
540.65
34.71
179.19
107.03
26.80
贵州
4602.16
101.46
292.06
16.66
53.00
87.62
5.72
云南
7224.18
145.42
374.79
21.43
86.66
112.12
6.35
西藏
507.46
41.33
60.80
2.71
20.51
10.46
1.89
陕西
10123.48
111.50
377.79
25.25
126.84
68.72
15.92
甘肃
4120.75
70.45
228.23
10.89
56.82
58.10
9.81
青海
1350.43
35.48
82.47
4.08
30.60
61.09
4.43
宁夏
1689.65
31.49
81.59
5.97
61.89
28.05
2.29
新疆
5437.47
128.56
313.84
20.19
95.28
90.02
12.20
表5:
从表5中可以看出,公共安全和教育因素的方差扩大因子较大分别为VIF4=13.053VIF5=10.281大于10说明生产总值回归方程存在多重共线性。
表6:
从表6中得知公共安全和教育因素的简单相关系数为0.939,高度相关。
(三)消除多重共线性:
剔除变量X4,建立y对X5、X6、X11、X19、X20的回归方程,结果如下:
表7:
从表中可以看出五个方差扩大因子都小于10,但是科学技术的p值=0.888远大于0.05,所以剔除此变量X6,重新回归,建立y对X5、X11、X19、X20的回归方程。
表8:
四个因素方差因子都小于10,回归系数也都有合理的经济解释,说明此回归模型不存在强的多重共线性。
回归方程为:
四、回归诊断
(一)残差分析
虽然以上线性回归方程通过了t检验,知识表明变量x与y之间的线性关系是显著的,或者说线性回归方程是有效的,但不能保证数据拟合的很好,也不能排除由于意外原因而导致数据不完全可靠,因此在利用回归方程作分析和预测之前,需要诊断回归效果,检查模型是否满足基本假定。
表9
残差统计量a
极小值
极大值
均值
标准偏差
N
预测值
-2966.3296
41445.2070
14098.1287
11201.36289
31
标准预测值
-1.523
2.441
.000
1.000
31
预测值的标准误差
485.075
1324.427
884.897
245.184
31
调整的预测值
-3552.8162
41079.4688
14075.8412
11118.19919
31
残差
-4389.31152
4567.85254
.00000
2126.06411
31
标准残差
-1.922
2.000
.000
.931
31
Student化残差
-2.008
2.333
.005
1.015
31
已删除的残差
-4792.29443
6212.62793
22.28747
2537.13463
31
Student化已删除的残差
-2.142
2.572
.013
1.052
31
Mahal。
距离
.386
9.122
3.871
2.540
31
Cook的距离
.000
.392
.040
.073
31
居中杠杆值
.013
.304
.129
.085
31
a.因变量:
生产总值
从表9中可以看出,绝对值最大的学生化残差为2.333小于3,因而根据学生化残差诊断认为数据不存在异常值。
绝对值最大的删除学生化残差为2.572小于3,根据学生化残差诊断也认为不存在异常值。
(二)异方差性检验
通过残差图分析法:
图1:
看图1可知:
残差图上的n个点散布随机,无任何规律,由此可断定次回归模型无异方差,满足所有假定。
综上:
模型的最优方程为:
X5(教育),X19(住房保障支出),X20(粮油物资储备管理事务),X11(城乡社区事务)。
五、回归应用
(一)模型解释
回归方程的经济意义为:
当城乡社区事务(X11)住房保障支出(X19)粮油物资储备管理事务(x20)不变时,教育(x5)每增加一个单位,生产总值(Y)增加47.569个单位;当教育(x5)住房保障支出(X19)粮油物资储备管理事务(x20)不变时,城乡社区事务(X11)每增加一个单位,国内生产总值(Y)增加9.892个单位;当教育(x5)城乡社区事务(X11)粮油物资储备管理事务(x20)不变时,住房保障支出(X19)每增加一个单位,国内生产总值(Y)减少79.954个单位,当教育(x5)城乡社区事务(X11)住房保障支出(X19),不变时,粮油物资储备管理事务(x20)每增加一个单位,国内生产总值(Y)增加85.088个单位。
(2)总结
第一:
从对我国2010年国内生产总值的分析中,可以看出最主要的影响因素为粮油物资储备管理事务面的财政支出。
据财政部公布,2010年粮油物资储备管理事务支出1171.96亿元,比上年下降9.5%,占全国财政支出的1.3%,主要用于提高粮食最低收购价补贴利息和储备粮油包干费标准,加强粮油以及重要物资储备体系建设。
加大粮油物资储备管理事务打支出,可以大力促进国内生产总值的增长。
第二:
我国教育支出近年来大幅上升,其所占GPD总量的3%。
从研究结果也可以看出教育支出对于经济的增长具有显著促进作用。
虽然如此,与世界水平相比,仍相差1.9个百分点。
仍需加大投资支出力度。
第三:
财政部公布的关于2010年中央本级支出决算的说明中数据显示,2010年城乡社区事务预算数为1.98亿元,决算数为10.09亿元,完成预算的509.6%。
足以看出增进城乡社区事务的建设可以促进国内生产总值的增长,部分城市也将加大城乡建设投资纳入工作意见中,这就不难理解国家一直把城乡建设做为经济建设重点的原因。
第四:
而关于住房保障支出方面,中国在基本民生方面的投入占GDP比例之低居全世界第一。
从回归方程可以看出住房保障支出每增加一个单位,国内生产总值减少79.954个单位,对多内生产总值有着显著的负影响。
我国困难群体住房问题依然严峻,住房保障工作任重道远,存在许多的问题。
综上,虽然我国经济发展稳健,但是由于种种原因会导致国内生产总值下降,如住房保障支出过大将导致国内生产总值下降;粮油物资储备管理事务面的财政支出和教育支出的增加则可以帮助国内生产总值上调。
通过这次的模型拟合和相关因素的检验,可以找出影响国内生产总值的关键因素,从而对症下药,调整政府策略,以提高国内的生产总值。
参考文献:
[1]陈共.《财政学》第六版.中国人民大学出版社,2009.
[2]吴传生.《经济数学—概率论与数理统计》第二版.高等教育出版社,2004
[3]何晓群.《实用回归分析》高等教育出版社,2008
[4]贺辉.《中国教育财政支出的绩效评价》,2009
[5]中国统计年鉴