国家财政收入的多元线性回归模型.docx
《国家财政收入的多元线性回归模型.docx》由会员分享,可在线阅读,更多相关《国家财政收入的多元线性回归模型.docx(18页珍藏版)》请在冰豆网上搜索。
国家财政收入的多元线性回归模型
应用数理统计
国家财政收入的回归分析
院(系)名称
专业名称
学生姓名
任课教师
2013年12月
2解决问题的方法和计算结果3
2.1样本数据的选取与整理3
2.2模型的建立与分析4
2.3分析结果9
国家财政收入的多元线性回归模型
摘要:
本文以多元线性回归为出发点,选取了我国自1990至2011年间的财政收入为因变量,并初步选取了6个影响因素,进一步利用统计软件SPSS对以上数据进行了筛选,采用多元逐步线性回归的方法,从而找到了能反映财政收入与各因素之间关系的“最优”回归方程:
进而得出结论,国家财政收入与建筑业、工业总产值和人口数具有显著地线性关系。
关键词:
多元逐步线性回归;财政收入;SPSS
0符号说明
变量
符号
财政收入(亿元)
Y
工业总产值(亿元)
X1
农业总产值(亿元)
X2
受灾面积(万公顷)
X3
建筑业总产值(亿元)
X4
人口总数(万人)
X5
社会商品销售总额(亿元)
X6
1引言
改革开放以来,我国的国民经济取得了快速发展,经济上的飞速发展并带动了国家财政收入的飞速增加,国家财政的状况对整个社会的发展影响巨大。
政府根据国家的财政收入,通过预算安排,用于环境保护、社会保障以及政府行政管理等,从而不断提高人民的生活水平,早日实现中华民族的伟大复兴。
因此,为了更好地制订下一年的财政税收政策,研究影响国家财政收入的主要因素是十分必要的。
为了研究影响国家财政收入的因素,我们就很有必要对其财政收入和影响财政收入的因素作必要的认识,进而对他们之间的关系作一下回归,从而通过已有的数据建立最优的线性回归模型。
建立最优的线性回归模型,一方面要求该模型包含所有对因变量财政收入有显著影响的自变量,另一方面要求该模型中所包含的自变量个数尽可能的少,不含无意义的变量。
选择最优模型的方法很多,但各有利弊。
全部比较法是把所有可能的自变量的各种组合方式回归方程都求出来,然后比较,选出最优的。
对于变量数较少时,该方法比较有优势,但当随着变量数的增加,该方法的计算量也变得越来越大,使得该方法不太实用。
向后法,也称为只出不进法,在不显著的变量比较少时常常采用该方法,但在开始建立方程可能自变量过多,计算繁琐,现在也不太常用。
向前法,也称只进不出法,由于其本身的特点,使得变量一旦引入方程,就不会剔除。
这样得到的模型,由于变量间可能存在相关关系,故不能保证所有的变量都是显著。
本文采用的是逐步回归法,也成为有进有出法,它是向前法和向后法的一种结合,克服了前两种方法的缺点,将变量一一引入,每引入一个变量后都要对老变量进行逐个检验,将变得不显著的变量从回归模型中剔除,保证了模型含有的都是有显著影响的自变量。
本文首先分析了可能影响财政收入的因素,找到最有可能的因素,包括工业总产值,农业总产值,建筑业总产值,社会商品销售总额,人口数,受灾面积等。
然后从国家统计数据网上查取了1990-2011年这22年间的年度财政收入及主要影响因素的数据,利用逐步回归的统计方法,对数据进行分析处理,最终得出能够反映各个因素对财政收入影响的最“优”模型。
在寻找最优回归方程过程中,首先以国家财政收入为因变量,以工业总产值,农业总产值,建筑业总产值,社会商品销售总额,人口数,受灾面积分别为自变量,绘制散点图,初步判断财政收入与各因素之间是否具有线性关系。
为了更加直观的分析财政收入与各因素的关系,利用SPSS软件计算了各个变量之间的相关系数,定量的分析了财政收入与各因素之间的相关性大小。
最后,为了得到最佳回归模型以及最优回归方程,利用SPSS软件对该数据进行深层次的分析,利用逐步回归分析原理,求得了最优回归方程,并对其残差进行分析,来进一步检验回归模型的拟合性。
2解决问题的方法和计算结果
2.1样本数据的选取与整理
本文在进行统计时,查阅国家统计数据网—中国统计年鉴2012中收录的1990年至2011年连续22年的全国财政收入为因变量,考虑一些与能源消耗关系密切并且直观上有线性关系的因素,初步选取这20年的工业总产值,农业总产值,建筑业总产值,社会商品销售总额,人口数和受灾面积等因素为自变量,分析它们之间的联系。
根据选择的指标,从国家统计数据网查选数据,整理如表2-1所示。
表2-11990-2011年财政收入及其影响因素统计表
工业
(亿元)
农业
(亿元)
受灾面积(千公顷)
建筑业
(亿元)
人口
(万人)
社会商品零售总额(亿元)
财政收入
(亿元)
1990
18689.22
7662.1
38474
1345
114333
8300.1
2937.1
1991
22088.68
8157
55472
1564.3
115823
9415.6
3149.48
1992
27724.21
9084.7
51332
2174.4
117171
10993.7
3483.37
1993
39693
10995.5
48827
3253.5
118517
14270.4
4348.95
1994
51353.03
15750.5
55046
4653.3
119850
18622.9
5218.1
1995
54946.86
20340.9
45824
5793.8
121121
23613.8
6242.2
1996
62740.16
22353.7
46991
8282.2
122389
28360.2
7407.99
1997
68352.68
23788.4
53427
9126.5
123626
31252.9
8651.14
1998
67737.14
24541.9
50145
10062
124761
33378.1
9875.95
1999
72707.04
24519.1
49980
11152.9
125786
35647.9
11444.08
2000
85673.66
24915.8
54688
12497.6
126743
39105.7
13395.23
2001
95449.0
26179.6
52215
15361.5
127627
43055.4
16386.04
2002
110776.5
27390.8
46946
18527.1
128453
48135.9
18903.64
2003
142271.2
29691.8
54506
23083.8
129227
52516.3
21715.25
2004
187220.7
36239
37106
29021.45
129988
59501
26396.47
2005
251619.5
39450.9
38818
34552.0
130756
68352.6
31649.29
2006
316588.9
40810.8
41091
41557.1
131448
79145.2
38760.2
2007
405177.1
48892.9
48992
51043.7
132129
93571.6
51321.78
2008
507448
58002.1
39990
62036.81
132802
114830.1
61330.35
2009
548311
60361.0
47214
76807.74
133450
132678.4
68518.30
2010
698591
69319.8
37426
96031.13
134091
156998.4
83101.51
2011
844269
81303.9
32471
116463.32
134735
183918.6
103874.43
2.2模型的建立与分析
2.2.1散点图
为了直观地观察各因素与财政收入之间是否具有线性关系。
根据表2-1的数据画出各个因素与国家财政收入的散点图如图2-1所示。
(a)(b)
(c)(d)
(e)(f)
图2-1各因素与国家财政收入的散点图
由图2-1各因素与国家财政收入的散点图可以得到,工业总产值、农业总产值、建筑业以及社会商品零售总额与国家财政收入基本上具有良好的线性关系,国家财政收入与人口总数具有正比关系,由于人口总数成指数增长模型,初步认为人口总数与国家财政收入不具有明确的线性关系。
另外,由图c,国家财政收入与受灾面积也不具有明确线性关系。
2.2.2相关性研究
为了进一步的确定国家财政收入与工业总产值、农业总产值、受灾面积、建筑业、人口总数及社会商品零售总额之间是否具有显著的相关性,下面通过SPSS软件来计算各因素间的相关系数大小,定量的研究各因素与财政收入的相关性。
表2-2各因素与国家财政收入的相关性检验
财政收入
工业总产值
农业总产值
受灾面积
建筑业
财政收入
Pearson相关性
1
.998**
.981**
-.636**
.998**
显著性(双侧)
.000
.000
.001
.000
N
22
22
22
22
22
工业总产值
Pearson相关性
.998**
1
.974**
-.644**
.997**
显著性(双侧)
.000
.000
.001
.000
N
22
22
22
22
22
农业总产值
Pearson相关性
.981**
.974**
1
-.622**
.979**
显著性(双侧)
.000
.000
.002
.000
N
22
22
22
22
22
受灾面积
Pearson相关性
-.636**
-.644**
-.622**
1
-.643**
显著性(双侧)
.001
.001
.002
.001
N
22
22
22
22
22
建筑业
Pearson相关性
.998**
.997**
.979**
-.643**
1
显著性(双侧)
.000
.000
.000
.001
N
22
22
22
22
22
人口总数
Pearson相关性
.820**
.794**
.898**
-.456*
.812**
显著性(双侧)
.000
.000
.000
.033
.000
N
22
22
22
22
22
社会零售商品总额
Pearson相关性
.996**
.991**
.992**
-.623**
.996**
显著性(双侧)
.000
.000
.000
.002
.000
N
22
22
22
22
22
相关性
人口总数
社会零售商品总额
财政收入
Pearson相关性
.820
.996**
显著性(双侧)
.000
.000
N
22
22
工业总产值
Pearson相关性
.794**
.991
显著性(双侧)
.000
.000
N
22
22
农业总产值
Pearson相关性
.898**
.992**
显著性(双侧)
.000
.000
N
22
22
受灾面积
Pearson相关性
-.456**
-.623**
显著性(双侧)
.033
.002
N
22
22
建筑业
Pearson相关性
.812**
.996**
显著性(双侧)
.000
.000
N
22
22
人口总数
Pearson相关性
1**
.858**
显著性(双侧)
.000
N
22
22
社会零售商品总额
Pearson相关性
.858**
1**
显著性(双侧)
.000
N
22
22
**.在.01水平(双侧)上显著相关。
*.在0.05水平(双侧)上显著相关。
从上表数据可知,国家财政收入与工业总产值的相关系数为0.998,与农业总产值的相关系数为0.981,与建筑业的相关系数为0.998,与人口总数相关系数为0.820,与社会零售商品总额的相关系数为0.996,它们的概率P值都小于显著性水平α,应拒绝零假设,认为两总体之间存在线性相关关系。
而财政收入与受灾面积的相关系数为0.636,相关性较小。
2.2.3逐步线性回归分析
为了得到最优回归方程,因此,选取国家财政收入作为因变量,工业总产值、农业总产值、人口数、受灾面积、建筑业及社会零售商品总额作为自变量,利用逐步回归的方法,采用SPSS软件对上述变量进行回归分析,所得结果如下所示。
表2-3输入/移去的变量
模型
输入的变量
移去的变量
方法
1
建筑业X4
.
步进(准则:
F-to-enter的概率<=.050,F-to-remove的概率>=.100)。
2
工业总产值X1
.
步进(准则:
F-to-enter的概率<=.050,F-to-remove的概率>=.100)。
3
人口总数X5
.
步进(准则:
F-to-enter的概率<=.050,F-to-remove的概率>=.100)。
a.因变量:
财政收入Y
通过逐步回归产生的三种模型1、2、3,模型1的自变量只有X4,模型2的自变量有X4和X1,模型3的自变量有X5、X4和X1。
表2-3显示变量的引入和剔除,以及引入或剔除的标准。
选择的判据是变量进入回归方程的F的概率不大于0.05,剔除的判据是变量进入回归方程的F的概率不小于0.10。
表2-4模型汇总
模型
R
R方
调整R方
标准估计的误差
1
.998a
.996
.996
1818.22527
2
.999b
.997
.997
1527.18680
3
.999c
.998
.998
1280.91570
a.预测变量:
(常量),建筑业X4。
b.预测变量:
(常量),建筑业X4,工业总产值X1。
c.预测变量:
(常量),建筑业X4,工业总产值X1,人口总数X5。
d.因变量:
财政收入Y
表2-4显示了各模型的拟合情况。
模型3的自相关系数(R)为0.999,判断系数为0.998。
从统计变量的改变看,模型1的改变值绝对大于其他两个模型,这说明与该模型相关的自变量X4是因变量很好的预测。
表2-5方差分析表Anova
模型
平方和
df
均方
F
Sig.
1
回归
17410626645.424
1
17410626645.424
5266.463
.000b
残差
66118862.541
20
3305943.127
总计
17476745507.965
21
2
回归
17432431816.828
2
8716215908.414
3737.177
.000c
残差
44313691.136
19
2332299.533
总计
17476745507.965
21
3
回归
17447212097.547
3
5815737365.849
3544.571
.000d
残差
29533410.418
18
1640745.023
总计
17476745507.965
21
a.因变量:
财政收入Y
b.预测变量:
(常量),建筑业X4。
c.预测变量:
(常量),建筑业X4,工业总产值X1。
d.预测变量:
(常量),建筑业X4,工业总产值X1,人口总数X5。
由表2-5可知,模型3的P值为0.00<0.05,拒绝原假设,认为因变量与其他三变量X4、X1和X5之间有线性关系。
表2-6回归系数
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
1724.308
522.855
3.298
.004
建筑业X4
.883
.012
.998
72.570
.000
2
(常量)
1631.011
440.222
3.705
.002
建筑业X4
.493
.128
.557
3.850
.001
工业总产值X1
.053
.017
.442
3.058
.006
3
(常量)
-27809.890
9816.072
-2.833
.011
建筑业X4
.348
.118
.393
2.950
.009
工业总产值X1
.068
.015
.564
4.410
.000
人口总数X5
.242
.081
.053
3.001
.008
a.因变量:
财政收入Y
由表2-6可知,各模型的偏回归系数、标准化的偏回归系数及其对应的检验值;还显示了模型中的各变量与因变量的零阶相关、偏相关和部分相关;还有多重共线性统计量。
根据模型3可以建立多元线性回归方程为:
表2-7各个模型置信度上限
模型
B的95.0%置信区间
上限
1
(常量)
2814.965
建筑业X4
.908
2
(常量)
2552.406
建筑业X4
.761
工业总产值X1
.090
3
(常量)
-7187.087
建筑业X4
.595
工业总产值X1
.100
人口总数X5
.411
a.因变量:
财政收入Y
表2-8已排除的变量
模型
BetaIn
t
Sig.
偏相关
共线性统计量
容差
1
工业总产值X1
.442b
3.058
.006
.574
.006
农业总产值X2
.092b
1.403
.177
.306
.042
社会零售商品总额X6
.218b
1.543
.139
.334
.009
人口总数X5
.028b
1.202
.244
.266
.341
受灾面积X3
.009b
.501
.622
.114
.587
2
农业总产值X2
.103c
1.962
.065
.420
.042
社会零售商品总额X6
.294c
2.731
.014
.541
.009
人口总数X5
.053c
3.001
.008
.578
.307
受灾面积X3
.012c
.769
.452
.178
.585
3
农业总产值X2
-.116d
-1.118
.279
-.262
.009
社会零售商品总额X6
.047d
.178
.861
.043
.001
受灾面积X3
.007d
.510
.617
.123
.574
a.因变量:
财政收入Y
b.模型中的预测变量:
(常量),建筑业X4。
c.模型中的预测变量:
(常量),建筑业X4,工业总产值X1。
d.模型中的预测变量:
(常量),建筑业X4,工业总产值X1,人口总数X5。
表2-7显示各模型变量的有关统计量,对模型3来说,它的偏回归系数的P值都大于0.05,接受原假设,不能把这些变量加入方程中,故而排除该变量。
表2-8残差统计量
极小值
极大值
均值
标准偏差
N
预测值
1579.2633
102694.8906
27186.8568
28823.94185
22
残差
-2424.53491
1869.26514
.00000
1185.89750
22
标准预测值
-.888
2.620
.000
1.000
22
标准残差
-1.893
1.459
.000
.926
22
a.因变量:
财政收入Y
表2-8是残差统计结果。
主要显示预测值、标准化预测值、残差和标准化残差等统计量的最大值、最小值、均值和标准差。
可见标准化残差的最大绝对值为1.459。
2.3分析结果
首先,通过散点图和各因素间的相关系数的计算,初步可以确定财政收入Y与工业总产值X1、建筑业X4、人口总数X5具有显著的线性关系。
然后,采用逐步回归的方法,财政收入Y对各个自变量X进行逐步回归,得到线性回归方程。
为了进一步检验该回归方程,下面对其残差进行分析,结果如下图所示。
图2-2标准残差的直方图
由图2-2可知,在标准化残差的直方图中,正态曲线被加在直方图上,判断标准化残差是否呈正态分布。
从图可以看见,它服从近似正态分布,残差不具有自相关性,这个模型是比较理想的模型。
图2-3标准残差和预测值的散点图
由图2-3残差和预测值的散点图可知,随着标准化预值的变化,残差在0线(正态分布)周围随机分布,基本满足线性回归的基本条件。
且标准化残差的绝对值均小于3,因此,该残差的随机性良好,残差序列具有等方差和独立性。
3结论
通过以上分析可以发现,财政收入(Y)与建筑业(X4)、工业总产值(X1)和人口数(X5)相关性显著。
借助SPSS软件对上述数据进行分析,采用逐步回归分析方法,最终得到财政收入与其具有显著性关系的自变量的关系为:
,该回归方程通过对其残差进行检验,结果反映该回归方程拟合效果较好。
另外,最优回归方程的建立也说明了我国的财政收入中很大一部分来自建筑业、工业总产值及人口数。
这也为国家的预算提供了依据,从一个侧面反映出当今中国的产业格局。
当然,由于调研时间有限,上述回归模型存在一些不足,还需要不断查阅资料加以改进。
但在一定程度上体现了与选取的自变量之间的线性关系,并能对因变量做出近似的预测。
综合来看,数据模型基本达到了预期的目的。
参考文献
[1]孙海燕,周梦,李卫国,冯伟.应用数理统计[M].北京:
北京航空航天大学数学系,1999.
[2]薛薇.SPSS统计分析方法及应用[M].电子工业出版社.2004.
[3]国家统计数据网.中国统计年鉴2012