基于逐步回归法的国家财政收入回归分析.docx
《基于逐步回归法的国家财政收入回归分析.docx》由会员分享,可在线阅读,更多相关《基于逐步回归法的国家财政收入回归分析.docx(17页珍藏版)》请在冰豆网上搜索。
基于逐步回归法的国家财政收入回归分析
应用数理统计论文
基于逐步回归法的国家财政收入回归分析
学院:
专业:
姓名:
学号:
任课教师:
基于逐步回归法的国家财政收入回归分析
摘要
财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。
对财政收入的影响因素进行分析,有助于更好的把握财政收入并做出相应的宏观调控。
本文采用逐步回归法,基于SPSS统计分析软件建立了国家财政收入的回归模型,研究了一些相关因素对国家财政收入的影响,涵盖了工业、农业、建筑业、第三产业的总产值以及社会商品零售总额、人口、受灾面积、居民消费水平八个因素,同时对回归模型进行了分析、检验和预测,验证了模型的正确性。
关键词:
SPSS财政收入逐步回归回归模型
Abstract
Thefiscalrevenueisanimportantindexthatevaluatesthefinancialcapabilityofagovernment。
Thescaleandamountofpublicfacilitiesandservicesthatthegovernmentoffersinsocialandeconomicactivitiesdependalotontheconditionofitsfiscalrevenue.Theanalysisonthepossiblefactorsthatmayinfluencethefiscalrevenuecancontributetothepropercontrolandarrangementoftherevenue。
BasedontheSPSSsoftware,thepaperappliesthestepwiseregressionmethodtobuildtheregressionmodelofthenationalfiscalrevenue.Theinfluencecausedbysomepossiblefactorsarealsoanalyzed,whichincludeindustry,agriculture,architecture,thegrossoutputvalueoftertiaryindustry,totalvolumeofretailsales,population,damageareaandresidentconsumptionlevel。
Theregressionmodelisalsoverifiedandestimatedtoensureitsaccuracy.
Keywords:
SPSS,fiscalrevenue,stepwiseregression,regressionmodel
1引言
国家财政收入对于国民经济的正常运行以及社会的蓬勃发展有着重要的影响.它是国家各项政策得以实现的物质保证,其规模大小是衡量国家经济实力的重要标志,同时也是国家对经济进行宏观调控的重要经济杠杆。
因此对财政收入进行研究显得尤为重要。
改革开放以来,随着经济的飞速发展,我国的财政收入也呈快速增长趋势。
这其中的影响因素有很多,如国内生产总值、税收、科学教育发展程度、人口状况、城乡就业人数等等,因此,如果仅采用一般的统计模型很难表述其与相关因素之间的相关关系。
为了建立财政收入与影响因素之间的数学模型,需要考虑克服模型变量的多重共线性问题,常用的方法主要有:
排除引起共线性的变量;差分法;减小参数估计量的方差。
由于后两类方法都只能减轻多重共线性对模型的影响,而第一类方法,从根本上寻找引起多重共线性的解释变量,将其排除出原模型,因而第一类方法更为有效。
本文将该原理的应用---逐步回归方法引入财政收入模型的建立问题中。
2逐步回归分析法的原理及过程
在建立数学模型的时候,人们一方面为获取全面信息总希望模型中包含的自变量尽可能多;另一方面,考虑到获取很多自变量的观测时的费用和实际困难,则希望模型中包尽可能少且重要的变量。
因此,为使所建立的线性回归模型“最优",就应满足一下两个条件:
(1)模型中要包含所有对y影响显著的自变量,消除对y影响不显著的自变量;
(2)模型包含的各自变量之间不存在多重共线即各自变量之间不存在线性相关关系或近似线性相关关系。
[1]
为了解决以上两个问题,最有效的方法是采用逐步回归分析方法。
2。
1逐步回归分析法的原理
逐步回归的基本思想是:
对全部因子按其对影响程度大小(偏回归平方的大小),从大到小地依次逐个地引入回归方程,并随时对回归方程当时所含的全部变量进行检验,看其是否仍然显著,如不显著就将其剔除,知道回归方程中所含的所有变量对的作用都显著是,才考虑引入新的变量.再在剩下的未选因子中,选出对作用最大者,检验其显著性,显著者,引入方程,不显著,则不引入。
直到最后再没有显著因子可以引入,也没有不显著的变量需要剔除为止。
增加或减少某个自变量的准则是用残差平方和的变化量来衡量,一般采用F检验统计量进行检验,因此逐步回归的每一步的前后都要作F检验,以保证每次在引入新的显著变量之前回归方程中只包含显著的变量,直至没有显著的变量可以引入回归方程为止。
这样得出来的回归方程剔除了对因变量不重要的自变量,使回归方程更简单。
2。
2逐步回归分析法的过程
逐步回归分析具体步骤如下:
步骤1:
输入原始样本数据
,计算协差阵
,其中:
;
步骤2:
计算相关系数矩阵
,其中:
;
步骤3:
计算各个自变量的方差贡献,以
步为例:
步骤4:
做剔除变量的显著性F检验。
检验时,先选定置信度
,查表得到
挑选方差最小的变量,计算
,若
则说明该变量对y作用不显著,应予以剔除,并对相关矩阵
作消去变换。
步骤5:
做引入变量的显著性F检验。
检验时,挑选未引入模型中的变量的显著性贡献度最大的计算:
,若
则说明该变量对
作用显著,应引入变量,并对相关矩阵
作变换。
步骤6:
如以上步骤,检验是否接受新变量,引入回归方程后,检验其显著性,判断是否有变量应该剔除,直至无变量可引入和剔除为止,逐步回归结束,将上述所有标准化的量,化成实际回归系数,再求出常数项.
3国家财政收入回归模型
3。
1数据采集
本文从《中国统计年鉴2011》中采集并整理了1991~2010年影响我国财政收入的主要因素的相关数据信息,包括工业总产值(亿元)、农业总产值(亿元)、建筑业总产值(亿元)、第三产业总产值(亿元)、社会商品零售总额(亿元)、人口数量(万人)、受灾面积(千公顷)以及居民消费水平(元).数据如表3.1所示。
其中1991~2009年的数据作为模型建立的依据,2010年的数据用作对模型的检验。
3.2变量标识
为了方便模型的描述,本文对各影响因素做了如表3。
2所示的符号约定.并选择财政收入y为因变量,其余8个影响因素X1、X2、X3、X4、X5、X6、X7、X8为自变量。
表3。
2符号说明
符号
y
X1
X2
X3
X4
X5
X6
X7
X8
变
量
财政
收入
工业总产值
农业总产值
建筑业总产值
第三产业总产值
社会商品零售总额
人
口
受灾
面积
居民消费水平
表3.1样本数据
年份
财政收入
工业总产值
农业总产值
建筑业总
产值
第三产业总
产值
社会商品零售总额
人口
受灾面积
居民消费水平
1991
3149。
48
8087.1
5342.2
1015。
1
7337。
1
9415.6
115823
55472
932
1992
3483。
37
10284.5
5866.6
1415
9357.38
10993。
7
117171
51332
1116
1993
4348。
95
14188
6963.8
2266。
5
11915。
73
14270.4
118517
48827
1393
1994
5218。
1
19480。
7
9572。
7
2964。
7
16179。
76
18622.9
119850
55046
1833
1995
6242.2
24950.6
12135。
8
3728。
8
19978.46
23613.8
121121
45824
2355
1996
7407。
99
29447.6
14015。
4
4387.4
23326.24
28360。
2
122389
46991
2789
1997
8651.14
32921.4
14441。
9
4621。
6
26988。
15
31252.9
123626
53427
3002
1998
9875。
95
34018。
4
14817.6
4985。
8
30580。
47
33378.1
124761
50145
3159
1999
11444。
08
35861.5
14770
5172.1
33873.44
35647。
9
125786
49979。
5
3346
2000
13395。
23
40033。
6
14944。
7
5522。
3
38713。
95
39105。
7
126743
54688
3632
2001
16386.04
43580.6
15781。
3
5931.7
44361。
61
43055。
4
127627
52214。
6
3887
2002
18903。
64
47431。
3
16537
6465.5
49898.9
48135.9
128453
46946.1
4144
2003
21715。
25
54945.5
17381.7
7490.8
56004.73
52516。
3
129227
54505.8
4475
2004
26396。
47
65210
21412。
7
8694.3
64561。
29
59501
129988
37106。
26
5032
2005
31649。
29
77230.8
22420
10133。
8
74919。
28
67176.6
130756
38818.23
5573
2006
38760。
2
91310.9
24040
11851.1
88554.88
76410
131448
41091。
41
6263
2007
51321.78
107367.2
28095
14014。
1
111351。
95
89210
132129
48992。
35
7255
2008
61330.35
130260。
24
33702
18743。
2
131339。
99
114830。
1
132802
39990。
03
8349
2009
68518.3
135239。
95
35226
22398。
83
147642.09
132678。
4
133474
47213。
69
9098
2010
83101。
51
160867
36941.11
26714。
4
173087.01
156998.4
134091
37426
9968
(注:
2010年的数据用作预测)
我们可以建立如下的回归模型[2]:
其中,In在本模型中为8阶单位矩阵,
为了使建立的回归模型达到最佳效果,本文选用上文所描述的逐步回归分析法并利用SPSS19软件求解此线性回归模型。
3.3逐步回归分析
3.3.1逐步回归分析操作步骤
基于上文中搜集到的数据,在SPSS软件中建立数据视图,以8个影响因素为X1-X8,以财政收入为Y,各列数据均为数值类型。
在SPSS中进行逐步回归分析的一般步骤如下所示:
1。
创建数据;
2.打开线性回归功能;
3.将X1—X8依次选为因变量,Y选为自变量;
4.设置统计量,确定置信水平,启用个案诊断;
5。
设置绘图选项;
6。
设置使用F的概率;
7。
完成设置,开始分析;
8.得到分析结果图表,分析结果并保存。
以下几个小节中,将对本次分析的分析结果进行阐述和总结。
3。
3。
2输入/剔除表
表3。
3.为分析过程中变量的输入和剔除情况。
表3。
3输入/移除的变量a
模型
输入的变量
移去的变量
方法
1
X4第三产业总产值
。
步进(准则:
F-to-enter的概率〈=。
050,F—to—remove的概率〉=。
100)。
2
X6人口
。
步进(准则:
F-to-enter的概率<=.050,F—to-remove的概率>=。
100)。
3
X3建筑业总产值
.
步进(准则:
F-to-enter的概率〈=.050,F-to—remove的概率>=。
100)。
4
X7受灾面积
。
步进(准则:
F-to-enter的概率〈=.050,F—to-remove的概率>=。
100)。
a.因变量:
财政收入
SPSS系统默认当F概率小于或等于0.05时进入,F概率大于等于0.1剔除。
从表中所示结果,可知系统在逐步分析时产生了4个模型,模型1是按照F检验的标准先将与y(财政收入)关系最密切的变量X4(第三产业总产值)引入模型,建立y(财政收入)与X4之间的线性回归模型,然后引入X6(人口),建立y与X4、X6之间的回归模型,然后依次引入X3(建筑业总产值)、X7(受灾面积)、建立回归模型。
在整个过程中,剔除的变量为X1(工业总产值)、X2(农业总产值)、X5(社会商品零售总额)、X8(居民消费水平)。
3。
3.3模型汇总表
表3。
4模型汇总e
模型
R
R2
调整R2
估计的标准差
1
。
997a
。
994
。
994
1605.97225
2
1。
000b
.999
。
999
498。
21278
3
1。
000c
1。
000
1。
000
244.82710
4
1.000d
1。
000
1.000
189。
48385
a。
预测变量:
(常量),X4第三产业总产值。
b.预测变量:
(常量),X4第三产业总产值,X6人口.
c.预测变量:
(常量),X4第三产业总产值,X6人口,X3建筑业总产值。
d.预测变量:
(常量),X4第三产业总产值,X6人口,X3建筑业总产值,X7受灾面积.
e。
因变量:
财政收入
模型汇总表中显示了各模型的拟合情况,从表中可以看出各模型的相关系数R都等于1或非常接近1,随着模型中自变量个数的增加。
标准估计误差逐渐减小,说明模型越来越优.在下文的分析中,主要以模型4进行分析。
3.3.4方差分析
表3。
5Anovae(方差分析)
模型
平方和
df
均方
F
Sig。
1
回归
7.220E9
1
7.220E9
2799.185
.000a
残差
43845496.519
17
2579146。
854
总计
7.263E9
18
2
回归
7。
259E9
2
3.630E9
14623.117
.000b
残差
3971455.642
16
248215.978
总计
7。
263E9
18
3
回归
7.262E9
3
2。
421E9
40387.152
.000c
残差
899104。
627
15
59940.308
总计
7.263E9
18
4
回归
7.263E9
4
1。
816E9
50571.142
。
000d
残差
502657.825
14
35904.130
总计
7。
263E9
18
a。
预测变量:
(常量),X4第三产业总产值。
b.预测变量:
(常量),X4第三产业总产值,X6人口。
c.预测变量:
(常量),X4第三产业总产值,X6人口,X3建筑业总产值。
d。
预测变量:
(常量),X4第三产业总产值,X6人口,X3建筑业总产值,X7受灾面积。
e。
因变量:
财政收入
此表显示个模型的方差分析结果,对于以上模型,F值分别为2799.185、14623。
117、40387.152、50571.142,并且每个模型的显著性概率均Sig<0。
001,可知回归效果都是显著的。
3。
3。
5回归系数分析及检验预测
表3.6系数a
模型
非标准化系数
标准系数
t
Sig。
B
标准差
Beta
1
(常量)
—3500。
289
598.953
—5。
844
.000
X4第三产业总产值
。
481
.009
.997
52.907
.000
2
(常量)
66512。
820
5527.066
12.034
。
000
X4第三产业总产值
.550
.006
1。
139
90.043
.000
X6人口
—。
585
。
046
-.160
-12。
674
。
000
3
(常量)
74841.829
2954.726
25。
330
。
000
X4第三产业总产值
.640
.013
1。
326
49。
419
.000
X6人口
-.652
.025
—。
179
—26.558
.000
X3建筑业总产值
—.600
.084
-.172
-7。
159
。
000
4
(常量)
77885。
316
2463.409
31.617
。
000
X4第三产业总产值
。
639
.010
1。
325
63。
778
.000
X6人口
—.664
。
019
-。
182
—34。
340
.000
X3建筑业总产值
-.601
.065
—.172
—9。
273
.000
X7受灾面积
—。
031
.009
—.009
-3.323
.005
a.因变量:
财政收入
在表3。
6中,B为非标准化得回归系数,t为偏回归系数为0的假设检验的t值,Sig。
为偏回归系数为0的假设检验的显著性水平值。
在逐步回归过程中,利用偏回归系数平方和来判断一个自变量对因变量影响的显著程度。
某因素的偏回归系数平方和愈大,该因素对y的作用也就愈大.
由逐步回归分析原理可知,模型4为最优模型。
故对于财政收入及其各影响因素的回归方程为:
y=77885。
316+0.639X4-0.664X6-0。
601X3—0。
031X7
3.3.6检验预测
为了验证回归方程的有效性,以2010年的数据为例对模型进行检验。
X4=173087.01,X6=134091,X3=26714.4,X7=37426,代入回归方程计算得y=82235。
9306。
检验结果与实际结果的绝对误差为1.0416%.由于财政收入是以亿元为计数单位,故可认为预测结果与实际数据非常吻合,从而验证了模型的有效性。
3。
3.7被剔除的变量信息
表3。
7已排除的变量e
模型
BetaIn
t
Sig。
偏相关
共线性统计量
容差
1
X1工业总产值
—。
242a
-.966
.349
-。
235
。
006
X2农业总产值
—.281a
—3。
749
.002
-.684
。
036
X3建筑业总产值
。
074a
。
498
.625
。
124
。
017
X5社会商品零售总额
-.404a
—1。
973
。
066
—。
442
.007
X6人口
-。
160a
—12.674
。
000
-。
954
。
214
X7受灾面积
.009a
.384
。
706
。
096
.727
X8居民消费水平
-.535a
-10.953
。
000
-。
939
.019
2
X1工业总产值
.056b
.681
.506
.173
.005
X2农业总产值
-。
077b
-2.255
。
039
—。
503
.023
X3建筑业总产值
-。
172b
—7.159
.000
—。
880
.014
X5社会商品零售总额
—。
243b
—6。
750
.000
-.867
。
007
X7受灾面积
-。
009b
-1.263
。
226
-。
310
.699
X8居民消费水平
—.241b
-2.941
.010
-。
605
.003
3
X1工业总产值
.078c
2。
188
。
046
.505
.005
X2农业总产值
。
017c
。
665
。
517
.175
.014
X5社会商品零售总额
—.096c
-。
918
.374
-。
238
。
001
X7受灾面积
-。
009c
—3.323
.005
—。
664
.699
X8居民消费水平
-。
006c
-。
089
.931
—。
024
。
002
4
X1工业总产值
.035d
.971
。
349
。
260
。
004
X2农业总产值
—。
009d
—。
407
.690
—.112
。
012
X5社会商品零售总额
-.082d
—1。
026
.323
-。
274
。
001
X8居民消费水平
—。
036d
-。
666
。
517
—。
182
.002
a.预测变量:
(常量),X4第三产业总产值。
b.预测变量:
(常量),X4第三产业总产值,X6人口。
c。
预测变量:
(常量),X4第三产业总产值,X6人口,X3建筑业总产值。
d.预测变量:
(常量),X4第三产业总产值,X6人口,X3建筑业总产值,X7受灾面积。
e。
因变量:
财政收入
表3。
7显示了在逐步回归过程中所建立的模型剔除的变量,以及该变量的Beta值和t统计量值,双尾显著性概率sig。
值、偏相关系数及共线统计量的容差。
3。
3.8残差统计量
表3.8残差统计量a
极小值
极大值
均值
标准偏差
N
预测值
3307.0149
68664.6719
21484。
0953
20087。
10411
19
残差
-296。
10504
449。
33591
.00000
167.10905
19
标准预测值
—.905
2.349
.000
1。
000
19
标准残差
-1.563
2.371
.000
。
882
19
a。
因变量:
财政收入
表3.8显