国家财政收入的多元线性回归模型.docx

上传人:b****5 文档编号:7599955 上传时间:2023-01-25 格式:DOCX 页数:18 大小:163.14KB
下载 相关 举报
国家财政收入的多元线性回归模型.docx_第1页
第1页 / 共18页
国家财政收入的多元线性回归模型.docx_第2页
第2页 / 共18页
国家财政收入的多元线性回归模型.docx_第3页
第3页 / 共18页
国家财政收入的多元线性回归模型.docx_第4页
第4页 / 共18页
国家财政收入的多元线性回归模型.docx_第5页
第5页 / 共18页
点击查看更多>>
下载资源
资源描述

国家财政收入的多元线性回归模型.docx

《国家财政收入的多元线性回归模型.docx》由会员分享,可在线阅读,更多相关《国家财政收入的多元线性回归模型.docx(18页珍藏版)》请在冰豆网上搜索。

国家财政收入的多元线性回归模型.docx

国家财政收入的多元线性回归模型

 

应用数理统计

国家财政收入的回归分析

 

院(系)名称

专业名称

学生姓名

任课教师

2013年12月

 

2解决问题的方法和计算结果3

2.1样本数据的选取与整理3

2.2模型的建立与分析4

2.3分析结果9

 

国家财政收入的多元线性回归模型

摘要:

本文以多元线性回归为出发点,选取了我国自1990至2011年间的财政收入为因变量,并初步选取了6个影响因素,进一步利用统计软件SPSS对以上数据进行了筛选,采用多元逐步线性回归的方法,从而找到了能反映财政收入与各因素之间关系的“最优”回归方程:

进而得出结论,国家财政收入与建筑业、工业总产值和人口数具有显著地线性关系。

关键词:

多元逐步线性回归;财政收入;SPSS

0符号说明

变量

符号

财政收入(亿元)

Y

工业总产值(亿元)

X1

农业总产值(亿元)

X2

受灾面积(万公顷)

X3

建筑业总产值(亿元)

X4

人口总数(万人)

X5

社会商品销售总额(亿元)

X6

1引言

改革开放以来,我国的国民经济取得了快速发展,经济上的飞速发展并带动了国家财政收入的飞速增加,国家财政的状况对整个社会的发展影响巨大。

政府根据国家的财政收入,通过预算安排,用于环境保护、社会保障以及政府行政管理等,从而不断提高人民的生活水平,早日实现中华民族的伟大复兴。

因此,为了更好地制订下一年的财政税收政策,研究影响国家财政收入的主要因素是十分必要的。

为了研究影响国家财政收入的因素,我们就很有必要对其财政收入和影响财政收入的因素作必要的认识,进而对他们之间的关系作一下回归,从而通过已有的数据建立最优的线性回归模型。

建立最优的线性回归模型,一方面要求该模型包含所有对因变量财政收入有显著影响的自变量,另一方面要求该模型中所包含的自变量个数尽可能的少,不含无意义的变量。

选择最优模型的方法很多,但各有利弊。

全部比较法是把所有可能的自变量的各种组合方式回归方程都求出来,然后比较,选出最优的。

对于变量数较少时,该方法比较有优势,但当随着变量数的增加,该方法的计算量也变得越来越大,使得该方法不太实用。

向后法,也称为只出不进法,在不显著的变量比较少时常常采用该方法,但在开始建立方程可能自变量过多,计算繁琐,现在也不太常用。

向前法,也称只进不出法,由于其本身的特点,使得变量一旦引入方程,就不会剔除。

这样得到的模型,由于变量间可能存在相关关系,故不能保证所有的变量都是显著。

本文采用的是逐步回归法,也成为有进有出法,它是向前法和向后法的一种结合,克服了前两种方法的缺点,将变量一一引入,每引入一个变量后都要对老变量进行逐个检验,将变得不显著的变量从回归模型中剔除,保证了模型含有的都是有显著影响的自变量。

本文首先分析了可能影响财政收入的因素,找到最有可能的因素,包括工业总产值,农业总产值,建筑业总产值,社会商品销售总额,人口数,受灾面积等。

然后从国家统计数据网上查取了1990-2011年这22年间的年度财政收入及主要影响因素的数据,利用逐步回归的统计方法,对数据进行分析处理,最终得出能够反映各个因素对财政收入影响的最“优”模型。

在寻找最优回归方程过程中,首先以国家财政收入为因变量,以工业总产值,农业总产值,建筑业总产值,社会商品销售总额,人口数,受灾面积分别为自变量,绘制散点图,初步判断财政收入与各因素之间是否具有线性关系。

为了更加直观的分析财政收入与各因素的关系,利用SPSS软件计算了各个变量之间的相关系数,定量的分析了财政收入与各因素之间的相关性大小。

最后,为了得到最佳回归模型以及最优回归方程,利用SPSS软件对该数据进行深层次的分析,利用逐步回归分析原理,求得了最优回归方程,并对其残差进行分析,来进一步检验回归模型的拟合性。

2解决问题的方法和计算结果

2.1样本数据的选取与整理

本文在进行统计时,查阅国家统计数据网—中国统计年鉴2012中收录的1990年至2011年连续22年的全国财政收入为因变量,考虑一些与能源消耗关系密切并且直观上有线性关系的因素,初步选取这20年的工业总产值,农业总产值,建筑业总产值,社会商品销售总额,人口数和受灾面积等因素为自变量,分析它们之间的联系。

根据选择的指标,从国家统计数据网查选数据,整理如表2-1所示。

表2-11990-2011年财政收入及其影响因素统计表

工业

(亿元)

农业

(亿元)

受灾面积(千公顷)

建筑业

(亿元)

人口

(万人)

社会商品零售总额(亿元)

财政收入

(亿元)

1990

18689.22

7662.1

38474

1345

114333

8300.1

2937.1

1991

22088.68

8157

55472

1564.3

115823

9415.6

3149.48

1992

27724.21

9084.7

51332

2174.4

117171

10993.7

3483.37

1993

39693

10995.5

48827

3253.5

118517

14270.4

4348.95

1994

51353.03

15750.5

55046

4653.3

119850

18622.9

5218.1

1995

54946.86

20340.9

45824

5793.8

121121

23613.8

6242.2

1996

62740.16

22353.7

46991

8282.2

122389

28360.2

7407.99

1997

68352.68

23788.4

53427

9126.5

123626

31252.9

8651.14

1998

67737.14

24541.9

50145

10062

124761

33378.1

9875.95

1999

72707.04

24519.1

49980

11152.9

125786

35647.9

11444.08

2000

85673.66

24915.8

54688

12497.6

126743

39105.7

13395.23

2001

95449.0

26179.6

52215

15361.5

127627

43055.4

16386.04

2002

110776.5

27390.8

46946

18527.1

128453

48135.9

18903.64

2003

142271.2

29691.8

54506

23083.8

129227

52516.3

21715.25

2004

187220.7

36239

37106

29021.45

129988

59501

26396.47

2005

251619.5

39450.9

38818

34552.0

130756

68352.6

31649.29

2006

316588.9

40810.8

41091

41557.1

131448

79145.2

38760.2

2007

405177.1

48892.9

48992

51043.7

132129

93571.6

51321.78

2008

507448

58002.1

39990

62036.81

132802

114830.1

61330.35

2009

548311

60361.0

47214

76807.74

133450

132678.4

68518.30

2010

698591

69319.8

37426

96031.13

134091

156998.4

83101.51

2011

844269

81303.9

32471

116463.32

134735

183918.6

103874.43

2.2模型的建立与分析

2.2.1散点图

为了直观地观察各因素与财政收入之间是否具有线性关系。

根据表2-1的数据画出各个因素与国家财政收入的散点图如图2-1所示。

 

(a)(b)

(c)(d)

(e)(f)

图2-1各因素与国家财政收入的散点图

由图2-1各因素与国家财政收入的散点图可以得到,工业总产值、农业总产值、建筑业以及社会商品零售总额与国家财政收入基本上具有良好的线性关系,国家财政收入与人口总数具有正比关系,由于人口总数成指数增长模型,初步认为人口总数与国家财政收入不具有明确的线性关系。

另外,由图c,国家财政收入与受灾面积也不具有明确线性关系。

2.2.2相关性研究

为了进一步的确定国家财政收入与工业总产值、农业总产值、受灾面积、建筑业、人口总数及社会商品零售总额之间是否具有显著的相关性,下面通过SPSS软件来计算各因素间的相关系数大小,定量的研究各因素与财政收入的相关性。

表2-2各因素与国家财政收入的相关性检验

财政收入

工业总产值

农业总产值

受灾面积

建筑业

财政收入

Pearson相关性

1

.998**

.981**

-.636**

.998**

显著性(双侧)

.000

.000

.001

.000

N

22

22

22

22

22

工业总产值

Pearson相关性

.998**

1

.974**

-.644**

.997**

显著性(双侧)

.000

.000

.001

.000

N

22

22

22

22

22

农业总产值

Pearson相关性

.981**

.974**

1

-.622**

.979**

显著性(双侧)

.000

.000

.002

.000

N

22

22

22

22

22

受灾面积

Pearson相关性

-.636**

-.644**

-.622**

1

-.643**

显著性(双侧)

.001

.001

.002

.001

N

22

22

22

22

22

建筑业

Pearson相关性

.998**

.997**

.979**

-.643**

1

显著性(双侧)

.000

.000

.000

.001

N

22

22

22

22

22

人口总数

Pearson相关性

.820**

.794**

.898**

-.456*

.812**

显著性(双侧)

.000

.000

.000

.033

.000

N

22

22

22

22

22

社会零售商品总额

Pearson相关性

.996**

.991**

.992**

-.623**

.996**

显著性(双侧)

.000

.000

.000

.002

.000

N

22

22

22

22

22

相关性

人口总数

社会零售商品总额

财政收入

Pearson相关性

.820

.996**

显著性(双侧)

.000

.000

N

22

22

工业总产值

Pearson相关性

.794**

.991

显著性(双侧)

.000

.000

N

22

22

农业总产值

Pearson相关性

.898**

.992**

显著性(双侧)

.000

.000

N

22

22

受灾面积

Pearson相关性

-.456**

-.623**

显著性(双侧)

.033

.002

N

22

22

建筑业

Pearson相关性

.812**

.996**

显著性(双侧)

.000

.000

N

22

22

人口总数

Pearson相关性

1**

.858**

显著性(双侧)

.000

N

22

22

社会零售商品总额

Pearson相关性

.858**

1**

显著性(双侧)

.000

N

22

22

**.在.01水平(双侧)上显著相关。

*.在0.05水平(双侧)上显著相关。

从上表数据可知,国家财政收入与工业总产值的相关系数为0.998,与农业总产值的相关系数为0.981,与建筑业的相关系数为0.998,与人口总数相关系数为0.820,与社会零售商品总额的相关系数为0.996,它们的概率P值都小于显著性水平α,应拒绝零假设,认为两总体之间存在线性相关关系。

而财政收入与受灾面积的相关系数为0.636,相关性较小。

2.2.3逐步线性回归分析

为了得到最优回归方程,因此,选取国家财政收入作为因变量,工业总产值、农业总产值、人口数、受灾面积、建筑业及社会零售商品总额作为自变量,利用逐步回归的方法,采用SPSS软件对上述变量进行回归分析,所得结果如下所示。

表2-3输入/移去的变量

模型

输入的变量

移去的变量

方法

1

建筑业X4

.

步进(准则:

F-to-enter的概率<=.050,F-to-remove的概率>=.100)。

2

工业总产值X1

.

步进(准则:

F-to-enter的概率<=.050,F-to-remove的概率>=.100)。

3

人口总数X5

.

步进(准则:

F-to-enter的概率<=.050,F-to-remove的概率>=.100)。

a.因变量:

财政收入Y

通过逐步回归产生的三种模型1、2、3,模型1的自变量只有X4,模型2的自变量有X4和X1,模型3的自变量有X5、X4和X1。

表2-3显示变量的引入和剔除,以及引入或剔除的标准。

选择的判据是变量进入回归方程的F的概率不大于0.05,剔除的判据是变量进入回归方程的F的概率不小于0.10。

表2-4模型汇总

模型

R

R方

调整R方

标准估计的误差

1

.998a

.996

.996

1818.22527

2

.999b

.997

.997

1527.18680

3

.999c

.998

.998

1280.91570

a.预测变量:

(常量),建筑业X4。

b.预测变量:

(常量),建筑业X4,工业总产值X1。

c.预测变量:

(常量),建筑业X4,工业总产值X1,人口总数X5。

d.因变量:

财政收入Y

表2-4显示了各模型的拟合情况。

模型3的自相关系数(R)为0.999,判断系数为0.998。

从统计变量的改变看,模型1的改变值绝对大于其他两个模型,这说明与该模型相关的自变量X4是因变量很好的预测。

表2-5方差分析表Anova

模型

平方和

df

均方

F

Sig.

1

回归

17410626645.424

1

17410626645.424

5266.463

.000b

残差

66118862.541

20

3305943.127

总计

17476745507.965

21

2

回归

17432431816.828

2

8716215908.414

3737.177

.000c

残差

44313691.136

19

2332299.533

总计

17476745507.965

21

3

回归

17447212097.547

3

5815737365.849

3544.571

.000d

残差

29533410.418

18

1640745.023

总计

17476745507.965

21

a.因变量:

财政收入Y

b.预测变量:

(常量),建筑业X4。

c.预测变量:

(常量),建筑业X4,工业总产值X1。

d.预测变量:

(常量),建筑业X4,工业总产值X1,人口总数X5。

由表2-5可知,模型3的P值为0.00<0.05,拒绝原假设,认为因变量与其他三变量X4、X1和X5之间有线性关系。

表2-6回归系数

模型

非标准化系数

标准系数

t

Sig.

B

标准误差

试用版

1

(常量)

1724.308

522.855

3.298

.004

建筑业X4

.883

.012

.998

72.570

.000

2

(常量)

1631.011

440.222

3.705

.002

建筑业X4

.493

.128

.557

3.850

.001

工业总产值X1

.053

.017

.442

3.058

.006

3

(常量)

-27809.890

9816.072

-2.833

.011

建筑业X4

.348

.118

.393

2.950

.009

工业总产值X1

.068

.015

.564

4.410

.000

人口总数X5

.242

.081

.053

3.001

.008

a.因变量:

财政收入Y

由表2-6可知,各模型的偏回归系数、标准化的偏回归系数及其对应的检验值;还显示了模型中的各变量与因变量的零阶相关、偏相关和部分相关;还有多重共线性统计量。

根据模型3可以建立多元线性回归方程为:

表2-7各个模型置信度上限

模型

B的95.0%置信区间

上限

1

(常量)

2814.965

建筑业X4

.908

2

(常量)

2552.406

建筑业X4

.761

工业总产值X1

.090

3

(常量)

-7187.087

建筑业X4

.595

工业总产值X1

.100

人口总数X5

.411

a.因变量:

财政收入Y

表2-8已排除的变量

模型

BetaIn

t

Sig.

偏相关

共线性统计量

容差

1

工业总产值X1

.442b

3.058

.006

.574

.006

农业总产值X2

.092b

1.403

.177

.306

.042

社会零售商品总额X6

.218b

1.543

.139

.334

.009

人口总数X5

.028b

1.202

.244

.266

.341

受灾面积X3

.009b

.501

.622

.114

.587

2

农业总产值X2

.103c

1.962

.065

.420

.042

社会零售商品总额X6

.294c

2.731

.014

.541

.009

人口总数X5

.053c

3.001

.008

.578

.307

受灾面积X3

.012c

.769

.452

.178

.585

3

农业总产值X2

-.116d

-1.118

.279

-.262

.009

社会零售商品总额X6

.047d

.178

.861

.043

.001

受灾面积X3

.007d

.510

.617

.123

.574

a.因变量:

财政收入Y

b.模型中的预测变量:

(常量),建筑业X4。

c.模型中的预测变量:

(常量),建筑业X4,工业总产值X1。

d.模型中的预测变量:

(常量),建筑业X4,工业总产值X1,人口总数X5。

表2-7显示各模型变量的有关统计量,对模型3来说,它的偏回归系数的P值都大于0.05,接受原假设,不能把这些变量加入方程中,故而排除该变量。

表2-8残差统计量

极小值

极大值

均值

标准偏差

N

预测值

1579.2633

102694.8906

27186.8568

28823.94185

22

残差

-2424.53491

1869.26514

.00000

1185.89750

22

标准预测值

-.888

2.620

.000

1.000

22

标准残差

-1.893

1.459

.000

.926

22

a.因变量:

财政收入Y

表2-8是残差统计结果。

主要显示预测值、标准化预测值、残差和标准化残差等统计量的最大值、最小值、均值和标准差。

可见标准化残差的最大绝对值为1.459。

2.3分析结果

首先,通过散点图和各因素间的相关系数的计算,初步可以确定财政收入Y与工业总产值X1、建筑业X4、人口总数X5具有显著的线性关系。

然后,采用逐步回归的方法,财政收入Y对各个自变量X进行逐步回归,得到线性回归方程。

为了进一步检验该回归方程,下面对其残差进行分析,结果如下图所示。

图2-2标准残差的直方图

由图2-2可知,在标准化残差的直方图中,正态曲线被加在直方图上,判断标准化残差是否呈正态分布。

从图可以看见,它服从近似正态分布,残差不具有自相关性,这个模型是比较理想的模型。

图2-3标准残差和预测值的散点图

由图2-3残差和预测值的散点图可知,随着标准化预值的变化,残差在0线(正态分布)周围随机分布,基本满足线性回归的基本条件。

且标准化残差的绝对值均小于3,因此,该残差的随机性良好,残差序列具有等方差和独立性。

3结论

通过以上分析可以发现,财政收入(Y)与建筑业(X4)、工业总产值(X1)和人口数(X5)相关性显著。

借助SPSS软件对上述数据进行分析,采用逐步回归分析方法,最终得到财政收入与其具有显著性关系的自变量的关系为:

,该回归方程通过对其残差进行检验,结果反映该回归方程拟合效果较好。

另外,最优回归方程的建立也说明了我国的财政收入中很大一部分来自建筑业、工业总产值及人口数。

这也为国家的预算提供了依据,从一个侧面反映出当今中国的产业格局。

当然,由于调研时间有限,上述回归模型存在一些不足,还需要不断查阅资料加以改进。

但在一定程度上体现了与选取的自变量之间的线性关系,并能对因变量做出近似的预测。

综合来看,数据模型基本达到了预期的目的。

 

参考文献

[1]孙海燕,周梦,李卫国,冯伟.应用数理统计[M].北京:

北京航空航天大学数学系,1999.

[2]薛薇.SPSS统计分析方法及应用[M].电子工业出版社.2004.

[3]国家统计数据网.中国统计年鉴2012

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 初中教育 > 语文

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1