北航数理统计回归分析大作业Word文档下载推荐.docx

资源描述

北航数理统计回归分析大作业Word文档下载推荐.docx

《北航数理统计回归分析大作业Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《北航数理统计回归分析大作业Word文档下载推荐.docx（20页珍藏版）》请在冰豆网上搜索。

北航数理统计回归分析大作业Word文档下载推荐.docx

对于给定显著性水平

，由样本计算出

的值，若

则拒绝

，说明x对y有显著影响，应在减模型中引入自变量x；

反之则应剔除x，使之成为减模型。

偏F检验通常被用作变量筛选的依据。

逐步回归法中就是对各变量采用偏F法进行检验的。

3）逐步回归法的步骤

逐步回归法的基本思想是：

将变量逐个引入，引入条件是该变量的偏F检验是显著的。

同时，每引入一个新变量后又对老变量逐个检验，将变得不显著的变量从回归模型中剔除。

具体步骤如下：

1、对m个自变量分别与y建立回归模型

，对它们分别计算

，得

中最大的那个值，比如

（Ⅰ）如果

，则计算结束，即y与所有自变量均线性无关；

（Ⅱ）如果

，则引入

，建立回归方程

（2.3）

2、建立y与自变量子集

（

）的二元回归模型

（2.4）

以式（2.4）为全模型，式（2.3）为减模型求

值，并取得

中最大的那个值，比如说

⑴如果

，则计算结束，这时建立的模型为式（2.3）；

⑵如果

（2.5）

3、当引入

后，对

做偏F检验，看

是否需要剔除；

，则不剔除

，并继续引入下一个变量；

，则从式2.4中剔除

，再继续引入下一个变量。

重复上述步骤，直到所有模型外的变量都不能引入，模型内的变量都不能被剔除为止。

3财政收入回归分析实例

本次作业利用SPSS软件和逐步回归法，对原始数据进行了回归分析，并最终获得了“最优”回归方程，解决这个问题。

3.1数据收集及处理

首先进行参考数据的选择，根据查阅书籍以及中国统计局网站得到的数据资料，归纳出可能影响国家财政收入的一些主要因素，包括国内生产总值（亿元），人口数（万人）等。

本文从中选取了国内生产总值（亿元），人口数（万人），能源生产总量（标准煤）（万吨），农作物总播种面积（千公顷），货运量（万吨），出口总额（亿元），进口总额（亿元），建筑业总产值（亿元）8个因素作为本次考查的重点，并对其与财政收入的相关关系进行分析。

表1所示为所选取的自1995年至2012年18年间财政收入与所选变量的数据汇总。

年份

国内生产总值（亿元）

人口数（万人）

能源生产总量（标准煤）（万吨）

农作物总播种面积（千公顷）

货运量（万吨）

出口总额（亿元）

进口总额（亿元）

建筑业总产值（亿元）

财政收入（亿元）

1995

60793.7

121121

129034

149879

1234938

12452

11048

5793.75

6242.2

1996

71176.6

122389

133032

152381

1298421

12576

11557

8282.25

7407.99

1997

78973

123626

133460

153969

1278218

15161

11807

9126.48

8651.14

1998

84402.3

124761

129834

155706

1267427

15224

11626

10061.99

9875.95

1999

89677.1

125786

131935

156373

1293008

16160

13736

11152.86

11444.08

2000

99214.6

126743

135048

156300

1358682

20634

18639

12497.6

13395.23

2001

109655.2

127627

143875

155708

1401786

22024

20159

15361.56

16386.04

2002

120332.7

128453

150656

154636

1483447

26948

24430

18527.18

18903.64

2003

135822.8

129227

171906

152415

1564492

36288

34196

23083.87

21715.25

2004

159878.3

129988

196648

153553

1706412

49103

46436

29021.45

26396.47

2005

184937.4

130756

216219

155488

1862066

62648

54274

34552.1

31649.29

2006

216314.4

131448

232167

152149

2037060

77597

63377

41557.16

38760.2

2007

265810.3

132129

247279

153464

2275822

93564

73300

51043.71

51321.78

2008

314045.4

132802

260552

156266

2585937

100395

79527

62036.81

61330.35

2009

340902.8

133450

274619

158614

2825222

82030

68618

76807.74

68518.3

2010

401202

134091

296916

160675

3241807

107023

94699

96031.13

83101.51

2011

473104.0

134735

317987

162283

3696961

123240.6

113161.4

115734.19

103874.43

2012

518942.1

135404

331848

163416

4099400

129359.3

114801.0

137217.86

117253.52

3.2建立回归模型过程

为了研究财政收入与各种影响因素的关系，必须要建立二者之间的数学模型。

数学模型可以有多种形式，比如线性模型，二次模型，指数模型，对数模型等等。

而实际生活中，影响财政收入的因素很多，并且这些因素的影响不能简单的用某一种模型来描述，所以要建立财政收入的数学模型往往是很难的。

但是为了便于研究，我们可以建立财政收入与各影响因素的线性回归模型，模型如下：

Y=α1X1+α2X2+α3X3+α4X4+α5X5+α6X6+α7X7+α8X8

其中，

是因变量,

是自变量,

是各个自变量的系数。

各变量符号的定义见表2。

3.3线性回归模型的验证

通过一些假设可以得到工业生产总值与各影响因素的线性回归模型。

然而这些假设是否合理，所建模型是否接近实际的工业生产总值，需要进一步验证。

故作出数据散点图，观察因变量与自变量之间关系是否有线性特点。

散点图结果如图1所示。

（1）财政收入与国内生产总值散点图；

（2）财政收入与人口数散点图；

（3）财政收入与能源生产总量；

（4）财政收入与农作物总播种面积散点图；

（5）财政收入与货运量散点图；

（6）财政收入与出口总额散点图；

（7）财政收入与进口总额散点图；

（8）财政收入与建筑业总产值散点图

图1财政收入与各种因素散点图

由于多元逐步回归分析方法是一种多元线性回归方法,指标变量若呈非线性关系则会影响模型精度。

所以首先判断因变量和自变量是否存在非线性关系。

从图1可以看出，人口数X2与财政收入Y之间大致呈指数关系，而农作物总播种面积X4与财政收入Y之间的线性关系很不显著，都是可以首先剔除的变量。

其余变量

都与财政收入Y具有线性作用且正相关，需要通过逐步分析方法进行进一步的显著性判断。

3.4线性回归的结果及分析

利用统计数据建立回归模型，用SPSS软件的线性回归分析功能，得到以下数据。

由表3可以看出货运量、国内生产总值和能源生产总量这三个自变量经过逐步回归过程被选择进入了回归方程。

被选择的判据是变量进入回归方程的F的概率不大于0.05，被剔除的判据是变量进入回归方程的F的概率不小于0.10。

表3输入/移去的变量

模型

输入的变量

移去的变量

方法

货运量（万吨

步进（准则:

F-to-enter的概率<

=.050，F-to-remove的概率>

=.100）。

能源生产总量（万吨）

a.因变量:

财政收入

表4显示三个模型的拟合情况，模型3的复相关系数R=1.000，可决系数

=0.999，调整可决系数为0.999，估计值的标准差为916.74710，可见模型3的拟合度较高。

表4模型汇总

调整R2

标准估计的误差

.999a

.998

1615.37929

1.000b

.999

1163.51991

1.000c

916.74710

a.预测变量:

（常量）,货运量（万吨）

b.预测变量:

（常量）,货运量（万吨）,国内生产总值（亿元）

c.预测变量:

（常量）,货运量（万吨）,国内生产总值（亿元）,能源生产总量（万吨）

d.因变量:

财政收入（亿元）

从表5中看出方差分析结果可以看出，三个模型的F值检验Sig值远小于0.01，可见，最终模型的整体线性关系是成立的。

表5ANOVAd

平方和

均方

Sig.

回归

2.044E10

7832.197

.000a

残差

41751204.003

2609450.250

总计

2.048E10

2.046E10

1.023E10

7556.322

.000b

20306678.791

1353778.586

2.047E10

6.823E9

8117.999

.000c

11765953.531

840425.252

如表6所示，包含的是进入模型的变量，主要描述模型的参数估计值，以及每个变量的系数估计值的显著性检验和共线性检验。

结果模型中所有变量系数的t检验Sig值都接近或小于0.01，说明这些系数都显著的不为0，因此，最终的回归方程应当包含货运量、国内生产总值和能源生产总量这三个自变量，且方程拟和效果很好。

表6系数

非标准化系数

标准系数

标准误差

试用版

（常量）

-39148.932

958.303

-40.852

.000

.038

88.500

-26904.767

3152.897

-8.533

.022

.004

.568

5.233

.103

.026

.432

3.980

.001

-15515.418

4351.514

-3.566

.003

.015

.385

3.731

.002

.176

.031

.737

5.744

-.060

.019

-.124

-3.188

.007

如表7所示，给出的是所有未进入最终模型的变量检验信息，由t检验的Sig值都大于0.1，这些变量对模型的贡献都不明显，所以它们都不包含在最终方程中。

表7排除的变量

Model

BetaIn

偏相关

共线性统计量

容差

.432a

.717

.006

.043a

.926

.369

.233

.061

.066a

1.929

.073

.446

.092

.076a

1.828

.088

.427

.064

-.051a

-.195

.848

-.050

-.124b

-.649

.027

-.049b

-1.117

.283

-.286

.034

-.037b

-.779

.449

-.204

.030

.319b

1.660

.119

.406

.073c

1.478

.163

.379

.016

.101c

2.111

.055

.505

.014

.188c

1.142

.274

.302

a.模型中的预测变量:

（常量）,货运量（万吨）

b.模型中的预测变量:

c模型中的预测变量:

（常量）,货运量（万吨）,国内生产总值（亿元）,能源生产总量（万吨）

表8残差统计量

极小值

极大值

均值

标准偏差

预测值

5652.1587

116279.0000

38679.2983

34698.46056

-1919.03113

1378.36218

.00000

831.93444

标准预测值

-.952

2.236

1.000

标准残差

-2.093

1.504

.907

图2标准化残差直方图

标准化残差的P-P图通过比较样本残差分布与假设的正态分布是否相同来检验残差是否符合正态分布，所有残差点都分布在对角的直线附近，说明残差的正态性假设基本成立。

图3标准P-P图

图4散点图

从图4的的财政收入与其标准化残差散点图中可以看到，所有观测量随机地落在垂直围绕±

2的范围内，预测值与标准化残差值之间没有明显的关系，所以回归方程应该满足线性关系与方差齐性的假设且拟和效果较好。

3.5最优回归方程

由以上多元回归分析可得各个分量的影响关系，从而得出“最优”方程为：

Y=-15515.418+0.176X1-0.060X3+0.015X5

其中R2=0.999，F=8117.999

X1代表国内生产总值，X3代表能源生产总量，X5代表货运量

代入2011年数据，可得Y2011=-15515.418+0.176×

473104.0-0.060×

317987+0.015×

3696961=104126.08

2008年实际财政收入为103874.43（亿元）

可算得误差为e=（104126.081-103874.43）/103874.43×

100%=0.24%，在可接受误差范围之内，可见拟合效果能够满足要求。

4结论

在本次作业中，结合过去的经验和学习结果，我选择了影响财政收入的8个因素，通过查阅2013中国统计年鉴，利用IBMSPSSStatistics19.0软件对所获得的数据进行了分析，建立了线性回归模型，再利用逐步回归法进行回归分析，最终发现所选8个因素中有6个因素与国民总收入之间的的散点图呈现良好的线性关系，但最终进入回归方程的只有国内生产总值、能源生产总量和货运量这三个自变量，可能是数据选取上有些问题或者可能是其他影响因素的线性关系不是很明显。

综合来看，本次作业基本能分析工业生产总值和各影响因素的关系，并得出了主要、次要原因。

最终的线性回归模型显示，国民总收入可以由货运量、国内生产总值和能源生产总量来进行很好的解释，三者都是影响财政收入的重要因素。

然而，最终的模拟结果也显示出拟合曲线和实际点还是有一定的偏差，而且最终分析得到的自变量个数也比较少，可能还有其他因素较显著的影响了财政收入，有待进一步考察。

参考文献：

[1]孙海燕,周梦,李卫国,冯伟.应用数理统计[M].北京:

北京航天航空大学数学系,2014.

[2]国家统计局.2013年中国统计年鉴[M].北京:

中国统计出版社,2013.

[3]蔡建琼,于惠芳,朱志洪等.SPSS统计分析实例精选[M].北京:

清华大学出版社,2006.

展开阅读全文