完整word版北航数理统计大作业1线性回归分析.docx

资源描述

完整word版北航数理统计大作业1线性回归分析.docx

《完整word版北航数理统计大作业1线性回归分析.docx》由会员分享，可在线阅读，更多相关《完整word版北航数理统计大作业1线性回归分析.docx（31页珍藏版）》请在冰豆网上搜索。

完整word版北航数理统计大作业1线性回归分析.docx

完整word版北航数理统计大作业1线性回归分析

应用数理统计作业一

学号:

姓名：

电话：

二〇一四年十二月

国内生产总值的多元线性回归模型

摘要：

本文首先选取了选取我国自1978至2012年间的国内生产总值为因变量,并选取了7个主要影响因素，进一步利用统计软件SPSS对以上数据进行了多元逐步线性回归。

从而找到了能反映国内生产总值与各因素之间关系的“最优”回归方程.然后利用多重线性的诊断找出存在共线性的自变量，剔除缺失值较多的因子.再次进行主成份线性回归分析,找出最优回归方程。

所得结论与我国当前形势相印证。

关键词:

多元线性回归，逐步回归法，多重共线性诊断，主成份分析

0符号说明

变量

符号

国内生产总值

交通运输增加量

住宿和餐饮业增加值

房地产业

人口

国民总收入

工业生产总值

建筑业生产总值

1介绍

文中主要应用逐步回归的主成份分析方法,对数据进行分析处理，最终得出能够反映各个因素对国内生产总值影响的最“优”模型及线性回归方程.

国内生产总值是指在一定时期内（一个季度或一年），一个国家或地区的经济中所生产出的全部最终产品和劳务的价值,常被公认为衡量国家经济状况的最佳指标.

它不但可反映一个国家的经济表现，还可以反映一国的国力与财富。

2012年1月，国家统计局公布2011年重要经济数据，其中GDP增长9.2％，基本符合预期。

2012年10月18日,统计显示,2012年前三季度国内生产总值353480亿元，同比增长7.7%；其中，一季度增长8.1%，二季度增长7。

6％，三季度增长7.4％，三季度增幅创下2009年二季度以来14个季度新低。

中国的GDP核算历史不长，上世纪90年代之前通常用“社会总产值”来衡量经济发展情况。

上世纪80年代初中国开始研究联合国国民经济核算体系的国内生产总值（GDP）指标。

1985年开始，中国建立GDP核算制度，1992年,正式取消国民收入核算，GDP成为国民经济核算的核心指标。

2003年国家统计局宣布中国将改进GDP核算与数据发布制度，取消容易引起误解的预计数，建立定期修正和调整GDP数据的机制，在发布GDP数据的同时发布相关的重要数据，必要时还将公布核算方法.这是中国提高GDP数据的准确性和透明度，向国际通行办法迈进的重要一步。

2014年将全力推进重点改革创新积极稳妥的推进国家统一核算地区生产总值，深化固定资产投资统计，加快改进能耗统计进一步完善社会消费品零售统计，同时将精心组织实施第三次全国经济普查认真做好普查登记。

尽快制定经济核算图,指定全国统一的核算办法，为2015年正式实施全国统一的核算GDP来打下一个基础。

此举将有效消除近10年来各省GDP总和与国家统计局核算的全国GDP存在较大出入的情况。

2005年12月20日,中国国家统计局根据一项重大的经济统计计划所获得的数据重新发布了中国2004年国内生产总值为15。

98万亿元人民币，比预期增加预期16.8％。

此统计过程世界银行向中国政府提供了咨询。

根据这项统计,中国农业的比例占13。

1％,工业比例占46。

2％，服务业比例上升到40。

7％。

造成中国2004年经济数据大幅度增长的原因是由于本次第一次全国经济普查（全国经济普查）中发现漏报的第三产业经济总值高达2。

4万亿元人民币。

国民生产总值是指一个国家（地区）所有常住机构单位在一定时期内（年或季）收入初次分配的最终成果（简称GNP）。

一个国家常住机构单位从事生产活动所创造的增加值（国内生产总值）在初次分配过程中主要分配给这个国家的常住机构单位,但也有一部分以劳动者报酬和财产收入等形式分配给该国的非常住机构单位。

同时，国外生产单位所创造的增加值也有一部分以劳动者报酬和财产收入等形式分配给该国的常住机构单位。

从而产生了国民生产总值概念,它等于国内生产总值加上来自国外的劳动报酬和财产收入减去支付给国外的劳动者报酬和财产收入.

国内生产总值是反映一国（地区）全部生产活动最终成果的重要指标，是一个国家（地区）领土范围内，包括本国居民、外国居民在内的常住单位在报告期内所产和提供最终使用的产品和服务的价值.

2统计分析步骤

2。

1数据的采集和整理

本文在进行统计时,查阅《中国统计年鉴》中收录的1978年至2012年连续35年的国内生产总值为因变量，考虑一些与国内生产总值关系密切并且直观上有线性关系的因素，经过深思熟虑我初步选取了这35年的交通运输增加量、住宿和餐饮业增加值、房地产业、人口、国民总收入、工业生产总值、建筑业生产总值等因素为自变量，分析它们之间“最优”回归方程.

表2-11978-2012年国内生产总值及其影响因素统计表

年度

交通运输增加值

住宿和餐饮业增加值

房地产业

人口

国民总收入

国内生产总值

工业生产总值

建筑业生产总值

1978

100。

100.0

96259

3645.2

1607.0

138.2

1979

108.3

111。

104。

97542

4062。

1769。

143.8

1980

112。

115。

112。

98705

4545。

4545.6

1996.5

195。

1981

115.0

135。

108.4

100072

4889。

4891.6

2048.4

207.1

1982

128。

178。

118.2

101654

5330。

5323。

2162.3

220。

1983

140。

213.1

124.3

103008

5985。

5962.7

2375.6

270.6

1984

161。

230。

158。

104357

7243.8

7208。

2789。

316。

1985

183。

244.8

198。

105851

9040.7

9016.0

3448。

417。

1986

208.8

283。

249.7

107507

10274。

10275.2

3967.0

525.7

1987

228.9

310.5

322。

109300

12050。

12058。

4585.8

665.8

1988

257.5

388。

363。

111026

15036。

15042.8

5777.2

810。

1989

268。

426.9

421。

112704

17000.9

16992.3

6484.0

794。

1990

290.7

441.8

448。

114333

18718.3

18667.8

6858。

859。

1991

321.4

477.9

501。

115823

21826.2

21781.5

8087.1

1015.1

1992

353.7

607.0

675.9

117171

26937。

26923.5

10284.5

1415。

1993

398.1

657.0

748。

118517

35260.0

35333.9

14188.0

2266.5

1994

432。

835。

838.2

119850

48108.5

48197.9

19480.7

2964.7

1995

479。

920。

942。

121121

59810。

60793.7

24950。

3728.8

1996

532。

983.8

980.5

122389

70142。

71176。

29447.6

4387。

1997

581。

1091.4

1021.0

123626

78060。

78973.0

32921.4

4621。

1998

642。

1212。

1099.4

124761

83024。

84402。

34018。

4985.8

1999

721.2

1305。

1164。

125786

88479。

89677。

35861.5

5172.1

2000

783.0

1427。

1247.5

126743

98000。

99214。

40033.6

5522.3

2001

852。

1536.8

1384。

127627

108068.2

109655。

43580.6

5931。

2002

912.7

1723。

1521。

128453

119095.7

120332。

47431.3

6465.5

2003

968。

1936.4

1671.0

129227

134977。

135822.8

54945。

7490。

2004

1108.9

2175.3

1769.6

129988

159453.6

159878.3

65210.0

8694.3

2005

1233.1

2442.0

1986.1

130756

183617。

184937。

77230。

10367。

2006

1356.0

2748。

2293.5

131448

215904.4

216314.4

91310。

12408.6

2007

1516.0

3013.3

2852.1

132129

266422.0

265810。

110534.9

15296。

2008

1627.1

3302。

2879。

132802

316030。

314045。

130260。

18743。

2009

1695.0

3483.5

3204。

133450

340320。

340902。

135239。

22398.8

2010

1861。

3832.1

3428。

134091

399759.5

401512.8

160722.2

26661。

2011

2044.7

4084。

3658。

134735

468562.4

473104.0

188470。

31942.7

2012

2187。

4410.4

3799.0

135404

516282.1

518942.1

199670。

35491。

2.2采用多重逐步回归分析

解：

拟合国民生产总值与这7个因素的线性回归曲线，，我们不知道他们对于国明生产总值有无影响，那就使用逐步法由软件来选择判断。

运用spss软件中的回归-线性里的一系列功能，输出下列一系列图进行逐步线性回归分析。

图1

由图一可见，有两观察点学生化残差的绝对值大于2,怀疑其为异常点。

不考虑该异常点重新拟合回归模型。

将自变量

作为待筛选量,使用专业统计分析软件IBMSPSSStatistics20进行逐步回归计算，

.有两个变量没有达到选入标准,最终没有进入。

其分析结果如表2—2至2—6所示。

表2-2

输入／移去的变量a

模型

输入的变量

移去的变量

方法

国民总收入

。

步进（准则:

F-to—enter的概率〈=.050，F-to-remove的概率〉=.100）.

建筑业生产总值

。

步进（准则：

F-to-enter的概率<=。

050，F—to-remove的概率〉=.100）。

交通运输增加值

步进（准则：

F—to-enter的概率<=。

050，F-to-remove的概率>=。

100）。

房地产业

。

步进（准则:

F—to—enter的概率〈=。

050,F—to—remove的概率〉=。

100）.

工业生产总值

。

步进（准则:

F—to—enter的概率<=.050，F—to-remove的概率>=。

100）.

a。

因变量:

国内生产总值

表2—2模型的筛选过程

表2—3

模型汇总f

模型

R方

调整R方

标准估计的误差

更改统计量

Durbin-Watson

R方更改

F更改

df1

df2

Sig.F更改

1。

000a

1.000

916。

7542

1。

000

816165.166

。

000

1.000b

1。

000

1.000

829.3019

.000

8。

327

.007

1.000c

1。

000

1。

000

640.4842

。

000

22。

649

。

000

1.000d

1。

000

1.000

583。

2619

.000

7。

381

.011

1.000e

1.000

1。

000

530.7914

。

000

7.224

.012

1.585

a。

预测变量：

（常量）,国民总收入。

b.预测变量:

（常量）,国民总收入，建筑业生产总值。

c.预测变量：

（常量）,国民总收入，建筑业生产总值,交通运输增加值。

d。

预测变量：

（常量），国民总收入，建筑业生产总值,交通运输增加值,房地产业。

e.预测变量:

（常量），国民总收入,建筑业生产总值，交通运输增加值,房地产业，工业生产总值。

f。

因变量：

国内生产总值

表2-3拟合的模型的决定系数的改变情况

表2—4

Anovaa

模型

平方和

均方

Sig。

回归

685936455784.277

685936455784。

277

816165。

166

.000b

残差

27734463。

527

840438。

289

总计

685964190247。

804

回归

685942182514.796

342971091257.398

498691。

751

。

000c

残差

22007733。

008

687741.656

总计

685964190247.804

回归

685951473427。

523

228650491142。

508

557385。

028

。

000d

残差

12716820.281

410220。

009

总计

685964190247.804

回归

685953984413。

896

171488496103。

474

504089。

615

。

000e

残差

10205833.908

340194.464

总计

685964190247.804

回归

685956019801。

895

137191203960。

379

486943。

425

。

000f

残差

8170445。

909

281739。

514

总计

685964190247.804

a。

因变量:

国内生产总值

b。

预测变量:

（常量）,国民总收入。

c。

预测变量:

（常量）,国民总收入,建筑业生产总值.

d。

预测变量：

（常量）,国民总收入，建筑业生产总值,交通运输增加值。

e。

预测变量：

（常量），国民总收入,建筑业生产总值,交通运输增加值,房地产业.

f.预测变量：

（常量），国民总收入，建筑业生产总值，交通运输增加值,房地产业，工业生产总值。

表2—4对拟合后的模型的方差分析检验结果

表2—5

已排除的变量a

模型

BetaIn

Sig。

偏相关

共线性统计量

容差

VIF

最小容差

交通运输增加值

—.003b

-.592

。

558

—。

104

。

039

25.783

.039

住宿和餐饮业增加值

—。

006b

-1.008

.321

—。

175

。

037

27。

071

。

037

房地产业

-.006b

—1。

050

。

302

-.182

。

039

25.531

.039

人口

。

001b

。

563

.577

.099

。

390

2。

567

。

390

工业生产总值

—。

053b

-1。

639

.111

—。

278

.001

891.649

。

001

建筑业生产总值

。

034b

2。

886

。

007

。

454

。

007

137.035

。

007

交通运输增加值

。

037c

4。

759

.000

。

650

。

010

103。

072

.001

住宿和餐饮业增加值

。

032c

3.391

。

002

.520

.009

116.929

.001

房地产业

。

014c

1.756

。

089

。

301

。

016

63.806

.002

人口

.006c

3.290

。

003

。

509

。

255

3。

926

.004

工业生产总值

.027c

.590

。

559

。

105

。

000

2032。

426

.000

住宿和餐饮业增加值

—。

043d

—1。

893

.068

-。

327

。

001

936.554

.001

房地产业

—.025d

—2。

717

。

011

-。

444

.006

166.228

.001

人口

-.004d

—1。

114

.274

—.199

。

053

18.805

.000

工业生产总值

.050d

1.449

.158

。

256

.000

2069。

675

.000

住宿和餐饮业增加值

—。

024e

-1。

003

.324

-。

183

。

001

1110。

820

。

001

人口

—.001e

-.155

.878

—。

029

。

045

22.285

.000

工业生产总值

.082e

2。

688

.012

。

447

。

000

2255.478

.000

住宿和餐饮业增加值

—.037f

—1.755

。

090

-。

315

。

001

1160.669

。

000

人口

.001f

。

163

。

872

。

031

。

044

22。

641

.000

a.因变量:

国内生产总值

b。

模型中的预测变量：

（常量），国民总收入。

c.模型中的预测变量:

（常量）,国民总收入,建筑业生产总值。

d。

模型中的预测变量:

（常量），国民总收入，建筑业生产总值，交通运输增加值。

e.模型中的预测变量：

（常量），国民总收入,建筑业生产总值,交通运输增加值,房地产业。

f。

模型中的预测变量：

（常量）,国民总收入,建筑业生产总值，交通运输增加值，房地产业,工业生产总值。

表2-5多重线性回归拟合模型过程中未进入模型的变量的检验情况

最终的“最优”方程为:

表2-6给出了残差、预测值等一些指标。

表2—6

残差统计量a

极小值

极大值

均值

标准偏差

预测值

3281。

013

519062。

063

113583.545

142039.3504

标准预测值

-。

777

2.855

。

000

1.000

预测值的标准误差

120.372

465.069

203.681

83.742

调整的预测值

3234。

354

519458。

531

113577。

384

142023。

1989

残差

—905.0802

1083。

4408

。

0000

490。

2114

标准残差

-1.705

2。

041

.000

.924

Student化残差

—2。

324

2。

976

.005

1。

112

已删除的残差

—1681.1749

2303。

4717

6.1611

737.4337

Student化已删除的残差

-2.531

3.509

.017

1。

188

Mahal。

距离

.777

25。

130

4.857

5.441

Cook的距离

。

000

1.662

。

112

.313

居中杠杆值

.023

。

739

.143

。

160

a.因变量：

国内生产总值

图2所示为残差的直方图。

可见，残差分布比较均匀,近似正态分布

反应了变量服从正态分布。

图2

如图3所示为残差的正态P—P图,可见残差分布是否正态，可见散点大部分呈直线趋势，可认为应变量服从正态分布。

图3

2.3进行共线性诊断

表2-7即为共线性诊断表格

表2—7

共线性诊断a

模型

维数

特征值

条件索引

方差比例

（常量）

国民总收入

建筑业生产总值

交通运输增加值

房地产业

工业生产总值

1.630

1.000

.19

。

370

2.098

.81

。

2.501

1.000

.05

。

.00

.497

2.244

。

.00

。

002

33。

209

.24

1.00

3。

483

1.000

.01

.00

。

.498

2。

645

.17

.00

。

019

13.682

.30

.00

.02

。

000

98.503

.52

1。

.98

.86

4.470

1.000

.00

。

.00

。

.501

2。

987

.16

.00

。

.00

。

028

12。

687

。

.00

。

001

54。

628

。

.02

。

.43

。

.000

114.037

。

.97

。

5.437

1。

000

。

.00

。

.00

。

532

3。

197

.16

。

展开阅读全文