完整word版北航数理统计大作业1线性回归分析.docx
《完整word版北航数理统计大作业1线性回归分析.docx》由会员分享,可在线阅读,更多相关《完整word版北航数理统计大作业1线性回归分析.docx(31页珍藏版)》请在冰豆网上搜索。
完整word版北航数理统计大作业1线性回归分析
应用数理统计作业一
学号:
姓名:
电话:
二〇一四年十二月
国内生产总值的多元线性回归模型
摘要:
本文首先选取了选取我国自1978至2012年间的国内生产总值为因变量,并选取了7个主要影响因素,进一步利用统计软件SPSS对以上数据进行了多元逐步线性回归。
从而找到了能反映国内生产总值与各因素之间关系的“最优”回归方程.然后利用多重线性的诊断找出存在共线性的自变量,剔除缺失值较多的因子.再次进行主成份线性回归分析,找出最优回归方程。
所得结论与我国当前形势相印证。
关键词:
多元线性回归,逐步回归法,多重共线性诊断,主成份分析
0符号说明
变量
符号
国内生产总值
Y
交通运输增加量
X1
住宿和餐饮业增加值
X2
房地产业
X3
人口
X4
国民总收入
X5
工业生产总值
X6
建筑业生产总值
X7
1介绍
文中主要应用逐步回归的主成份分析方法,对数据进行分析处理,最终得出能够反映各个因素对国内生产总值影响的最“优”模型及线性回归方程.
国内生产总值是指在一定时期内(一个季度或一年),一个国家或地区的经济中所生产出的全部最终产品和劳务的价值,常被公认为衡量国家经济状况的最佳指标.
它不但可反映一个国家的经济表现,还可以反映一国的国力与财富。
2012年1月,国家统计局公布2011年重要经济数据,其中GDP增长9.2%,基本符合预期。
2012年10月18日,统计显示,2012年前三季度国内生产总值353480亿元,同比增长7.7%;其中,一季度增长8.1%,二季度增长7。
6%,三季度增长7.4%,三季度增幅创下2009年二季度以来14个季度新低。
中国的GDP核算历史不长,上世纪90年代之前通常用“社会总产值”来衡量经济发展情况。
上世纪80年代初中国开始研究联合国国民经济核算体系的国内生产总值(GDP)指标。
1985年开始,中国建立GDP核算制度,1992年,正式取消国民收入核算,GDP成为国民经济核算的核心指标。
2003年国家统计局宣布中国将改进GDP核算与数据发布制度,取消容易引起误解的预计数,建立定期修正和调整GDP数据的机制,在发布GDP数据的同时发布相关的重要数据,必要时还将公布核算方法.这是中国提高GDP数据的准确性和透明度,向国际通行办法迈进的重要一步。
2014年将全力推进重点改革创新积极稳妥的推进国家统一核算地区生产总值,深化固定资产投资统计,加快改进能耗统计进一步完善社会消费品零售统计,同时将精心组织实施第三次全国经济普查认真做好普查登记。
尽快制定经济核算图,指定全国统一的核算办法,为2015年正式实施全国统一的核算GDP来打下一个基础。
此举将有效消除近10年来各省GDP总和与国家统计局核算的全国GDP存在较大出入的情况。
2005年12月20日,中国国家统计局根据一项重大的经济统计计划所获得的数据重新发布了中国2004年国内生产总值为15。
98万亿元人民币,比预期增加预期16.8%。
此统计过程世界银行向中国政府提供了咨询。
根据这项统计,中国农业的比例占13。
1%,工业比例占46。
2%,服务业比例上升到40。
7%。
造成中国2004年经济数据大幅度增长的原因是由于本次第一次全国经济普查(全国经济普查)中发现漏报的第三产业经济总值高达2。
4万亿元人民币。
国民生产总值是指一个国家(地区)所有常住机构单位在一定时期内(年或季)收入初次分配的最终成果(简称GNP)。
一个国家常住机构单位从事生产活动所创造的增加值(国内生产总值)在初次分配过程中主要分配给这个国家的常住机构单位,但也有一部分以劳动者报酬和财产收入等形式分配给该国的非常住机构单位。
同时,国外生产单位所创造的增加值也有一部分以劳动者报酬和财产收入等形式分配给该国的常住机构单位。
从而产生了国民生产总值概念,它等于国内生产总值加上来自国外的劳动报酬和财产收入减去支付给国外的劳动者报酬和财产收入.
国内生产总值是反映一国(地区)全部生产活动最终成果的重要指标,是一个国家(地区)领土范围内,包括本国居民、外国居民在内的常住单位在报告期内所产和提供最终使用的产品和服务的价值.
2统计分析步骤
2。
1数据的采集和整理
本文在进行统计时,查阅《中国统计年鉴》中收录的1978年至2012年连续35年的国内生产总值为因变量,考虑一些与国内生产总值关系密切并且直观上有线性关系的因素,经过深思熟虑我初步选取了这35年的交通运输增加量、住宿和餐饮业增加值、房地产业、人口、国民总收入、工业生产总值、建筑业生产总值等因素为自变量,分析它们之间“最优”回归方程.
表2-11978-2012年国内生产总值及其影响因素统计表
年度
交通运输增加值
住宿和餐饮业增加值
房地产业
人口
国民总收入
国内生产总值
工业生产总值
建筑业生产总值
1978
100。
0
100。
0
100.0
96259
3645.2
3645.2
1607.0
138.2
1979
108.3
111。
1
104。
1
97542
4062。
6
4062。
6
1769。
7
143.8
1980
112。
9
115。
5
112。
3
98705
4545。
6
4545.6
1996.5
195。
5
1981
115.0
135。
6
108.4
100072
4889。
5
4891.6
2048.4
207.1
1982
128。
1
178。
5
118.2
101654
5330。
5
5323。
4
2162.3
220。
7
1983
140。
2
213.1
124.3
103008
5985。
6
5962.7
2375.6
270.6
1984
161。
1
230。
3
158。
7
104357
7243.8
7208。
1
2789。
0
316。
7
1985
183。
3
244.8
198。
4
105851
9040.7
9016.0
3448。
7
417。
9
1986
208.8
283。
1
249.7
107507
10274。
4
10275.2
3967.0
525.7
1987
228.9
310.5
322。
9
109300
12050。
6
12058。
6
4585.8
665.8
1988
257.5
388。
5
363。
8
111026
15036。
8
15042.8
5777.2
810。
0
1989
268。
3
426.9
421。
8
112704
17000.9
16992.3
6484.0
794。
0
1990
290.7
441.8
448。
2
114333
18718.3
18667.8
6858。
0
859。
4
1991
321.4
477.9
501。
7
115823
21826.2
21781.5
8087.1
1015.1
1992
353.7
607.0
675.9
117171
26937。
3
26923.5
10284.5
1415。
0
1993
398.1
657.0
748。
6
118517
35260.0
35333.9
14188.0
2266.5
1994
432。
0
835。
3
838.2
119850
48108.5
48197.9
19480.7
2964.7
1995
479。
4
920。
8
942。
5
121121
59810。
5
60793.7
24950。
6
3728.8
1996
532。
4
983.8
980.5
122389
70142。
5
71176。
6
29447.6
4387。
4
1997
581。
3
1091.4
1021.0
123626
78060。
9
78973.0
32921.4
4621。
6
1998
642。
9
1212。
2
1099.4
124761
83024。
3
84402。
3
34018。
4
4985.8
1999
721.2
1305。
7
1164。
7
125786
88479。
2
89677。
1
35861.5
5172.1
2000
783.0
1427。
7
1247.5
126743
98000。
5
99214。
6
40033.6
5522.3
2001
852。
0
1536.8
1384。
6
127627
108068.2
109655。
2
43580.6
5931。
7
2002
912.7
1723。
4
1521。
8
128453
119095.7
120332。
7
47431.3
6465.5
2003
968。
6
1936.4
1671.0
129227
134977。
0
135822.8
54945。
5
7490。
8
2004
1108.9
2175.3
1769.6
129988
159453.6
159878.3
65210.0
8694.3
2005
1233.1
2442.0
1986.1
130756
183617。
4
184937。
4
77230。
8
10367。
3
2006
1356.0
2748。
9
2293.5
131448
215904.4
216314.4
91310。
9
12408.6
2007
1516.0
3013.3
2852.1
132129
266422.0
265810。
3
110534.9
15296。
5
2008
1627.1
3302。
6
2879。
5
132802
316030。
3
314045。
4
130260。
2
18743。
2
2009
1695.0
3483.5
3204。
4
133450
340320。
0
340902。
8
135239。
9
22398.8
2010
1861。
0
3832.1
3428。
3
134091
399759.5
401512.8
160722.2
26661。
0
2011
2044.7
4084。
8
3658。
5
134735
468562.4
473104.0
188470。
2
31942.7
2012
2187。
3
4410.4
3799.0
135404
516282.1
518942.1
199670。
7
35491。
3
2.2采用多重逐步回归分析
解:
拟合国民生产总值与这7个因素的线性回归曲线,,我们不知道他们对于国明生产总值有无影响,那就使用逐步法由软件来选择判断。
运用spss软件中的回归-线性里的一系列功能,输出下列一系列图进行逐步线性回归分析。
图1
由图一可见,有两观察点学生化残差的绝对值大于2,怀疑其为异常点。
不考虑该异常点重新拟合回归模型。
将自变量
作为待筛选量,使用专业统计分析软件IBMSPSSStatistics20进行逐步回归计算,
.有两个变量没有达到选入标准,最终没有进入。
其分析结果如表2—2至2—6所示。
表2-2
输入/移去的变量a
模型
输入的变量
移去的变量
方法
1
国民总收入
。
步进(准则:
F-to—enter的概率〈=.050,F-to-remove的概率〉=.100).
2
建筑业生产总值
。
步进(准则:
F-to-enter的概率<=。
050,F—to-remove的概率〉=.100)。
3
交通运输增加值
.
步进(准则:
F—to-enter的概率<=。
050,F-to-remove的概率>=。
100)。
4
房地产业
。
步进(准则:
F—to—enter的概率〈=。
050,F—to—remove的概率〉=。
100).
5
工业生产总值
。
步进(准则:
F—to—enter的概率<=.050,F—to-remove的概率>=。
100).
a。
因变量:
国内生产总值
表2—2模型的筛选过程
表2—3
模型汇总f
模型
R
R方
调整R方
标准估计的误差
更改统计量
Durbin-Watson
R方更改
F更改
df1
df2
Sig.F更改
1
1。
000a
1.000
1.000
916。
7542
1。
000
816165.166
1
33
。
000
2
1.000b
1。
000
1.000
829.3019
.000
8。
327
1
32
.007
3
1.000c
1。
000
1。
000
640.4842
。
000
22。
649
1
31
。
000
4
1.000d
1。
000
1.000
583。
2619
.000
7。
381
1
30
.011
5
1.000e
1.000
1。
000
530.7914
。
000
7.224
1
29
.012
1.585
a。
预测变量:
(常量),国民总收入。
b.预测变量:
(常量),国民总收入,建筑业生产总值。
c.预测变量:
(常量),国民总收入,建筑业生产总值,交通运输增加值。
d。
预测变量:
(常量),国民总收入,建筑业生产总值,交通运输增加值,房地产业。
e.预测变量:
(常量),国民总收入,建筑业生产总值,交通运输增加值,房地产业,工业生产总值。
f。
因变量:
国内生产总值
表2-3拟合的模型的决定系数的改变情况
表2—4
Anovaa
模型
平方和
df
均方
F
Sig。
1
回归
685936455784.277
1
685936455784。
277
816165。
166
.000b
残差
27734463。
527
33
840438。
289
总计
685964190247。
804
34
2
回归
685942182514.796
2
342971091257.398
498691。
751
。
000c
残差
22007733。
008
32
687741.656
总计
685964190247.804
34
3
回归
685951473427。
523
3
228650491142。
508
557385。
028
。
000d
残差
12716820.281
31
410220。
009
总计
685964190247.804
34
4
回归
685953984413。
896
4
171488496103。
474
504089。
615
。
000e
残差
10205833.908
30
340194.464
总计
685964190247.804
34
5
回归
685956019801。
895
5
137191203960。
379
486943。
425
。
000f
残差
8170445。
909
29
281739。
514
总计
685964190247.804
34
a。
因变量:
国内生产总值
b。
预测变量:
(常量),国民总收入。
c。
预测变量:
(常量),国民总收入,建筑业生产总值.
d。
预测变量:
(常量),国民总收入,建筑业生产总值,交通运输增加值。
e。
预测变量:
(常量),国民总收入,建筑业生产总值,交通运输增加值,房地产业.
f.预测变量:
(常量),国民总收入,建筑业生产总值,交通运输增加值,房地产业,工业生产总值。
表2—4对拟合后的模型的方差分析检验结果
表2—5
已排除的变量a
模型
BetaIn
t
Sig。
偏相关
共线性统计量
容差
VIF
最小容差
1
交通运输增加值
—.003b
-.592
。
558
—。
104
。
039
25.783
.039
住宿和餐饮业增加值
—。
006b
-1.008
.321
—。
175
。
037
27。
071
。
037
房地产业
-.006b
—1。
050
。
302
-.182
。
039
25.531
.039
人口
。
001b
。
563
.577
.099
。
390
2。
567
。
390
工业生产总值
—。
053b
-1。
639
.111
—。
278
.001
891.649
。
001
建筑业生产总值
。
034b
2。
886
。
007
。
454
。
007
137.035
。
007
2
交通运输增加值
。
037c
4。
759
.000
。
650
。
010
103。
072
.001
住宿和餐饮业增加值
。
032c
3.391
。
002
.520
.009
116.929
.001
房地产业
。
014c
1.756
。
089
。
301
。
016
63.806
.002
人口
.006c
3.290
。
003
。
509
。
255
3。
926
.004
工业生产总值
.027c
.590
。
559
。
105
。
000
2032。
426
.000
3
住宿和餐饮业增加值
—。
043d
—1。
893
.068
-。
327
。
001
936.554
.001
房地产业
—.025d
—2。
717
。
011
-。
444
.006
166.228
.001
人口
-.004d
—1。
114
.274
—.199
。
053
18.805
.000
工业生产总值
.050d
1.449
.158
。
256
.000
2069。
675
.000
4
住宿和餐饮业增加值
—。
024e
-1。
003
.324
-。
183
。
001
1110。
820
。
001
人口
—.001e
-.155
.878
—。
029
。
045
22.285
.000
工业生产总值
.082e
2。
688
.012
。
447
。
000
2255.478
.000
5
住宿和餐饮业增加值
—.037f
—1.755
。
090
-。
315
。
001
1160.669
。
000
人口
.001f
。
163
。
872
。
031
。
044
22。
641
.000
a.因变量:
国内生产总值
b。
模型中的预测变量:
(常量),国民总收入。
c.模型中的预测变量:
(常量),国民总收入,建筑业生产总值。
d。
模型中的预测变量:
(常量),国民总收入,建筑业生产总值,交通运输增加值。
e.模型中的预测变量:
(常量),国民总收入,建筑业生产总值,交通运输增加值,房地产业。
f。
模型中的预测变量:
(常量),国民总收入,建筑业生产总值,交通运输增加值,房地产业,工业生产总值。
表2-5多重线性回归拟合模型过程中未进入模型的变量的检验情况
最终的“最优”方程为:
表2-6给出了残差、预测值等一些指标。
表2—6
残差统计量a
极小值
极大值
均值
标准偏差
N
预测值
3281。
013
519062。
063
113583.545
142039.3504
35
标准预测值
-。
777
2.855
。
000
1.000
35
预测值的标准误差
120.372
465.069
203.681
83.742
35
调整的预测值
3234。
354
519458。
531
113577。
384
142023。
1989
35
残差
—905.0802
1083。
4408
。
0000
490。
2114
35
标准残差
-1.705
2。
041
.000
.924
35
Student化残差
—2。
324
2。
976
.005
1。
112
35
已删除的残差
—1681.1749
2303。
4717
6.1611
737.4337
35
Student化已删除的残差
-2.531
3.509
.017
1。
188
35
Mahal。
距离
.777
25。
130
4.857
5.441
35
Cook的距离
。
000
1.662
。
112
.313
35
居中杠杆值
.023
。
739
.143
。
160
35
a.因变量:
国内生产总值
图2所示为残差的直方图。
可见,残差分布比较均匀,近似正态分布
反应了变量服从正态分布。
图2
如图3所示为残差的正态P—P图,可见残差分布是否正态,可见散点大部分呈直线趋势,可认为应变量服从正态分布。
图3
2.3进行共线性诊断
表2-7即为共线性诊断表格
表2—7
共线性诊断a
模型
维数
特征值
条件索引
方差比例
(常量)
国民总收入
建筑业生产总值
交通运输增加值
房地产业
工业生产总值
1
1
1.630
1.000
.19
.19
2
。
370
2.098
.81
。
81
2
1
2.501
1.000
.05
。
00
.00
2
.497
2.244
。
71
.00
.00
3
。
002
33。
209
.24
1.00
1.00
3
1
3。
483
1.000
.01
.00
。
00
。
00
2
.498
2。
645
.17
.00
。
00
。
00
3
。
019
13.682
.30
.00
.02
。
14
4
。
000
98.503
.52
1。
00
.98
.86
4
1
4.470
1.000
.00
。
00
.00
.00
。
00
2
.501
2。
987
.16
.00
。
00
.00
.00
3
。
028
12。
687
。
24
.00
。
02
。
01
。
03
4
。
001
54。
628
。
04
.02
。
02
.43
。
92
5
.000
114.037
。
55
.97
。
96
。
55
。
05
5
1
5.437
1。
000
。
00
。
00
.00
。
00
.00
.00
2
。
532
3。
197
.16
。
00