经济统计学40任旭东DOCWord文档下载推荐.docx
《经济统计学40任旭东DOCWord文档下载推荐.docx》由会员分享,可在线阅读,更多相关《经济统计学40任旭东DOCWord文档下载推荐.docx(16页珍藏版)》请在冰豆网上搜索。
120106
2531.733
1998
13726
1942.91
82.17
551.12
1041
130613
2949.059
1999
15596
2323.36
83.12
678.91
1054
141831
3349.042
2000
25346
3004.99
92.21
895.66
1071
143376
3849.081
2001
30038
3369.29
95.65
1042.49
1225
154526
4637.663
2002
39806
4219.45
103.51
1287.64
1396
170962
5480.028
2003
56769
5817.97
109.48
1539.63
1552
190391
6208.265
2004
65786
7622.65
115.26
1966.33
1731
208294
7242.599
2005
93485
8804.51
136.48
2449.97
1792
222473
8418.839
2006
122318
10483.99886
150.25
3003.1
1867
233971
9815.309
2007
153060
12328.77977
173.62
3710.24
1908
248283
12148.07
2008
194579
13311.20066
196.54
4616.02
2263
274123
14500.74
2009
229096
12360.05882
229.13
5802.11
2305
301719
16502.71
2010
293066
16615.14506
255.4
7062.58
2358
328387
19561.85
2011
415829
19508.91
288.3
8687
2409
369523
23869.29
2012
535313
20156.98
324.7
10298.41
2442
414005
27695.97
2013
704936
21923.54
353.3
11846.6
2491
444427
--------
发现该数据有少量缺失,可以通过一定方法来补充之,首先通过各变量与成果(专利受理量)的散点图初步观察个中关系,如图一:
在此图中我们看到所有变量均与成果(Y)呈正相关,并从中发现X3、X6与Y关系最为相近,所以令X6为因变量与X3回归预测缺失数据,得X6=1798.131442+2.561988904*X3容易预测该缺失值为32148.9891961由此我们确定回归模型为:
Yt=β0+β1X1t+β2X2t+β3X3t+β4X4t+β5X5t+β6X6t+μ6t
②我们最终要考量的是技术方面的投入对GDP及相关指标的影响,若第一步中投入影响技术进步(事实上第一步的检验证实技术方面的投入确实影响了技术进步,第二步中技术进步影响GDP,那么科研投入与GDP这一对看似无关的对子就结合起来了,也能充分检验经济转型的成果。
(第二部分详细过程及数据表不附在第一部分中,详见第7页②)第二部分中,将第一部分中的结果(科技成果)作为其中的一个变量,并引入其他与gdp相关的其他变量,如固定资产投资、居民消费、能源消耗,他们之间相互作一元线性回归,看相互影响程度。
3.经济意义和统计检验。
表一软件操作得如下散点图
由图二容易得出结论,虽然该回归得到的方程R2和F统计量表现良好,但是t统计量及其P值表现很差,并且系数β们出现负值---这与我们经济力理论以及散点图的单个变量分析严重不符,在重新审视单个变量散点图时发现多个变量与Y的关系近似呈现指数关系,所以用怀特检验法检验异方差以确定是否需要取对数来修正模型误差
4.异方差、自相关和多重共线性检验及处理
WhiteHeteroskedasticityTest:
F-statistic
2.371497
Probability
0.149142
Obs*R-squared
15.69162
0.205772
图示P值大于0.1表示没有理由表示存在异方差性,所以检验是否存在多重共线性,得相关系数矩阵并在自变量之间做回归检验多重共线性
由表可知各变量间相关性较强,需要继续检验,即以自变量当中的任意一个作为因变量做回归得方差膨胀因子均大于10,(VIFj=1/(1—Rj2))(R2均大于0.9,如下表所示X2为因变量的回归R2=0.998,其余不再这里赘述)
DependentVariable:
X2
Method:
LeastSquares
Date:
06/07/15Time:
19:
16
Sample:
19952013
Includedobservations:
19
Variable
Coefficient
Std.Error
t-Statistic
Prob.
X1
4.38E-05
0.001257
0.034850
0.9727
X3
0.026683
0.007707
3.462101
0.0042
X4
0.031203
0.010200
3.059287
0.0091
X5
-0.000125
0.000140
-0.897586
0.3857
X6
-0.001037
0.003938
-0.263260
0.7965
C
51.99363
10.28444
5.055565
0.0002
R-squared
0.998329
Meandependentvar
158.9584
AdjustedR-squared
0.997686
S.D.dependentvar
90.09223
S.E.ofregression
4.334130
Akaikeinfocriterion
6.023008
Sumsquaredresid
244.2008
Schwarzcriterion
6.321252
Loglikelihood
-51.21858
F-statistic
1552.912
Durbin-Watsonstat
1.526453
Prob(F-statistic)
0.000000
由于存在多重共线性,首先用剔除变量法进行初次修正,由初次回归结果来看,X4的t统计量及P值显示拟合优度最差,且由散点图可观察到近一半的数据呈现X4与Y垂直(即没有关联性)所以将此变量剔除,剔除该变量后做回归发现情况明显好转
Y
33
-3.727889
3.463366
-1.076377
0.3013
X2
-3612.659
652.1395
-5.539703
0.0001
63.98657
29.11576
2.197661
0.0467
-0.861206
0.361561
-2.381911
0.0332
43.86930
12.11711
3.620442
0.0031
263925.2
48427.33
5.449923
0.996731
159102.7
0.995473
198650.4
13365.06
22.09076
2.32E+09
22.38901
-203.8623
792.7163
1.682968
但是再继续剔除变量时情况并没有好转,并且通过检验(怀特检验)得知存在异方差(可能情况为X4方差过大,掩盖了其他变量的异方差情况)
4.316209
0.024648
16.02905
0.098804
P=0.246<
0.05,故存在异方差,目前为止由于异方差和多重共线性两种干扰因素同时存在,所以利用变换对数模型法消除两种不利的影响因素(在多重共线性和异方差中都有取对数修正的方法)故模型变换为
lnYt=β0+β1lnX1t+β2lnX2t+β3lnX3t+β5lnX5t+β6lnX6t+μ6t
对该模型做回归得如下结果
LNY
54
LNX1
0.583758
0.145336
4.016618
0.0015
LNX2
0.586652
0.194928
3.009581
0.0101
LNX3
0.008846
0.452182
0.019563
0.9847
LNX5
0.172763
0.605753
0.285204
0.7800
LNX6
0.532516
0.645968
0.824369
0.4246
-3.770183
4.673669
-0.806686
0.4344
0.998136
11.16194
0.997419
1.397206
0.070984
-2.200623
0.065504
-1.902380
26.90592
1392.154
1.629220
该模型似乎仍然不够好,虽然R2和F统计量均显示很优秀,但是
检验发现仍然存在多重共线性(下表为相关系数矩阵)
1
0.957301976521
0.988554726896
0.980531076607
0.984972036649
0.982012719159
0.983570416321
0.983862498302
0.996355037802
0.99911692693
0.997956133631
(太多了老师看着也麻烦,各变量间的回归方程和VIF就不再展示,总之有方差扩大因子远大于10)运用差分模型仍不奏效(见下图)
Y-Y(-1)
20:
11
Sample(adjusted):
19962013
18afteradjustingendpoints
-6622.288
9813.652
-0.674804
0.5126
X1-X1(-1)
-6.818418
3.863227
-1.764954
0.1030
X2-X2(-1)
-1853.535
1047.059
-1.770229
0.1021
X3-X3(-1)
27.30190
47.62153
0.573310
0.5770
X5-X5(-1)
-0.545487
0.806732
-0.676168
0.5118
X6-X6(-1)
44.27430
12.45266
3.555410
0.0040
差分模型下,自变量的系数表明,该方程仍不能满足经济意义检验(有呈现负相关的情况),t统计量仍然显示该回归方程不能满足统计意义检验(t统计量过小P值过大),所以运用逐步回归法修正,逐步回归之后得:
19
0.522308
0.136463
3.827477
0.0016
0.636422
0.189328
3.361478
0.0043
0.516729
0.166703
3.099695
0.0073
-0.471188
0.578297
-0.814785
0.4279
0.997884
0.997461
0.070398
-2.284635
0.074339
-2.085806
25.70403
2358.467
1.264544
由软件分析出的统计量可见,t统计来给你所对应的P值均远小于0.05,R2和F统计量均很大,自变量系数符合预期与散点图,所以该方程从经济意义和统计意义来说都很可取。
高附加进口增加以单位(亿元)科技成果平均增加0.522个单位,研究人员每增加一单位(万人)科技成果平均增加0.636个单位,研究经费支出每增加一个单位(亿元)科技成果平均增加0.517个单位。
但是我们最常说的教育投入并没有显著影响科技成果的生成,看来教育投入还是不如企业和财政直接投入,科研项目,但科研人员对此有重大影响,而人才培养主要靠教育投入,所以不能只看数据分析还要注重实践与真理。
②我们最终要考量的是技术进步对GDP及相关指标的影响,若第一步中投入影响技术进步,第二步中技术进步影响GDP,那么科研投入与GDP这一对看似无关的对子就结合起来了,也能充分检验经济转型的成果。
可作如下回归:
Y=β0+β1X2+μY=β0+β1X4+μX2=β0+β1X5+μ
数据如下:
GDP(Y)
城镇居民家庭人均现金消费支出(元)(X1)
能源消耗(X2)
工业用水总量(亿立方米)(X3)
国内发明专利申请受理量(项)(X4)
固定资产投资(X5)
63216.9
3537.6
131176
20019.3
74163.6
3919.5
135192
22913.5
81658.5
4185.6
135909
24941.1
86531.6
4331.6
136184
28406.2
91125.0
4615.9
140569
29854.7
98749.0
4998
145531
32917.7
109028.0
5309
150406
37213.5
120475.6
6029.9
159431
43499.9
136613.4
6510.9
183792
55566.61
160956.6
7182.1
213456
1228.9
70477.43
187423.4
7942.9
235997
1285.2
88773.61
222712.5
8696.6
258676
1343.76
109998.2
266599.2
9997.5
280508
1390.9
137323.9
315974.6
11242.9
291448
1397.08
172828.4
348775.1
12264.6
306647
1403.04
224598.8
402816.5
13471.5
324939
1406.4
251683.8
472619.2
15160.9
348002
1423.88
311485.1
529399.2
16674.3
361732
1447.3
374694.7
586673.0
375000
1461.8
446294.1
上图为各变量与GDP(Y)之间的关系用散点图表示,由散点图容易发现:
变量X2、X3、X4与Y的线性关系在2008年前后(实际为2006或2007)发生了明显的改变,虽然该样本数据量较小不宜进行异方差检验,但是可以根据异方差检验方法(格里瑟检验)检验节点前后变量与GDP线性关系有无明显变化:
06/06/15Time:
22:
24
111
11
-60834.87
12308.39
-4.942551
0.0008
1.063068
0.074967
14.18042
0.0000
0.957160
109994.7
0.952400
38366.23
8370.520
21.06579
6.31E+08
Schwarzcr