多元线性回归多重共线性异方差综合实验报告.docx
《多元线性回归多重共线性异方差综合实验报告.docx》由会员分享,可在线阅读,更多相关《多元线性回归多重共线性异方差综合实验报告.docx(31页珍藏版)》请在冰豆网上搜索。
多元线性回归多重共线性异方差综合实验报告
多元线性回归、多重共线性、异方差综合实验报告
一、研究目的和要求:
随着经济的发展,人们生活水平的提高,旅游业已经成为中国社会新的经济增长点。
旅游产业是一个关联性很强的综合产业,一次完整的旅游活动包括吃、住、行、游、购、娱六大要素,旅游产业的发展可以直接或者间接推动第三产业、第二产业和第一产业的发展。
尤其是假日旅游,有力刺激了居民消费而拉动内需。
2012年,我国全年国内旅游人数达到30.0亿人次,同比增长13.6%,国内旅游收入2.3万亿元,同比增长19.1%。
旅游业的发展不仅对增加就业和扩大内需起到重要的推动作用,优化了产业结构,而且可以增加国家外汇收入,促进国际收支平衡,加强国家、地区间的文化交流。
为了研究影响旅游景区收入增长的主要因素,分析旅游收入增长规律,需要建立计量经济模型。
影响旅游业发展的因素很多,但据分析主要因素可能有国内和国际两个方面,因此在进行旅游景区收入分析模型设定时,引入城镇居民可支配收入和旅游外汇收入为解释变量。
旅游业很大程度上受其产业本身的发展水平和从业人数影响,固定资产和从业人数体现了旅游产业发展规模的内在影响因素,因此引入旅游景区固定资产和旅游业从业人数作为解释变量。
因此选取我国31个省市地区的旅游业相关数据进行定量分析我国旅游业发展的影响因素。
二、模型设定
根据以上的分析,建立以下模型:
Y=β
+β1X
+β2X
+β
X
+β
X
+Ut
参数说明:
Y——旅游景区营业收入/万元
X
——旅游业从业人员/人
X
——旅游景区固定资产/万元
X
——旅游外汇收入/万美元
X
——城镇居民可支配收入/元
收集到的数据如下(见表2-1):
表2-12011年全国旅游景区营业收入及相关数据(按地区分)
地区
营业收入
从业人数
固定资产
外汇收入
可支配收入
北京
145249.01
145466
694252.30
541600
32903.03
天津
48712.37
24787
93529.67
175553
26920.86
河北
182226.87
79643
420342.74
44765
18292.23
山西
29465.03
57719
121809.74
56719
18123.87
内蒙古
70313.07
36264
206819.12
67097
20407.57
辽宁
25665.30
64816
46573.27
271314
20466.84
吉林
20389.30
29066
87827.16
38528
17796.57
黑龙江
38367.81
30341
137426.27
91762
15696.18
上海
194762.3
91106
563007.44
575118
36230.48
江苏
316051.65
140154
1195000.60
565297
26340.73
浙江
385976.92
132459
1110975.20
454173
30970.68
安徽
79562.75
55840
139769.02
117918
18606.13
福建
155378.95
80303
151897.69
363444
24907.40
江西
54961.66
41791
85528.05
41500
17494.87
山东
116995.67
143026
327733.29
255076
22791.84
河南
222108.33
70164
482005.32
54903
18194.80
湖北
104565.58
62767
243794.62
94018
18373.87
湖南
118180.87
80615
257226.7
101434
18844.05
广东
476345.50
226539
1160675.4
1390619
26897.48
广西
66195.55
49876
143982.03
105188
18854.06
海南
29081.60
30759
70386.55
37615
18368.95
重庆
86713.67
50160
230124.00
96806
20249.70
四川
218624.03
70756
464763.52
59383
17899.12
贵州
42214.14
27683
62415.21
13507
16495.01
云南
135897.97
62679
348426.04
160861
18575.62
西藏
30406.73
6023
462971.03
12963
16195.56
陕西
48692.17
57077
154529.19
129505
18245.23
甘肃
30949.00
31280
56684.68
1740
14988.68
青海
638.43
8741
9851.28
2659
15603.31
宁夏
49509.86
12196
23149.90
620
17578.92
新疆
28993.11
40451
52280.36
46519
15513.62
数据来源:
1.中国统计年鉴2012,
2.中国旅游年鉴2012。
三、参数估计
(一)操作步骤
利用Eviews6.0做多元线性回归分析步骤如下:
1.创建工作文件
双击Eviews6.0图标,进入其主页。
在主菜单中依次点击“File\New\Workfile”,出现对话框“WorkfileRange”。
本例中是截面数据,在workfilestructuretype中选择“Unstructured/Undated”,在Daterange中填入observations31,点击ok键,完成工作文件的创建。
2.输入数据
在命令栏中输入DATAYX1X2X3X4,回车出现“Group”窗口数据编辑框,在对应的YX1X2X3X4下输入相应数据,关闭对话框将其命名为group01,点击ok,保存。
对数据进行存盘,点击“File/SaveAs”,出现“SaveAs”对话框,选择存入路径,并将文件命名,再点“ok”。
3.参数估计
在Eviews6.0命令栏中键入“LSYCX1X2X3X4”,按回车键,即出现回归结果。
利用Eviews6.0估计模型参数,最小二乘法的回归结果如下:
表3-1回归结果
DependentVariable:
Y
Method:
LeastSquares
Date:
11/14/13Time:
21:
14
Sample:
131
Includedobservations:
31
Coefficient
Std.Error
t-Statistic
Prob.
C
32390.83
39569.49
0.818581
0.4205
X1
0.603624
0.366112
1.648741
0.1112
X2
0.234265
0.041218
5.683583
0.0000
X3
0.044632
0.060755
0.734620
0.4691
X4
-1.914034
2.098257
-0.912202
0.3700
R-squared
0.879720
Meandependentvar
114619.2
AdjustedR-squared
0.861215
S.D.dependentvar
112728.1
S.E.ofregression
41995.55
Akaikeinfocriterion
24.27520
Sumsquaredresid
4.59E+10
Schwarzcriterion
24.50649
Loglikelihood
-371.2657
Hannan-Quinncriter.
24.35060
F-statistic
47.54049
Durbin-Watsonstat
2.007191
Prob(F-statistic)
0.000000
根据表中的样本数据,模型估计结果为
=32390.83+0.603624X
+0.234265X
+0.044632X
-1.914034X
(39569.49)(0.366112)(0.041218)(0.060755)(2.098257)
t=(0.818581)(1.648741)(5.683583)(0.734620)(-0.912202)
R2=0.879720
=0.861215F=47.54049DW=2.007191
可以看出,可决系数R2=0.879720,修正的可决系数
=0.861215。
说明模型的拟合程度还可以。
但是当α=0.05时,X
、X
、X
系数均不能通过检验,且X
的系数为负,与经济意义不符,表明模型很可能存在严重的多重共线性。
四、模型修正
1.多重共线性的检验与修正
(1)检验
选中X1X2X3X4数据,点击右键,选择“Open/asGroup”,在出现的对话框中选择“View/CovarianceAnalysis/correlation”,点击ok,得到相关系数矩阵。
计算各个解释变量的相关系数,得到相关系数矩阵如下。
表4-1相关系数矩阵
变量
X1
X2
X3
X4
X1
1.000000
0.809777
0.872093
0.659239
X2
0.809777
1.000000
0.758322
0.641086
X3
0.872093
0.758322
1.000000
0.716374
X4
0.659239
0.641086
0.716374
1.000000
由相关系数矩阵可以看出,解释变量X2、X3之间存在较高的相关系数,证实确实存在严重的多重共线性。
(2)多重共线性修正
采用逐步回归的办法,检验修正多重共线性问题。
分别作Y对X1、X2、X3、X4的一元回归,在命令窗口分别输入
LSYCX1,LSYCX2,LSYCX3,LSYCX4
保存结果,整理如表4.2所示。
表4-2一元回归结果
变量
X1
X2
X3
X4
参数估计值
1.978224
0.315120
0.316946
12.54525
t统计量
8.635111
12.47495
6.922479
4.005547
R2
0.719983
0.842924
0.622988
0.356191
0.710327
0.837508
0.609988
0.333991
其中,X2的方程
最大,以X2为基础,顺次加入其它变量逐步回归。
在命令窗口中依次输入:
LSYCX2X1,LSYCX2X3,LSYCX2X4,并保存结果,整理结果如表4.3所示。
表4-3加入新变量的回归结果
(一)
变量
变量
X1
X2
X3
X4
X2,X1
0.711446(2.679575)
0.230304(5.891959)
0.866053
X2,X3
0.258113(7.016265)
0.087950(2.043471)
0.853546
X2,X4
0.312045(9.319239)
0.293708(0.143226)
0.831828
经比较,新加入X1的方程
=0.866053,改进最大,而且各个参数的t检验显著,选择保留X1,再加入其它新变量逐步回归,在命令栏中依次输入:
LSYCX2X1X3,LSYCX2X1X4,保存结果,整理结果如表4.4所示。
表4-4加入新变量的回归结果
(二)
变量
变量
X1
X2
X3
X4
X2,X1,X3
0.603269(1.652919)
0.227087(5.630196)
0.024860(0.439370)
0.862078
X2,X1,X4
0.773017(2.741794)
0.237243(5.833838)
-1.364110(-0.701920)
0.863581
当加入X3或X4时,
均没有所增加,且其参数是t检验不显著。
从相关系数可以看出X3、X4与X1、X2之间相关系数较高,这说明X3、X4引起了多重共线性,予以剔除。
当取α=0.05时,tα/2(n-k-1)=2.048,X1、X2的系数t检验均显著,这是最后消除多重共线性的结果。
修正多重共线性影响后的模型为
=0.711446X
+0.230304X
(0.265507)(0.039088)
t=(2.679575)(5.891959)
R2=0.874983
=0.866053F=97.98460DW=1.893654
在确定模型以后,进行参数估计
表4-5消除多重共线性后的回归结果
DependentVariable:
Y
Method:
LeastSquares
Date:
11/14/13Time:
21:
47
Sample:
131
Includedobservations:
31
Coefficient
Std.Error
t-Statistic
Prob.
C
-4316.824
12795.42
-0.337373
0.7384
X1
0.711446
0.265507
2.679575
0.0122
X2
0.230304
0.039088
5.891959
0.0000
R-squared
0.874983
Meandependentvar
114619.2
AdjustedR-squared
0.866053
S.D.dependentvar
112728.1
S.E.ofregression
41257.10
Akaikeinfocriterion
24.18480
Sumsquaredresid
4.77E+10
Schwarzcriterion
24.32357
Loglikelihood
-371.8644
Hannan-Quinncriter.
24.23004
F-statistic
97.98460
Durbin-Watsonstat
1.893654
Prob(F-statistic)
0.000000
五、异方差检验
在实际的经济问题中经常会出现异方差这种现象,因此建立模型时,必须要注意异方差的检验,否则,在实际中会失去意义。
(一)检验异方差
由表4.5的结果,按路径“View/ResidualTests/HeteroskedasticityTests”,在出现的对话框中选择Specification:
White,点击ok.得到White检验结果如下。
表5-1White检验结果
HeteroskedasticityTest:
White
F-statistic
3.676733
Prob.F(5,25)
0.0125
Obs*R-squared
13.13613
Prob.Chi-Square(5)
0.0221
ScaledexplainedSS
15.97891
Prob.Chi-Square(5)
0.0069
TestEquation:
DependentVariable:
RESID^2
Method:
LeastSquares
Date:
11/14/13Time:
21:
48
Sample:
131
Includedobservations:
31
Coefficient
Std.Error
t-Statistic
Prob.
C
-1.10E+09
1.11E+09
-0.992779
0.3303
X1
-12789.36
30151.30
-0.424173
0.6751
X1^2
0.420716
0.294332
1.429393
0.1653
X1*X2
-0.101814
0.083576
-1.218216
0.2345
X2
14604.52
5047.701
2.893301
0.0078
X2^2
-0.002489
0.008030
-0.309972
0.7592
R-squared
0.423746
Meandependentvar
1.54E+09
AdjustedR-squared
0.308495
S.D.dependentvar
2.70E+09
S.E.ofregression
2.24E+09
Akaikeinfocriterion
46.07313
Sumsquaredresid
1.26E+20
Schwarzcriterion
46.35068
Loglikelihood
-708.1335
Hannan-Quinncriter.
46.16360
F-statistic
3.676733
Durbin-Watsonstat
1.542170
Prob(F-statistic)
0.012464
从上表可以看出,nR
=13.13613,由White检验可知,在α=0.05下,查
分布表,得临界值χ
(5)=11.0705,比较计算的
统计量与临界值,因为nR
=13.13613>χ
(5)=11.0705,所以拒绝原假设,表明模型存在异方差。
(二)异方差的修正
1.用WLS估计:
选择权重w=1/e1^2,其中e1=resid。
在命令窗口中输入genre1=resid,点回车键。
在消除多重共线性后的回归结果(表4.5的回归结果)对话框中点击Estimate/Options/WeithtedLS/TSLS,并在Weight中输入1/e1^2,点确定,得到如下回归结果。
表5-2用权数1/e1^2的回归结果
DependentVariable:
Y
Method:
LeastSquares
Date:
11/14/13Time:
21:
49
Sample:
131
Includedobservations:
31
Weightingseries:
1/E1^2
Coefficient
Std.Error
t-Statistic
Prob.
C
-7074.873
389.4944
-18.16425
0.0000
X1
0.788277
0.013692
57.57099
0.0000
X2
0.235806
0.000968
243.6786
0.0000
WeightedStatistics
R-squared
0.999848
Meandependentvar
31056.56
AdjustedR-squared
0.999837
S.D.dependentvar
171821.4
S.E.ofregression
4.259384
Akaikeinfocriterion
5.827892
Sumsquaredresid
507.9857
Schwarzcriterion
5.966665
Loglikelihood
-87.33232
Hannan-Quinncriter.
5.873128
F-statistic
92014.78
Durbin-Watsonstat
1.663366
Prob(F-statistic)
0.000000
UnweightedStatistics
R-squared
0.871469
Meandependentvar
114619.2
AdjustedR-squared
0.862288
S.D.dependentvar
112728.1
S.E.ofregression
41832.86
Sumsquaredresid
4.90E+10
Durbin-Watsonstat
1.853343
2.修正后的White检验为
在表5.2的回归结果中,按路径“View/ResidualTests/HeteroskedasticityTests”,在出现的对话框中选择Specification:
White,点击ok.得到White检验结果如下。
表5-3修正后的White检验结果
HeteroskedasticityTest:
White
F-statistic
0.210748
Prob.F(2,28)
0.8113