第5章违背基本假设的问题多重共线性异方差和自相关共36页文档.docx
《第5章违背基本假设的问题多重共线性异方差和自相关共36页文档.docx》由会员分享,可在线阅读,更多相关《第5章违背基本假设的问题多重共线性异方差和自相关共36页文档.docx(13页珍藏版)》请在冰豆网上搜索。
![第5章违背基本假设的问题多重共线性异方差和自相关共36页文档.docx](https://file1.bdocx.com/fileroot1/2022-10/18/e44060e2-395a-4f1d-a9c7-f51c69d0d81b/e44060e2-395a-4f1d-a9c7-f51c69d0d81b1.gif)
第5章违背基本假设的问题多重共线性异方差和自相关共36页文档
第5章、违背基本假设的问题:
“师”之概念,大体是从先秦时期的“师长、师傅、先生”而来。
其中“师傅”更早则意指春秋时国君的老师。
《说文解字》中有注曰:
“师教人以道者之称也”。
“师”之含义,现在泛指从事教育工作或是传授知识技术也或是某方面有特长值得学习者。
“老师”的原意并非由“老”而形容“师”。
“老”在旧语义中也是一种尊称,隐喻年长且学识渊博者。
“老”“师”连用最初见于《史记》,有“荀卿最为老师”之说法。
慢慢“老师”之说也不再有年龄的限制,老少皆可适用。
只是司马迁笔下的“老师”当然不是今日意义上的“教师”,其只是“老”和“师”的复合构词,所表达的含义多指对知识渊博者的一种尊称,虽能从其身上学以“道”,但其不一定是知识的传播者。
今天看来,“教师”的必要条件不光是拥有知识,更重于传播知识。
多重共线性、异方差和自相关
语文课本中的文章都是精选的比较优秀的文章,还有不少名家名篇。
如果有选择循序渐进地让学生背诵一些优秀篇目、精彩段落,对提高学生的水平会大有裨益。
现在,不少语文教师在分析课文时,把文章解体的支离破碎,总在文章的技巧方面下功夫。
结果教师费劲,学生头疼。
分析完之后,学生收效甚微,没过几天便忘的一干二净。
造成这种事倍功半的尴尬局面的关键就是对文章读的不熟。
常言道“书读百遍,其义自见”,如果有目的、有计划地引导学生反复阅读课文,或细读、默读、跳读,或听读、范读、轮读、分角色朗读,学生便可以在读中自然领悟文章的思想内容和写作技巧,可以在读中自然加强语感,增强语言的感受力。
久而久之,这种思想内容、写作技巧和语感就会自然渗透到学生的语言意识之中,就会在写作中自觉不自觉地加以运用、创造和发展。
回顾并再次记住最小二乘法(LS)的三个基本假设:
1.唐宋或更早之前,针对“经学”“律学”“算学”和“书学”各科目,其相应传授者称为“博士”,这与当今“博士”含义已经相去甚远。
而对那些特别讲授“武事”或讲解“经籍”者,又称“讲师”。
“教授”和“助教”均原为学官称谓。
前者始于宋,乃“宗学”“律学”“医学”“武学”等科目的讲授者;而后者则于西晋武帝时代即已设立了,主要协助国子、博士培养生徒。
“助教”在古代不仅要作入流的学问,其教书育人的职责也十分明晰。
唐代国子学、太学等所设之“助教”一席,也是当朝打眼的学官。
至明清两代,只设国子监(国子学)一科的“助教”,其身价不谓显赫,也称得上朝廷要员。
至此,无论是“博士”“讲师”,还是“教授”“助教”,其今日教师应具有的基本概念都具有了。
y=Xβ+ε
2.Rank(X)=K
3.ε|X~N(0,σ2I)
§1、多重共线性(multicollinearity)
1、含义及后果
1)完全的多重共线性
如果存在完全的多重共线性(perfectmulticollinearity),即在X中存在不完全为0的ai,使得
a1x1+…+aKxK=0
即X的列向量之间存在线性相关。
因此,有Rank(X)也即违背了基本假设2。
例子:
C=β1+β2nonlaborincome+β3salary+β4income+ε
2)近似共线性
常见为近似共线性,即
a1x1+…+aKxK0
则有|X’X|0,那么(X’X)-1对角线元素较大。
由于
所以bk的方差将较大。
例子:
Longley是著名例子。
2、检验方法
1)VIF法(方差膨胀因子法,varianceinflationfactor)
第j个解释变量的VIF定义为
此处是第j个解释变量对其他解释变量进行回归的确定系数。
若接近于1,那么VIF数值将较大,说明第j个解释变量与其他解释变量之间存在线性关系。
从而,可以用VIF来度量多重共线性的严重程度。
当大于0.9,也就是VIF大于10时,认为自变量之间存在比较严重的多重共线性。
K个解释变量,就有K个VIF。
可以计算K个VIF的平均值。
若大于10,认为存在比较严重的多重共线性。
VIF方法直观,但是Eviews不能直接计算VIF的数值。
需要逐个进行回归,较为麻烦。
2)相关系数矩阵
例子:
对于longley数据。
在Eviews中,quick/groupstatistics/correlations,输入teyeargnpdgnparm,得到
TE
YEAR
GNPD
GNP
ARM
TE
1.000000
0.971329
0.970899
0.983552
0.457307
YEAR
0.971329
1.000000
0.991149
0.995273
0.417245
GNPD
0.970899
0.991149
1.000000
0.991589
0.464744
GNP
0.983552
0.995273
0.991589
1.000000
0.446437
ARM
0.457307
0.417245
0.464744
0.446437
1.000000
相关系数矩阵的第一列给出了被解释变量与每一个解释变量之间的相关系数;度量了每一个解释变量对被解释变量的个别影响。
除ARM之外,解释变量与被解释变量之间的相关系数都很大。
但是,从剩下的相关系数矩阵可以看到,变量之间的相关系数也很大。
表明变量之间存在严重的多重共线性。
3)条件数(conditionnumber)
首先计算X’X的最大和最小特征根,然后计算如下条件数
若大于20,则认为存在多重共线性。
3、处理方法
1)剔除法(推荐此方法)
方法:
设法找出引起多重共线性的解释变量,并将之剔除在回归方程之外。
准则1:
逐个引入解释变量,根据R2的变化决定是否引入新的解释变量。
如果R2变化显著,那么应该引入,反之不引入。
准则2:
剔除VIF最大的解释变量和不显著的解释变量。
请试着计算每个解释变量的VIF值。
2)岭回归(ridgeregressionestimator)
回忆对于多元线性回归方程,系数的LS估计是
岭回归估计就是计算
此处D是一个对角矩阵,定义为
具体操作:
一般选取r从0.01开始,逐步增加,每次都计算,一直到稳定不变为止。
此方法的优点:
在matlab环境下,使用矩阵运算非常容易计算。
缺点:
一方面,Eviews不带此功能;另外一方面,缺乏对估计结果的解释的直观含义(是什么东西?
)。
3)主成分方法(principalcomponents)
首先,计算对称矩阵X’X的特征根和特征向量,
此处
是特征向量矩阵
是特征根矩阵,
其中特征根从大到小排列。
我们关心最大的前面L个。
其次,计算,即
是新的数据列向量,作为新的解释变量。
最后,将y对Z进行回归,得到
此方法并不难计算,但是问题仍然是很难解释估计结果。
§2、异方差(heteroscedasticity)
1、含义及影响
y=Xβ+ε,var(εi)var(εj),ij,E(ε)=0,
或者记为
即违背假设3。
用LS估计,所得b是无偏的,但不是有效的。
由于E(ε)=0,所以有E(b)=β。
即满足无偏性。
但是,b的方差为
其中。
2、检验(White检验)
举例说明。
若回归方程为
y=β0+β1x1+β2x2+ε
使用残差和解释变量,建立如下辅助回归方程
构造如下原假设
H0:
残差不存在异方差性
直观上,若H0为真,那么会有什么?
可以证明,若H0为真,则
其中n为样本个数,R2为方程(*)的确定系数,m为除常数项外的回归系数的个数。
Eviews命令:
view/residualtests/whiteheteroscedasticity
step1:
双击数据文件production_function.wfl
step2:
输入lslog(x)clog(l1)log(k1),进行回归
step3:
view/residualtests/whiteheteroscedasticity(nocrossterm)(当然也要试一下选择whiteheteroscedasticity(crossterm)的输出结果),有
WhiteHeteroskedasticityTest:
F-statistic
1.275975
Probability
0.298609
Obs*R-squared
5.090339
Probability
0.278153
TestEquation:
DependentVariable:
RESID^2
Method:
LeastSquares
Date:
11/03/04Time:
19:
33
Sample:
19291967
Includedobservations:
39
Variable
Coefficient
Std.Error
t-Statistic
Prob.
C
-0.131866
0.466549
-0.282640
0.7792
LOG(L1)
0.068532
0.215341
0.318251
0.7522
(LOG(L1))^2
-0.005638
0.020636
-0.273236
0.7863
LOG(K1)
-0.024077
0.062504
-0.385210
0.7025
(LOG(K1))^2
0.001880
0.006457
0.291181
0.7727
R-squared
0.130522
Meandependentvar
0.001112
AdjustedR-squared
0.028230
S.D.dependentvar
0.002170
S.E.ofregression
0.002139
Akaikeinfocriterion
-9.337819
Sumsquaredresid
0.000156
Schwarzcriterion
-9.124542
Loglikelihood
187.0875
F-statistic
1.275975
Durbin-Watsonstat
1.899724
Prob(F-statistic)
0.298609
你得到什么结论?
再试一下具有交叉项的情形。
得到如下输出结果:
WhiteHeteroskedasticityTest:
F-statistic
1.045111
Probability
0.408004
Obs*R-squared
5.331424
Probability
0.376785
TestEquation:
DependentVariable:
RESID^2
Method:
LeastSquares
Date:
11/03/04Time:
19:
34
Sample:
19291967
Includedobservations:
39
Variable
Coefficient
Std.Error
t-Statistic
Prob.
C
-0.039274
0.508873
-0.077178
0.9389
LOG(L1)
-0.054201
0.333444
-0.162549
0.8719
(LOG(L1))^2
0.025440
0.067254
0.3