1、第5章违背基本假设的问题多重共线性异方差和自相关共36页文档第5章、违背基本假设的问题:“师”之概念,大体是从先秦时期的“师长、师傅、先生”而来。其中“师傅”更早则意指春秋时国君的老师。说文解字中有注曰:“师教人以道者之称也”。“师”之含义,现在泛指从事教育工作或是传授知识技术也或是某方面有特长值得学习者。“老师”的原意并非由“老”而形容“师”。“老”在旧语义中也是一种尊称,隐喻年长且学识渊博者。“老”“师”连用最初见于史记,有“荀卿最为老师”之说法。慢慢“老师”之说也不再有年龄的限制,老少皆可适用。只是司马迁笔下的“老师”当然不是今日意义上的“教师”,其只是“老”和“师”的复合构词,所表达的
2、含义多指对知识渊博者的一种尊称,虽能从其身上学以“道”,但其不一定是知识的传播者。今天看来,“教师”的必要条件不光是拥有知识,更重于传播知识。 多重共线性、异方差和自相关语文课本中的文章都是精选的比较优秀的文章,还有不少名家名篇。如果有选择循序渐进地让学生背诵一些优秀篇目、精彩段落,对提高学生的水平会大有裨益。现在,不少语文教师在分析课文时,把文章解体的支离破碎,总在文章的技巧方面下功夫。结果教师费劲,学生头疼。分析完之后,学生收效甚微,没过几天便忘的一干二净。造成这种事倍功半的尴尬局面的关键就是对文章读的不熟。常言道“书读百遍,其义自见”,如果有目的、有计划地引导学生反复阅读课文,或细读、默
3、读、跳读,或听读、范读、轮读、分角色朗读,学生便可以在读中自然领悟文章的思想内容和写作技巧,可以在读中自然加强语感,增强语言的感受力。久而久之,这种思想内容、写作技巧和语感就会自然渗透到学生的语言意识之中,就会在写作中自觉不自觉地加以运用、创造和发展。 回顾并再次记住最小二乘法(LS)的三个基本假设:1. 唐宋或更早之前,针对“经学”“律学”“算学”和“书学”各科目,其相应传授者称为“博士”,这与当今“博士”含义已经相去甚远。而对那些特别讲授“武事”或讲解“经籍”者,又称“讲师”。“教授”和“助教”均原为学官称谓。前者始于宋,乃“宗学”“律学”“医学”“武学”等科目的讲授者;而后者则于西晋武帝
4、时代即已设立了,主要协助国子、博士培养生徒。“助教”在古代不仅要作入流的学问,其教书育人的职责也十分明晰。唐代国子学、太学等所设之“助教”一席,也是当朝打眼的学官。至明清两代,只设国子监(国子学)一科的“助教”,其身价不谓显赫,也称得上朝廷要员。至此,无论是“博士”“讲师”,还是“教授”“助教”,其今日教师应具有的基本概念都具有了。 y=X+2. Rank(X)=K3. |XN(0,2I)1、多重共线性(multicollinearity)1、含义及后果1)完全的多重共线性如果存在完全的多重共线性(perfect multicollinearity),即在X中存在不完全为0的ai,使得a1x1
5、+aKxK=0即X的列向量之间存在线性相关。因此,有Rank(X)K,从而|XX|=0,即b=(XX)-1Xy不存在,OLS失效。也即违背了基本假设2。例子:C=1+2nonlabor income + 3salary +4income + 2)近似共线性常见为近似共线性,即a1x1+aKxK0则有|XX|0,那么(XX)-1对角线元素较大。由于所以bk的方差将较大。例子:Longley是著名例子。2、检验方法1) VIF法(方差膨胀因子法,variance inflation factor)第j个解释变量的VIF定义为此处是第j个解释变量对其他解释变量进行回归的确定系数。若接近于1,那么VI
6、F数值将较大,说明第j个解释变量与其他解释变量之间存在线性关系。从而,可以用VIF来度量多重共线性的严重程度。当大于0.9,也就是VIF大于10时,认为自变量之间存在比较严重的多重共线性。K个解释变量,就有K个VIF。可以计算K个VIF的平均值。若大于10,认为存在比较严重的多重共线性。VIF方法直观,但是Eviews不能直接计算VIF的数值。需要逐个进行回归,较为麻烦。2) 相关系数矩阵例子:对于longley数据。在Eviews中,quick/group statistics/correlations,输入te year gnpd gnp arm,得到TEYEARGNPDGNPARMTE
7、1.000000 0.971329 0.970899 0.983552 0.457307YEAR 0.971329 1.000000 0.991149 0.995273 0.417245GNPD 0.970899 0.991149 1.000000 0.991589 0.464744GNP 0.983552 0.995273 0.991589 1.000000 0.446437ARM 0.457307 0.417245 0.464744 0.446437 1.000000相关系数矩阵的第一列给出了被解释变量与每一个解释变量之间的相关系数;度量了每一个解释变量对被解释变量的个别影响。除ARM之外
8、,解释变量与被解释变量之间的相关系数都很大。但是,从剩下的相关系数矩阵可以看到,变量之间的相关系数也很大。表明变量之间存在严重的多重共线性。3) 条件数(condition number)首先计算XX的最大和最小特征根,然后计算如下条件数若大于20,则认为存在多重共线性。3、处理方法1)剔除法(推荐此方法)方法:设法找出引起多重共线性的解释变量,并将之剔除在回归方程之外。准则1:逐个引入解释变量,根据R2的变化决定是否引入新的解释变量。如果R2变化显著,那么应该引入,反之不引入。准则2:剔除VIF最大的解释变量和不显著的解释变量。请试着计算每个解释变量的VIF值。2)岭回归(ridge reg
9、ression estimator)回忆对于多元线性回归方程,系数的LS估计是岭回归估计就是计算此处D是一个对角矩阵,定义为具体操作:一般选取r从0.01开始,逐步增加,每次都计算,一直到稳定不变为止。此方法的优点:在matlab环境下,使用矩阵运算非常容易计算。缺点:一方面,Eviews不带此功能;另外一方面,缺乏对估计结果的解释的直观含义(是什么东西?)。3)主成分方法(principal components)首先,计算对称矩阵XX的特征根和特征向量,此处是特征向量矩阵是特征根矩阵,其中特征根从大到小排列。我们关心最大的前面L个。其次,计算,即是新的数据列向量,作为新的解释变量。最后,将
10、y对Z进行回归,得到此方法并不难计算,但是问题仍然是很难解释估计结果。2、异方差(heteroscedasticity)1、含义及影响y=X+,var(i)var(j), ij,E()=0,或者记为即违背假设3。用LS估计,所得b是无偏的,但不是有效的。由于E()=0,所以有E(b)=。即满足无偏性。但是,b的方差为其中。2、检验(White检验)举例说明。若回归方程为y=0+1x1 + 2x2 + 使用残差和解释变量,建立如下辅助回归方程构造如下原假设H0:残差不存在异方差性直观上,若H0为真,那么会有什么?可以证明,若H0为真,则其中n为样本个数,R2为方程(*)的确定系数,m为除常数项外
11、的回归系数的个数。Eviews命令:view/residual tests/white heteroscedasticitystep1:双击数据文件production_function.wflstep2:输入ls log(x) c log(l1) log(k1),进行回归step3:view/residual tests/white heteroscedasticity(no cross term)(当然也要试一下选择white heteroscedasticity(cross term)的输出结果),有White Heteroskedasticity Test:F-statistic1.2
12、75975 Probability0.298609Obs*R-squared5.090339 Probability0.278153Test Equation:Dependent Variable: RESID2Method: Least SquaresDate: 11/03/04 Time: 19:33Sample: 1929 1967Included observations: 39VariableCoefficientStd. Errort-StatisticProb. C-0.1318660.466549-0.2826400.7792LOG(L1)0.0685320.2153410.3
13、182510.7522(LOG(L1)2-0.0056380.020636-0.2732360.7863LOG(K1)-0.0240770.062504-0.3852100.7025(LOG(K1)20.0018800.0064570.2911810.7727R-squared0.130522 Mean dependent var0.001112Adjusted R-squared0.028230 S.D. dependent var0.002170S.E. of regression0.002139 Akaike info criterion-9.337819Sum squared resi
14、d0.000156 Schwarz criterion-9.124542Log likelihood187.0875 F-statistic1.275975Durbin-Watson stat1.899724 Prob(F-statistic)0.298609你得到什么结论?再试一下具有交叉项的情形。得到如下输出结果:White Heteroskedasticity Test:F-statistic1.045111 Probability0.408004Obs*R-squared5.331424 Probability0.376785Test Equation:Dependent Variable: RESID2Method: Least SquaresDate: 11/03/04 Time: 19:34Sample: 1929 1967Included observations: 39VariableCoefficientStd. Errort-StatisticProb. C-0.0392740.508873-0.0771780.9389LOG(L1)-0.0542010.333444-0.1625490.8719(LOG(L1)20.0254400.0672540.3
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1