第二章--回归分析与模型设定(高级计量经济学-清华大学-潘文清).ppt

资源描述

第二章--回归分析与模型设定(高级计量经济学-清华大学-潘文清).ppt

《第二章--回归分析与模型设定(高级计量经济学-清华大学-潘文清).ppt》由会员分享，可在线阅读，更多相关《第二章--回归分析与模型设定(高级计量经济学-清华大学-潘文清).ppt（39页珍藏版）》请在冰豆网上搜索。

第二章--回归分析与模型设定(高级计量经济学-清华大学-潘文清).ppt

第二章回归分析与模型设定,GeneralRegressionAnalysisandModelSpecification,回归分析（RegressionAnalysis）:

一种最常用的统计分析工具，用来分析一个变量关于其他变量的依赖关系。

X与Y间的回归关系可用来研究X对Y的影响，或用X来预测Y。

一、总体均值与样本均值HowtofindtherelationshipbetweenXandY?

理论上应寻找总体回归函数（PRF）,即在给定X时，Y的条件均值的函数:

Y|x=E（Y|X）=F（X）,2.1回归分析:

问题的引入egressionAnalysis:

Introduction,但我们往往只能得到样本数据。

因此自然想到用样本均值来估计总体均值，并寻找样本回归函数（SRF）:

mY|x=f（X）,PRF,SRF,X,Y,WehopetheSRFisagoodestimateofthePRF.,Table2.1JointfrequencydistributionofX=incomeandY=savingrate,Asimpleillustration:

howtofindthesamplemean,表2.1是1960年美国1027个家庭关于收入与储蓄率的联合频率分布.p（xi,yj）=theproportionofthe1027familieswhoreportedthecombination（X=xiandY=yj）.,TheconditionalmeanofYgivenX=xiis,mY|X,ConditionalmeanfunctionofYonX,Fig2.1,同样地,如果可获得总体数据，我们就可得到给出X值时Y的总体条件均值（populationconditionalmeans）,（xi,yi）=jointfrequenciesofthepopulation（xi）=j（xi,yi）=marginalfrequenciesofX（yj|xi）=（xi,yi）/（xi）=conditionalfrequenciesofYgivenXX=ixi（xi）=populationmeanofXY|X=jyi（yj|xi）=populationconditionalmeanofYgivenX,Y|x=E（Y|X）=F（X）,mY|x=f（X）,Question:

howtogetf（x）?

如果经济理论表明:

Y|x=+X但表2.1显示mY|X并非一条直线-我们是保持mY|X的原样呢?

还是对样本的mY|X通过一条直线来平滑:

m*Y|X=a+bX,-如果用平滑线,如何寻找该直线?

-用平滑线估计总体均值，要比样本均值估计效果更好吗?

如果经济理论表明:

Y|X=X-如何寻找该曲线（curve）?

平滑的样本曲线m*Y|X仍能告知有关Y|X的相关信息吗？

二、条件分布,假设（X,Y）的联合概率密度函数（jointprobabilitydensityfunction,pdf）为f（x,y），则X的边际密度函数（marginalpdf）:

fX（x）=f（x,y）dyY在X=x的条件密度函数（conditionalpdf）:

fY|X（y|x）=f（x,y）/fX（x）,条件pdffY|X（y|x）完全描述了Y对X的依赖关系。

已知条件pdf,可计算:

条件期望（Theconditionalmean）,条件方差（Theconditionalvariance）,条件偏度（Theconditionalskewness）,条件峰度（Theconditionalkurtosis）,2.2回归分析RegressionAnalysis,WhatstatisticalpropertiesdoesE（Y|X）process?

一、回归函数及其性质,定义RegressionFunction:

称条件期望E（Y|X）为Y关于X的回归函数（regressionfunction）。

LemmaLawofiteratedexpectation:

EE（Y|X）=E（Y）,例:

WhyisE（Y|X）importantfromastatisticalPerspective?

假设我们希望使用X的函数g（X）来预测Y，且使用均方误（MeanSquareError,MSE）准则来评估g（X）逼近Y的程度.则均方误准则（MSEcriterion）下的最优预测就是条件期望E（Y|X）.。

定义MSE:

Themeansquareerroroffunctiong（X）usedtopridictYisdefinedasMSE（g）=EY-g（X）2,记g0（X）=E（Y|X）则MSE（g）=EY-g（X）2=EY-g0（X）+g0（X）-g（X）2=EY-g0（X）2+Eg0（X）-g（X）2+2EY-g0（X）g0（X）-g（X）=EY-g0（X）2+Eg0（X）-g（X）2=方差+偏误2方差测度了Y对其期望真实误差（trueerror）。

偏误20，且g（X）=g0（X）时等号成立.因此，选择g（X）=E（Y|X）可使MSE（g）达到极小。

证明:

使用方差与偏误平方分解技术,TheoremRegressionIdentity:

给定E（Y|X）,总有如下等价式：

Y=E（Y|X）+=Y-E（Y|X）这里称为回归扰动项（regressiondisturbance）且满足E（|X）=0,证明:

定义=Y-E（Y|X），则E（|X）=EY-E（Y|X）|X=E（Y|X）E（Y|X）=0,二、回归函数的等价形式,注意:

（a）回归函数E（Y|X）可用来通过X的信息预测Y的均值;（b）E（|X）=0意味着回归误差不包含X的任何可用来预测Y的信息。

换言之,所有可用来预测Y期望值的信息都完全包含在E（Y|X）之中。

条件E（|X）=0对模型参数经济含义的解释至关重要（crucial）。

如果Var（|X）=20,称是条件同方差的（conditionalhomoskedasticity）.否则,如果Var（|X）=2（X）,称存在条件异方差（conditionalheteroskedastisity）,注意：

计量经济方法往往视是否存在条件异方差而有所不同。

Example:

设Y=0+（1+2）X+其中X与相互独立,且E（）=0,Var（）=2。

求E（Y|X）及Var（Y|X）.,E（Y|X）=0+E（1+2）X|X+E（|X）=0+1X+2XE（|X）+E（|X）=0+1X+2X0+0=0+1XVar（Y|X）=EY-E（Y|X）2|X=E0+（1+2）X+-（0+1X）2|X=E（2X+）2|X=E（2X+1）22|X=（1+2X）2E（2|X）=（1+2X）22,注意:

该例解释了为什么的条件方差可能依赖X。

Question:

HowtomodelE（Y|X）?

一、建立条件期望E（Y|X）的模型,总地说来,有种最基本的方法：

（a）非参数法（Nonparametricapproach）（b）参数法（Parametricapproach）,在经典计量经济学中,我们只关注参数方法：

ByrestrictingtheclassoffunctionsF,wesolvetheMSE-minimizationproblem,特别地,我们通常只用一簇线性函数（linearfunctions）来近似g0（X）.当然，可以用类似的方法来建立g0（X）的非线性回归模型（Nonlinearregressionmodels）,对该簇函数,函数形式已知为线性;未知的是（k+1）1向量.,注意:

（1）这里函数簇A的主要特征是g（X）=X关于是线性的。

关于X可以是非线性的，如g（X）=0+1X+2X2或g（X）=0+1lnX

（2）关于参数的取值没有约束。

证明：

求解最小化问题,根据一阶偏导为零的条件,设*满足上述一阶条件，则,EX（Y-X*）=0E（XY）-E（XX*）=0E（XY）=E（XX）*=E（XX）-1E（XY）,注意：

（a）条件E（Y2）保征E（Y|X）存在；（b）非奇异矩阵,保证解*存在。

（c）一般地，最佳线性最小二乘预测值（thebestlinearLSpredictor）g*（X）=X*E（Y|X）.,Question:

Whatistheinterpretationfor*?

在一元线性回归g（X）=X中，=（0,1）,X=（1,X1）。

Slope:

Intercept:

Why?

验证,于是：

由于,则：

而,于是,可通过求解minE（Y-（0+1X1）2的方法解出*0，*1,DefinitionLinearRegressionModel:

ThespecificationY=X+u,Rk+1iscalledalinearregressionmodel,whereuisthemodelregressiondisturbanceorregressionerror.,注意：

线性回归模型（linearregressionmodel）是人为定义的。

因此，该模型可能没有包括真正的回归函数（regressionfunction）:

g0（X）=E（Y|X）,二、线性回归模型,Theorem:

对线性回归模型Y=X+u以*代表最佳线性最小二乘解（bestlinearleastsquareapproximationcoefficient），则=*当且仅当如下正交条件成立：

E（Xu）=0,Proof:

记u=Y-X如果=*，则E（Xu）=E（XY）-E（XX）*=E（XY）-E（XX）E（XX）-1E（XY）=0如果E（Xu）=0,则E（Xu）=E（XY）-E（XX）=0于是：

=E（XX）-1E（XY）=*,注意：

（1）无论E（Y|X）是否线性，我们总可以写出线性回归模型Y=X+u，并设定E（Xu）=0，以使=*；

（2）当X中包含有截距项时（如X1=1），E（Xu）=0就意味着E（u）=0。

（Why?

）（3）E（Xu）=0与E（u|X）=0不能等同。

有E（u|X）=0就有E（Xu）=0,但反之不成立。

例如：

设u=1+，X与为相互独立且服从标准正态分布N（0,1）的两随机变量，则E（u|X）=1E（Xu）=E（X1）+E（X）=E（X）+E（X）E（）=0（4）当E（u）=0时，E（Xu）=Cov（X,u）（Why?

）,2.4模型的正确设定CorrectModelSpecification,对于被解释变量Y，最好的代表就是其条件期望E（Y|X），因此，线性模型中模型的

展开阅读全文