第二章--回归分析与模型设定(高级计量经济学-清华大学-潘文清).ppt
《第二章--回归分析与模型设定(高级计量经济学-清华大学-潘文清).ppt》由会员分享,可在线阅读,更多相关《第二章--回归分析与模型设定(高级计量经济学-清华大学-潘文清).ppt(39页珍藏版)》请在冰豆网上搜索。
第二章回归分析与模型设定,GeneralRegressionAnalysisandModelSpecification,回归分析(RegressionAnalysis):
一种最常用的统计分析工具,用来分析一个变量关于其他变量的依赖关系。
X与Y间的回归关系可用来研究X对Y的影响,或用X来预测Y。
一、总体均值与样本均值HowtofindtherelationshipbetweenXandY?
理论上应寻找总体回归函数(PRF),即在给定X时,Y的条件均值的函数:
Y|x=E(Y|X)=F(X),2.1回归分析:
问题的引入egressionAnalysis:
Introduction,但我们往往只能得到样本数据。
因此自然想到用样本均值来估计总体均值,并寻找样本回归函数(SRF):
mY|x=f(X),PRF,SRF,X,Y,WehopetheSRFisagoodestimateofthePRF.,Table2.1JointfrequencydistributionofX=incomeandY=savingrate,Asimpleillustration:
howtofindthesamplemean,表2.1是1960年美国1027个家庭关于收入与储蓄率的联合频率分布.p(xi,yj)=theproportionofthe1027familieswhoreportedthecombination(X=xiandY=yj).,TheconditionalmeanofYgivenX=xiis,mY|X,ConditionalmeanfunctionofYonX,Fig2.1,同样地,如果可获得总体数据,我们就可得到给出X值时Y的总体条件均值(populationconditionalmeans),(xi,yi)=jointfrequenciesofthepopulation(xi)=j(xi,yi)=marginalfrequenciesofX(yj|xi)=(xi,yi)/(xi)=conditionalfrequenciesofYgivenXX=ixi(xi)=populationmeanofXY|X=jyi(yj|xi)=populationconditionalmeanofYgivenX,Y|x=E(Y|X)=F(X),mY|x=f(X),Question:
howtogetf(x)?
如果经济理论表明:
Y|x=+X但表2.1显示mY|X并非一条直线-我们是保持mY|X的原样呢?
还是对样本的mY|X通过一条直线来平滑:
m*Y|X=a+bX,-如果用平滑线,如何寻找该直线?
-用平滑线估计总体均值,要比样本均值估计效果更好吗?
如果经济理论表明:
Y|X=X-如何寻找该曲线(curve)?
平滑的样本曲线m*Y|X仍能告知有关Y|X的相关信息吗?
二、条件分布,假设(X,Y)的联合概率密度函数(jointprobabilitydensityfunction,pdf)为f(x,y),则X的边际密度函数(marginalpdf):
fX(x)=f(x,y)dyY在X=x的条件密度函数(conditionalpdf):
fY|X(y|x)=f(x,y)/fX(x),条件pdffY|X(y|x)完全描述了Y对X的依赖关系。
已知条件pdf,可计算:
条件期望(Theconditionalmean),条件方差(Theconditionalvariance),条件偏度(Theconditionalskewness),条件峰度(Theconditionalkurtosis),2.2回归分析RegressionAnalysis,WhatstatisticalpropertiesdoesE(Y|X)process?
一、回归函数及其性质,定义RegressionFunction:
称条件期望E(Y|X)为Y关于X的回归函数(regressionfunction)。
LemmaLawofiteratedexpectation:
EE(Y|X)=E(Y),例:
设Y=工资,X=1(女性)andX=0(男性),则E(Y|X=1)=女性员工平均工资E(Y|X=0)=男性员工平均工资,EE(Y|X)=P(X=1)E(Y|X=1)+P(X=0)E(Y|X=0)=全体平均工资=E(Y),Question:
WhyisE(Y|X)importantfromastatisticalPerspective?
假设我们希望使用X的函数g(X)来预测Y,且使用均方误(MeanSquareError,MSE)准则来评估g(X)逼近Y的程度.则均方误准则(MSEcriterion)下的最优预测就是条件期望E(Y|X).。
定义MSE:
Themeansquareerroroffunctiong(X)usedtopridictYisdefinedasMSE(g)=EY-g(X)2,记g0(X)=E(Y|X)则MSE(g)=EY-g(X)2=EY-g0(X)+g0(X)-g(X)2=EY-g0(X)2+Eg0(X)-g(X)2+2EY-g0(X)g0(X)-g(X)=EY-g0(X)2+Eg0(X)-g(X)2=方差+偏误2方差测度了Y对其期望真实误差(trueerror)。
偏误20,且g(X)=g0(X)时等号成立.因此,选择g(X)=E(Y|X)可使MSE(g)达到极小。
证明:
使用方差与偏误平方分解技术,TheoremRegressionIdentity:
给定E(Y|X),总有如下等价式:
Y=E(Y|X)+=Y-E(Y|X)这里称为回归扰动项(regressiondisturbance)且满足E(|X)=0,证明:
定义=Y-E(Y|X),则E(|X)=EY-E(Y|X)|X=E(Y|X)E(Y|X)=0,二、回归函数的等价形式,注意:
(a)回归函数E(Y|X)可用来通过X的信息预测Y的均值;(b)E(|X)=0意味着回归误差不包含X的任何可用来预测Y的信息。
换言之,所有可用来预测Y期望值的信息都完全包含在E(Y|X)之中。
条件E(|X)=0对模型参数经济含义的解释至关重要(crucial)。
(c)E(|X)=0意味着E()=EE(|X)=0且E(X)=EE(X|X)=EXE(|X)=EX0=0,(d)可能存在E(|X)=0但Var(|X)是X的函数。
如果Var(|X)=20,称是条件同方差的(conditionalhomoskedasticity).否则,如果Var(|X)=2(X),称存在条件异方差(conditionalheteroskedastisity),注意:
计量经济方法往往视是否存在条件异方差而有所不同。
Example:
设Y=0+(1+2)X+其中X与相互独立,且E()=0,Var()=2。
求E(Y|X)及Var(Y|X).,E(Y|X)=0+E(1+2)X|X+E(|X)=0+1X+2XE(|X)+E(|X)=0+1X+2X0+0=0+1XVar(Y|X)=EY-E(Y|X)2|X=E0+(1+2)X+-(0+1X)2|X=E(2X+)2|X=E(2X+1)22|X=(1+2X)2E(2|X)=(1+2X)22,注意:
该例解释了为什么的条件方差可能依赖X。
事实上,上述过程可写为Y=0+1X+其中=(1+2X)易知E(Y|X)=0+1X+(1+2X)E(|X)=0+1XVar(Y|X)=(1+2X)2Var(|X)=(1+2X)22,2.3线性回归模型LinearRegressionModeling,但总起来看,回归函数E(Y|X)的函数形式未知。
Question:
HowtomodelE(Y|X)?
一、建立条件期望E(Y|X)的模型,总地说来,有种最基本的方法:
(a)非参数法(Nonparametricapproach)(b)参数法(Parametricapproach),在经典计量经济学中,我们只关注参数方法:
ByrestrictingtheclassoffunctionsF,wesolvetheMSE-minimizationproblem,特别地,我们通常只用一簇线性函数(linearfunctions)来近似g0(X).当然,可以用类似的方法来建立g0(X)的非线性回归模型(Nonlinearregressionmodels),对该簇函数,函数形式已知为线性;未知的是(k+1)1向量.,注意:
(1)这里函数簇A的主要特征是g(X)=X关于是线性的。
关于X可以是非线性的,如g(X)=0+1X+2X2或g(X)=0+1lnX
(2)关于参数的取值没有约束。
证明:
求解最小化问题,根据一阶偏导为零的条件,设*满足上述一阶条件,则,EX(Y-X*)=0E(XY)-E(XX*)=0E(XY)=E(XX)*=E(XX)-1E(XY),注意:
(a)条件E(Y2)保征E(Y|X)存在;(b)非奇异矩阵,保证解*存在。
(c)一般地,最佳线性最小二乘预测值(thebestlinearLSpredictor)g*(X)=X*E(Y|X).,Question:
Whatistheinterpretationfor*?
在一元线性回归g(X)=X中,=(0,1),X=(1,X1)。
Slope:
Intercept:
Why?
验证,于是:
由于,则:
而,于是,可通过求解minE(Y-(0+1X1)2的方法解出*0,*1,DefinitionLinearRegressionModel:
ThespecificationY=X+u,Rk+1iscalledalinearregressionmodel,whereuisthemodelregressiondisturbanceorregressionerror.,注意:
线性回归模型(linearregressionmodel)是人为定义的。
因此,该模型可能没有包括真正的回归函数(regressionfunction):
g0(X)=E(Y|X),二、线性回归模型,Theorem:
对线性回归模型Y=X+u以*代表最佳线性最小二乘解(bestlinearleastsquareapproximationcoefficient),则=*当且仅当如下正交条件成立:
E(Xu)=0,Proof:
记u=Y-X如果=*,则E(Xu)=E(XY)-E(XX)*=E(XY)-E(XX)E(XX)-1E(XY)=0如果E(Xu)=0,则E(Xu)=E(XY)-E(XX)=0于是:
=E(XX)-1E(XY)=*,注意:
(1)无论E(Y|X)是否线性,我们总可以写出线性回归模型Y=X+u,并设定E(Xu)=0,以使=*;
(2)当X中包含有截距项时(如X1=1),E(Xu)=0就意味着E(u)=0。
(Why?
)(3)E(Xu)=0与E(u|X)=0不能等同。
有E(u|X)=0就有E(Xu)=0,但反之不成立。
例如:
设u=1+,X与为相互独立且服从标准正态分布N(0,1)的两随机变量,则E(u|X)=1E(Xu)=E(X1)+E(X)=E(X)+E(X)E()=0(4)当E(u)=0时,E(Xu)=Cov(X,u)(Why?
),2.4模型的正确设定CorrectModelSpecification,对于被解释变量Y,最好的代表就是其条件期望E(Y|X),因此,线性模型中模型的