第二章--回归分析与模型设定(高级计量经济学-清华大学-潘文清).ppt

上传人:b****1 文档编号:1107258 上传时间:2022-10-17 格式:PPT 页数:39 大小:282.50KB
下载 相关 举报
第二章--回归分析与模型设定(高级计量经济学-清华大学-潘文清).ppt_第1页
第1页 / 共39页
第二章--回归分析与模型设定(高级计量经济学-清华大学-潘文清).ppt_第2页
第2页 / 共39页
第二章--回归分析与模型设定(高级计量经济学-清华大学-潘文清).ppt_第3页
第3页 / 共39页
第二章--回归分析与模型设定(高级计量经济学-清华大学-潘文清).ppt_第4页
第4页 / 共39页
第二章--回归分析与模型设定(高级计量经济学-清华大学-潘文清).ppt_第5页
第5页 / 共39页
点击查看更多>>
下载资源
资源描述

第二章--回归分析与模型设定(高级计量经济学-清华大学-潘文清).ppt

《第二章--回归分析与模型设定(高级计量经济学-清华大学-潘文清).ppt》由会员分享,可在线阅读,更多相关《第二章--回归分析与模型设定(高级计量经济学-清华大学-潘文清).ppt(39页珍藏版)》请在冰豆网上搜索。

第二章--回归分析与模型设定(高级计量经济学-清华大学-潘文清).ppt

第二章回归分析与模型设定,GeneralRegressionAnalysisandModelSpecification,回归分析(RegressionAnalysis):

一种最常用的统计分析工具,用来分析一个变量关于其他变量的依赖关系。

X与Y间的回归关系可用来研究X对Y的影响,或用X来预测Y。

一、总体均值与样本均值HowtofindtherelationshipbetweenXandY?

理论上应寻找总体回归函数(PRF),即在给定X时,Y的条件均值的函数:

Y|x=E(Y|X)=F(X),2.1回归分析:

问题的引入egressionAnalysis:

Introduction,但我们往往只能得到样本数据。

因此自然想到用样本均值来估计总体均值,并寻找样本回归函数(SRF):

mY|x=f(X),PRF,SRF,X,Y,WehopetheSRFisagoodestimateofthePRF.,Table2.1JointfrequencydistributionofX=incomeandY=savingrate,Asimpleillustration:

howtofindthesamplemean,表2.1是1960年美国1027个家庭关于收入与储蓄率的联合频率分布.p(xi,yj)=theproportionofthe1027familieswhoreportedthecombination(X=xiandY=yj).,TheconditionalmeanofYgivenX=xiis,mY|X,ConditionalmeanfunctionofYonX,Fig2.1,同样地,如果可获得总体数据,我们就可得到给出X值时Y的总体条件均值(populationconditionalmeans),(xi,yi)=jointfrequenciesofthepopulation(xi)=j(xi,yi)=marginalfrequenciesofX(yj|xi)=(xi,yi)/(xi)=conditionalfrequenciesofYgivenXX=ixi(xi)=populationmeanofXY|X=jyi(yj|xi)=populationconditionalmeanofYgivenX,Y|x=E(Y|X)=F(X),mY|x=f(X),Question:

howtogetf(x)?

如果经济理论表明:

Y|x=+X但表2.1显示mY|X并非一条直线-我们是保持mY|X的原样呢?

还是对样本的mY|X通过一条直线来平滑:

m*Y|X=a+bX,-如果用平滑线,如何寻找该直线?

-用平滑线估计总体均值,要比样本均值估计效果更好吗?

如果经济理论表明:

Y|X=X-如何寻找该曲线(curve)?

平滑的样本曲线m*Y|X仍能告知有关Y|X的相关信息吗?

二、条件分布,假设(X,Y)的联合概率密度函数(jointprobabilitydensityfunction,pdf)为f(x,y),则X的边际密度函数(marginalpdf):

fX(x)=f(x,y)dyY在X=x的条件密度函数(conditionalpdf):

fY|X(y|x)=f(x,y)/fX(x),条件pdffY|X(y|x)完全描述了Y对X的依赖关系。

已知条件pdf,可计算:

条件期望(Theconditionalmean),条件方差(Theconditionalvariance),条件偏度(Theconditionalskewness),条件峰度(Theconditionalkurtosis),2.2回归分析RegressionAnalysis,WhatstatisticalpropertiesdoesE(Y|X)process?

一、回归函数及其性质,定义RegressionFunction:

称条件期望E(Y|X)为Y关于X的回归函数(regressionfunction)。

LemmaLawofiteratedexpectation:

EE(Y|X)=E(Y),例:

设Y=工资,X=1(女性)andX=0(男性),则E(Y|X=1)=女性员工平均工资E(Y|X=0)=男性员工平均工资,EE(Y|X)=P(X=1)E(Y|X=1)+P(X=0)E(Y|X=0)=全体平均工资=E(Y),Question:

WhyisE(Y|X)importantfromastatisticalPerspective?

假设我们希望使用X的函数g(X)来预测Y,且使用均方误(MeanSquareError,MSE)准则来评估g(X)逼近Y的程度.则均方误准则(MSEcriterion)下的最优预测就是条件期望E(Y|X).。

定义MSE:

Themeansquareerroroffunctiong(X)usedtopridictYisdefinedasMSE(g)=EY-g(X)2,记g0(X)=E(Y|X)则MSE(g)=EY-g(X)2=EY-g0(X)+g0(X)-g(X)2=EY-g0(X)2+Eg0(X)-g(X)2+2EY-g0(X)g0(X)-g(X)=EY-g0(X)2+Eg0(X)-g(X)2=方差+偏误2方差测度了Y对其期望真实误差(trueerror)。

偏误20,且g(X)=g0(X)时等号成立.因此,选择g(X)=E(Y|X)可使MSE(g)达到极小。

证明:

使用方差与偏误平方分解技术,TheoremRegressionIdentity:

给定E(Y|X),总有如下等价式:

Y=E(Y|X)+=Y-E(Y|X)这里称为回归扰动项(regressiondisturbance)且满足E(|X)=0,证明:

定义=Y-E(Y|X),则E(|X)=EY-E(Y|X)|X=E(Y|X)E(Y|X)=0,二、回归函数的等价形式,注意:

(a)回归函数E(Y|X)可用来通过X的信息预测Y的均值;(b)E(|X)=0意味着回归误差不包含X的任何可用来预测Y的信息。

换言之,所有可用来预测Y期望值的信息都完全包含在E(Y|X)之中。

条件E(|X)=0对模型参数经济含义的解释至关重要(crucial)。

(c)E(|X)=0意味着E()=EE(|X)=0且E(X)=EE(X|X)=EXE(|X)=EX0=0,(d)可能存在E(|X)=0但Var(|X)是X的函数。

如果Var(|X)=20,称是条件同方差的(conditionalhomoskedasticity).否则,如果Var(|X)=2(X),称存在条件异方差(conditionalheteroskedastisity),注意:

计量经济方法往往视是否存在条件异方差而有所不同。

Example:

设Y=0+(1+2)X+其中X与相互独立,且E()=0,Var()=2。

求E(Y|X)及Var(Y|X).,E(Y|X)=0+E(1+2)X|X+E(|X)=0+1X+2XE(|X)+E(|X)=0+1X+2X0+0=0+1XVar(Y|X)=EY-E(Y|X)2|X=E0+(1+2)X+-(0+1X)2|X=E(2X+)2|X=E(2X+1)22|X=(1+2X)2E(2|X)=(1+2X)22,注意:

该例解释了为什么的条件方差可能依赖X。

事实上,上述过程可写为Y=0+1X+其中=(1+2X)易知E(Y|X)=0+1X+(1+2X)E(|X)=0+1XVar(Y|X)=(1+2X)2Var(|X)=(1+2X)22,2.3线性回归模型LinearRegressionModeling,但总起来看,回归函数E(Y|X)的函数形式未知。

Question:

HowtomodelE(Y|X)?

一、建立条件期望E(Y|X)的模型,总地说来,有种最基本的方法:

(a)非参数法(Nonparametricapproach)(b)参数法(Parametricapproach),在经典计量经济学中,我们只关注参数方法:

ByrestrictingtheclassoffunctionsF,wesolvetheMSE-minimizationproblem,特别地,我们通常只用一簇线性函数(linearfunctions)来近似g0(X).当然,可以用类似的方法来建立g0(X)的非线性回归模型(Nonlinearregressionmodels),对该簇函数,函数形式已知为线性;未知的是(k+1)1向量.,注意:

(1)这里函数簇A的主要特征是g(X)=X关于是线性的。

关于X可以是非线性的,如g(X)=0+1X+2X2或g(X)=0+1lnX

(2)关于参数的取值没有约束。

证明:

求解最小化问题,根据一阶偏导为零的条件,设*满足上述一阶条件,则,EX(Y-X*)=0E(XY)-E(XX*)=0E(XY)=E(XX)*=E(XX)-1E(XY),注意:

(a)条件E(Y2)保征E(Y|X)存在;(b)非奇异矩阵,保证解*存在。

(c)一般地,最佳线性最小二乘预测值(thebestlinearLSpredictor)g*(X)=X*E(Y|X).,Question:

Whatistheinterpretationfor*?

在一元线性回归g(X)=X中,=(0,1),X=(1,X1)。

Slope:

Intercept:

Why?

验证,于是:

由于,则:

而,于是,可通过求解minE(Y-(0+1X1)2的方法解出*0,*1,DefinitionLinearRegressionModel:

ThespecificationY=X+u,Rk+1iscalledalinearregressionmodel,whereuisthemodelregressiondisturbanceorregressionerror.,注意:

线性回归模型(linearregressionmodel)是人为定义的。

因此,该模型可能没有包括真正的回归函数(regressionfunction):

g0(X)=E(Y|X),二、线性回归模型,Theorem:

对线性回归模型Y=X+u以*代表最佳线性最小二乘解(bestlinearleastsquareapproximationcoefficient),则=*当且仅当如下正交条件成立:

E(Xu)=0,Proof:

记u=Y-X如果=*,则E(Xu)=E(XY)-E(XX)*=E(XY)-E(XX)E(XX)-1E(XY)=0如果E(Xu)=0,则E(Xu)=E(XY)-E(XX)=0于是:

=E(XX)-1E(XY)=*,注意:

(1)无论E(Y|X)是否线性,我们总可以写出线性回归模型Y=X+u,并设定E(Xu)=0,以使=*;

(2)当X中包含有截距项时(如X1=1),E(Xu)=0就意味着E(u)=0。

(Why?

)(3)E(Xu)=0与E(u|X)=0不能等同。

有E(u|X)=0就有E(Xu)=0,但反之不成立。

例如:

设u=1+,X与为相互独立且服从标准正态分布N(0,1)的两随机变量,则E(u|X)=1E(Xu)=E(X1)+E(X)=E(X)+E(X)E()=0(4)当E(u)=0时,E(Xu)=Cov(X,u)(Why?

),2.4模型的正确设定CorrectModelSpecification,对于被解释变量Y,最好的代表就是其条件期望E(Y|X),因此,线性模型中模型的

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 党团工作 > 党团建设

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1