经典线性回归模型.pdf

资源描述

经典线性回归模型.pdf

《经典线性回归模型.pdf》由会员分享，可在线阅读，更多相关《经典线性回归模型.pdf（17页珍藏版）》请在冰豆网上搜索。

经典线性回归模型.pdf

2经典经典线性回归模型线性回归模型2.1概念与记号概念与记号1线性回归模型是用来描述一个特定变量y与其它一些变量与其它一些变量x1，xpp之间的关系之间的关系。

2称特定变量y为因变量因变量（dependentvariable）、）、被解释变量被解释变量（explainedvariable）、）、响应变量响应变量（responsevariable）、）、被预测变量被预测变量（predictedvariable）、）、回归子回归子（regressand）。

3称与特定变量相关的其它一些变量x1，xp为自变量自变量（independentvariable）、）、解释变量解释变量（explanatoryvariable）、）、控制变量（控制变量（controlvariable）、）、预测变量预测变量（predictorvariable）、）、回归量回归量（regressor）、）、协变量（协变量（covariate）。

）。

4假定我们观测到上述这些变量的n组值：

（）ipiixxy,1L（i=1，n）。

称称这这n组值为样本样本（sample）或或数据数据（data）。

2.2经典线性回归模型的假定经典线性回归模型的假定假定假定2.1（线性线性性性（linearity））iippiixxy+=L110（i=1，n）。

（2.1）称方程（2.1）为因变量y对自变量x1，xp的线性回归方程线性回归方程（linearregressionequation），其中（）p，kk,10L=是待估的未知未知参数参数（unknownparameters），（）nii,1L=是满足一定限制条件的无法观测的无法观测的误差项误差项（unobservederrorterm）。

称自变量的函数ippixx+L110为回归函数（regressionfunction）或简称为回归回归（regression）。

称0为回归的截距截距（ntercept），称（）pkk,1L=为自变量的回归系数回归系数（regressioncoefficients）。

某个自变量的回归系数表示在其它条件保持不变的情况下，这个自变量变化一个单位对因变量的影响程度，这个影响是在排除其它自变量的影响后，这个自变量对因变量的偏效应。

下面引入线性回归方程的矩阵表示。

记（）Tp,10L=（未知系数向量（unknowncoefficientvector）（）Tipiixxx,1L=，（）Tipiixxx,11L=，则iTiixy+=（i=1，n）。

又记X=nppnxxxxMLLLMM111111，Y=nyyM1，=nM1，则+=XY假定假定2.2（严格外生性（严格外生性（strictlyexogeneity））（）（）npnpinixxxxExxE,|,|11111LLLL=0（i=1，n）。

严格外生性的含义严格外生性的含义误差项的无条件期望为零误差项的无条件期望为零（）0=iE（i=1，n）。

正交条件正交条件（orthogonalityconditions）（）（）（）01=ijpijijxExExEM（i=1，nj=1，n）。

不相关条件不相关条件（zerocorrelationconditions）（）0,cov=jkix（对所有i，j，k）。

由以上严格外生性的含义可知，如果在时间序列数据中存在的滞后效应滞后效应（laggedeffect）和反馈效应反馈效应（feetbackeffect），那么严格外生性条件就不成立。

因而，在在严格外生性假定下推出的性质就不能用于这类时间序列数据。

滞后效应是指自变量历史值对因变量当前值的影响，反馈效应是指因变量当前值对自变量未来值的影响。

假定假定2.3（无多重共线性（无多重共线性（nomulticollinearity））nn（p+1）（p+1）矩阵X的秩为（p+1）（p+1）的概率为1。

假定假定2.4（球面误差方差（球面误差方差（sphericalerrorvariance））（）nnIxxVar21,|=L条件同方差条件同方差（conditionalhomoskedasticity）（）0,|212=nixxEL（i=1，n）。

（误差方差（误差方差）误差项误差项不相关不相关（nocorrelationbetweenerrorterm）（）0,|1=njixxEL（对所有ij）在经典线性回归模型的四个假定中，假定2.1和假定2.3是必不可少的，但假定2.2和假定2.4中的严格外生性、条件同方差和误差项不相关以后可以适当放宽。

2.3随机样本的经典线性回归模型随机样本的经典线性回归模型若样本（）Tiixy,（i=1，n）为IID，那么假定2.2和假定2.4可简化为假定假定2.2:

（）0|=iixE（i=1，n）假定假定2.4：

（）0|22=iixE（i=1，n）2.4确定性自变量的经典线性回归模型确定性自变量的经典线性回归模型若更进一步假定自变量x1，xp为确定性的变量，那么假定2.2和假定2.4可进一步简化为假定假定2.2：

（）0=iE（i=1，n）假定假定2.4：

（）nIVar2=2.5最小二乘估计量及其代数性质最小二乘估计量及其代数性质虽然我们无法直接观测到误差项，但对未知系数向量的一个假想值假想值（hypotheticalvalue），容易计算出ippiixxy110L称这个量为第i次观测的残差残差（residual），并且称使残差残差平方和平方和（residualsumofsquares）（）（）=niippiixxyQ12110L=（）（）XYXYT达到最小的假想值：

为未知系数向量的普通最小二乘估计量普通最小二乘估计量（ordinaryleastsquaresestimators），简记为OLS估计量估计量。

下面介绍OLS估计量的一些代数性质。

一阶条件一阶条件（firstorderconditions）（）0=XbYXT（正规方程正规方程（normalequations）的的OLS估计量估计量：

在假定2.3成立时（）=niiiniTiiTTyxnxxnYXXXb111111估计量的抽样误差估计量的抽样误差（samplingerror）：

（）TTXXXb1=第i次观测的拟合值拟合值（fittedvalue）：

bxyTii=拟合值向量拟合值向量（vectoroffittedvalue）：

（）HYYXXXXXbYTT=1投影矩阵投影矩阵（projectionmatrix）：

（）TTXXXXH（对称幂等，秩为p+1，HX=X）第i次观测的OLS残差残差（OLSresidual）：

iiTiiiyybxye=（）minargQb=残差向量残差向量（vectorofOLSresiduals）：

e=YXb=YY=（IH）YMYM=零化子零化子（annihilator）：

M=InH（对称幂等，秩为np1，MX=0）一阶条件一阶条件：

0=eXT，即011=niiiexn（（）0=iixE）OLS估计的几何意义估计的几何意义：

eYeXbY+=+=L（X）残差平方和残差平方和（residualssumofsquares）RSS=MMYYeeTTT=，（其自由度为np1）2的的OLS估计量估计量RMSpnRSSs=12（残（残差差均方均方，residualmeansquare）回归（回归（方程方程）标准误）标准误（standarderroroftheregression（equation））1=pnRSSs（残差标准误残差标准误，residualstandarderror）平方和分解公式平方和分解公式当回归方程包含常数项时，可以证明称这个等式为平方和分解公式平方和分解公式。

记YeYeeYYYYTTT+=（）（）=+=niiniiniieyyyy121212（）YnIYyySSTTTnii=112（称为总平方和总平方和，其自由度为n1）（其中，（）T1,1L=表示每个元素均为1的n维向量）（）RSSSSTyySSniireg=12（称为回归平方和，回归平方和，其自由度为p）则平方和分解公式又可写成：

，（n1）=p+（np1）。

平方和分解公式将总平方和分解为回归平方和与残差平方和两部分。

总平方和表示样本中因变量的总变异，回归平方和表示总变异中能够解释的部分，因此又称为解释平方和解释平方和，回归平方和是由样本中自变量的变异产生的，回归平方和可表示回归的效应。

残差平方和表示总变异中不能解释的部分，残差平方和是由不可观测的误差的波动产生的。

决定系数决定系数（coefficientofdetermination,Rsquare）SSTRSSR=12，当回归方程包含常数项时，由平方和分解公式有102R。

当回归方程不包含常数项时，平方和分解公式不再成立，且有可能会出现，即RSSSST，从而使R2变成负数。

因此决定系数只能用于包含常数项的回归。

由平方和分解公式可知，因变量的变异由解释变量的变异和误差的变异两部分组成。

决定系数R2度量了由解释变量变异（回归函数）决定决定的因变量变异的比例。

或者说决定系数R2度量了解释变量（回归函数）能够解释的因变量变异的比例。

复相关系数复相关系数（multiplecorrelationcoefficient，multipleR）（）（）（）（）=niiniiniiiyyyyyyyyYYcorrSSTRSSR12121）,（1（）=bloodcor（blood）X1X2YX11.00000000.70028310.9064018X20.70028311.00000000.3827729Y0.90640180.38277291.0000000plot（blood）lm.sollm.sol$coefficients（Intercept）X1X262.96335912.13655810.4002162lm.sol$residuals12345670.57413290.46396643.71668480.69082810.83121854.04037882.776808589101112130.83554162.65272880.50477303.75694561.01831024.3274082lm.sol$fitted.values12345678119.4259140.5360127.7167125.3092117.8312129.0404120.2232125.8355另外，还可通过一些函数获取更多线性拟合模型的信息。

这些函数有summary（）计算线性拟合模型的基本统计量，返回的是一个列表。

anova（）计算单个或多个线性拟合模型的方差分析表。

coef（）提取系数向量的估计值。

resid（）提取残差向量。

fitted（）提取拟合值向量。

vcov（）提取的OLS估计量条件方差阵的估计。

deviance（）计算残差平方和。

formula（）提取模型公式。

summary（）函数的主要用法为summary（object,correlation=FALSE）其返回的列表中的常用统计量有residuals线性拟合模型的残差向量。

coefficients关于系数向量估计的（p+1）4矩阵。

sigma误差标准差的估计值（回归标准误，残差标准误）。

r.squared决定系数。

adj.r.squared修正决定系数。

fstatistic回归方程显著性检验的F统计量、分子自由度和分母自由度。

cov.unscaled未乘s2的的OLS估计量的条件方差阵的估计，即（）1XXT。

correlation如果correlation=TRUE，的OLS估计量的条件相关系数阵的估计。

（out=summary（lm.sol）Call:

lm（formula=YX1+X2,data=blood）Residuals:

Min1QMedian3QMax4.04041

展开阅读全文