1、2.2 经典线性回归模型的假定 经典线性回归模型的假定 假定假定2.1(线性线性性性(linearity)iippiixxy +=L110(i=1,n)。(2.1)称方程(2.1)为因变量y对自变量x1,xp的线性回归方程线性回归方程(linearregressionequation),其中()p,kk,10L=是待估的未知未知参数参数(unknownparameters),()nii,1L=是满足一定限制条件的无法观测的无法观测的误差项误差项(unobservederror term)。称自 变量的函数ippixx +L110为回归函数(regressionfunction)或简称为回归回归
2、(regression)。称0 为回归的截距截距(ntercept),称()pkk,1L=为自变量的回归系数回归系数(regressioncoefficients)。某个自变量的回归系数表示在其它条件保持不变的情况下,这个自变量变化一个单位对因变量的影响程度,这个影响是在排除其它自变量的影 响后,这个自变量对因变量的偏效应。下面引入线性回归方程的矩阵表示。记()Tp ,10L=(未知系数向量(unknowncoefficientvector)()Tipiixxx,1L=,()Tipiixxx,11L=,则iTiixy +=(i=1,n)。又记X=nppnxxxxM L L L M M11111
3、1,Y=nyyM1,=n M1,则 +=XY假定假定2.2(严格外生性(严格外生性(strictlyexogeneity)()()npnpinixxxxExxE,|,|11111L L L L =0(i=1,n)。严格外生性的含义 严格外生性的含义 误差项的无条件期望为零误差项的无条件期望为零()0=iE(i=1,n)。正交条件正交条件(orthogonalityconditions)()()()01=ijpijijxExExE M(i=1,nj=1,n)。不相关条件不相关条件(zerocorrelationconditions)()0,cov=jkix(对所有i,j,k)。由以上严格外生性的
4、含义可知,如果在时间序列数据中存在的滞后效应滞后效应(laggedeffect)和反馈效应反馈效应(feetback effect),那么严格外生性条件就不成立。因而,在在严格外生性假定下推出的性质就不能用于这类时间序列数据。滞后效应是指 自变量历史值对因变量当前值的影响,反馈效应是指因变量当前值对自变量未来值 的影响。假定假定2.3(无多重共线性(无多重共线性(nomulticollinearity)n n(p+1)(p+1)矩阵X的秩为(p+1)(p+1)的概率为1。假定假定2.4(球面误差方差(球面误差方差(sphericalerrorvariance)()nnIxxVar21,|=L
5、条件同方差条件同方差(conditionalhomoskedasticity)()0,|212 =nixxEL(i=1,n)。(误差方差(误差方差)误差项误差项不相关不相关(nocorrelationbetweenerror term)()0,|1=njixxEL (对所有ij)在经典线性回归模型的四个假定中,假定2.1和假定2.3是必不可少的,但假定2.2和假定2.4中的严格外生性、条件同方差和误差项不相关以后可以适当放宽。2.3 随机样本的经典线性回归模型随机样本的经典线性回归模型 若样本()Tiixy,(i=1,n)为IID,那么假定2.2和假定2.4可简化为 假定假定2.2:()0|=
6、iixE(i=1,n)假定假定2.4:()0|22 =iixE(i=1,n)2.4 确定性自变量的经典线性回归模型确定性自变量的经典线性回归模型 若更进一步假定自变量x1,xp为确定性的变量,那么假定2.2和假定2.4可 进一步简化为 假定假定2.2:()0=iE(i=1,n)假定假定2.4:()nIVar2 =2.5 最小二乘估计量及其代数性质最小二乘估计量及其代数性质 虽然我们无法直接观测到误差项,但对未知系数向量的一个假想值假想值(hypotheticalvalue),容易计算出ippiixxy 110 L 称这个量为第i次观测的残差残差(residual),并且称使残差残差平方和平方和
7、(residual sumofsquares)()()=niippiixxyQ12110 L=()()XYXYT 达到最小的假想值:为未知系数向量的普通最小二乘估计量普通最小二乘估计量(ordinaryleastsquaresestimators),简记 为OLS估计量估计量。下面介绍OLS估计量的一些代数性质。一阶条件一阶条件(firstorderconditions)()0=XbYXT(正规方程正规方程(normalequations)的的OLS估计量估计量:在假定2.3成立时()=niiiniTiiTTyxnxxnYXXXb111111估计量的抽样误差估计量的抽样误差(samplinge
8、rror):()TTXXXb1 =第i次观测的拟合值拟合值(fitted value):bxyTii=拟合值向量拟合值向量(vectoroffitted value):()HYYXXXXXbYTT =1投影矩阵投影矩阵(projectionmatrix):()TTXXXXH (对称幂等,秩为p+1,HX=X)第i次观测的OLS残差残差(OLSresidual):iiTiiiyybxye =()minargQb=残差向量残差向量(vectorofOLSresiduals):e=YXb=YY=(IH)YMY M=零化子零化子(annihilator):M=InH(对称幂等,秩为np1,MX=0)一
9、阶条件一阶条件:0=eXT,即011=niiiexn()0=iixE )OLS估计的几何意义估计的几何意义:eYeXbY+=+=L(X)残差平方和残差平方和(residualssumofsquares)RSS=MMYYeeTTT=,(其自由度为np1)2的的OLS估计量估计量RMSpnRSSs =12(残(残差差均方均方,residualmeansquare)回归(回归(方程方程)标准误)标准误(standarderroroftheregression(equation)1 =pnRSSs(残差标准误残差标准误,residualstandarderror)平方和分解公式平方和分解公式 当回归方
10、程包含常数项时,可以证明 称这个等式为平方和分解公式平方和分解公式。记YeYeeYYYYTTT+=()()=+=niiniiniieyyyy121212()YnIYyySSTTTnii =112(称为总平方和总平方和,其自由度为n1)(其中,()T1,1L=表示每个元素均为1的n维向量)()RSSSSTyySSniireg =12(称为回归平方和,回归平方和,其自由度为p)则平方和分解公式又可写成:,(n1)=p+(np1)。平方和分解公式将总平方和分解为回归平方和与残差平方和两部分。总平方和 表示样本中因变量的总变异,回归平方和表示总变异中能够解释的部分,因此又称 为解释平方和解释平方和,回
11、归平方和是由样本中自变量的变异产生的,回归平方和可表示回 归的效应。残差平方和表示总变异中不能解释的部分,残差平方和是由不可观测的 误差的波动产生的。决定系数决定系数(coefficientofdetermination,Rsquare)SSTRSSR =12,当回归方程包含常数项时,由平方和分解公式有102 R。当回归方程不包含 常数项时,平方和分解公式不再成立,且有可能会出现,即RSSSST ,从而使R2变成负数。因此决定系数只能用于包含常数项的回归。由平方和分解公式可知,因变量的变异由解释变量的变异和误差的变异两部分 组成。决定系数R2度量了由解释变量变异(回归函数)决定决定的因变量变异
12、的比例。或者说决定系数R2度量了解释变量(回归函数)能够解释的因变量变异的比例。复相关系数复相关系数(multiplecorrelationcoefficient,multipleR)()()()()=niiniiniiiyyyyyyyyYYcorrSSTRSSR12121),(1()=bloodcor(blood)X1 X2 YX11.0000000 0.70028310.9064018X2 0.70028311.0000000 0.3827729Y0.9064018 0.38277291.0000000plot(blood)lm.sollm.sol$coefficients(Interce
13、pt)X1X262.96335912.13655810.4002162lm.sol$residuals123 4 5 6 70.5741329 0.4639664 3.7166848 0.6908281 0.8312185 4.0403788 2.77680858 9 10 11 12 130.8355416 2.6527288 0.5047730 3.7569456 1.0183102 4.3274082lm.sol$fitted.values123 4 5 678119.4259 140.5360 127.7167 125.3092 117.8312 129.0404 120.2232 1
14、25.8355另外,还可通过一些函数获取更多线性拟合模型的信息。这些函数有summary()计算线性拟合模型的基本统计量,返回的是一个列表。anova()计算单个或多个线性拟合模型的方差分析表。coef()提取系数向量的估计值。resid()提取残差向量。fitted()提取拟合值向量。vcov()提取的OLS估计量条件方差阵的估计。deviance()计算残差平方和。formula()提取模型公式。summary()函数的主要用法为summary(object,correlation=FALSE)其返回的列表中的常用统计量有residuals线性拟合模型的残差向量。coefficients关
15、于系数向量估计的(p+1)4矩阵。sigma误差标准差的估计值(回归标准误,残差标准误)。r.squared决定系数。adj.r.squared 修正决定系数。fstatistic回归方程显著性检验的F统计量、分子自由度和分母自由度。cov.unscaled 未乘s2的的OLS估计量的条件方差阵的估计,即()1 XXT。correlation如果correlation=TRUE,的OLS估计量的条件相关系数阵的估计。(out=summary(lm.sol)Call:lm(formula=YX1+X2,data=blood)Residuals:Min 1QMedian 3Q Max4.04041
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1