第四章回归分析_精品文档.ppt
《第四章回归分析_精品文档.ppt》由会员分享,可在线阅读,更多相关《第四章回归分析_精品文档.ppt(121页珍藏版)》请在冰豆网上搜索。
第四章多元线性回归模型,经典多元回归模型回归分析的机理经典回归模型及其参数估计残差分析与假设检验偏回归系数的经济含义含有虚拟变量的回归线性回归过程,一、回归分析的机理,任意抽出一个妇女,试猜测其体重如何猜?
准确性如何?
猜平均体重,最大偏差:
31如何猜得更准确?
影响体重的最直接因素是身高:
一般身高高的人体重大。
平均身高:
62.85inch,标准差:
3.3以平均身高分界:
最大偏差21E(weight/height)=b0+b1height,,例:
20个妇女的体重资料如表,平均体重:
123.6pound,标准差:
15.5最低体重:
93pound,最大体重:
155,一个身高60的妇女体重平均111.5,最大偏差12,猜体重平均值,最大偏差:
31,身高相同的人体重不一定相同,平均来看,体重随身高的增加而增加,以平均身高分界,高于平均身高猜134,低于平均身高猜113.2:
最大偏差21,能不能猜得更准?
这条直线的含义是什么?
一个身高60的妇女体重平均111.5,最大偏差12,观测值weighti,总体回归线,通常,身高高的人体重大。
同样身高的人体重不同,即在给定身高下,体重有一个分布。
大样本下为正态分布。
总体回归线反映了给定身高下,体重的平均水平:
E(weight/height)=b0+b1height,b0,b1是未知的参数,已知20个妇女的身高体重资料以此为样本估计总体参数,样本回归线,为什么要有,回归分析的任务:
从样本回归线估计总体回归线,总体回归函数说明在给定的身高下,体重平均水平。
但对某一个妇女,其体重可能与该平均水平有偏差。
被解释变量观察值围绕其期望值的离差,是一个不可观测的随机变量,称为随机误差项。
weight,height,为什么要设随机误差项?
在解释变量中被忽略的因素的影响;变量观测值的观测误差的影响;模型关系的设定误差的影响;其它随机因素的影响。
产生并设计随机误差项的主要原因:
理论的模糊性;数据的欠缺;节省原则;,weight,height,样本回归函数,从被研究总体中随机抽取n个样本(本例n=20),利用样本观测数据可得到样本回归函数:
样本回归函数是对总体回归函数的一个估计对某一个妇女,其体重观测值不会恰好等于估计值,而是会有残差:
残差是对随机误差项的一个估计,回归分析的主要目的:
根据样本回归函数SRF,估计总体回归函数PRF。
一、回归分析的机理,任意抽出一个妇女,试猜测其体重影响体重的最直接因素是身高:
利用身高与体重的关系推测如何猜得更准确(提高回归线的解释程度R2)?
除了身高,还有哪些因素影响体重?
例:
20个妇女的体重资料,回归建模过程,模型设定,确定模型包含的变量:
回归模型自变量:
导致因变量变化的重要因素综合考虑数据的可获得性和数据质量模型设定错误:
美国人均CO2排放与中国人均GDP(谬误回归)确定模型的数学形式确定随机扰动项的概率分布特性拟定模型中待估计参数的理论期望值区间,回归分析vs方差分析,方差分析因素不同水平(分类变量)对响应变量的影响总变异分解为组间变异(因素影响)与组内变异(随机因素影响)模型检验:
F检验组间变异是否显著大于组内变异,回归自变量不同水平(连续变量)对因变量的影响总变异分解为自变量影响(回归平方和)与随机因素影响(残差平方和)模型总体显著性检验F检验:
回归平方和是否显著大于残差平方和,估计效应量,二、经典回归模型及其参数估计,多元回归模型多元回归模型的参数估计经典假设及参数估计量的性质样本容量问题,1.多元回归模型,找到导致被解释变量变化的主要因素作为解释变量,构建多元回归模型:
设因变量Y是k个解释变量X1,Xk和误差项的线性函数:
其中:
0为常数项,1,k为偏回归系数,i为随机误差项对容量为n的样本,这一模型实际上包含n个方程:
y1=0+1x11+kxk1+1yn=0+1x1n+kxkn+n,总体回归模型,多元回归模型的矩阵表示,注意:
解释变量个数为k,参数个数为k+1,样本回归函数(SRF),ei称为残差或剩余项(residuals),可看成是总体回归函数中随机扰动项i的一个点估计。
样本回归函数的矩阵表达:
2.回归参数的普通最小二乘估计:
残差平方和最小,已知,假定,正规方程组,正规方程组的矩阵形式,条件?
点估计,OLS估计的矩阵表示,正规方程组的另一种表达,该正规方程组成立的条件是什么?
可以证明,随机误差项的方差的无偏估计量为:
随机误差项的方差的无偏估计,例:
二元回归模型的参数估计,1的置信区间:
3.经典假设与参数估计量的性质,在满足基本假设的情况下,其结构参数的普通最小二乘估计具有:
线性性、无偏性、有效性(最优线性无偏估计量BLUE)。
同时,随着样本容量增加,参数估计量具有:
渐近无偏性、渐近有效性、一致性。
多元回归模型的经典假设,假设1:
x1,x3,xk是非随机的。
假设2:
E(i)=0i=1,2,n假设3:
同方差Var(i)=2(E(ii)=2)假设4:
无序列相关,cov(ij)=E(ij)=0假设5:
x诸变量间无准确的线性关系,即:
无多重共线性。
不存在一组不全为零的数1、2、k,使得:
1x1i+2x2i+kxki=0假设6:
iN(0,2),关于多重共线性的进一步说明,如果存在一组不全为零的数1、2、k,使得:
1x1i+2x2i+kxki=0不妨设10,则上式可变为:
x1i=-(2x2i+kxki)/1称解释变量之间存在完全共线性,此时,某个解释变量可以写为其它解释变量的线性组合。
如果,会不会破坏无多重共线假定?
不会,因为这两个变量的关系是非线性的!
经典假设的矩阵表示,假设2:
假设3和4:
假设5:
矩阵x的秩等于回归参数的个数(或解释变量个数加1),R(x)=k+1,nk,4.样本容量问题,所谓“最小样本容量”,即从最小二乘原理出发,欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。
1)最小样本容量,样本最小容量必须不少于模型中解释变量的数目(包括常数项),即nk+1因为,无多重共线性要求:
秩(X)=k+1,2)、满足基本要求的样本容量,从统计检验的角度:
n30时,Z检验才能应用;n-k8时,t分布较为稳定,一般经验认为:
当n30或者至少n3(k+1)时,才能说满足模型估计的基本要求。
模型的良好性质只有在大样本下才能得到理论上的证明,三、残差分析与假设检验,假设检验必要性及检验内容统计检验及经济意义检验经典假设的检验模型的修正,1.假设检验的必要性和检验内容,回归建模过程,1.假设检验的必要性和检验内容,为什么需要检验?
回归分析是要通过样本来估计总体的真实参数,或者说是用样本回归线估计总体回归线模型可能违反OLS估计的基本假定结论只是一次抽样的某种偶然结果检验内容:
经典假设检验:
保证统计量良好统计性质异方差、序列相关、多重共线统计检验:
推断总体模型设定的合理性经济意义检验:
模型经济意义的合理性,假设检验的内容1:
经典假设检验,检验经典线性回归模型的假定是否成立:
保证参数估计量的良好性质按照线性模型的假定,模型随机误差项应相互独立,且服从均值为0,等方差的正态分布。
如果假定不成立,OLS估计量不再有效,回归分析的统计检验结果再显著也不能说明问题。
因为残差平方和中既有观测误差,又有模型误差,t,F检验的p值再小,也不意味模型正确。
内容:
是否存在共线性、序列相关、异方差,是否正态分布,假设检验的内容2:
统计检验,统计检验尽管从统计性质上已知,对无偏估计量,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但一次抽样,估计值不会等于该真值。
抽样具有偶然性。
因此,根据一次抽样结果不能直接下结论,需要进一步进行统计检验。
主要包括方程显著性检验、变量的显著性检验、拟合优度检验及参数的区间估计。
假设检验的内容3:
经济意义检验,经济意义检验检验各个参数是否与经济理论和实际经验相符消费函数例:
=232.8+0.771X,011?
例如:
ln(人均食品需求量)=2.00.5ln(人均收入)4.5ln(食品价格)+0.8ln(其它商品价格)ln(人均食品需求量)=2.0+0.5ln(人均收入)4.5ln(食品价格)+0.8ln(其它商品价格)ln(人均食品需求量)=2.0+0.5ln(人均收入)0.8ln(食品价格)+0.8ln(其它商品价格),2.统计检验及经济意义检验前提条件:
经典假设满足,拟合优度检验方程显著性检验变量显著性检验经济意义检验,
(1)拟合优度检验,判定系数和调整的判定系数:
方差分析,总离差平方和的分解,证明:
该项等于0,该统计量越接近于1,模型的拟合优度越高。
从R2的表达式中发现,如果在模型中增加解释变量,R2往往增大。
这就给人一个错觉:
要使得模型拟合得好,只要增加解释变量即可。
但是,由增加解释变量引起的R2的增大与拟合好坏无关,所以R2需调整。
判定系数(可决系数),调整的可决系数(adjustedcoefficientofdetermination),其中:
n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。
(2)方程显著性的F检验,方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。
在多元模型中,即检验模型中的参数j是否显著不为0。
在原假设H0成立的条件下,统计量,给定显著性水平,可得到临界值F(k,n-k-1),由样本求出统计量F的数值,通过FF(k,n-k-1)或FF(k,n-k-1)来拒绝或接受原假设H0,以判定原方程总体上的线性关系是否显著成立。
F检验的思想来自于总离差平方和的分解式TSS=ESS+RSS,关于拟合优度检验与方程显著性检验关系的讨论,从上式可看出,F与R2是同向变化的:
当R2=0时,F=0R2越大,F值也越大。
当R2=1时,F,对于一般的实际问题,在5%的显著性水平下,F统计量的临界值所对应的R2的水平是较低的。
所以,不宜过分注重R2值,应注重模型的经济意义;在进行总体显著性检验时,显著性水平应该控制在5%以内。
(3)变量的显著性检验(t检验),方程的总体线性关系显著不等于每个解释变量对被解释变量的影响都是显著的。
必须对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中。
这一检验是由对变量的t检验完成的。
设计原假设与备择假设:
H1:
i0,给定显著性水平,可得到临界值t/2(n-k-1),由样本求出统计量t的数值,通过|t|t/2(n-k-1)或|t|t/2(n-k-1)p判断拒绝或不拒绝原假设H0,从而判定对应的解释变量是否应包括在模型中。
H0:
i=0(i=1,2k),例.凯恩斯消费函数,每周家庭消费支出exp和每周家庭收入income的数据如表,求凯恩斯消费函数。
建立二元线性回归模型模型估计结果:
参数估计值,参数估计的标准误,单零检验之t统计量:
H0:
B=0,方程显著性检验之F统计量,判定系数,边际消费倾向11的假设检验?
H0:
11H1:
11,(4)经济意义检验:
一般t检验,一般回归系数的显著性检验用t检验:
拒绝域:
=0.05,T=-1.94统计上不显著,不能拒绝原假设,与经济理论不符?
剔除不显著变量,边际消费倾向11的假设检验?
H0:
11H1:
11,=0.05,T=-1.86统计上显著,拒绝原假设,模型中包含无关变量会增大方差,3.经典假设的检验,正态分布检验序列相关和异方差检验共线性有无异常观测值,1)正态分布检验:
残差直方图和残差正态概率图,作出残差分布的直方图,可以十分直观地看出误差是否正态分布。
(a)(b)(c)(d),正态分布,0均值,非正态分布,与正态分布有偏差,大部分残差为正。
与正态分布有偏差,大部分残差为负。
残差正态概率图,如果残差服从正态分布,那么对应于其正态百分位数值做散点图,应该呈直线形状。
如果图形严重偏离线性,则说明误差分布不是正态。
SPSS给出的标准化残差的正态概率图是累计概率图。
对比观察值的残差分布图与假设的正态分布图是否相同。
如果标准化残差呈正态分布,则散点在直线上或靠近直线。
2)序列相关和