一元线性回归方程_精品文档.ppt

资源描述

一元线性回归方程_精品文档.ppt

《一元线性回归方程_精品文档.ppt》由会员分享，可在线阅读，更多相关《一元线性回归方程_精品文档.ppt（63页珍藏版）》请在冰豆网上搜索。

一元线性回归方程_精品文档.ppt

回归的含义一元回归模型的建立参数估计最小二乘法随机误差项的古典假定最小二乘估计量的性质最小二乘估计量的概率分布回归系数的显著性检验与置信区间用样本可决系数检验回归方程的拟合优度案例分析,第二章一元线性回归模型,回归概念的提出,FrancisGalton最先使用“回归（regression）”。

父母高，子女也高；父母矮，子女也矮。

给定父母的身高，子女平均身高趋向于“回归”到全体人口的平均身高。

F.加尔顿是达尔文的表弟，是研究智力的先驱者之一，他非常严肃，非常聪明，但也有些疯狂，他出生在一个贵格教徒家庭中，祖上是著名的和平主义者，有趣的是，他家的名下却有生产枪支的企业。

高尔顿是个申通，6岁便能阅读和背诵莎士比亚的作品，他在更小的时候已经会说了希腊语和拉丁语。

他似乎对什么事情都感兴趣，成年后的高尔顿在气象学、心理学、摄影学，甚至是刑事司法领域都有所建树（他倡导使用指纹分析的科学方法来确定罪犯身份）。

此外，他还发明了“标准差”这一统计概念及线性回归法，并用这些数学工具来研究人类的行为。

一、回归的含义,回归的现代释义,回归分析用于研究一个变量关于另一个（些）变量的具体依赖关系的计算方法和理论。

商品需求函数：

生产函数：

菲利普斯曲线：

拉弗曲线：

等式左边的变量被称为被解释变量（explainedvariable）因变量（dependentvariable）响应变量（responsevariable）被预测变量（predictedvariable）回归子（regressand）,回归的现代释义,等式右边的变量被称为解释变量（explanatoryvariable）自变量（independentvariable）控制变量（controlvariable）预测变量（predictorvariable）回归元（regressor）。

在多数对经济理论的检验中（包括对公共政策的评价），经济学家的目标就是要退订一个变量（比如受教育程度）对另一个变量（如犯罪率或工人的生产率）具有因果效应（causaleffect）。

有时可能会很简单就能发现两个或多个变量之间存在很强的联系，但除非能得到某种因果关系，否则这种联系很难令人信服。

其他条件不变（ceterisparibus）：

意味着“其他（相关因素保持不变）”的概念，它在因果分析中有重要的作用。

这个概念看似简单，但是除非在极为特殊的条件下，很难实现多数经验研究中的一个关键问题是：

要做出一个因果推断，是否能使其他足够多的因素保持不变呢？

只要方法得当，用计量经济方法可以模拟一个其他条件不变的实验通过对模型进行假定。

回归分析中的因果关系和其他条件不变的概念,二、一元线性回归模型,回归分析都是从如下假设前提开始的：

Y和X是代表某个总体的变量，我们感兴趣的是“用X解释Y”或“研究Y如何随X而变化”在写出用X解释Y的模型时，面临三个问题Y和X的函数关系是怎么样的？

如何考虑其他影响Y的因素呢？

我们如何才能确信我们得到的是，是在其他条件不变情况下的Y和X之间的关系？

Y=0+1X+u,其中：

Y被解释变量；,X解释变量；,u随机误差项；表示除X之外其他影响Y的因素，一元回归分析将除X之外的其他所有影响Y的因素都看成了无法观测的因素,0，1回归系数（待定系数或待估参数）1是斜率系数，是主要的研究对象0是常数项，也被称作截距参数，很少被当做分析的核心,我们可以通过建立一个如下的关于Y和X的方程来解决上述三个问题,总体回归模型,为解决上面提到的第三个问题，及如何在忽略其他因素的同时，又得到其他因素不变情况下X对Y的影响呢？

这需要我们对无法观测的u和X之间的关系加以约束，并且只有如此，才能从一个随机样本数据中获得0和1的可靠估计量。

E（u）=0即无法观测的因素的平均值为零，不会对结果产生影响,E（u|X）=0根据X的不同把总体划分为若干部分，每个部分中无法观测的因素都具有想通的平均值，且这个共同的平均值必然等于整个总体中u的平均值，即u是均值独立的。

根据上面的假定对原模型取期望得：

E（Y|X）=E（0+1X+u）|X,E（Y|Xi）=0+1X,总体回归函数E（Y|X）是X的一个线性函数，它表示Y中可以由X解释的部分，线性意味着X变化一个单位，Y的期望改变1个单位。

对于任意给定的X值，Y的分布都是以E（Y|X）为中心的。

=0+1X+E（u|X）=0+1X,总体回归函数（直线）,Xi,Yi,Y1,Y2,Y3,u1,u2,u3,e2,e3,e1,E（Y|Xi）=0+1Xi,通常总体回归函数E（Y）=0+1X是观测不到的，利用样本得到的是对它的估计，即对0和1的估计。

令（Xi,Yi）:

i=1,n表示从总体中抽取的一个样本容量为n的随机样本，对于每个i，可以写出：

其中ui是第i次观测的误差项,（估计的）样本回归函数：

（估计的）样本回归模型：

其中ei是第i次观测的残差,对于所研究的经济问题，通常总体回归直线E（Yi|Xi）=0+1Xi是观测不到的。

可以通过收集样本来对总体（真实的）回归直线做出估计。

样本回归模型：

其中：

为Yi的估计值（拟合值）；,为0,1的估计值；,ei为残差，可视为ui的估计值。

三、参数估计最小二乘法,样本回归直线：

如何得到一条能够较好地反映这些点变化规律的直线呢？

对于参数的估计采用最小二乘估计法、最小二乘法的原则是以“残差平方和最小”确定直线位置（即估计参数）。

（Q为残差平方和）,Q=,=,=,则通过Q最小确定这条直线，即确定，以为变量，把它们看作是Q的函数，就变成了一个求极值的问题，可以通过求导数得到。

样本回归模型：

则通过Q最小确定这条直线，即确定，以为变量，把它们看作是Q的函数，就变成了一个求极值的问题，可以通过求导数得到。

求Q对两个待估参数的偏导数：

=,=0,=,=0,正规方程组,即,根据以上两个偏导方程得以下正规方程（Normalequation）：

对于Wage1中的数据，利用EVIEWS软件，可得到一元回归模型估计结果：

OLS回归直线的性质,

（1）残差和等于零,

（2）估计的回归直线过点.,（3）Yi的拟合值的平均数等于其样本观测值的平均数.,由正规方程可得。

=,（4）Cov（ei,Xi）=0,=,=,（5）Cov（ei,）=0,利用OLS方法得到一个样本回归模型（一条样本回归线）后，问题结束了吗？

为什么要用普通最小二乘法？

样本回归模型有无穷多个，我们仅仅得到其中一个，它能反映真实的总体回归模型吗？

样本回归模型对数据的拟合程度可以接受吗？

如何用样本回归模型进行预测？

问题结束了吗？

假定1：

零期望假定：

E（ui|Xi）=0。

四、古典线性回归模型的基本假定,假定2：

同方差性假定：

Var（ui）=Eui-E（ui）2=E（ui2）=2。

同方差,假定3：

无序列相关（无自相关）假定：

Cov（ui,uj）=E（ui-E（ui）（uj-E（uj）=E（uiuj）=0,（ij）。

无自相关,正自相关,负自相关,假定4：

解释变量X与随机误差项uCov（ui,Xi）=E（ui-E（ui）（Xi-E（Xi）=E（uiXi）=0如果X为确定性变量，该假定自然满足,假定5：

ui服从正态分布，即uiN（0,2）。

五、OLS估计量的性质,高斯-马尔可夫定理,如果满足古典线性回归模型的基本假定（假定1-假定5），则在所有的线性估计量中，OLS估计量是最优线性无偏估计量（BLUE）。

线性性无偏性有效性,都是Yi的线性函数。

证明：

=,=,=,令,代入上式，得：

=,线性性,证明：

=,=,=,=,=,=,无偏性,=1,1,无偏估计量,有偏估计量,OLS估计量的方差比其他线性无偏估计量的方差都小。

最小方差性与有效性,1,一致性（了解）,1,概率密度,OLS估计量的方差,为什么要估计方差？

方差反映了数据的离散程度和估计结果的精确性。

受教育年限与每小时工资,1,总体（随机误差项）真实方差2的估计量：

2的估计,2、方差,

（1）的期望,

（2）的期望,1、期望,

（2）的方差,

（1）的方差,服从,N（）,N（）,服从,Yi=0+1Xi+ui，所以YiN（0+1Xi,2）,线性性,概率分布是进行假设检验的前提,六、假设检验与置信区间,OLS估计量的概率分布,显著性检验（t检验）的基本步骤,首先，提出原假设和备择假设：

H0：

H1：

其次，确定并计算统计量：

最后，给定显著性水平，查自由度为n-2的t分布表。

则，,如果不能拒绝H0：

1=0，认为X对Y没有显著影响。

如果拒绝H0：

1=0，认为X对Y有显著影响。

同理,可对0进行显著性检验。

模型：

双侧,受教育年限与每小时工资,n=13,0,-2.201,2.201,H0：

1=0H1：

10,受教育年限与每小时工资,n=13,0,1.796,H0：

1=0H1：

10,对于双变量模型，自由度总为（n-2）经验分析中，常用的有1%、5%和10%。

为了避免显著水平选择的随意性，通常要给出p值。

p值,t（n-2）,-t0.025,t0.025,p/2,0,t,p值0.05，接受原假设,t（n-2）,-t0.025,t0.025,p/2,0,t,p值0.05，拒绝原假设,双侧检验,用p值判断参数的显著性的方法（双侧）,方法：

将给定的显著性水平与p值比较：

若p值，则在显著性水平下拒绝原假设H0:

=0,即认为X对Y有显著影响；若p值，则在显著性水平下接受原假设H0:

=0，即认为X对Y没有显著影响；规则：

当p值时，p值越小，越能拒绝原假设H0,由于：

由大括号内不等式表示置信水平为1-时1的置信区间：

得：

Pt/2（n-2）=1-,同理,可求得的置信区间为：

-t/2（n-2）0t/2（n-2）,受教育年限与每小时工资,n=13,通过置信区间，可以直接对H0：

1=0进行检验吗？

离差平方和的分解可决系数,拟合优度：

是指回归直线对观测值的拟合程度。

显然，若观测值离回归直线近，则拟合优度好，反之，则拟合优度差，度量拟合优度的统计量是可决系数。

七、用可决系数来检验回归方程的拟合优度,离差平方和的分解,.,.,.,.,.,.,.,.,Y,X,Yi,Xi,A,0,=,+,=,+,总离差=回归差+残差,回归差：

由样本回归直线解释的部分残差：

不能由样本回归直线解释的部分,可以证明:

证明:

=,=,由于：

=,=,=0,所以：

总离差平方和回归平方和残差平方和TSS=RSS+ESS,总离差平方和估计平方和剩余平方和TSS=ESS+RSS,可决系数,=1,回归平方和在总离差平方和中所占的比重越大，说明样本回归直线对样本值拟合的程度越好。

因此，用来表示拟合优度的样本可决系数定义为：

R2=,=,=,=,=,R2的取值范围是0，1。

对于一组数据，TSS是不变，所以RSS（），ESS（）,R2=0时表明解释变量X与被解释变量Y之间不存在线性关系；R2=1时表明样本回归线与样本值重合，这种情况极少发生；一般情况下，R2越接近1表示拟合程度越好，X对Y的解释能力越强。

另外：

R2=,=,=,R2=,=,=,相关系数与可决系数的关系（R2=r2）,点预测Yi区间预测

（1）单个值Yi的区间预测

（2）均值E（Yi）的区间预测,八、一元线性回归方程的预测,如果经过检验，样本回归方程的拟合优度好，且回归系数的估计值显著不为0，则可以用回归方程进行预测。

预测分为点预测和区间预测。

1、点预测,假设X0为解释变量的一个已知点，则带入样本回归方程即可得到Y0的估计值:

2、区间预测,估计值是一个点预测值，它可以是

（1）总体真值Y0的预测值；也可以是

（2）总体回归线E（Y0/X0）的预测值。

现在根据来对

（1）

（2）进行区间预测。

的分布是：

所以，E（Y0|X0）的预测区间是:

（1）条件期望E（Y0|X0）的预测区间,

（1）个值Y0的预测区间,的分布是：

所以，Y0的预测区间是:

提出问题：

改革开放以来随着中国经济的快速发展，居民的消费

展开阅读全文