3多元线性回归与最小二乘估计.docx

上传人:b****3 文档编号:750502 上传时间:2022-10-12 格式:DOCX 页数:15 大小:148.16KB
下载 相关 举报
3多元线性回归与最小二乘估计.docx_第1页
第1页 / 共15页
3多元线性回归与最小二乘估计.docx_第2页
第2页 / 共15页
3多元线性回归与最小二乘估计.docx_第3页
第3页 / 共15页
3多元线性回归与最小二乘估计.docx_第4页
第4页 / 共15页
3多元线性回归与最小二乘估计.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

3多元线性回归与最小二乘估计.docx

《3多元线性回归与最小二乘估计.docx》由会员分享,可在线阅读,更多相关《3多元线性回归与最小二乘估计.docx(15页珍藏版)》请在冰豆网上搜索。

3多元线性回归与最小二乘估计.docx

3多元线性回归与最小二乘估计

1.3多元线性回归与最小二乘估计

1.假定条件、最小二乘估计量和高斯—马尔可夫定理

多元线性回归模型:

yt=0+1xt1+2xt2+…+k-1xtk-1+ut,(1.1)

其中yt是被解释变量(因变量),xtj是解释变量(自变量),ut是随机误差项,i,i=0,1,…,k-1是回归参数(通常未知)。

对经济问题的实际意义:

yt与xtj存在线性关系,xtj,j=0,1,…,k-1,是yt的重要解释变量。

ut代表众多影响yt变化的微小因素。

使yt的变化偏离了E(yt)=0+1xt1+2xt2+…+k-1xtk-1决定的k维空间平面。

当给定一个样本(yt,xt1,xt2,…,xtk-1),t=1,2,…,T时,上述模型表示为

y1=0+1x11+2x12+…+k-1x1k-1+u1,经济意义:

xtj是yt的重要解释变量。

y2=0+1x21+2x22+…+k-1x2k-1+u2,代数意义:

yt与xtj存在线性关系。

………..几何意义:

yt表示一个多维平面。

yT=0+1xT1+2xT2+…+k-1xTk-1+uT,(1.2)

此时yt与xti已知,j与ut未知。

(1.3)

Y=X+u,(1.4)

为保证得到最优估计量,回归模型(1.4)应满足如下假定条件。

假定⑴随机误差项ut是非自相关的,每一误差项都满足均值为零,方差2相同且为有限值,即

  E(u)=0=,Var(u)=E(')=2I=2

假定⑵解释变量与误差项相互独立,即

E(X'u)=0

假定⑶解释变量之间线性无关。

  rk(X'X)=rk(X)=k

其中rk()表示矩阵的秩。

假定⑷解释变量是非随机的,且当T→∞时

T–1X'X→Q

其中Q是一个有限值的非退化矩阵。

最小二乘(OLS)法的原理是求残差(误差项的估计值)平方和最小。

代数上是求极值问题。

minS=(Y-X)'(Y-X)=Y'Y-'X'Y-Y'X+'X'X

=Y'Y-2'X'Y+'X'X(1.5)

因为Y'X是一个标量,所以有Y'X='X'Y。

(1.5)的一阶条件为:

=-2X'Y+2X'X=0(1.6)

化简得

X'Y=X'X

因为(X'X)是一个非退化矩阵(见假定⑶),所以有

=(X'X)-1X'Y(1.7)

因为X的元素是非随机的,(X'X)-1X是一个常数矩阵,则是Y的线性组合,为线性估计量。

求出,估计的回归模型写为

Y=X+(1.9)

其中=(…)'是的估计值列向量,=(Y-X)称为残差列向量。

因为

=Y-X=Y-X(X'X)-1X'Y=[I-X(X'X)-1X']Y(1.10)

所以也是Y的线性组合。

的期望和方差是

E()=E[(X'X)-1X'Y]=E[(X'X)-1X'(X+u)]

=+(X'X)-1X'E(u)=(1.11)

Var()=E[(–)(–)']=E[(X'X)-1X'uu'X(X'X)-1]

=E[(X'X)-1X'2IX(X'X)-1]=2(X'X)-1(1.12)

高斯—马尔可夫定理:

若前述假定条件成立,OLS估计量是最佳线性无偏估计量。

具有无偏性。

具有最小方差特性。

具有一致性,渐近无偏性和渐近有效性。

2.残差的方差

s2='/(T-k)(1.13)

s2是的无偏估计量,E(s2)=。

的估计的方差协方差矩阵是

()=s(X'X)-1(1.14)

3.多重确定系数(多重可决系数)

Y=X+=+(1.15)

总平方和

SST==Y'Y-T,(1.16)

其中是yt的样本平均数,定义为=。

回归平方和为

SSR=='-T(1.17)

其中的定义同上。

残差平方和为

SSE==='(1.18)

则有如下关系存在,

SST=SSR+SSE(1.19)

R2=(1.20)

显然有0£R2£1。

R2®1,拟合优度越好。

4.调整的多重确定系数

当解释变量的个数增加时,通常R2不下降,而是上升。

为调整因自由度减小带来的损失,又定义调整的多重确定系数如下:

=1-=1-(1.21)

5.OLS估计量的分布

若u~N(0,I),则每个ut都服从正态分布。

于是有

Y~N(X,I)(1.22)

因也是u的线性组合(见公式1.7),依据(1.11)和(1.12)有

~N(,(X'X)-1)(1.23)

6.方差分析与F检验

与SST相对应,自由度T-1也被分解为两部分,

(T-1)=(k-1)+(T-k)(1.24)

回归均方定义为MSR=,误差均方定义为MSE=

表1.1方差分析表

方差来源

平方和

自由度

均方

回归

SSR='-T2

k-1

MSR=SSR/(k-1)

误差

SSE='

T-k

MSE=SSE/(T-k)

总和

SST=Y'Y-T2

T-1

H0:

1=2=…=k-1=0;H1:

j不全为零

F==~F(k-1,T-k)(1.25)

设检验水平为,则检验规则是,若F≤F(k-1,T-k),接受H0;若F>F(k-1,T-k),拒绝H0。

0F(k-1,T-k)-t(T-k)0t(T-k)

F检验示意图t检验示意图

7.t检验

H0:

j=0,(j=1,2,…,k-1),H1:

j¹0

t==~t(T-k)(1.26)

判别规则:

若½t½£tk接受H0;若½t½>tk拒绝H0。

8.i的置信区间

(1)全部i的联合置信区间接受

F=(-)'(X'X)(-)/s2~F(k,T-k)(1.27)

(-)'(X'X)(-)≤s2kF(k,T-k),它是一个k维椭球。

(1.28)

(2)单个i的置信区间

i=±stk.(1.29)

9.预测

(1)点预测

C=(1xT+11xT+12…xT+1k-1)(1.30)

则T+1期被解释变量yT+1的点预测式是,

=C=0+1xT+11+…+k-1xT+1k-1(1.31)

(2)E(yT+1)的置信区间预测

首先求点预测式C的抽样分布

E()=E(C)=C(1.32)

Var()=Var(C)=E[(C-C)(C-C)']

=E[C(-)[C(-)]']=CE[(-)(-)']C'

=CVar()C'=C2(X'X)-1C'=2C(X'X)-1C',(1.33)

因为服从多元正态分布,所以C也是一个多元正态分布变量,即

=CN(C,2C(X'X)-1C')(1.34)

构成t分布统计量如下

t==t(T-k)(1.35)

置信区间C±t/2(1,T-k)s(1.36)

(3)单个yT+1的置信区间预测

yT+1值与点预测值有以下关系

yT+1=+uT+1(1.37)

其中uT+1是随机误差项。

因为

E(yT+1)=E(+uT+1)=C(1.38)

Var(yT+1)=Var()+Var(uT+1)=2C(X'X)-1C'+2

=2(C(X'X)-1C'+1)(1.39)

因为服从多元正态分布,所以yT+1也是一个多元正态分布变量,即

yT+1N(C,2C(X'X)-1C'+1)

与上相仿,单个yT+1的置信区间是

C±t/2(T-k)s(1.40)

计算举例:

(见《计量经济分析》第19-27页,熟悉矩阵运算)

10.预测的评价指标

注意,以下6个公式中的et表示的是预测误差,不是残差。

可以在样本内、外预测。

(1)预测误差。

预测误差定义为

et=-yt,t=T+1,T+2,…

是对单点预测误差大小的测量。

(2)相对误差PE(PercentageError)。

PE=,t=T+1,T+2,…

是对单点预测相对误差大小的测量。

(3)误差均方根rmserror(RootMeanSquaredError)

rmserror=

通过若干个预测值对预测效果进行综合评价。

(4)绝对误差平均MAE(MeanAbsoluteError)

MAE=

通过若干个预测值对预测的绝对误差进行综合评价。

(5)相对误差绝对值平均MAPE(MeanAbsolutePercentageError)

MAPE=

综合运用以上4种方法,通过若干个预测值对预测的相对误差进行综合评价。

以上6个式子中,表示预测值,yt表示实际值。

Theil的取值范围是[0,1]。

显然在预测区间内,当与yt完全相等时,Theil=0;当预测结果最差时,Theil=1。

公式中的累加范围是用1至T表示的,当然也可以用于样本外预测评价。

11.建模过程中应注意的问题

(1)研究经济变量之间的关系要剔除物价变动因素。

以上图为例,按当年价格计算,我国1992年的GDP是1980年的5.9倍,而按固定价格计算,我国1992年的GDP是1980年的2.8倍。

另外从图中还可看出,1980-1992期间按名义价格计算的GDP曲线一直是上升的,而按不变价格(1980年价格)计算的GDP曲线在1989年出现一次下降。

可见研究经济变量应该剔除物价变动因素。

(2)依照经济理论以及对具体经济问题的深入分析初步确定解释变量。

例:

我国粮食产量=f(耕地面积、农机总动力、施用化肥量、农业人口等)。

但根据我国目前情况,“耕地面积”不是“粮食产量”的重要解释变量。

粮食产量的提高主要来自科技含量的提高。

例:

关于某市的食用油消费量,文革前常驻人口肯定是重要解释变量。

现在则不同,消费水平是重要解释变量,因为食用油供应方式已改变。

(3)当引用现成数据时,要注意数据的定义是否与所选定的变量定义相符。

例:

“农业人口”要区别是“从事农业劳动的人口”还是相对于城市人口的“农业人口”。

例:

2002年起

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 面试

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1