多元线性回归模型的有偏估计汇总.docx

资源描述

多元线性回归模型的有偏估计汇总.docx

《多元线性回归模型的有偏估计汇总.docx》由会员分享，可在线阅读，更多相关《多元线性回归模型的有偏估计汇总.docx（56页珍藏版）》请在冰豆网上搜索。

多元线性回归模型的有偏估计汇总.docx

多元线性回归模型的有偏估计汇总

第二章多元线性回归模型的有偏估计

模型的参数估计依赖于观测样本，样本是随机的（至少Y是随机的），因此估计量也是随机的，不一定恰好等于被估计参数的真值。

但是我们希望多次估计的结果的期望值接近或等于真值，即

这就叫无偏估计。

无偏估计被认为是一个估计量应有的优良性质。

但是在一些场合，满足无偏性的估计量却不具备其它应有的优良性，比如说稳定性、容许性。

统计学家提出了一些新的估计方法，它们往往不具备无偏性，但在特定场合综合起来考虑还是解决问题较好的。

本章就分别介绍这些特定场合下的有偏估计。

第一节设计矩阵列复共线与岭回归

一、设计矩阵列复共线的影响

上一章最后一节讲的是设计矩阵列向量完全线性相关，|X′X|=0的情况。

实际工作中常遇到的是，设计矩阵的列向量存在近似线性相关（称为复共线（multicollinearity）），|X′X|≈0。

此时一般最小二乘方法尽管可以进行，但估计的性质变坏，主要是对观测误差的稳定性变差，严重时估计量可能变得面目全非。

例如我们建立二元线性回归模型

（2.1.1）

有关资料在下面运算过程可以看到。

看一看原始资料，它近似满足Yi=X1i+X2i,应该估计出

。

可是我们调用普通最小二乘回归程序，运算结果却是

（2.1.2）

对现有数据拟合的还挺好，两条曲线几乎成了一条曲线（图2.1.1.1），F值为303744，但是代入X1=0,X2=10,预测值却为15.66，这与原模型应有的预测值10相距甚远。

-------------------------------------------------------------------------------------------------------------------------

岭回归与岭迹图计算程序,例2.1.4

例214.D数据文件中,n=8,M=2

要显示原始资料吗?

0=不显示,1=显示

2.0100.99001.0100

1.99001.0200.9900

4.01002.03001.9900

5.99002.97003.0100

8.01003.96004.0100

7.99004.01003.9900

10.01005.04004.9900

11.99006.05005.9900

正规方程系数矩阵的行列式的值是2.12162

请输入工作参数,0=普通回归,1=岭回归,2=计算岭迹（0）

现在作线性回归显著性检验,计算t,F,R统计量

请输入显著性水平a,通常取a=0.01,0.05,0.10,a=?

（0.05）

-----------------------------------------------------

线性回归分析计算结果

样本总数8自变量个数2

-----------------------------------------------------

回归方程Y=b0+b1*X1+...+b2*X2

Y=.0033+.4330X1+1.5660X2

回归系数b0,b1,b2,...,b2

.0033.43301.5660

-----------------------------------------------------

残差平方和:

.00回归平方和:

93.92

误差方差的估计:

.0001标准差=.0098

-----------------------------------------------------

线性回归显着性检验显著性水平:

.050

-----------------------------------------------------

回归方程整体显著性F检验,H0:

b0=b1=...=b2=0

F统计量:

303744.5000F临界值F（2,5）5.786

全相关系数R:

1.0000

-----------------------------------------------------

回归系数逐一显著性t检验,H0:

bi=0,i=1,...,2

t临界值t（5）2.015

回归系数b1-b2的t值:

.0106.0382

-----------------------------------------------------

要作回归预测吗?

键入0=不预测,1=要预测

（1）

现在作回归预测,请输入自变量,X1-X2

（1）=0X

（2）=10

-----------------------------------------------------

线性回归预测:

Y的预测值=15.6633

给定X1-X2=.000010.0000

-----------------------------------------------------

要作回归预测吗?

键入0=不预测,1=要预测（0）

要打印拟合数据吗?

0=不打印,1=打印

（1）

Y的观测值Y的拟合值差值

2.01002.0136-.0036

1.99001.9953-.0053

4.01003.9987.0113

5.99006.0030-.0130

8.01007.9977.0123

7.99007.9881.0019

10.010010.0001.0099

11.990012.0035-.0135

计算结束。

---------------------------------------------------------------------------------

下面显示拟合图像。

对此我们可以作如下理论分析。

作为β的估计是否优良，应该考察它与β的接近程度，这可以用

的均方误差（MeanSquareError）来度量：

（2.1.3）

我们来计算线性模型

（2.1.4）

的MSE（

）。

由于

（2.1.5）

故由公式

得

（2.1.6）

进一步，若ε～N（0,σ2In）,则因对于对称矩阵A有

（2.1.7）

注意到

（2.1.8）

故

（2.1.9）

因此

（2.1.10）

于是

（2.1.11）

由于X′X为正定阵，其特征根皆为正数，设为λ1≥λ2≥…≥λp>0,则

（2.1.12）

代入（2.1.6）与（2.1.11）得

（2.1.13）

（2.1.14）

当设计矩阵X的列向量存在复共线关系时，λp≈0,

很大，就使

与

都很大。

尽管这时按平均来说，

的无偏估计，但具体在每一次计算，由于均方误差太大，使得

估计值偏差很大，以致前面的数值例子变得面目全非。

二、岭回归

统计学界由A.E.Hoerl在1962年提出并和R.W.Kennard在1970年系统发展的岭回归（RidgeRegression）方法，可以显著改善设计矩阵列复共线时最小二乘估计的均方误差，增强估计的稳定性。

这个方法在计算数学称为阻尼最小二乘，出现得较早一些。

岭回归方法主要就是在病态的（X′X）中沿主对角线人为地加进正数，从而使λp稍大一些。

我们知道模型（2.1.4）中β的最小二乘估计为

（2.1.15）

则β的岭估计定义为

（2.1.16）

从式子直觉看出，当k=0时，它就是最小二乘估计；当k→+∞，

。

于是就要问k究竟取多大值为好?

同时我们也要知道

的统计性质究竟如何。

性质1.岭估计不再是无偏估计，即

。

因为

无偏性一直被认为是一个好的统计量所必须具有的基本性质，但是在现在所讨论的问题场合，我们只好牺牲无偏性，以改善估计的稳定性。

性质2.岭估计是线性函数。

记S=X′X,Zk=（I+kS-1）-1，则因

（2.1.17）

可见

不仅是Y的线性函数，而且是原来最小二乘估计

的线性函数。

性质3.Zk的特征根都在（0，1）内。

设有正交阵P与P′使

（2.1.18）

则

故知Zk的特征根分别为

，都在（0，1）内。

性质4.岭估计是压缩估计，即

。

这是因为由性质2、性质3，有

当然，由于

并不一定互相相等，这种压缩一般不是各方向上的均匀压缩。

性质5.岭估计的均方误差较小，即

（2.1.19）

这个性质我们放到下一章与方差分量线性模型的广义岭估计一起证明。

三、岭迹分析与岭参数选择

因为岭估计

（2.1.20）

是k的函数，所以在二维坐标平面上若以横轴为k，纵轴为

，它将画出一条曲线。

这条曲线我们称之为岭迹。

前已指出，当k→0时，岭迹反映了最小二乘估计

的不稳定性。

当k→+∞时，岭迹将趋于0。

在k从0到+∞的变化过程中，

的变化可能比较复杂。

关于岭参数选择的问题，已有许多文献讨论。

讨论来讨论去，并没有一个公认最优的准则。

许多办法含有未知参数，又要对其进行估计。

下一章我们将仔细介绍在方差分量模型的广义岭估计中岭参数的选择办法。

这里我们只简要介绍几种较有影响的方法和原则。

1.岭迹稳定

观察岭迹曲线，原则上应该选取使

稳定的最小k值，同时残差平方和也不增加太多。

2.均方误差小

岭估计的均方误差

还是k的函数，可以证明它能在某处取得最小值。

计算并观察

，开始它将下降，到达最小值后开始上升。

取它最小处的k作为岭参数。

假设回归模型Y=Xβ+ε的设计阵X已中心化，即

并设P为正交方阵，使

（2.1.21）

记α=Pβ，α称为典则参数，Z=XP′，则原模型变为

（2.1.22）

这个形式被称为线性回归的典则形式。

此时α的最小二乘估计与岭回归估计为

（2.1.23）

（2.1.24）

于是

，

都是可以计算的，从而选取岭参数

。

4．

这是Bayes原理推出的法则。

假若

为{αi}的公共先验方差，则从Bayes原理出发，得到的岭估计为

（2.1.25）

而

正是k*的一个估计量。

直观考虑是，当X′X=I时，取

可使岭估计具有最小的均方误差。

于是以

即得这个估计量。

因为编制岭回归计算程序及自动打印岭迹的程序现在并不困难，所以在现在条件下我们建议主要采取岭迹图标分析。

四、广义岭回归

前面我们介绍了线性回归模型的典则形式

（2.1.26）

其中α=Pβ称为典则参数，Z=XP′称为典则变量，P为正交方阵使P（X′X）P′=Λ。

此时α的岭估计为

（2.1.27）

这里主对角线上是统一地加上相同的k。

如果灵活一些，使主对角线上可以加上不同的ki,i=1,…,p,显然有可能使均方误差进一步下降。

而且，原来狭义岭估计是广义岭估计的特例。

将这个思想写成式子就是

（2.1.28）

回到原来参数就是

（2.1.29）

这里

（2.1.30）

广义岭回归确实能使估计的均方误差进一步下降，岭参

展开阅读全文