1、多元线性回归模型的有偏估计汇总第二章 多元线性回归模型的有偏估计 模型的参数估计依赖于观测样本,样本是随机的(至少Y是随机的),因此估计量也是随机的,不一定恰好等于被估计参数的真值。但是我们希望多次估计的结果的期望值接近或等于真值,即这就叫无偏估计。无偏估计被认为是一个估计量应有的优良性质。但是在一些场合,满足无偏性的估计量却不具备其它应有的优良性,比如说稳定性、容许性。统计学家提出了一些新的估计方法,它们往往不具备无偏性,但在特定场合综合起来考虑还是解决问题较好的。本章就分别介绍这些特定场合下的有偏估计。第一节 设计矩阵列复共线与岭回归 一、设计矩阵列复共线的影响 上一章最后一节讲的是设计矩
2、阵列向量完全线性相关,|XX|=0的情况。实际工作中常遇到的是,设计矩阵的列向量存在近似线性相关(称为复共线(multicollinearity),|XX|0。此时一般最小二乘方法尽管可以进行,但估计的性质变坏,主要是对观测误差的稳定性变差,严重时估计量可能变得面目全非。 例如我们建立二元线性回归模型 (2.1.1)有关资料在下面运算过程可以看到。看一看原始资料,它近似满足Yi=X1i+X2i, 应该估计出。可是我们调用普通最小二乘回归程序,运算结果却是 (2.1.2)对现有数据拟合的还挺好,两条曲线几乎成了一条曲线 (图2.1.1.1),F值为303744,但是代入X1=0, X2=10,预
3、测值却为15.66,这与原模型应有的预测值10相距甚远。-岭回归与岭迹图计算程序, 例 2.1.4 例214.D 数据文件中, n=8, M=2 要显示原始资料吗? 0=不显示, 1=显示 2.0100 .9900 1.0100 1.9900 1.0200 .9900 4.0100 2.0300 1.9900 5.9900 2.9700 3.0100 8.0100 3.9600 4.0100 7.9900 4.0100 3.9900 10.0100 5.0400 4.9900 11.9900 6.0500 5.9900正规方程系数矩阵的行列式的值是 2.12162请输入工作参数, 0=普通回归
4、, 1=岭回归, 2=计算岭迹 (0)现在作线性回归显著性检验, 计算t,F,R 统计量请输入显著性水平a, 通常取a=0.01, 0.05, 0.10, a=? (0.05)-线 性 回 归 分 析 计 算 结 果 样本总数 8 自变量个数 2- 回归方程 Y = b0+b1*X1+.+b2*X2 Y = .0033 + .4330 X1 + 1.5660 X2 回归系数 b0, b1, b2, ., b2 .0033 .4330 1.5660- 残差平方和: .00 回归平方和: 93.92 误差方差的估计 : .0001 标准差 = .0098-线 性 回 归 显 着 性 检 验 显著性
5、水平 : .050- 回归方程整体显著性F检验, H0:b0=b1=.=b2=0 F统计量: 303744.5000 F临界值F(2, 5) 5.786 全相关系数 R : 1.0000- 回归系数逐一显著性t检验, H0:bi=0, i=1,.,2 t 临界值 t( 5) 2.015 回归系数b1-b 2的t值: .0106 .0382-要作回归预测吗? 键入 0=不预测, 1=要预测 (1)现在作回归预测, 请输入自变量, X1-X 2X( 1)= 0 X( 2)= 10- 线 性 回 归 预 测: Y 的预测值= 15.6633 给定X1-X 2= .0000 10.0000-要作回归预
6、测吗? 键入 0=不预测, 1=要预测 (0)要打印拟合数据吗? 0=不打印, 1=打印 (1) Y的观测值 Y的拟合值 差值 2.0100 2.0136 -.0036 1.9900 1.9953 -.0053 4.0100 3.9987 .0113 5.9900 6.0030 -.0130 8.0100 7.9977 .0123 7.9900 7.9881 .0019 10.0100 10.0001 .0099 11.9900 12.0035 -.0135计算结束。 - 下面显示拟合图像。 对此我们可以作如下理论分析。作为的估计是否优良,应该考察它与的接近程度,这可以用的均方误差 (Mean
7、 Square Error)来度量: (2.1.3)我们来计算线性模型 (2.1.4)的MSE()。由于 (2.1.5)故由公式得 (2.1.6)进一步,若N (0,2In),则因对于对称矩阵A有 (2.1.7)注意到 (2.1.8)故 (2.1.9)因此 (2.1.10)于是 (2.1.11)由于XX为正定阵,其特征根皆为正数,设为12p0,则 (2.1.12)代入(2.1.6)与(2.1.11)得 (2.1.13) (2.1.14)当设计矩阵X的列向量存在复共线关系时,p0,很大,就使与都很大。尽管这时按平均来说,的无偏估计,但具体在每一次计算,由于均方误差太大,使得估计值偏差很大,以致前
8、面的数值例子变得面目全非。 二、岭回归 统计学界由A. E. Hoerl在1962年提出并和R. W. Kennard在1970年系统发展的岭回归(Ridge Regression)方法,可以显著改善设计矩阵列复共线时最小二乘估计的均方误差,增强估计的稳定性。这个方法在计算数学称为阻尼最小二乘,出现得较早一些。 岭回归方法主要就是在病态的(XX)中沿主对角线人为地加进正数,从而使p稍大一些。我们知道模型(2.1.4)中的最小二乘估计为 (2.1.15)则的岭估计定义为 (2.1.16)从式子直觉看出,当k=0时,它就是最小二乘估计;当k+,。于是就要问k究竟取多大值为好?同时我们也要知道的统计
9、性质究竟如何。 性质1. 岭估计不再是无偏估计,即。因为 无偏性一直被认为是一个好的统计量所必须具有的基本性质,但是在现在所讨论的问题场合,我们只好牺牲无偏性,以改善估计的稳定性。 性质2. 岭估计是线性函数。记S=XX, Zk= (I+kS-1)-1, 则因 (2.1.17)可见不仅是Y的线性函数,而且是原来最小二乘估计的线性函数。 性质3. Zk的特征根都在(0,1)内。设有正交阵P与P使 (2.1.18)则故知Zk的特征根分别为,都在(0,1)内。 性质4. 岭估计是压缩估计,即。 这是因为由性质2、性质3,有当然,由于并不一定互相相等,这种压缩一般不是各方向上的均匀压缩。 性质5. 岭
10、估计的均方误差较小,即 (2.1.19)这个性质我们放到下一章与方差分量线性模型的广义岭估计一起证明。 三、岭迹分析与岭参数选择因为岭估计 (2.1.20)是k的函数,所以在二维坐标平面上若以横轴为k,纵轴为,它将画出一条曲线。这条曲线我们称之为岭迹。 前已指出,当k0时,岭迹反映了最小二乘估计的不稳定性。当k+时,岭迹将趋于0。在k从0到+的变化过程中,的变化可能比较复杂。 关于岭参数选择的问题,已有许多文献讨论。讨论来讨论去,并没有一个公认最优的准则。许多办法含有未知参数,又要对其进行估计。下一章我们将仔细介绍在方差分量模型的广义岭估计中岭参数的选择办法。这里我们只简要介绍几种较有影响的方
11、法和原则。 1. 岭迹稳定 观察岭迹曲线,原则上应该选取使稳定的最小k值,同时残差平方和也不增加太多。 2. 均方误差小 岭估计的均方误差还是k的函数,可以证明它能在某处取得最小值。计算并观察,开始它将下降,到达最小值后开始上升。取它最小处的k作为岭参数。 3. 假设回归模型Y=X+的设计阵X已中心化,即并设P为正交方阵,使 (2.1.21)记=P,称为典则参数,Z=XP,则原模型变为 (2.1.22)这个形式被称为线性回归的典则形式。此时的最小二乘估计与岭回归估计为 (2.1.23) (2.1.24)于是, 都是可以计算的,从而选取岭参数。 4 这是Bayes原理推出的法则。假若为i的公共先
12、验方差,则从Bayes原理出发,得到的岭估计为 (2.1.25)而正是k*的一个估计量。 5. 直观考虑是,当XX=I时,取可使岭估计具有最小的均方误差。于是以即得这个估计量。因为编制岭回归计算程序及自动打印岭迹的程序现在并不困难,所以在现在条件下我们建议主要采取岭迹图标分析。四、广义岭回归 前面我们介绍了线性回归模型的典则形式 (2.1.26)其中=P称为典则参数,Z=XP称为典则变量,P为正交方阵使P(XX)P=。此时的岭估计为 (2.1.27)这里主对角线上是统一地加上相同的k。如果灵活一些,使主对角线上可以加上不同的ki, i=1,p, 显然有可能使均方误差进一步下降。而且,原来狭义岭估计是广义岭估计的特例。将这个思想写成式子就是 (2.1.28)回到原来参数就是 (2.1.29)这里 (2.1.30) 广义岭回归确实能使估计的均方误差进一步下降,岭参
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1