ImageVerifierCode 换一换
格式:DOCX , 页数:56 ,大小:1.07MB ,
资源ID:680336      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/680336.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(多元线性回归模型的有偏估计汇总.docx)为本站会员(b****1)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

多元线性回归模型的有偏估计汇总.docx

1、多元线性回归模型的有偏估计汇总第二章 多元线性回归模型的有偏估计 模型的参数估计依赖于观测样本,样本是随机的(至少Y是随机的),因此估计量也是随机的,不一定恰好等于被估计参数的真值。但是我们希望多次估计的结果的期望值接近或等于真值,即这就叫无偏估计。无偏估计被认为是一个估计量应有的优良性质。但是在一些场合,满足无偏性的估计量却不具备其它应有的优良性,比如说稳定性、容许性。统计学家提出了一些新的估计方法,它们往往不具备无偏性,但在特定场合综合起来考虑还是解决问题较好的。本章就分别介绍这些特定场合下的有偏估计。第一节 设计矩阵列复共线与岭回归 一、设计矩阵列复共线的影响 上一章最后一节讲的是设计矩

2、阵列向量完全线性相关,|XX|=0的情况。实际工作中常遇到的是,设计矩阵的列向量存在近似线性相关(称为复共线(multicollinearity),|XX|0。此时一般最小二乘方法尽管可以进行,但估计的性质变坏,主要是对观测误差的稳定性变差,严重时估计量可能变得面目全非。 例如我们建立二元线性回归模型 (2.1.1)有关资料在下面运算过程可以看到。看一看原始资料,它近似满足Yi=X1i+X2i, 应该估计出。可是我们调用普通最小二乘回归程序,运算结果却是 (2.1.2)对现有数据拟合的还挺好,两条曲线几乎成了一条曲线 (图2.1.1.1),F值为303744,但是代入X1=0, X2=10,预

3、测值却为15.66,这与原模型应有的预测值10相距甚远。-岭回归与岭迹图计算程序, 例 2.1.4 例214.D 数据文件中, n=8, M=2 要显示原始资料吗? 0=不显示, 1=显示 2.0100 .9900 1.0100 1.9900 1.0200 .9900 4.0100 2.0300 1.9900 5.9900 2.9700 3.0100 8.0100 3.9600 4.0100 7.9900 4.0100 3.9900 10.0100 5.0400 4.9900 11.9900 6.0500 5.9900正规方程系数矩阵的行列式的值是 2.12162请输入工作参数, 0=普通回归

4、, 1=岭回归, 2=计算岭迹 (0)现在作线性回归显著性检验, 计算t,F,R 统计量请输入显著性水平a, 通常取a=0.01, 0.05, 0.10, a=? (0.05)-线 性 回 归 分 析 计 算 结 果 样本总数 8 自变量个数 2- 回归方程 Y = b0+b1*X1+.+b2*X2 Y = .0033 + .4330 X1 + 1.5660 X2 回归系数 b0, b1, b2, ., b2 .0033 .4330 1.5660- 残差平方和: .00 回归平方和: 93.92 误差方差的估计 : .0001 标准差 = .0098-线 性 回 归 显 着 性 检 验 显著性

5、水平 : .050- 回归方程整体显著性F检验, H0:b0=b1=.=b2=0 F统计量: 303744.5000 F临界值F(2, 5) 5.786 全相关系数 R : 1.0000- 回归系数逐一显著性t检验, H0:bi=0, i=1,.,2 t 临界值 t( 5) 2.015 回归系数b1-b 2的t值: .0106 .0382-要作回归预测吗? 键入 0=不预测, 1=要预测 (1)现在作回归预测, 请输入自变量, X1-X 2X( 1)= 0 X( 2)= 10- 线 性 回 归 预 测: Y 的预测值= 15.6633 给定X1-X 2= .0000 10.0000-要作回归预

6、测吗? 键入 0=不预测, 1=要预测 (0)要打印拟合数据吗? 0=不打印, 1=打印 (1) Y的观测值 Y的拟合值 差值 2.0100 2.0136 -.0036 1.9900 1.9953 -.0053 4.0100 3.9987 .0113 5.9900 6.0030 -.0130 8.0100 7.9977 .0123 7.9900 7.9881 .0019 10.0100 10.0001 .0099 11.9900 12.0035 -.0135计算结束。 - 下面显示拟合图像。 对此我们可以作如下理论分析。作为的估计是否优良,应该考察它与的接近程度,这可以用的均方误差 (Mean

7、 Square Error)来度量: (2.1.3)我们来计算线性模型 (2.1.4)的MSE()。由于 (2.1.5)故由公式得 (2.1.6)进一步,若N (0,2In),则因对于对称矩阵A有 (2.1.7)注意到 (2.1.8)故 (2.1.9)因此 (2.1.10)于是 (2.1.11)由于XX为正定阵,其特征根皆为正数,设为12p0,则 (2.1.12)代入(2.1.6)与(2.1.11)得 (2.1.13) (2.1.14)当设计矩阵X的列向量存在复共线关系时,p0,很大,就使与都很大。尽管这时按平均来说,的无偏估计,但具体在每一次计算,由于均方误差太大,使得估计值偏差很大,以致前

8、面的数值例子变得面目全非。 二、岭回归 统计学界由A. E. Hoerl在1962年提出并和R. W. Kennard在1970年系统发展的岭回归(Ridge Regression)方法,可以显著改善设计矩阵列复共线时最小二乘估计的均方误差,增强估计的稳定性。这个方法在计算数学称为阻尼最小二乘,出现得较早一些。 岭回归方法主要就是在病态的(XX)中沿主对角线人为地加进正数,从而使p稍大一些。我们知道模型(2.1.4)中的最小二乘估计为 (2.1.15)则的岭估计定义为 (2.1.16)从式子直觉看出,当k=0时,它就是最小二乘估计;当k+,。于是就要问k究竟取多大值为好?同时我们也要知道的统计

9、性质究竟如何。 性质1. 岭估计不再是无偏估计,即。因为 无偏性一直被认为是一个好的统计量所必须具有的基本性质,但是在现在所讨论的问题场合,我们只好牺牲无偏性,以改善估计的稳定性。 性质2. 岭估计是线性函数。记S=XX, Zk= (I+kS-1)-1, 则因 (2.1.17)可见不仅是Y的线性函数,而且是原来最小二乘估计的线性函数。 性质3. Zk的特征根都在(0,1)内。设有正交阵P与P使 (2.1.18)则故知Zk的特征根分别为,都在(0,1)内。 性质4. 岭估计是压缩估计,即。 这是因为由性质2、性质3,有当然,由于并不一定互相相等,这种压缩一般不是各方向上的均匀压缩。 性质5. 岭

10、估计的均方误差较小,即 (2.1.19)这个性质我们放到下一章与方差分量线性模型的广义岭估计一起证明。 三、岭迹分析与岭参数选择因为岭估计 (2.1.20)是k的函数,所以在二维坐标平面上若以横轴为k,纵轴为,它将画出一条曲线。这条曲线我们称之为岭迹。 前已指出,当k0时,岭迹反映了最小二乘估计的不稳定性。当k+时,岭迹将趋于0。在k从0到+的变化过程中,的变化可能比较复杂。 关于岭参数选择的问题,已有许多文献讨论。讨论来讨论去,并没有一个公认最优的准则。许多办法含有未知参数,又要对其进行估计。下一章我们将仔细介绍在方差分量模型的广义岭估计中岭参数的选择办法。这里我们只简要介绍几种较有影响的方

11、法和原则。 1. 岭迹稳定 观察岭迹曲线,原则上应该选取使稳定的最小k值,同时残差平方和也不增加太多。 2. 均方误差小 岭估计的均方误差还是k的函数,可以证明它能在某处取得最小值。计算并观察,开始它将下降,到达最小值后开始上升。取它最小处的k作为岭参数。 3. 假设回归模型Y=X+的设计阵X已中心化,即并设P为正交方阵,使 (2.1.21)记=P,称为典则参数,Z=XP,则原模型变为 (2.1.22)这个形式被称为线性回归的典则形式。此时的最小二乘估计与岭回归估计为 (2.1.23) (2.1.24)于是, 都是可以计算的,从而选取岭参数。 4 这是Bayes原理推出的法则。假若为i的公共先

12、验方差,则从Bayes原理出发,得到的岭估计为 (2.1.25)而正是k*的一个估计量。 5. 直观考虑是,当XX=I时,取可使岭估计具有最小的均方误差。于是以即得这个估计量。因为编制岭回归计算程序及自动打印岭迹的程序现在并不困难,所以在现在条件下我们建议主要采取岭迹图标分析。四、广义岭回归 前面我们介绍了线性回归模型的典则形式 (2.1.26)其中=P称为典则参数,Z=XP称为典则变量,P为正交方阵使P(XX)P=。此时的岭估计为 (2.1.27)这里主对角线上是统一地加上相同的k。如果灵活一些,使主对角线上可以加上不同的ki, i=1,p, 显然有可能使均方误差进一步下降。而且,原来狭义岭估计是广义岭估计的特例。将这个思想写成式子就是 (2.1.28)回到原来参数就是 (2.1.29)这里 (2.1.30) 广义岭回归确实能使估计的均方误差进一步下降,岭参

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1