浅谈加权最小二乘法及其残差图4.docx

资源描述

浅谈加权最小二乘法及其残差图4.docx

《浅谈加权最小二乘法及其残差图4.docx》由会员分享，可在线阅读，更多相关《浅谈加权最小二乘法及其残差图4.docx（11页珍藏版）》请在冰豆网上搜索。

浅谈加权最小二乘法及其残差图4.docx

浅谈加权最小二乘法及其残差图4

浅谈加权最小二乘法及其残差图

浅谈加权最小二乘法及其残差图浅谈加权最小二乘法及其残差图关键词：

异方差；加权最小二乘法；残差图；SPSS一、引言好几年没有翻《统计研究》了。

最近，有一同行朋友打电话告诉我《统计研究》2005年第11期上刊登了一篇有关我与刘文卿合作编著的《应用回归分析》（2019.6.中国人民大学出版社）教材的文章。

赶紧找到这期的《统计研究》，看到其中孙小素副教授的文章《加权最小二乘法残差图问题探讨与何晓群教授商榷》一文，以下简称《孙文》。

认真拜读后感触良多。

首先衷心感谢孙小素副教授阅读了我们《应用回归分析》拙作的部分章节，同时感谢《统计研究》给我们提供这样一个好的机会，使我们能够借助贵刊对加权最小二乘法的有关问题谈谈更多的认识。

《孙文》谈到《应用回归分析》教材中有关加权最小二乘法残差图的问题。

摆出了与加权最小二乘法相关的三类残差图，指出第三类残差图的局限性。

直接的问题是三类残差图的作用，而更深层的原因应该是对加权最小二乘法统计思想的理解和认识上的差异。

二、对加权最小二乘法的认识1.加权最小二乘估计方法拙作《应用回归分析》中对加权最小二乘法有详尽的讲述，这里仅做简要介绍。

多元线性回归方程普通最小二乘法的离差平方和为：

　Q（　0,　1,　,　p）　　（yi　　0　　1xi1　　　　pxip）2i　1n

（1）,　,　,　使式

（1）的离普通最小二乘估计就是寻找参数　0,　1,　,　p的估计值　01p差平方和Q达极小。

式

（1）中每个平方项的权数相同，是普通最小二乘回归参数估计方法。

在误差项　i等方差不相关的条件下，普通最小二乘估计是回归参数的最小方差线性无偏估计。

然而在异方差的条件下，平方和中的每一项的地位是不相同的，误差项　i的方差　i2大的项，在式

（1）平方和中的取值就偏大，在平方和中的作用就大，因而普通最小二乘估计的回归线就被拉向方差大的项，方差大的项的拟合程度就好，而方差小的项的拟合程度就差。

　,　,　仍然是　,　,　,　的无偏估计，但不再是最小方差线性由式

（1）求出的　01p01p无偏估计。

加权最小二乘估计的方法是在平方和中加入一个适当的权数wi，以调整各项在平方和中的作用，加权最小二乘的离差平方和为：

Qw（　0,　1,　,　p）　　wi（yi　　0　　1xi1　　　　pxip）2

（2）i　1n,　,　,　使式

（2）的离差加权最小二乘估计就是寻找参数　0,　1,　,　p的估计值　0w1wpw1平方和Qw达极小。

所得加权最小二乘经验回归方程记做　　x　　　　x（3）w　　y0w1w1pwp理论上最优的权数wi为误差项方差　i2的倒数,即　wi　1　2i（4）误差项方差大的项接受小的权数，以降低其在式

（2）平方和中的作用;误差项方差小的项接受大的权数，以提高其在平方和中的作用。

由

（2）式求出的加权最小二乘估计,　,　,　就是参数　,　,　,　的最小方差线性无偏估计。

　01p0w1wpw一个需要解决的问题是误差项的方差　i2是未知的,因此无法真正按照式（4）选取权数。

在实际问题中误差项方差　i2通常与自变量的水平有关,可以利用这种关系确定权数。

例如2时,这时取权数为　　i2与第j个自变量取值的平方成比例时,即　i2=kxijwi　1　（5）2xijmm更一般的情况是误差项方差　i2与某个自变量xj取值的幂函数xij成比例，即　i2=kxij,其中m是待定的未知参数。

此时权数为wi　1（6）mxij这时确定权数wi的问题转化为确定幂参数m的问题，可以借助SPSS软件解决。

《应用回归》书中和《孙文》中都讲了这个方法，本文不再重述。

需要注意的是，在实际问题中比例关系　i2=kxij只是近似的，式（6）确定的权数wi只是式（4）最优权数的近似值，因此所得的参数最小二乘估计也只是近似的最小方差线性无偏估计。

2.变量变换的加权最小二乘法《孙文》中谈到：

加权最小二乘法的实质是要对原始数据实施变换，获得新的解释变量和被解释变量，变换的方法是：

my　　y　xj　m2（y　表示变换后的被解释变量）（7）　　xh　xjxh　m2　是对应于原始变量xh的新解释变量）（8），h=0,1,2,,p（xh2　,x1　,　,x　p）重新进行普通最小二成估计（注意，此处的回归对变换后的变量（y　,x0　　xj模型不包含常数项，增加了数据变换后派生出的一个新解释变量x0权最小二乘法的经验回归方程：

　m2），即可得到加　　　　yw　　0wx0　　1wx1　　　　pwxp（9）以上是《孙文》中对加权最小二乘法的解释，其中公式（7）、（8）、（9）分别对应《孙文》中的公式（3）、（4）、（5）。

3.两种方法的异同相同之处。

显然，式（3）与式（9）两个回归方程是等价的，把式（3）同时乘以w　xj后就转化为式（9）。

　m2　　x　　　　x使用起来比较w　　不同之处。

首先，式（3）的回归方程y0w1w1pwp方便，因为利用该回归方程进行预测和控制时，无须按式（8）变换自变量的新值，直接将自变量的新值代入式（3）即可。

对这一点孙小素副教授也是认同的。

其实，所有方法的优劣评价根本就在于他是否方便于建模最终的应用。

其次，虽然两种加权回归方法所得的回归方程是等价的，但是对回归效果的拟合优度和检验是不同的，式（3）的加权最小二乘的总离差平方和、回归离差平方和、残差平方和的计算公式和关系为：

　w（yii　1ni2iw　w）　　wieiw（10）　w）　　wi（y22i　1i　1nn其中w是yi用wi加权的算术平均数。

由于式（9）的变换加权最小二乘回归方程不含常数项，所以不满足离差平方和分解式，而是对直接的平方和满足分解式，总平方和、回归平方和、残差平方和的计算公式和关系为：

等价于　　　e　　y　　　y2i2iwi　1i　1i　1nnn2iw（11）　wy　　wyi2iii　1i　1nn2iw2（12）　　wieiwi　1n对不含常数项的普通最小二乘回归，SPSS软件就是用上述公式计算平方和并进而计算判定系数R和做F检验的。

然而，这种做法的合理性是有欠缺的，因为总平方和2　y　ii　12iwn2不能如实反映因变量的变差，仅是为了满足平方和分解式而这样做，有削足适履的嫌疑。

另外一种做法是以　（y　　　）i　1n2作为总离差平方和，把　（y　　　）　　e　2ii　1i　1nn作为回3归离差平方和，而不使用　　（yi　1n2　作为回归离差平方和，Excel软件不含常数项（即　）iw指定常数项为零）的普通最小二乘回归就是采用的这个方法。

对《孙文》所引用的《应用回归分析》例题，有关的计算结果见表1（a）（d）。

从表中可以清楚看出用变换加权最小二乘法计算离差平方和存在明显的问题，判定系数R和检验统计量F严重失真。

对同样的数据做变换加权最小二乘估计，市面上流行的不同软件的拟合优度检验却差别很大，SPSS软件计算出的F=442.2，R=0.968；Excel软件计算出的F=74.26，R=0.837。

对其他数值就不逐一对比了。

表1（a）普通最小二乘方差分析表（SPSS）表1（b）加权最小二乘方差分析表（SPSS）表1（c）变换加权最小二乘方差分析表（SPSS）表1（d）变换加权最小二乘方差分析表（Excel）222针对上述问题，变换加权最小二乘法实际上常用于式（5）成立的情况，即m=2，此时变换后的自变量x　j1，回归参数　j就相当于回归常数项了，对变换后的数据就可以用含有4常数项的普通最小二乘估计方法，各种统计软件对变换加权最小二乘法回归的拟合优度检验的输出结果就都一致了。

遗憾的是，即使是在这种特殊情况下也仍然与直接用加权最小二乘估计方法不一致，这只需仔细比较两种情况的总离差平方和公式　（y　　　）ii　1n2和　w（yii　1ni　w）2的差异即可。

这种通过变换变量求解加权最小二乘估计方法的作用是什么呢？

引用文献[1]第180页的一段文字给予解释：

许多回归软件包允许用户有选择地使用具体的权数进行加权最小二乘分析。

如果不能选择，通过对观察值的具体变换，使用不加权的最小二乘法，仍能得到加权最小二乘估计量。

可见通过变换变量求解加权最小二乘估计的方法仅是作为参数估计的一种计算手段而存在的，如果你使用的软件仅具有普通最小二乘功能，就只能用变换变量的方法求解加权最小二乘的参数估计。

《应用回归分析》教材是结合SPSS软件编写的，而SPSS软件允许用户直接使用权数进行加权最小二乘分析，不必通过变换变量的方法求解加权最小二乘估计，因此我们在教材中没有给出这种通过变换变量求解加权最小二乘估计的方法。

纵上所述，在拥有像SPSS这种能够直接计算加权最小二乘估计的软件时，就不必使用变换变量求解加权最小二乘估计的方法了。

即使使用的是变换变量求解加权最小二乘估计的方法，也应该把式（9）变换回式（3）的形式，用来直接表示出原始变量之间的关系。

因此《孙文》把式（9）称为加权最小二乘法的经验回归方程就显然不合适了。

我们也没有见到其他的文献用这个称法。

三、三类残差图的作用）为横坐标轴画的散点图就是残差图。

以残差为纵坐标轴以自变量（或回归值y《孙文》中的三类残差图如下：

1.普通残差图。

指用原始数据对线性回归模型做普通最小二乘估计所得的普通残差ei所做的残差图，也就是《孙文》中所称的第一类残差图。

2.加权普通残差图。

其残差是用原始数据做加权最小二乘估计所得的普通残差ew（在《孙文》中记做e　，也就是《孙文》中所称的加权派生残差图，或第三类残差图。

w）3.加权变换残差图。

其残差是用变换数据做加权最小二乘估计所得的普通残差e　w（在《孙文》中记做ew），也就是《孙文》中所称的加权残差图，或第二类残差图。

e　w的计算方法有两种，第一种方法是用式（9）的变换加权最小二乘法得到，第二种方法是把加权普通残差ew乘以w　xj　m2得到，即e　w　ew　w　ew　xj　m2。

拙作《应用回归分析》一书中重点讲述的是普通残差图的作用，可以从直观上判断回归模型是否存在异方差性，还可以进一步用普通残差的绝对值与自变量计算等级相关系数，做相关性检验来判断是否存在异方差性。

在教材正文中对加权残差图只是给出了软件绘制的方法和图形，并没有对图形结果做任何文字说明和评价。

由于考虑有些初学者可能会产生误5解，我们在教材第121页本章小结与评注中对加权残差图做了简要解释，引述如下：

从残差图来看，普通最小二乘估计只能照顾到残差大的项，而小残差项往往有整体的正偏或负偏。

加权最小二乘估计的残差图，对大残差和小残差拟合的都好，大残差和小残差都没有整体的正偏或负偏。

以上这段文字指出了加权残差图的作用，如果在普通残差图中小残差有整体的正偏或负偏，而在加权普通残差图中得到明显的改善，这就说明加权最小二乘估计是显著有效的。

两种残差图在《应用回归分析》和《孙文》中都已给出，本文就不重复绘制图形了，而是把三种残差的具体数值列在表2中，说明加权普通残差的作用。

表2三种残差的数值6这个例子共有31对数据，把数据分为3组，第110对数据为第1组，是小方差组；1121对数据为第2组，是中等方差组；2231对数据为第3组，是大方差组。

从表中看到，第1组10个普通残差ei中有8个是负值，说明普通残差图中小残差有整体的负偏。

而10个加权残差eiw中只有6个是负值，说明加权残差对小残差整体负偏的情况已经有了明显改进。

10个普通残差中绝对值最大的是e6=-253，加权回归后改善为e6w=-221。

图形是对数值的直观展示，从两张残差图上也是可以看出相同现象的。

第3组10个普通残差ei和加权残差eiw的正负性相同，正负值各有5个，说明普通最小二乘和加权最小二乘对大残差项拟合的都好。

仔细观察这组的两种残差还是能发现区别7的，10个普通残差中绝对值最大的是e29=-500，加权回归后成为e29w=-546。

不是像小残差组那样得到改善，而是误差变得更大。

其道理也很简单，加权最小二乘估计照顾小残差项是以牺牲大残差项为代价的，有得必有失，也是有局限性的。

《孙文》中认为加权残差图存在一定的局限性，具体表现在：

第一，这类残差图不能用来检验模型是否存在异方差问题。

第二，这类残差图也不能用来说明模型中的异方差问题是否得到妥善处理。

关于第一点，准确地说是不必用加权残差图检验模型是否存在异方差问题，并非不能用，这是因为检验模型是否存在异方差问题的工作已经由普通残差图完成。

实际上用加权普通残差图检验异方差的效果是优于普通残差图的，这是因为存在异方差时普通残差对误差的估计是失真的，而加权残差则能够更真实地反映误差项的大小。

关于第二点，如果从加权残差图中看到小残差项已经没有整体的正偏或负偏，则说明加权最小二乘估计已经消除了异方差的影响。

《孙文》中提出的加权变换残差图（第二类残差图）是有其长处的，可以比加权普通残差图（第三类残差图）更直观地看出加权最小二乘估计是否真正解决了异方差问题，这只要　用等级相关看看残差图中散点在左右两端分布得是否平齐即可。

还可以由加权变换残差eiw系数法做检验，判断异方差是否真正得以消除，这个作用是加权普通残差eiw不具备的。

这　为纵轴，分别两个作用在《孙文》中已经详细介绍。

顺便指出《孙文》以加权变换残差eiw　　x　　x　0.75和x1以两个变换后的自变量x00.25为横轴绘制出两张残差图是不必要的，实际上这两张残差图是等价的，从图形上看只是左右颠倒。

　的数值是对原始数据的残差做了变换，其数值大小只具有相对意义。

加权变换残差eiw加权普通残差eiw是原始数据的残差，其数值大小具有绝对意义，它综合了普通残差和加权变换残差的部分功能，当然同时也丧失了部分功能。

　的方法。

实际上，在用《孙文》中讲述了用变换加权最小二乘法计算加权变换残差eiw　　SPSS软件计算出权数wi和加权普通残差eiw后，只须根据关系eiw　，而不必用变换加权最小二乘方法。

加权变换残差eiwwi　eiw就可以计算出拙作《应用回归分析》在正文中对加权变换残差图完全没有提及，不过本章小结与评注中的一句话如果把误差项加权，那么加权的误差项wi　　i是等方差的，可以看作是　的诠释。

对加权变换残差eiw拙作《应用回归分析》关于加权普通残差图的内容是这样讲述的：

为了画残差图，需要计算出加权最小二乘估计的残差eiw，这需要重新做回归。

第一步，在WeightEstimation对话框的Options选项中，保存最优权作为新的变量。

8第二步，进入线性回归对话框，点选左下角的WLS，线性回归对话框会增加一行Weight变量框，把在第一步保存的最优权变量选入。

第三步，点选线性回归对话框的Save选项，保存残差变量，运行。

第四步，以自变量x为横轴，以加权最小二乘估计的残差eiw为纵轴画残差图这段内容的直接作用是介绍加权普通残差图的绘制方法，其间接作用是介绍SPSS软件加权最小二乘估计功能的使用方法，也就是第二步的内容。

在SPSS软件中，加权最小二乘回归具有普通最小二乘回归的很多功能，包括共线性诊断、异常值判定、自相关分析、区间预测等等，这些功能都是以第二步的内容为基础的，计算残差只是众多功能之一而已。

用图形来评价结果往往只是一种粗糙的辅助手段。

正像我们在拙作《应用回归分析》第121页本章小结与评注上强调指出：

关于异方差性的诊断，方法很多，至于哪种检验方法最好，目前还没有一致的看法。

残差图方法直观但较粗糙。

等级相关系数检验要比残差图检验方法更为可取。

四、对异方差问题的深入思考拙作《应用回归分析》教材定位于统计学专业的本科生或非统计学专业的硕士生，作为3学分54学时的课程教材，限制篇幅和深度，教材中对一些问题不可能全面展开叙述，在此对异方差的一些问题再做进一步探讨。

当回归模型存在异方差时，加权最小二乘估计只是对普通最小二乘估计的改进，这种改进有可能是细微的，不能理解为加权最小二乘估计会得到与普通最小二乘估计截然不同的回归方程，或者一定有大幅度的改进。

对本例的数据，普通最小二乘的经验回归方程是　　648.1　0.0847x，加权最小二乘的经验回归方程是yw　　719.1　0.0879x，两者相y差不大。

比较加权普通残差图与普通残差图的差异就可以如实反映这种改进幅度。

看来需要　　强调指出的是这个改进幅度不是指eiwwi　eiw是否变为等方差了，而是指回归方程也就是回归系数估计值的差异幅度，在这一问题上加权普通残差图是优于加权变换残差图的。

实　　际上，可以构造出这样的数据，回归模型存在很强的异方差，加权回归后eiwwi　eiw变为等方差了，但是普通最小二乘与加权最小二乘所得的回归方程却完全一样。

加权最小二乘以牺牲大方差项的拟合效果为代价改善了小方差项的拟合效果，这也并不总是研究者所需要的。

在社会经济现象中，通常变量取值大时方差也大，在以经济总量为研究目标时，更关心的是变量取值大的项，而普通最小二乘恰好能满足这个要求。

动态数据的指数平滑法把近期数据加上大的权数，强调近期数据的贡献就是这样的统计思想。

加权最小二乘估计的理论权数是式（4），但是实际使用的只能是近似的，通常取为某个自变量xj平方的倒数，即w　xj。

对本例的数据，取w　x，加权最小二乘回归方22w　　722.5　0.0881程为yx，判定系数R=0.933。

而取最优权数w　x221.5所得加权最小w　　719.1　0.0879x，R=0.936，二乘回归方程为y两者非常接近。

所以当手头没有SPSS软件时，直接取w　xj是一个可行的方法，这时对加权最小二乘回归的效果要用残差图等方法验证。

如前所述，当用变换变量方法做加权最小二乘估计时，选取w　xj的一个922好处是回归模型中仍然含有常数项，这时不同软件对回归拟合优度检验的结果就一致了。

异方差问题是社会经济现象建立回归模型时的普遍问题，加权最小二乘估计是解决异方差的一个常用方法，另外一个方法是当模型存在异方差性时,人们往往还考虑对因变量作变换,使得对变换过后的数据误差方差能够近似相等,即方差比较稳定,所以通常称这种变换为方差稳定化变换，常见的变量变换有如下几种。

（1）如果　i2与E（yi）存在一定的比例关系,使用y　　y;　

（2）如果　i与E（yi）存在一定的比例关系,使用y　　log（y）;　（3）如果i与E（yi）存在一定的比例关系,使用y　　1y方差稳定变换在改变误差项方差的同时，也会改变误差项的分布，改变回归函数的形式。

因而当误差项服从正态分布，因变量与自变量之间遵从线性回归函数，只是误差项存在异方差时，应该采用加权最小二乘估计，以消除异方差的影响。

当误差项不仅存在异方差，而且误差项不服从正态分布，因变量与自变量之间也不遵从线性回归函数关系时，应该采用方差稳定变换。

变换变量的加权最小二乘估计方法可以看作方差稳定变换的一个特例，是同时变换自变量与因变量的方法，对因变量的变换是线性的，因此只改变误差项的方差，而不改变分布。

从统计思想看，方差稳定变换是真正消除了异方差。

加权最小二乘并不是去真正消除异方差，而只是通过加权的方法消除异方差对回归估计的不良影响，虽然存在异方差但是也能够构造良好的估计量，这体现了统计方法的灵活多样性。

如果认为统计方法只能适用于等方差的情况，遇到异方差时一定要先把数据变换为等方差才能处理，这种认识就显狭隘和片面了。

异方差、自相关、共线性是计量经济学建立经济回归模型常遇到的问题，拙作《应用回归分析》中重点讲的是共线性问题，用一章的内容讲述共线性的危害及识别方法，再用一章的内容讲述用SPSS软件做岭回归解决共线性问题的详细方法，而淡化了对异方差和自相关的讲述。

自相关虽然是很重要的内容，但是对此问题的深入探讨属于时间序列分析的内容，作为回归分析教材只是做简要介绍。

如前所述，即使回归模型存在很强的异方差，但是加权最小二乘所得的回归方程可能只是对普通最小二乘的微小调整，并且这种调整还不一定是研究者所需要的，所以我们认为异方差对回归模型的危害远不如共线性严重。

这样就把异方差、自相关和异常值这三个问题合并为教材的一章内容，仅对重要的方法做简要介绍，一些没能在正文中讲述的问题则在本章小结与评注中做简要的说明或提示。

这种认识是否正确，处理方式是否妥当，还请孙小素副教授和广大同行不吝指正。

10TSRPONMLKJIGFEDCBAyxwvutsqponmlkjhgfedcb987654310+-）（*$!

#ZYXWUTSRQPOMLKJIHGFDCBAzyxvutsrqpnmlkjihgedcba986543210-）（*%$!

ZYXWVUTRQPONMLJIHGFEDCAzyxwvusrqponmkjihgfedba987653210+-）*%$!

#ZYWVUTSRQONMLKJIGFEDCBAzxwvutsrponmlkjhgfedcba87654320+-）（*$!

#ZYXWVTSRQPONLKJIHGFDCBAzyxwutsrqpomlkjihgedcba987543210+）（*%$!

ZYXWVUTSQPONMLKIHGFEDCAzyxwvutrqponmljihgfedba987654210+-）（%$!

#ZYWVUTSRQPNMLKJIHFEDCBAzxwvutsrqonmlkjigfedcba87654321+-）（*%!

#ZYXWVTSRQPONMKJIHGFECBAzyxwutsrqponlkjihgfdcba987543210+-（*%$!

#YXWVUTSQPONMLKJHGFEDCBzyxwvutrqponmlkihgfedca987654210+-）（*%$!

#ZYXVUTSRQPNMLKJIHGEDCBAzywvutsrqonmlkjihfedcba97654321+-）（*%$#ZYXWVUSRQPONMKJIHG

展开阅读全文