第9章回归分析方法Word格式.docx
《第9章回归分析方法Word格式.docx》由会员分享,可在线阅读,更多相关《第9章回归分析方法Word格式.docx(12页珍藏版)》请在冰豆网上搜索。
是回归变量,可以是随机变量,也可以是一般变量;
是随机因素对响应变量所产生的影响—-随机误差,也是随机变量。
为了便于作估计和假设检验,总是假设,亦即,则随机变量~。
(2) 对模型的分析
假设有一组试验数据,并假设是相互独立的随机变量,则有
其中是相互独立的,且,()。
若用分别表示的估计值,则称为关于的一元线性回归方程。
要研究的问题是:
(1)如何根据来求的估计值?
(2)如何检验回归方程的可信度呢?
要解决的第一个问题,通常采用最小二乘估计,第二个问题采用统计检验的方法。
9.1.2参数的最小二乘估计
(1)最小二乘法
用最小二乘法估计的值,即取的一组估计值使其随机误差的平方和达到最小,即使与的拟合最佳。
若记
则
显然,且关于可微,则由多元函数存在极值的必要条件得
,即
此方程称为正规方程组,求解可以得到:
称为的最小二乘估计,其中
,,,
。
(2)的性质
①;
②;
③.
事实上:
;
。
由此可知是的无偏估计。
从而可以得到:
对固定的有
即是的无偏估计,且有
故,即是的无偏估计。
9.1.3回归方程的显著性检验
前面是根据回归方程求出了估计值,从而有。
现在的问题是:
与之间是否确实存在这种关系?
即回归方程是否一定有意义?
即当变化时,是否为一常数?
也就是说是否为0?
这就需要对回归方程作显著性检验。
实际上,只要检验是否为真,这就需要建立一个检验的统计量。
先考虑总偏差的平方和,即表示之间的差异,将其分解为两个部分:
事实上,由正规方程组知:
即回归平方和为,残差平方和(或剩余平方和)为。
实际上,是由回归变量的变化所引起的误差,它的大小反映了的重要程度,而是由随机误差和其他未加控制的因素所引起的误差。
因此,我们现在主要考虑回归平方和在总的平方和中所占的比重,记,称为复相关系数,用的大小来评价模型的有效性。
越大,则反映了回归变量与响应变量之间的函数关系越密切,一般0≤≤1,但要多大才认为函数关系的存在呢?
这就需要给出一个临界值,为此引进F统计量。
由于每一个平方和都有一个自由度(free)(即相互独立,且服从的随机变量的个数),用表示。
则总偏差平方和的自由度为;
回归平方和的自由度为;
残差平方和的自由度为,
于是的均方为(平方和除以自由度)。
由的性质可以证明:
当时,,即说明当时是误差方差的无偏差估计。
在我们的假设下(为独立,同服从标准正态分布),则回归均方与残差均方的比值是F统计量,即
在的假设下,给定一个模型的显著水平(一般取0.01或0.05),可通过查表得到F分布的值,记为。
如果
则表明是小概率事件,在一次检验中是不会发生的。
如果确实算出,则说明的假设不成立,即模型中一次项是必要的,是不可少的。
换言之,模型对水平而言是显著的,反之是不显著的。
9.1.4回归方程的拟合检验
通过对回归方程的显著性检验,在显著的情况下,即说明对y的影响是主要的,但不能肯定y与的关系一定是线性的,也可能是非线性的,也可能还存在其它的影响因素,为此,就需要在同一个下进行重复试验,检验回归方程的拟合问题。
假设对同一个,进行次试验,得到观测数据,即共有组独立观测数据,由此来检验是否为真。
为了建立统计量,考虑相应的残差平方和
(利用正规方程组)
其中为第组试验数据的平均值。
表示试验中的随机误差平方和,自由度为。
表示模型中其它影响因素所产生的误差平方和,称为模型误差平方和(失拟平方和),其自由度为。
在回归方程为真的假设下,则有
其中是相互独立的,且()。
即,而与是相互独立的,由-分布的性质可知
因此
可作为检验模型拟合的统计量,即给定一个显著水平,对应地可查表得到F-分布值。
如果计算出,则说明模型的拟合是好的,即其它因素所产生的误差不明显,是不显著的。
如果计算出,则说明模型的拟合是不好的,即其它因素所产生的误差超过了试验误差,是显著的,需要进一步改进模型。
这有两种可能:
一种是不是的线性关系;
另一种是回归变量的个数不够,需要增加新的变量,究竟属于哪一种需要找出原因加一改进。
以上我们讨论了一元线性模型估计和显著性、拟合性的检验方法,对于多元线性模型也是类似的。
9.2多元线性回归方法
9.2.1多元线性回归模型
多元线性回归模型的一般形式为
(9.2)
令
(9.3)
其中为随机误差,且服从于,均为实际问题的解释变量,是已知函数。
假设作了次试验,得到组观测值为
代入(9.3)中可得
其中为第次试验时的随机误差,且相互独立同服从于。
该模型关于回归系数是线性的,一般是向量。
为了方便,引入矩阵记号:
其中称为模型设计矩阵,是常数矩阵,与是随机向量,且
(I为阶单位阵)
是不可观测的随机误差向量,是回归系数构成的向量,是未知待定的常数向量。
下面的问题是如何估计回归系数,检验模型的显著性和拟合程度。
9.2.2回归系数的最小二乘估计
选取的一个估计值,记为,使随机误差的平方和达到最小,即
写成分量形式:
注意到是非负二次式,是可微的。
由多元函数取得极值的必要条件可得,即
整理得
或
称为正规方程组,记称为系数矩阵,称为常数矩阵。
如果存在,则称其为相关矩阵。
可以证明:
对任意给定的,正规方程组总有解,虽然当不满秩时,其解不唯一,但对任意一组解都能使残差平方和最小,即。
特别地,当满秩时,即,则正规方程组的解为,即为回归系数的估计值。
因为,则也是一个随机向量,且期望为
同理方差为,即是的一个无偏估计。
将代入模型中得模型的估计:
,它是模型的无偏估计,即,其中。
9.2.3回归模型的显著性检验
主要是检验模型是否一定与解释变量有密切的关系,即是否具有(9.2)式的形式。
假设不依赖于,即为常数。
同一元的情况类似,记实验值的均值为,其总偏差平方和为(之间的差),即
其中为残差平方和,反映的是随机误差和其它未加控制的因素所引起的误差,即是误差向量的估计量的各分量的平方和,且
为回归平方和,是由回归变量的变化引起的误差。
现在主要考虑回归平方和,定义复相关系数为,用R的大小来评价模型的有效性,R越大,则反映了回归变量与响应之间的关系密切,反之亦然。
要考查R的大小,需要建立一个F-统计量,首先求出各平方和的自由度,总偏差平方和自由度,回归平方和的自由度为,残差平方和的自由度为。
于是相应的均方值为
,
当假设时,由于,则
这就说明是的无偏估计,即,,且与相互独立,则构造F--统计量:
取一个显著水平(0.01或0.05),可查表得到,计算与比较:
当时,认为模型是显著的,则拒绝的成立,即与存在明显的函数关系。
当时,认为模型是不显著的,则是成立的,即与不存在明显的函数关系。
9.2.4.回归模型的拟合性检验
在模型的检验显著的情况下,需要进一步地做拟合性检验,目的是检验模型是否一定为(9.2)式所给的形式,即是否还存在其它的影响因素没有考虑到?
将回归变量的个观测值按相同(或相近)值分成组,每组的个数记为,显然,相应地也可分为组,即第组的观测值为。
记,则第组的平均值为,根据正规方程组第组的试验随机误差的平方和为
从总的残差平方和中减去,即为模型(9.2)中的其它因素的影响误差,记,亦即
称为模型的误差平方和,其自由度分别为。
在模型(9.2)为真的条件下,可以得到
且与相互独立,由-分布的性质得
故
即为拟合检验的统计量。
取一个显著水平(0.01或0.05),对应地可查表得到,用数值计算,并与比较:
当时,则说明模型的拟合是好的,是不显著的,即模型的省略项造成的误差影响不大。
当时,则说明模型的拟合是不好的,是显著的,即模型的省略项造成的误差影响不可忽略,需要增加新的变量。
如何增加新的变量?
就是下面的模型选择要解决的问题了。
9.3回归模型的选择方法
由上面拟合性检验结果:
,当“”成立时拟合性检验是显著的,即未考虑到的因素的影响不可忽略,这就需要引入新的解释变量;
当“”成立时拟合性检验是不显著的,即模型中的解释变量已经足够了,但并不是说模型中所有的变量都是必须的,有可能有多余的变量,应该从模型中去掉。
对于这两种情况,如何去引入新的变量,又如何去掉多余变量?
解决的方法就称为模型的选择。
模型选择的基本原则是:
既不遗漏一个重要的解释变量,但也不把一个无用的解释变量保留在模型中。
如何考查一个解释变量在模型中的重要性呢?
主要是用它的偏回归平方和的大小来衡量,何为偏回归平方和呢?
假设给定一组解释变量,它的残差平方和为:
9.3.1.去掉解释变量
假设把其中一个无用的解释变量去掉(不妨去掉,即),相应的可以计算残差平方和为,如果,则称为解释变量的偏回归平方和,它的大小是反映了在模型中贡献的大小,即是衡量一个解释变量的重要性的定量指标。
究竟多大为重要(需要保留),多小为不重要(可以去掉),这就需要给出一个统计的界限值。
不妨设要考查第个解释变量的偏回归平方和。
如果已知为回归系数的估计值,相关矩阵为,则可以证明:
的偏回归平方和为,其中为的估计值,为相关矩阵的对角元素。
如果存在一个使,即第个解释变量在模型中起的作用最小,能否把它去掉还要考查相应的F-统计量
其中为均值。
取一个显著水平,对应地可查表得到,用数值计算,并与比较:
当时,则说第个解释变量是不显著的,可以去掉。
当时,则说第个解释变量是显著的,不可以去掉,并且其它的也都不能去掉。
注:
如果去掉一个变量后,需要重新计算所有的偏回归平方和,因为变量之间有相关性,原来在个变量中作用第二小的那个变量在个变量中其偏回归平方和不一定是最小的,一般会发生变化。
9.3.2增加解释变量
设要引进的变量为,记为在试验观测点的值为
则个变量的回归系数的估计值取为
相应的残差平方和为
而
则可以证明:
的偏回归平方和为
的大小反映了对模型影响的大小,即是衡量的作用的定量指标。
究竟多大可以引进,多少不需要引进呢?
这就需要建立统计量,找出界限值。
假设个变量的残差平方和为,它比原个变量的残差平方和要减少,即
相应的自由度为。
不妨设是所有准备增加的变量中其偏回归平方和最大的一个,它是否需要增加到模型中去,要考查F统计量:
取一个显著水平,查表得,计算得到并比较二者大小。
如果,则第个解释变量需要增加到模型中去,否则无需增加,而且也没有其它的变量需要增加了。
在增加了以后,可以继续上面的过程,考查其它准备引入的变量中其偏回归平方和最大的那一个变量作为,注意在个变量中偏回归平方和第二大的那个变量在个中不一定是最大的,这是因为变量有一定的相关性。
9.3.3模型选择的一般方法
上面给出了在已知模型中剔除和增加解释变量的具体方法和步骤,模型选择的一般方法如下:
(1)淘汰法(向后法)
基本思想是:
把所有可选择的变量都放进模型中,而后逐个做剔除检验,直到不能剔除为止,最后得到所选的模型。
(2)纳新法(向前法)
先少选取几个变量进入模型中,而后对其它的变量逐个地做引入模型的检验,直到不能引入为止,得到最后的模型。
(3)逐步回归法(吐故纳新法)
结合上面的两种方法。
9.4回归模型的正交化设计方法
由上面的讨论我们可以知道,因为模型的解释变量之间有很复杂的相关性,使回归系数的估计、模型的选择都带来很多的麻烦,为了简化计算,借助正交函数系可使问题简化。
9.4.1正交的概念
设是个解释变量,如果对于满足:
(1);
(2),
则称是正交的。
如何构造正交函数系呢?
通常情况下,正交函数都为正交多项式,首先对于一维回归变量来说明构造正交多项式的方法。
设有点列,取,其中。
假设已做出了阶正交多项式,则第阶正交多项式为,其中
由此可以构造出任意阶的正交多项式。
一般说来,在多维的回归变量的点列上构造正交多项式是很复杂的,现在的问题是能否找到一种方法可将任意一组解释变量正交化的方法?
这就是下面的格莱姆-施米特(Gram-Schmidt)正交化方法:
设是由确定的一组线性无关的解释变量,构造如下:
其中。
相当于对做了一个满秩变换,可以验证是在点列上的正交的解释变量。
9.4.2正交性在建模中的应用
假设是上的正交解释变量,建立模型如下:
又假设由对应的观测值为,则利用正交性可得回归系数的最小二乘估计值为
(9.4)
第个解释变量的偏回归平方和为
(9.5)
残差平方和为
(9.6)
由此可以大大简化计算,而且在模型选择的检验中,剔除变量或引入变量后其余变量的回归系数和偏回归平方和的值不改变(因为它与变量个数无关)。
9.5多重共线性与有偏估计方法
9.5.1多重共线性
多重共线性是实际中由于解释变量之间的相关性引起使正规方程组具有病态,其解不稳定的一种现象,具体说就是对于模型设计矩阵
一般假设为满秩矩阵,则正规方程组的系数矩阵为满秩阵,即。
如果用表示的个特征根,且当(行列式)很小,即至少有一个特征根接近于0(例如接近于0),但不等于0时,则使正规方程组
成为一种病态方程。
虽然是的无偏估计,即,但其均方误差
充分的大,即使的估计值的误差太大,无实用的价值。
此时称个解释变量之间具有多重共线性,即也就是说设计矩阵的列向量之间有近似的线性关系,但非绝对的线性关系。
衡量多重共线性程度的量用
来表示,
1)当时,则不存在多重共线性;
2)当时,则存在较强的多重共线性;
3)当时,则存在严重的多重共线性。
问题:
如何解决多重共线性的情况呢?
9.5.2回归系数的有偏估计
在模型具有多重共线性时,可使回归系数的估计值的偏差增大,即均方差变大,使估计不稳定,为解决这个问题采用有偏估计法可以减少均方误差。
(1)岭估计法
基本思想:
由于,使正规方程出现病态,对一个常数,则有
用代替正规方程组,其解为
实际中,根据需要可适当调整的大小。
(2)主成份估计法
因为是对称正定阵,由代数的知识可知,存在正交阵使
其中为的个特征根。
在有多重共线性时,某些特征根近似为0,特征根的大小反映了对应的变量对模型影响的大小,此方法就是忽略小的,保留大的。
9.6沼气的生成问题
9.6.1问题的提出
沼气的主要成份为甲烷,它是由含纤维素的有机物质在隔绝空气的情况下受到细菌分解作用所产生的一种有毒易燃气体。
在我国农村广泛地利用沼气池生成沼气,作为一种卫生快捷的燃料,一般是用植物结杆残体在保持一定温度和温度的条件下,并与空气隔绝一段时间后经自然分解而成。
试验证明,如果适当地加入一些有机肥料作为发酵剂,则可以加快沼气的形成。
下面是在一个确定沼气池中加入相同数量的同质植物结杆,加入不同数量的水(W)和有机肥(F)后形成沼气的时间(T)对比数据,请根据这些试验数据分析研究沼气形成的时间与水和有机肥料之间的关系,并有此关系讨论最佳的配料方案。
表9-1:
W,F和T的试验数据
9.6.2 模型的假设与分析
模型假设
(1)设试验数据是在相同的试验条件下进行的,即沼气池大小形状相同,结杆和有机肥料相同,其自身的含水量也相同;
(2)在此不考虑环境温度的影响,虽然在同等条件下高温可以促使沼气的形成,但实际中的环境温度一般是不可控的,于是我们认为总是在一定的适宜温度范围内,温度因素对形成沼气的时间影响不大;
(3)每次实验是独立进行的,且W、F和T的试验值是准确的。
模型的分析
根据实际中沼气的自然形成的原理和有关的常识,我们知道在同等条件下,水分和肥料各自都对沼气的形成有一定的促进,而且二者之间也有一定的交互效应,即二者用量的多少不同其效果是不同的。
即沼气的形成时间不仅与水和肥料的用量有关,而且还与二者的交互作用有关。
因此,一般认为沼气形成时间T的长短应该是加水量W和肥料用量F的二次多项式函数,为此,我们可以采用线性回归方法来研究它们之间的关系式。
9.6.3模型的建立与求解
为了便于对问题的描述,我们不直接将沼气形成的时间表示成W,F的函数,根据试验数据的分布情况,在这里引入两个新的变量
为此可以将产量表示成的二次多项式函数。
我们首先来构造正交的多项式,由试验数据(表9-1)可得相应的新数据如表9-2。
表9-2:
W,F的试验数据转换为的数据
实际上可以证明:
在9个试验点上是正交的,其中向量。
于是可有回归模型的一般形式为
在这里可以用最小二乘法求出所有的回归系数,实际上,根据其正交性,将表9-2中数据代入(9.4)式中计算可得回归系数的估计值
由公式(9.5),各个变量的偏回归平方和为
又由公式(9.6),总残差平方和为
而且其自由度为。
在所有偏回归平方和中最小的是,对应的解释变量为,它是否要从模型中去掉,需要做进一步的显著性检验。
由于,则F-统计量为
取显著水平时,查表得,即,于是在模型中的作用是不显著的,可以将此项从模型中剔除。
而后应将相应的偏回归平方和加入到总残差平方和中去(这是因为模型是由正交变量构成的,所以可以直接求和),即为,自由度为,均值为。
下面要进一步考查偏回归平方和次小的解释变量的显著性。
显然次小是,对应的解释变量为,类似的可以计算
而对于显著水平,查表得,即,于是在模型中的作用还是不显著的。
可以将此项从模型中剔除。
而后应将相应的偏回归平方和加入到总残差平方和中去,即为,自由度为,均值为。
再来考查偏回归平方和第三小的解释变量的显著性。
显然是,对应的解释变量为,类似的可以计算
对于显著水平,查表得,即,于是在模型中的作用还是显著的,即正好反映出了水(W)和肥料(F)对生成沼气的交互作用。
到此为止,模型中也没有可剔除的变量了,故此,我们最后确定的回归模型为
(9.7)
将代入上可以得沼气的生成时间T与水W和肥料F的函数关系式。
由(9.7)式可得:
当,即W=696公斤和F=400公斤时,生成沼气的时间有最小值T=40小时。