SAS系统和数据分析逐步回归分析.docx
《SAS系统和数据分析逐步回归分析.docx》由会员分享,可在线阅读,更多相关《SAS系统和数据分析逐步回归分析.docx(70页珍藏版)》请在冰豆网上搜索。
SAS系统和数据分析逐步回归分析
595382827.doc
商务数据分析
电子商务系列
第三十三课逐步回归分析
一、逐步回归分析
在一个多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些自
变量的作用可以忽略。
这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影
响的部分自变量的问题。
在可能自变量的整个集合有40到60个,甚至更多的自变量的情况下,使用“最优”子
集算法可能并不行得通。
那么,逐步产生回归模型要含有的X变量子集的自动搜索方法,可
能是有效的。
逐步回归方法可能是应用最广泛的自动搜索方法。
这是在求适度“好”的自变量子集时,同所有可能回归的方法比较,为节省计算工作量而产生的。
从本质上说,这种方
法在每一步增加或剔除一个X变量时,产生一系列回归模型。
增加或剔除一个X变量的准则,
可以等价地用误差平方和缩减量、偏相关系数或F统计量来表示。
无疑选择自变量要靠有关专业知识,但是作为起参谋作用的数学工具,往往是不容轻视
的。
通常在多元线性模型中,我们首先从专业角度选择有关的为数众多的因子,然后用数学方法从中选择适当的子集。
本节介绍的逐步回归法就是人们在实际问题中常用的,并且行之有效的方法。
逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归平方和经检验是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著变量剔除,这样保证最后所得的变量子集中的所有变量都是显著的。
这样经若干步以后便得“最优”变量子集。
逐步回归是这样一种方法,使用它时每一步只有一个单独的回归因子引进或从当前的回
归模型中剔除。
Efroymoson(1966)编的程序中,有两个F水平,记作Fin和Fout,在每一步时,
只有一个回归因子,比如说
Xi,如果剔除它可能引起
RSS的减少不超过残差均方
MSE(即
ESS/(N-k-1))的Fout倍,则将它剔除;这就是在当前的回归模型中,用来检验
i=0的F比
(RSS(x1,x2,xi1,xi)
RSS(x1,x2,xi1))/MSE是小于或等于Fout。
若剔除的变量需要选择,则就选择使RSS减少最少的那一个(或等价的选择
F比最小的)。
用这种方式如果没有变量被剔除,则开始引进一个回归因子,比如
Xj,如果引进它后使
RSS
的增加,至少是残差均方的
Fin倍,则将它引进。
即若在当前模型加
Xj项后,为了检验
j=0
的F比,F≥Fin时,则引进Xj,其次,若引进的变量需要选择,则选择
F比最大的。
程序按
照上面的步骤开始拟合,当没有回归因子能够引进模型时,该过程停止。
二、变量选择的方法
若在回归方程中增加自变量Xi,称为“引入”变量Xi,将已在回归方程中的自变量Xj从
回归方程中删除,则称为“剔除”变量
Xj。
无论引入变量或剔除变量,都要利用
F检验,将
显著的变量引入回归方程,而将不显著的从回归方程中剔除。
记引入变量
F检验的临界值为
Fin(进),剔除变量
F检验的临界值为
Fout(出),一般取
Fin≥Fout,它的确定原则一般是对
k
上海财经大学经济信息管理系IS/SHUFE
Page1of25
595382827.doc
商务数据分析
电子商务系列
个自变量的
m个(m
≤k),对显著性水平
df1=1,
df2=
N
m1的
F分布表的值,记为
F*,
则取Fin=Fout=F*。
一般来说,也可以直接取
Fin=Fout=2.0或
2.5。
当然,为了回归方程中还能
够多进入一些自变量,甚至也可以取为
1.0或
1.5。
1.变量增加法
首先对全部k个自变量,分别对因变量Y建立一元回归方程,并分别计算这k个一元回
归方程的k个回归系数F检验值,记为{F11,F21,Fk1},选其最大的记为Fi1=
max{F11,F21,Fk1
},若有Fi1≥Fin,则首先将X1引入回归方程,不失一般性,设
Xi就是X1。
接着考虑X
分别与X
X,...,X
k
与因变量Y组成二元回归方程,对于这k-1个回归方程中
1
2
3
X,...,X
的回归系数进行
F
检验,计算
F值,并选其最大的F值F
2,若F
2
≥F
则接着就将
2k
j
j
in
X引入回归方程,不失一般性,设
X就是X。
j
j
2
对已经引入回归方程的变量
X1和X2,如同前面的方法做下去,
直至所有未被引入方程的
变量的F值均小于Fin时为止。
这时的回归方程就是最终选定的回归方程。
显然,这种增加法有一定的缺点,主要是,它不能反映后来变化的情况。
因为对于某个自变量,它可能开始是显著的,即将其引入到回归方程,但是,随着以后其他自变量的引入,它也可能又变为不显著了,但是,并没有将其及时从回归方程中剔除掉。
也就是增加变量法,只考虑引入而不考虑剔除。
2.变量减少法
与变量增加法相反,变量减少法是首先建立全部自变量
X
X,...,X对因变量Y的回归方
1
2
k
程,然后对
k个回归系数进行F检验,记求得的
F值为{F11,F21,
Fk1
},选其最小的记为
Fi
1=min{F11,F21,
Fk1},若有Fi
1≤Fout,则可以考虑将自变量
Xi从回归方程中剔除掉,不妨
设Xi就取为X1。
再对X,X,...,X
对因变量Y建立的回归方程重复上述过程,
取最小的F值为Fj2,若有Fj2
2
3k
≤Fout,则将
Xj也从回归方程中剔除掉。
不妨设
Xj就是X2。
重复前面的做法,直至在回归方
程中的自变量
F检验值均大于Fout,即没有变量可剔除为止。
这时的回归方程就是最终的回
归方程。
这种减少法也有一个明显的缺点,就是一开始把全部变量都引入回归方程,这样计算量比较大。
若对一些不重要的变量,一开始就不引入,这样就可以减少一些计算。
3.变量增减法
前面的两种方法各有其特点,
若自变量X,X,...,X
k
完全是独立的,则可结合这两种方法,
12
但是,在实际的数据中,自变量
X,X,...,X
之间往往并不是独立的,而是有一定的相关性存
12k
在的,这就会使得随着回归方程中变量的增加和减少,某些自变量对回归方程的贡献也会发
上海财经大学经济信息管理系IS/SHUFE
Page2of25
595382827.doc
商务数据分析
电子商务系列
生变化。
因此一种很自然的想法是将前两种方法综合起来,也就是对每一个自变量,随着其对回归方程贡献的变化,它随时可能被引入回归方程或被剔除出去,最终的回归模型是在回归方程中的自变量均为显著,不在回归方程中的自变量均不显著。
三、引入变量和剔除变量的依据
如果在某一步时,已有
l个变量被引入到回归方程中,不妨设为
X1,X2,,Xl,即已得
回归方程:
?
01X1
2X2
lXl
(33.1)
Y
并且有平方和分解式:
TSS
RSSESS
(33.2)
显然,回归平方和
RSS及残差平方和
ESS均与引入的变量相关。
为了使其意义更清楚
起见,将其分别设为
RSS(X1,X2
,Xl)及ESS(X1,X2,
Xl)。
下面我们来考虑,又
有一个变量Xi(l≤i≤k)被引入回归方程中,这时对于新的回归方程所对应的平方和分解式
为:
TSS=
RSS(
X1,X2,
Xl,
Xi)+
ESS(
X1,X2,
Xl,
Xi)
(33.3)
当变量
Xi引入后,回归平方和从
RSS(
X1,X2,
Xl)增加到
RSS(
X1,X2,
Xl,
Xi),而相应的残差平方和却从
ESS(
X1,X2,
Xl)降到
ESS(
X1,X2,
Xl,
Xi),并
有:
RSS(X1,X2,
Xl
Xi)-RSS(X1,X2,
Xl)
ESS(X1,X2,
(33.4)
=
Xl)-ESS(X1,X2,
Xl
Xi)
记
Wi
(
X2
,
Xl
Xi
)
(
X2
,
Xl
),它反映了由于引入
Xi
后,
RSSX1
RSSX1
Xi对回归平方和的贡献,也等价于引入
Xi后残差平方和所减少的量,称其为Xi
对因变量
Y的方差贡献,故考虑检验统计量:
Fi
Wi
X1,X2,,Xl
(33.5)
ESSX1
X2
,Xl,Xi/Nl1
其中N为样本量,l是已引入回归方程的变量个数,这时若有
FiFin,则可以考虑将
自变量Xi引入回归方程,否则不能引入。
实际上大于Fin的变量开始时可能同时有几个,那么是否将它们都全部引入呢?
实际编程
上海财经大学经济信息管理系IS/SHUFE
Page3of25
595382827.doc
商务数据分析
电子商务系列
序时并不是一起全部引入,而是选其最大的一个引入回归方程。
关于剔除变量,如果已有
l
个变量被引入回归方程,
不失一般性,设其为
X1,X2,
Xl
,
所对应的平方和分解公式为:
TSS
RSS(X1,X2,
Xi,
Xl)
ESS(X1,X2,
Xi,
Xl)
(33.6)
其中
i
1,2,
l
为了研究每个变量在回归方程中的作用,我们来考虑分别删掉
Xi
(i=1,2,...,l后相应的平方和分解公式为:
TSS
RSS(X1,X2,
Xi1,Xi
1
Xl)
ESS(X1,X2,
Xi1,Xi1
Xl)
(33.7)
这时,回归平方和从
(
,)降为
RSSX1
X
2
Xi
Xl
RSS(X1,X2,
Xi1,Xi1,Xl)
同时残差也发生相应的变化。
残差平方和从
(
)增加到
ESSX1X2
Xi
Xl
ES(SX1,X2,,Xi1,Xi1
Xl),Xi
对回归平方和的贡献,也等价于删除
Xi
后残差平方
和所增加的量,同理可表示为:
Wi
RSS(X1,X2,
Xi,
Xl
)
RSS(X1,X2,
Xi
1,Xi
1
Xl)
(33.8)
ESS(X1,X2,
Xi1,Xi
Xl)
ESS(X1,X2,
Xi,
Xl)
1
同理,我们来构造检验统计量:
Fi
Wi
X1,X2,,Xi,,Xl
(33.9)
Xi
Xl/N
l1
ESSX1,X2,
显然,这时Fi越小,则说明Xi
在回归方程中起的作用(对回归方程的贡献)越小,也
就是若有FiFout,则可以考虑将自变量
Xi从回归方程中剔除掉,我们在编程序时,每次只
剔除一个,因此,我们每次选择最小的
Fi
min(F1,F2,
Fl
)来与Fout
进行比较。
若有
FiFout则可以不考虑剔除,而开始考虑引入。
四、逐步回归在使用过程中要注意的问题
逐步回归在计算过程中,进入和剔除变量规则的差别在例子中有可能得到说明。
例如,
可以根据Fi统计量中
MSE的自由度来使用不同的
Fin和Fout。
但是,往往并不使用这种提纯
量,而是使用固定的
F值,因为在搜索过程的重复检验中,并不可能得到精确的概率解释。
最低可接受Fin决不应小于最高可接受
Fout,否则就有可能重复进入和剔除一个自变量。
自变量进入模型的顺序并不反映它们的重要程度。
例如,第一个进入模型的X1,最终却
上海财经大学经济信息管理系IS/SHUFE
Page4of25
595382827.doc
商务数据分析
电子商务系列
可能被剔除。
我们使用的逐步回归程序,在每个阶段上都打印出偏相关系数。
对于筛选变量
来说,使用这些相关系数与使用Fi
值是等价的,事实上,有些程序就是使用偏相关系数来筛
选变量的。
进入和剔除一个变量的
F限不必根据近似显著性水平选定,但可以根据误差缩减
量来描述性地确定。
例如,一个进入变量的
F限2.0
可以这样来说明:
变量一旦进入模型,
那么,进入变量的边际误差缩减量至少应该是剩余误差均方的二倍。
逐步回归方法的一个局限是预先假定有单一的最优
X变量子集,从而来进行识别。
正如
前面已经提到的,常常并没有唯一的最优子集。
因此,一些统计学家建议,求得逐步回归的
解后,拟合所有可能与逐步回归解的自变量个数相同的回归模型,以研究是否存在更好的
X
变量子集。
逐步回归方法的另一个缺点是当
X变量高度相关时,有时会得到不合理的“最优”子集。
也有人提出好几种其他寻找“最优”自变量子集的自动搜索方法。
我们这里提一下其中的两
种。
但这两种方法都还未被接受为逐步搜索方法。
其中之一为向前选元法,这种搜索方法只
是逐步回归方法的简化,略去了检验进入模型的变量是否应被剔除这一步。
其中之二为向后
剔除法,这种搜索方法与向前选元法相反。
它从包括所有
X变量的模型开始,挑出
F*值最
小的那个变量。
例如,假定Xi
为F*值最小的那个变量,有:
Fi*
Wi
X1,X2,
Xi,
Xk
k1
(33.10)
ESSX1,X2,
Xi,
Xk
/N
如果最小的Fi*
值小于预定限,
就剔除这个变量,
然后拟合剩余的k
1个自变量的模型,
挑选下一个待剔除元。
重复这种过程,直至没有自变量可以被剔除。
因为向后剔除法是从最大可能模型开始的,所以它比向前选元法需要更多的计算量。
但是,向后剔除法有一个优点,它可以使使用者明白含有许多变量模型的复杂性。
五、stepwise逐步回归过程
stepwise过程对逐步回归提供了九种方法。
当你有许多自变量且想找出哪些自变量是该选
入回归模型时,stepwise是有用的。
由于stepwise可以使你深入地了解自变量与因变量或响应变量之间的关系,因此,它对
考察分析是很有帮助的。
但是,
stepwise并不能保证给你“最好”的模型,甚至具有最大
R2
的模型也不一定是“最好”的,并且靠这些均值演变得来的模型没有一个可以保证它精确地
描述了真实世界的过程。
stepwise与rsquare以及其他过程是不同的。
rsquare对所有自变量的组合找出R
2
,所以
它可以指出具有最大
R2的模型。
而stepwise
在挑选变量时选择下面描述的方法,所以,当
stepwise判断模型时,它打印一份多个回归报告。
1.stepwise过程提供的九种模型
(1)none(全回归模型)。
没有对回归变量进行筛选,建立Y与全部自变量
的全回归模型。
上海财经大学经济信息管理系IS/SHUFE
Page5of25
595382827.doc
商务数据分析
电子商务系列
(2)forward(向前选择)。
向前选择技术以模型中没有变量开始,对每个
自变量,forward计算反映自变量对模型的贡献的
F统计量。
这些F统计量与model语句
中给出的slentry=水平上的值相比较,如果
F统计量的显著水平没有一个比
slentry=水平
上(如果缺省slentry=这个参数,则显著水平假设为
0.50)的值大,则
forward停止。
否
则,forward在模型中加入具有最大
F统计量的变量,然后forward再计算这些变量的F统
计量直到剩下的变量都在模型的外面,
再重复估计过程。
变量就这样一个接一个地进入模型
直到剩下的变量没有一个可以产生显著的
F统计量。
一旦一个变量进入了模型,它就不再
出去了。
(3)backward(向后淘汰)。
向后淘汰技术以计算含有全部自变量的模型
的统计量为开始。
然后变量一个接一个地从模型中剔除,直到留在模型中的所有变量产生的
F统计量的显著水平在slstay=水平上(如果缺省slstay=这个参数,则显著水平假设为0.10)。
在每一步,剔除对模型贡献最小的变量。
(4)stepwise(逐步回归,向前且向后)。
逐步方法是向前选择的修正。
对已在模型中的变量,不一定必须一直在模型中,这点与向前选择法是不同的。
stepwise按
照向前选择方法选入变量后,还考察模型中所包含的所有变量并剔除使得F统计量的显著
水平不在slstay=水平上的变量。
只有在完成检验和必要的剔除之后,其他变量才可再进入
模型。
当模型外的变量没有一个使F统计量在slentry=水平上显著且模型中的每个变量在
slstay=水平上显著,或加到模型中的变量是刚刚剔除的变量时候,逐步处理便结束了。
(5)maxr(具有对偶切换的向前选择)。
最大R2改良技术是占优势的
逐步技术,它几乎与所有可能的回归一样好。
不像上面三种技术,这个方法不是落在单个模型上,而是试着找出最佳一变量模型、最佳二变量模型等等,但它不能保证对每个量度都能找到具有最大R2的模型。
maxr方法先找出一个产生最大
R2值的变量,然后再加入另一个次最大
R2值的变量,从
而形成二变量的模型。
形成二变量的模型之后,将模型中的变量与模型外的变量相比较,以
决定是否移去一个变量而以另一个能生成更大
R2值的变量来代替。
全部比较结束后,便得到
了最佳二变量模型。
依次往下,便得到最佳三变量模型等等。
(6)minr(具有对偶搜索的向前选择)。
最小R2
增量法非常类似于
maxr,只是选择准则为产生最小
R2增量。
对模型中一个已知的变量数,
maxr和minr通常
产生同样的“最佳”模型,但是
minr在每步中考虑较多的模型。
(7)rsquare(R2选择法)。
按给定样本的R2大小准则选择最优的自变量子
集,但不能保证对总体或其他样本而言是最优的。
用户可以规定出现在子集中自变量的最大
和最小个数及被选择的每种子集的个数。
R2
选择法总能够对所考虑变量的每种变量个数找
到具有最大R2的模型,但需要很多的计算时间。
(8)adjrsq(修正R选择法)。
2
该方法类似于rsquare法,只是对于选择模
型使用的准则为修正R2统计量。
修正公式见
(32.27)式。
上海财经大学经济信息管理系IS/SHUFE
Page6of25
595382827.doc
商务数据分析
电子商务系列
(9)Mallows的Cp统计量。
Cp统计量是由Mallows