SAS系统和数据分析逐步回归分析Word下载.docx

资源描述

SAS系统和数据分析逐步回归分析Word下载.docx

《SAS系统和数据分析逐步回归分析Word下载.docx》由会员分享，可在线阅读，更多相关《SAS系统和数据分析逐步回归分析Word下载.docx（63页珍藏版）》请在冰豆网上搜索。

SAS系统和数据分析逐步回归分析Word下载.docx

本节介绍的逐步回归法就是人们在实际问题中常用的，并且行之有效的方法。

逐步回归的基本思想是，将变量一个一个引入，引入变量的条件是偏回归平方和经检验是显著的，同时每引入一个新变量后，对已选入的变量要进行逐个检验，将不显著变量剔除，这样保证最后所得的变量子集中的所有变量都是显著的。

这样经若干步以后便得“最优”变量子集。

逐步回归是这样一种方法，使用它时每一步只有一个单独的回归因子引进或从当前的回

归模型中剔除。

Efroymoson（1966）编的程序中，有两个F水平，记作Fin和Fout，在每一步时，

只有一个回归因子，比如说

Xi，如果剔除它可能引起

RSS的减少不超过残差均方

MSE（即

ESS/（N-k-1））的Fout倍，则将它剔除；

这就是在当前的回归模型中，用来检验

i=0的F比

（RSS（x1,x2,xi1,xi）

RSS（x1,x2,xi1））/MSE是小于或等于Fout。

若剔除的变量需要选择，则就选择使RSS减少最少的那一个（或等价的选择

F比最小的）。

用这种方式如果没有变量被剔除，则开始引进一个回归因子，比如

Xj，如果引进它后使

RSS

的增加，至少是残差均方的

Fin倍，则将它引进。

即若在当前模型加

Xj项后，为了检验

j=0

的F比，F≥Fin时，则引进Xj，其次，若引进的变量需要选择，则选择

F比最大的。

程序按

照上面的步骤开始拟合，当没有回归因子能够引进模型时，该过程停止。

二、变量选择的方法

若在回归方程中增加自变量Xi，称为“引入”变量Xi，将已在回归方程中的自变量Xj从

回归方程中删除，则称为“剔除”变量

Xj。

无论引入变量或剔除变量，都要利用

F检验，将

显著的变量引入回归方程，而将不显著的从回归方程中剔除。

记引入变量

F检验的临界值为

Fin（进），剔除变量

Fout（出），一般取

Fin≥Fout，它的确定原则一般是对

上海财经大学经济信息管理系IS/SHUFE

Page1of25

个自变量的

m个（m

≤k），对显著性水平

df1=1，

df2=

m1的

F分布表的值，记为

F*，

则取Fin=Fout=F*。

一般来说，也可以直接取

Fin=Fout=2.0或

2.5。

当然，为了回归方程中还能

够多进入一些自变量，甚至也可以取为

1.0或

1.5。

1.变量增加法

首先对全部k个自变量，分别对因变量Y建立一元回归方程，并分别计算这k个一元回

归方程的k个回归系数F检验值，记为{F11,F21,Fk1}，选其最大的记为Fi1=

max{F11,F21,Fk1

},若有Fi1≥Fin，则首先将X1引入回归方程，不失一般性，设

Xi就是X1。

接着考虑X

分别与X

X,...,X

与因变量Y组成二元回归方程，对于这k－1个回归方程中

X,...,X

的回归系数进行

检验，计算

F值，并选其最大的F值F

2,若F

≥F

则接着就将

X引入回归方程，不失一般性，设

X就是X。

对已经引入回归方程的变量

X1和X2，如同前面的方法做下去，

直至所有未被引入方程的

变量的F值均小于Fin时为止。

这时的回归方程就是最终选定的回归方程。

显然，这种增加法有一定的缺点，主要是，它不能反映后来变化的情况。

因为对于某个自变量，它可能开始是显著的，即将其引入到回归方程，但是，随着以后其他自变量的引入，它也可能又变为不显著了，但是，并没有将其及时从回归方程中剔除掉。

也就是增加变量法，只考虑引入而不考虑剔除。

2.变量减少法

与变量增加法相反，变量减少法是首先建立全部自变量

X,...,X对因变量Y的回归方

程，然后对

k个回归系数进行F检验，记求得的

F值为{F11,F21,

Fk1

}，选其最小的记为

1=min{F11,F21,

Fk1},若有Fi

1≤Fout，则可以考虑将自变量

Xi从回归方程中剔除掉，不妨

设Xi就取为X1。

再对X,X,...,X

对因变量Y建立的回归方程重复上述过程，

取最小的F值为Fj2，若有Fj2

≤Fout，则将

Xj也从回归方程中剔除掉。

不妨设

Xj就是X2。

重复前面的做法，直至在回归方

程中的自变量

F检验值均大于Fout，即没有变量可剔除为止。

这时的回归方程就是最终的回

归方程。

这种减少法也有一个明显的缺点，就是一开始把全部变量都引入回归方程，这样计算量比较大。

若对一些不重要的变量，一开始就不引入，这样就可以减少一些计算。

3.变量增减法

前面的两种方法各有其特点，

若自变量X,X,...,X

完全是独立的，则可结合这两种方法，

但是，在实际的数据中，自变量

X,X,...,X

之间往往并不是独立的，而是有一定的相关性存

12k

在的，这就会使得随着回归方程中变量的增加和减少，某些自变量对回归方程的贡献也会发

Page2of25

生变化。

因此一种很自然的想法是将前两种方法综合起来，也就是对每一个自变量，随着其对回归方程贡献的变化，它随时可能被引入回归方程或被剔除出去，最终的回归模型是在回归方程中的自变量均为显著，不在回归方程中的自变量均不显著。

三、引入变量和剔除变量的依据

如果在某一步时，已有

l个变量被引入到回归方程中，不妨设为

X1,X2,,Xl，即已得

回归方程：

01X1

2X2

lXl

（33.1）

并且有平方和分解式：

TSS

RSSESS

（33.2）

显然，回归平方和

RSS及残差平方和

ESS均与引入的变量相关。

为了使其意义更清楚

起见，将其分别设为

RSS（X1,X2

,Xl）及ESS（X1,X2,

Xl）。

下面我们来考虑，又

有一个变量Xi（l≤i≤k）被引入回归方程中，这时对于新的回归方程所对应的平方和分解式

为：

TSS=

RSS（

X1,X2,

Xl，

Xi）+

ESS（

X1,X2,

Xl,

Xi）

（33.3）

当变量

Xi引入后，回归平方和从

Xl）增加到

Xi）,而相应的残差平方和却从

Xl）降到

Xi），并

有：

RSS（X1,X2,

Xi）-RSS（X1,X2,

Xl）

ESS（X1,X2,

（33.4）

Xl）-ESS（X1,X2,

Xi）

记

（

）

）,它反映了由于引入

后，

RSSX1

Xi对回归平方和的贡献，也等价于引入

Xi后残差平方和所减少的量，称其为Xi

对因变量

Y的方差贡献，故考虑检验统计量：

X1,X2,,Xl

（33.5）

ESSX1

,Xl,Xi/Nl1

其中N为样本量，l是已引入回归方程的变量个数，这时若有

FiFin，则可以考虑将

自变量Xi引入回归方程，否则不能引入。

实际上大于Fin的变量开始时可能同时有几个，那么是否将它们都全部引入呢？

实际编程

Page3of25

序时并不是一起全部引入，而是选其最大的一个引入回归方程。

关于剔除变量，如果已有

展开阅读全文