SAS讲义十课多元线性回归分析Word格式文档下载.docx
《SAS讲义十课多元线性回归分析Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《SAS讲义十课多元线性回归分析Word格式文档下载.docx(35页珍藏版)》请在冰豆网上搜索。
假若我们按Y的分布来表示假设(3),则可写成下式:
(32.4)
2、最小二乘法估计
我们的目的是求出一个参数向量使得残差平方和最小,即
(32.5)
式中,
(32.6)
(32.7)
其中表示回归残差的N列向量,而表示Y拟合值的N列向量,表示为估计参数的(k+1)列向量,将式(32.6)和式(32.7)代入式(32.5),则得:
(32.8)
为了确定最小二乘法估计量,我们求ESS对进行微分,并使之等于0,即
(32.9)
所以
(32.10)
被称为“交叉乘积矩阵”的矩阵能够保证逆变换,这是因为我们假设X的秩为(k+1),该假设直接导致了的非奇异性。
最小化的二阶条件是,是一个正定矩阵。
最小二乘法残差有一个有益的特性,即
(32.11)
这个结果说明自变量和残差的交叉乘积的总和为O,这个公式在一些推导中是非常有用的。
现在可以考虑最小二乘估计量的性质。
首先可以证明它们是无偏估计量。
因为
(32.12)
设式中,且是常数,这样
(32.13)
根据式(32.13),可以看到,只要遗漏变量都是随机分布的,与X无关,并且具有0均值,则最小二乘法估计量将是无偏的。
(32.14)
我们看到,最小二乘法估计量为线性和无偏估计量。
事实上,为的最佳线性无偏估计量,也就是说它在全部无偏估计量中方差最小,这就是著名的高斯-马尔可夫定理。
为了证明高斯-马尔可夫定理,我们需要证明,任何其他线性估计量b的方差比的方差大。
请注意=AY。
为了不失去一般性,我们可写成:
(32.15)
假如b是无偏的,则
(32.16)
式(32.16)成立的一个必要和充分的条件是,这样就可以研究矩阵。
由于,所以有
(32.17)
由于
因为,所以,即
(32.18)
我们可以看出,为一半正定矩阵。
该矩阵的二次型为0,只有当(所有元素为0)时才出现。
当时,另外的估计量就是普通最小二乘法估计量,这样,我们的定理就得到证明。
3、的估计和t检验
为了计算估计参数的方差-协方差矩阵,我们需要给出的估计量,该估计量自然选为
(32.19)
证明为的一个无偏估计量,虽很单调冗长,但不困难。
因此,是Var()的估计。
当为已知时,可用正态分布假设检验。
当用近似时,我们不得不用t假设检验。
为此,我们利用以下的统计结果:
若已知,则服从分布,具有N-k-1个自由度;
服从分布,具有N-k-1个自由度;
,当i=0,1,2,…,k时,服从正态分布,平均值为0,方差为,其中vi为的第i个对角线元素;
和相互独立。
由此得出:
(32.20)
该式为t分布,具有(N-k-1)个自由度。
这就使我们能按照与前面所述相同的方式确定各个回归参数的置信区间。
假如t值的绝对值相当大,就可以在适当选定的置信水平上否定原假设,参数的置信区间可由下式得出:
(32.21)
其中为与显著水平有关的t分布临界值。
4、R2和F检验
我们可将Y的总变差分成两部分,一部分代表已说明变差,另一部分代表末说明变差。
为了简化公式推导过程,首先我们假定Y变量具有0平均值,即=0,则有
(32.22)
由于和,所以
(32.23)
式中为总平方和,为回归(已说明)平方和,为残差(未说明)平方和,归纳成回归方差分析表,见表32.1所示。
表32.1回归方差分析表
变异来源
source
离差平方和
SS
自由度
df
均方
MS
F统计量
F
P概率值
P
回归R
误差E
总变异T
从而,
(32.24)
若因变量不具有0平均值,我们必须改进一下的定义。
这样,
由此可以得出:
(32.25)
和
(32.26)
注意到一个数学上的事实:
随着模型中增添新的变量,必定会增加,从而只要给模型增添越来越多的新因素,就可能使得人为地增大。
在一元回归时已经指出较大常指模型与数据拟合得较好,在多元回归时很容易错误地去寻找一个极大化的回归模型。
我们应该知道一个好的多元回归模型,应具有合理个数的有意义自变量的简单模型。
为了解决这个问题,提出了修正,使得只有当新增变量确实对因变量有所作用时修正才会增加。
我们定义为修正的,它是校正拟合优度对自由度的依赖关系,如下式如示:
(32.27)
现在就可以考虑对回归系数集的统计检验。
最通常利用的检验是,这个联合假设的检验。
合适的F统计量为:
(32.28)
为分布,具有k和N-k-1自由度。
较大的值,可使我们否定原假设。
5、reg回归过程
在SAS/STAT中有多个进行回归的过程,如reg、glm等,常用于进行一般线性回归模型分析的为reg过程。
1.procreg过程
Reg过程一般由下列语句控制:
procregdata=数据集集名<
/选项列表>
;
model因变量=自变量名列<
;
var变量列表;
outputout=数据集名<
plot绘图表达式<
;
print关键字列;
weight变量;
freq变量;
by变量;
restrict方程1,方程2,…;
test方程1,方程2,…;
run;
其中model语句是必需要有的,其他语句都是可选的。
2.procreg语句中的<
选项列表>
。
●outest=SAS数据集——将有关模型的参数估计和选择的统计量输出到指定的SAS数据集中。
●outsscp=SAS数据集——要求把平方和及叉积矩阵输出到type=sscp的数据集中。
●all——屏幕输出所有内容。
●usscp——对用在该过程中的所有变量输出平方和及叉积矩阵。
●noprint——不在屏幕输出任何内容。
3.model语句中的<
1)确定变量筛选办法的选择项。
●selection=none|forward|backward|stepwise|maxr|minr|rsquare|cp|adjrsq
依次表示全部变量进入法none、前进法forward、后退法backward、逐步筛选法stepwise(前进法与后退法的结合)、最大R2增量法maxr、最小R2增量法minr、R2选择法rsquare、Mallow'
sCp选择法cp、修正R2选择法adjrsq。
2)其他选择项
见表3.2所示是可在model语句中选用的其他选项。
表32.2model语句中的其他选项
acov
xpx
spec
pcorr1
slentry=details
aic
covb
i
stb
pcorr2
slstay=lackfit
sbc
corrb
p
cli
scorr1
start=collin
ss1
mse
r
clm
scorr2
best=collinoint
ss2
sse
b
jp
adjrsq
include=influence
vif
seqb
dw
rmse
gmsep
stop=partial
tol
all
pc
sp
noint
sigma=noprint
bic
其中一些选择项的意义如下:
●acov——存在异方差时,输出参数估计量的渐近协方差阵的估计。
●spec——进行关于方差异性的检验。
●slentry|sle=显著性水平——规定入选变量进人方程的显著性水平。
●slstay|sls=剔除水平——规定从方程中剔除变量的显著性水平。
●include=n——强迫前n个自变量进入模型。
●start=s——以含有model语句中前3个自变量的模型开始,进行比较、选择过程(仅用于maxr或minr方法)。
●stop=s——当找到最佳的s个变量模型之后,逐步回归便停止(仅用于maxr或minr方法)。
●p——要求计算各观测点上因变量的预测值。
●r——作残差分析,同时给出因变量的预测值。
●cli——给出各自变量x0所对应的因变量y0的95%置信上、下限。
●clm——给出各自变量所对应的因变量预测值(均数)Eyi=μi的95%置信上、下限。
●noint——指明回归方程不带截距项(常数项)。
●stb——要求输出标准回归系数。
●covb——要求输出回归系数估计的协方差(阵)估计。
●corrb——要求输出回归系数估计的相关矩阵估计。
●mse——要求输出随机扰动项方差的估计。
●rmse——要求输出。
●collin——在对截距未进行校正的情形下,诊断多重共线性,条件数越大越可能存在共线性。
●collinoint——在对截距进行校正的情形下,诊断多重共线性。
●tol——表示共线性水平的容许值。
对于某个变量容许值定义为1-,其中是由这个变量和模型中所有其他回归变量建立的回归模型所得到的。
tol越小说明其可用别的自变量解释的部分多,自然就越可能与别的自变量存在共线性关系,tol与vif互为倒数。
●vif——输出变量间相关性的方差膨胀系数,vif越大,说明由于共线性的存在,使方差变大。
●influence——要求对异常点进行诊断。
对每一观测点,输出如下表32.3所示统计量:
表32.3诊断异常点的统计量
名称(统计量)
含义
“异常”的判别准则
Leverage(hi)
杠杆率hi,第i次观测自变量的取值在模型中作用的量度(0≤hi≤1)
hi越大,则第i次观测在模型中的作用就越大
Cook’sD
COOKD统计量,对某一观测点引起回归影响大小的度量。
用于诊断异常点。
若D>50%,则可认为该观测点对模型的拟合有强的影响
covratio
协方差矩阵的行列式之比(去掉某一观测点后、前对比)
若|covra