应用回归分析Word下载.docx
《应用回归分析Word下载.docx》由会员分享,可在线阅读,更多相关《应用回归分析Word下载.docx(12页珍藏版)》请在冰豆网上搜索。
x4
x5
1997
78060.834996
132410
23788.4
13.73
644
26967.2
1998
83024.279769
124250
24541.86
12.5
695
26849.7
1999
88479.154751
125934.78
24519.06
12.8
719
29896.2
2000
98000.454308
128977.88
24915.8
12.99
744
39273.2
2001
108068.22056
137445.44
26179.6
13.81
784
42183.6
2002
119095.68927
143809.83
27390.753589
14.55
878
51378.2
2003
135173.97615
163841.53
29691.8
17.22
870
70483.5
2004
159586.74792
187341.15
36238.989762
19.92
1102
95539.1
2005
184739.07272
205876
39450.887341
22.05
1212
116921.8
2006
211808.0487
221056
42424.381051
23.73
1394
140971.44658
首先写出数据做多元回归模型的一般形式,程序如下
datatotal;
inputyx1x2x3x4x5@@;
cards;
78060.83499613241023788.413.7364426967.2
83024.27976912425024541.8612.569526849.7
88479.154751125934.7824519.0612.871929896.2
98000.454308128977.8824915.812.9974439273.2
108068.22056137445.4426179.613.8178442183.6
119095.68927143809.8327390.75358914.5587851378.2
135173.97615163841.5329691.817.2287070483.5
159586.74792187341.1536238.98976219.92110295539.1
184739.0727220587639450.88734122.051212116921.8
211808.048722105642424.38105123.731394140971.44658
;
run;
procprint;
procregall;
modely=x1x2x3x4x5;
运行结果可得相关系数矩阵如下图:
图一
可大致看出,变量之间存在相关性。
图二
回归方程为
从实际问题出发,原煤产量越高,国内成产总值不应该越低。
可见模型存在一定问题。
图三
P<
0.0001,整体回归效果显著。
多重共线性是模型建立时最容易出现的问题,所以首先对多重共线性进行检验
对于多重共线性,sas系统提供了以下判断指标:
1、方差膨胀因子VIF,定义为=
他表示回归系数的估计量于自变量的共线性使得方差增加的一个相对度量,
表示第j个自变量对模型中其余自变量惊醒线性回归所得的拟合优度。
VIF>
10则便是存在高度共线性。
2、条件指数K
定义为:
最大特征值与每个特征值比值的平方根,其中最大条件指数K为举证的条件数。
一般来说,在sas中k<
100没有多重共线性,100<
k<
1000一般共线性,k>
1000存在严重多重共线性。
用方差膨胀因子确定是否有多重共线性,程序为:
78060.83499613241023788.413.7364426967.2
83024.27976912425024541.8612.569526849.7
88479.154751125934.7824519.0612.871929896.2
98000.454308128977.8824915.812.9974439273.2
108068.22056137445.4426179.613.8178442183.6
119095.68927143809.8327390.75358914.5587851378.2
135173.97615163841.5329691.817.2287070483.5
159586.74792187341.1536238.98976219.92110295539.1
184739.0727220587639450.88734122.051212116921.8
211808.048722105642424.38105123.731394140971.44658
modely=x1x2x3x4x5/vifcollion;
图四
由运行结果的varianceinflation可知该数据存在较强的多重共线性。
(或者
由条件数知,
=735.51580为最大条件数且大于100,则存在较强的多重共线性。
)
现在要处理多重共线性
多重共线性的处理方法有:
1、剔除不重要的自变量。
这些不重要的自变量往往在用逐步回归进行选元时就已被除去,但去掉某些自变量是会导致回归参数估计值的偏误。
实践中,当判断某些共线的自变量确实不重要时可以去掉,但当判断这些自变量对研究的问题很重要时就不能简单予以剔除。
现在首先用逐步回归剔除自变量的方法修正模型,程序如下:
procregdata=total;
modely=x1-x5/selection=stepwisevif;
在进行逐步回归剔除自变量并检验后运行结果如下图:
图五
依次来看,是剔除了x4和x2。
图六
从VIF值来看,效果不好。
2、主成分回归。
3、岭回归方法。
现在用岭回归的方法从新进行修正。
岭回归模型通过在相关矩阵中引入一个很小的岭参数K(1>
K>
0),并将它加到主对角线元素上,从而降低参数的最小二乘估计中复共线特征向量的影响,减小共线变量系数最小二乘估计的方法,以保证参数估计更接近真实情况。
岭回归分析将所有的变量引入模型中,比逐步回归分析提供更多的信息。
采用岭回归法程序如下:
procregdata=totaloutest=resultgraphicsoutvif;
modely=x1-x5/ridge=0.0to0.1by0.010.20.30.40.50.60.70.80.9;
plot/ridgeplot;
procprintdata=result;
运行结果如下图
图七
从运行结果来看,在ridge=0.3附近保持稳定
则用岭回归修正后的模型可写为:
岭迹图如下:
(岭迹图出现问题,可能是因为
系数过大)
由于实际问题是错综复杂的,因而在建立实际问题的回归分析模型时,经常会出现某一因素或一些因素随着解释变量观测值的变化而对被解释变量产生不同的影响,导致随即误差项产生不同的方差。
当一个回归问题存在异方差时,如果仍用普通最小二乘法估计未知参数,将引起不良后果,特别是最小二乘估计量不再具有最小方差的优良性,即最小二乘估计得有效性被破坏了。
现在进行异方差的检验
异方差性的检验方法有两种:
1、残差图分析法。
它以残差
为纵坐标,以其他适宜的变量为横坐标画散点图。
2、等级相关系数法。
等级相关系数法又称斯皮尔曼检验。
用等级相关系数法进行异方差检验,程序如下
procprintdata=total;
modely=x1-x5/r;
outputout=resultr=residual;
plotstudent.*p.;
dataresult1;
setresult;
absr=abs(residual);
lag1residual=lag1(residual);
proccorrdata=result1spearman;
varabsrx1-x5;
运行结果
图八
其中F值为548.13,说明自变量平方与残差平方之间的线性关系非常显著,统计量R2=0.9985
残差图为
Spearman相关系数矩阵如下
不存在异方差性
所以方程为:
y=
将多重共线性消除的方程为:
在实际问题中,经常会遇到时间序列出现正的序列相关的情形,产生的原因有以下几个方面:
(1)、遗漏关键变量时会产生序列的自相关性;
(2)、经济变量的滞后性会给序列带来自相关性;
(3)、采用错误的回归函数形式也可能引起自相关性;
(4)、装网现象;
(5)、因对数据加工整理而导致误差项之间产生自相关性。
现在进行自相关性的检验
自相关性的检验方法有三种:
1、图示检验法。
绘制
、
的散点图。
2、自相关系数法。
3、DW检验。
DW检验只能用于检验检验随机扰动项具有一阶自回归形式的序列相关问题。
用图示检验方法程序为:
procprintdata=total;
procgplotdata=result1;
plotresidual*lag1residual=1;
plotresidual*t=2;
symbol1c=blackv=stari=none;
symbol2c=blackv=stari=none;
运行的结果为:
图九
和
可知该序列的随机误差项不具有自相关性。
处理自相关问题的方法有两种:
1、迭代法。
2、差分法。
所以最后的模型为: