sas相关与回归模型 1.docx
《sas相关与回归模型 1.docx》由会员分享,可在线阅读,更多相关《sas相关与回归模型 1.docx(16页珍藏版)》请在冰豆网上搜索。
sas相关与回归模型1
相关与回归模型SAS程序
主要内容
1、散点图
2、相关分析
3、一元回归模型建立及检验
4、一元回归模型的拟合图与残差图
5、多元回归模型与数据标准化系数
6、共线性检验(VIF,
7、变量的逐步选择
8、模型的自相关DW检验
相关与回归分析指导
一、散点图
例:
一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。
近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的增长,这给银行业务的发展带来较大压力。
为弄清不良贷款形成的原因,管理者希望利用银行业务的有关数据进行定量分析,以便找出控制不良贷款的办法。
下面是该银行所属的25家分行2002年的有关业务数据
分行编号
不良贷款(y)
各项贷款余额(x)
1
0.9
67.3
2
1.1
111.3
3
4.8
173.0
4
3.2
80.8
5
7.8
199.7
6
2.7
16.2
7
1.6
107.4
8
12.5
185.4
9
1.0
96.1
10
2.6
72.8
11
0.3
64.2
12
4.0
132.2
13
0.8
58.6
14
3.5
174.6
15
10.2
263.5
16
3.0
79.3
17
0.2
14.8
18
0.4
73.5
19
1.0
24.7
20
6.8
139.4
21
11.6
368.2
22
1.6
95.7
23
1.2
109.6
24
7.2
196.2
25
3.2
102.2
Datae41;
Inputxy@@;
Labely=’不良贷款’x=’各项贷款余额’;
Cards ;
0.967.31.1111.34.8173.03.280.87.8199.72.716.21.6107.412.5185.4
1.096.12.672.80.364.24.0132.20.858.63.5174.610.2263.53.079.3
0.214.80.473.51.024.76.8139.411.6368.21.695.71.2109.67.2196.2
3.2102.2
;
procgplotdata=e41;
ploty*x;
run;
二、相关系数分析
Proccorrdata=e41;
Varxy;
Run;
2、计算协方差与相关矩阵
Proccorrdata=e41cov;
Varxy;
Run;
例:
10个企业的销售收入和销售利润资料
企业编号
销售收入x
销售利润y
1
5
0.8
2
10
1
3
12
1.2
4
15
2
5
15
2.2
6
20
2.5
7
25
2.5
8
28
2.8
9
30
3
10
30
3
Datae42;
inputxy@@;
Cards;
50.8101121.2152152.2
202.5252.5282.8303303
;
Proccorrdata=e42;
Varxy;
Run;
例,分析变量年龄,体重,跑步时间和需氧量的关系
datafitness;
inputAgeWeightRuntimeOxygen@@;
datalines;
5773.3712.6339.4075479.3811.1746.080
5276.329.6345.4415070.878.92.
5167.2511.0845.1185491.6312.8839.203
5173.7110.4745.7905759.089.9350.545
4976.32.48.6734861.2411.547.920
5282.7810.547.4674473.0310.1350.541
4587.6614.0337.3884566.4511.1244.754
4779.1510.647.2735483.1210.3351.855
4981.428.9540.8365177.9110.0046.672
4891.6310.2546.7744973.3710.0850.388
4489.4711.3744.6094075.0710.0745.313
4485.848.6554.2974268.158.1759.571
3889.029.2249.8744777.4511.6344.811
4075.9811.9545.6814381.1910.8549.091
4481.4213.0839.4423881.878.6360.055
;
proccorrdata=fitnesspearsonspearmanhoeffding;
varweightoxygenruntime;
run;
三、一元回归分析模型建立及检验
回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化,因变量y是随机变量,自变量x是非随机的确定变量,回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制
u残差(residual)
Procregdata=e42;
Modely=x;
Run;
模型的检验,模型系数T检验与模型拟合优度R2
简单模型
Procregdata=e41;
Modely=x;
Run;
加描述统计量的简单模型,加all
Procregdata=e41all;
Modely=x;
Run;
ProcGLMdata=e41;
Modely=x;
Run;
四、一元回归模型的拟合图和残差图和异方差
画出残差图
Procregdata=e41all;
Modely=x;
plotr.*p./vref=0;
Run;
PROCREGDATA=e41;
MODELY=X;
Plot;
Ploty*x;
RUN;
ProcREGdata=e41;
Modely=x;
Ploty*xp.*x/overlay;
Run;
symbol;
procregdata=e41;
modely=x;
ploty*x/prednostatmseaicbic;
ploty*x/confpred;
plotr.*nqq./nolinemse;
plotrstudent.*obs.;
outputout=regoutp=rhat;
run;
计算预测值与残差
Procregdata=e41;
Modely=x/rcliclm;
Run;
残差Q-Q图,P-P图
symboli=splinev=starh=2color=pinkwidth=2;
procregdata=e41outest=kk;
modely=x/raicbicedfgmsepjppcsbcspselection=rsquare;
plotr.*nqq./aicbicmse;
plotnpp.*r./nostat;
run;
procprintdata=kk;
run;
预测区间图
Procregdata=e41all;
Modely=x;
plot(yPREDICTED.u95.l95.)*x/overlay;
Run;
身高H与体重W的关系
datawh1001;
inputhw@@;
XX文库-让每个人平等地提升自我cards;
172.475.0169.354.8169.364.0171.464.8166.547.4171.462.2
168.266.9165.152.0168.862.2167.865.0165.862.2167.865.0
164.458.7169.957.5164.963.5160.355.2175.066.6172.573.5
172.064.0168.457.0155.057.0175.563.9172.369.0168.658.0
176.456.9173.257.5167.550.0169.452.2166.772.0169.557.0
165.755.4161.248.5172.857.0175.175.5157.550.5169.862.9
168.663.4172.661.0163.858.5165.161.5166.752.5170.961.0
166.169.5166.262.5172.452.6172.860.0177.863.9162.756.8
168.854.0169.166.2177.560.0177.066.2169.955.9167.454.4
169.358.4172.872.8169.858.0160.065.3179.162.2172.349.8
163.346.5172.966.7165.458.0175.863.2162.352.2165.465.7
171.559.3176.666.3181.768.6175.274.9169.559.5169.661.5
169.163.1185.577.0173.965.5162.550.0171.558.5175.659.8
166.075.5167.263.3171.957.0176.658.4177.367.0169.271.8
166.249.8181.763.0175.868.3172.355.5172.758.5174.364.0
171.259.0174.868.0165.455.5169.164.8167.962.0176.864.0
183.569.9165.548.6171.070.5170.358.5
;
Procregdata=wh1001corr;
modelw=h;
plotp.*r.;
title’QQPlot’;
plotr.*nqq./nolinemse;
run;
Procregdata=wh1001;
modelw=h;
plot(wPREDICTED.u95.l95.)*h/overlay;
plotW*H/prednostat;
run;
五、多元回归模型与数据标准化系数
回归方差分析表
变异来源
source
离差平方和
SS
自由度
df
均方
MS
F统计量
F
P概率值
P
回归R
P
误差E
总变异T
例某学校20名一年级女大学生体重(公斤)、胸围(厘米)、肩宽(厘米)及肺活量(升)实测值如表所示,
试对影响女大学生肺活量的有关因素作多元回归分析。
20名一年级女大学生肺活量及有关变量测量结果
编号
体重X1(公斤)
胸围X2(厘米)
肩宽X3(厘米)
肺活量Y(升)
1
51.3
73.6
36.4
2.99
2
48.9
83.9
34.0
3.11
3
42.8
78.3
31.0
1.91
4
55.0
77.1
31.0
2.63
5
45.3
81.7
30.0
2.86
6
45.3
74.8
32.0
1.91
7
51.4
73.7
36.5
2.98
8
53.8
79.4
37.0
3.28
9
49.0
72.6
30.1
2.52
10
53.9
79.5
37.1
3.27
11
48.8
83.8
33.9
3.10
12
52.6
88.4
38.0
3.28
13
42.7
78.2
30.9
1.92
14
52.5
88.3
38.1
3.27
15
55.1
77.2
31.1
2.64
16
45.2
81.6
30.2
2.85
17
51.4
78.3
36.5
3.16
18
48.7
72.5
30.0
2.51
19
51.3
78.2
36.4
3.15
20
45.2
74.7
32.1
1.92
dataex43;
inputx1x2x3y;
cards;
51.373.636.42.99
48.983.934.03.11
42.878.331.01.91
55.077.131.02.63
45.381.730.02.86
45.374.832.01.91
51.473.736.52.98
53.879.437.03.28
49.072.630.12.52
53.979.537.13.27
48.883.833.93.10
52.688.438.03.28
42.778.230.91.92
52.588.338.13.27
55.177.231.12.64
45.281.630.22.85
51.478.336.53.16
48.772.530.02.51
51.378.236.43.15
45.274.732.11.92
;
procreg;
modely=x1;
modely=x1x2;
modely=x2x3;
modely=x1x2x3/stbmseaicbiccaxis=redctext=blue;
run;
quit;
六、共线性检验(VIF,
共线性(collinearity,multicollinearity)问题是指独立变量间存在线性关系
共线性的诊断可使用方差膨胀因子、条件指数和方差比例
方差膨胀因子(VIF)是对由于共线性而引起的参数估计量的方差增加的一个相对度
量,一般采用VIF>10表明存在共线性问题
容忍度Tol,为VIF的倒数,当TOL小于0.0001时程序会自动拒绝一个自变量。
⏹VIF>10,有多重共线性;TOL=1/VIF;
条件数
,C>20,共线性严重
procregdata=xiaoshou;
modely=x1x2/COLLINviftol;
run;
collin对自变量之间的共线性进行分析
collinoint对自变量之间的共线性进行分析,不包括截距项
collin
对自变量之间的共线性进行分析
collinoint
对自变量之间的共线性进行分析,不包括截距项
procregdata=ex43simplecorr;
modely=x1x2x3/pcliclmrvifinfluencepartialcollintolcollinoint;
run;
七、变量的逐步选择
1、stepwise逐步回归过程
stepwise过程对逐步回归提供了九种方法。
当你有许多自变量且想找出哪些自变量是该选入回归模型时,stepwise是有用的。
常用的自变量的选择法,BACKWARD,FORWARD,STEPWISE
procregdata=xiaoshou;
modely=x1x2/selection=stepwiseCPdetails=summary;
;
run;
标准回归系数
procregdata=xiaoshou;
modely=x1x2/selection=stepwisestddetails=summary;
run;
八、模型的自相关DW检验
当DW值愈接近2时,残差项间愈无相关。
当DW值愈接近0时,残差项间正相关愈强。
当DW值愈接近4时,残差项间负相关愈强。
SAS回归分析程序
ProcReg选项串;
1)data=输入文件名,缺省则为最后一个sas文件
2)0utest=输出文件名
3)all印出所有分析结果
4)corr印出相关系数阵
1)Tol(rance)(定义为1-R2)印出各参数的容忍量
2)Vif(VarianceInflance)变异数的膨胀值
3)Collin执行多自变量间的共线性分析
4)P因变量的实际值与预测值及误差的表
5)R比7)更多,包括(cook)D值(用于发现奇异样本)
6)clm各个预测值均值的95%的置信区间上下限
7)Partial对每一个自变量作净回归图
8)selection=stepwise(forwardbackwardRsquareAdjrsqMaxR)(分别为)逐步回归(向前回归,向后回归,复相关系数平方法,修正的复相关系数平方法,最大相关法)
Plot图形指令串/选项串;
1)Plot纵轴变量名.*横轴变量名.
回归模型—收入与消费的关系
Datadatareg;
Inputdq$1-8x1y1x2y2;
Labledq="省区"x1="城镇居民年人均可支配收入"
y1="城镇居民年人均消费"x2="农民人均纯收入"y2="农民人均生活消费";
cards;
Hebei10305734338022495
Liaoning10370798740903067
Jiangsu14084962958134135
Zhejiang182651334973356057
Fujian13753980848353591
Shandong12192846843683144
Hainan9395712732562232
Guangdon160161243250803886
Shanxi10028717131812253
InnerMon10358766733422772
Jilin9775735336412701
Heilongj9182665535522618
Anhui9771729529692421
Jiangxi9551664634602677
Henan9810668532612229
Hubei9803739734192732
Hunan10505816933903013
Chongqin11570939928742205
Guangxi9899679227702414
Sichuan9350752530022395
Guizhou9117684819851627
Yunnan10070738022502196
Tibet8941619324352002
Shaanxi9268755322602181
Gansu8921697421341855
Qinghai9000653023582179
Ningxia9177720627602247
Xinjiang8871673027372032
;
procregdata=datareg;
modely1=x1;
ploty1*x1;
modely2=x2;
ploty2*x2;
run;