ImageVerifierCode 换一换
格式:DOCX , 页数:16 ,大小:328.57KB ,
资源ID:19325410      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/19325410.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(SAS学习系列逐步回归Word文档格式.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

SAS学习系列逐步回归Word文档格式.docx

1、基本语法:PROC REG data = 数据集;MODEL 因变量 = 自变量列表 ;SELECTION=选项 用于逐步回归中选择合适的建立模型方法:none全部变量都选forward前进法backward后退法stepwise逐步筛选法maxr最大R2增量法minr最小R2增量法rsquareR2选择法cpMallows Cp选择法adjrsq修正的R2选择法注:在前进法、后退法或逐步回归的变量选择过程中,都有一个判断是否可进入或剔除的显著水平,分别由model语句的选项slentry=和slstay设定的:start= s指定先从s个自变量的回归模型开始;stop=s指定找到s个自变量的

2、回归模型结束;Mallows的Cp统计量是由Mallows提出的作为选择模型的判别式的变量。Cp是一个误差平方总和的量度:其中,P是模型中包括截距项的参数个数,MSE是满模型时均方误差,ESSp是具有P个自变量(包括截距项)回归模型的误差平方和。作Cp与P的曲线图,Matlows建议取Cp 首次接近P的地方的模型。常用的输出可选项:STB输出标准化偏回归系数矩阵CORRB输出参数估计矩阵COLLINOINT对自变量进行共线性分析P输出个体观测值、预测值及残差 (R/CLM/CLI包含P)R输出每个个体观测值、残差及标准误差CLM输出因变量均值95%的置信界限的上下限CLI对各预测值输出95%的

3、置信界限的上下限MSE要求输出随机扰动项方差𝜎2的估计与残差分析有关的可选项 VIF输出变量间相关性的方差膨胀系数,VIF越大,说明由于共线性存在,使方差变大; COLLIN输出条件数,它表示最大的特征值与每个自变量特征值之比的平方根。一般情况下,条件数越大越可能存在共线性; TOL表示共线性水平的容许值,TOL越小说明其可用别的自变量解释的部分多,自然可能与别的自变量存在共线性关系; DW输出Durbin-Watson统计量; influence对异常点进行诊断,对每一观测点输出统计量(Cooks D 50%, defits/debetas 2说明该点影响较大)。2. 绘制回

4、归分析的图形在PROC REG过程步加入绘图选项语句即可。PROC REG data = 数据集PLOTS = (图形类型);可选的绘图类型: FITPLOT带回归线、置信预测带的散点图;RESIDUALS自变量的残差图;DIAGNOSTICS诊断图(包括下面各图);COOKSDCooks D统计量图;OBSERVEDBYPREDICTED根据预测值的因变量图;QQPLOT 检验残差正态性的QQ图;RESIDUALBYPREDICTED根据预测值的残差图;RESIDUALHISTOGRAM残差的直方图;RFPLOT残差拟合图;RSTUDENTBYLEVERAGE杠杆比率的学生化残差图;RSTU

5、DENTBYPREDICTED预测值的学生化残差图;残差图(RESIDUALS)和诊断图(DIAGNOSTICS)是自动生成的,根据模型也有其它默认的图形输出;若只绘制指定的图形需要加上ONLY:PROC REG data = 数据集 PLOTS(ONLY) = (图形类型);例1用逐步回归模型,来研究耗氧量的是如何依赖其它变量的。31位成年人心肺功能的调查数据(见下表)age weight Oxygen耗氧量 runtime 跑15英哩的时间(分)rstpulse 休息时每分钟心跳次数runpulse 跑步时每分钟心跳次数Maxpulse每分钟心跳次数最大值4489.4744.60911.3

6、7621781824075.0745.31310.0718585.8454.2978.65451561684268.1559.5718.171661723889.0249.8749.22551804777.4544.81111.635817675.9845.68111.95704381.1949.09110.856416217081.4239.44213.086317481.8760.0558.634818673.0350.54110.1387.6637.38814.035619266.4544.75411.125179.1547.27310.601645483.1251.85510.3350

7、4949.1568.9569.6340.83610.955777.9146.67210.0091.6346.77410.2573.3750.38810.087639.40712.6379.3846.08011.171655276.3245.4419.6370.8754.6258.9214615567.2545.11811.0839.20312.8873.7145.79010.475918859.0850.5459.9314848.6739.4061.2447.92011.5082.7847.46710.5053代码:data fitness ;input age weight oxygen r

8、untime rstpulse runpulse maxpulse;datalines; 44 89.47 44.609 11.37 62 178 18240 75.07 45.313 10.07 62 185 18544 85.84 54.297 8.65 45 156 16842 68.15 59.571 8.17 40 166 17238 89.02 49.874 9.22 55 178 18047 77.45 44.811 11.63 58 176 17640 75.98 45.681 11.95 70 176 18043 81.19 49.091 10.85 64 162 17044

9、 81.42 39.442 13.08 63 174 17638 81.87 60.055 8.63 48 170 18644 73.03 50.541 10.13 45 168 16845 87.66 37.388 14.03 56 186 19245 66.45 44.754 11.12 51 176 17647 79.15 47.273 10.60 47 162 16454 83.12 51.855 10.33 50 166 17049 81.42 49.156 8.95 44 180 18551 69.63 40.836 10.95 57 168 17251 77.91 46.672

10、10.00 48 162 16848 91.63 46.774 10.25 48 162 16449 73.37 50.388 10.08 76 168 16857 73.37 39.407 12.63 58 174 17654 79.38 46.080 11.17 62 156 16552 76.32 45.441 9.63 48 164 16650 70.87 54.625 8.92 48 146 15551 67.25 45.118 11.08 48 172 17254 91.63 39.203 12.88 44 168 17251 73.71 45.790 10.47 59 186 1

11、8857 59.08 50.545 9.93 49 148 15549 76.32 48.673 9.40 56 186 18848 61.24 47.920 11.50 52 170 17652 82.78 47.467 10.50 53 170 172run;proc reg data= fitness;model oxygen = age weight rstpulse maxpulse runpulse runtime /selection=stepwise ;运行结果:逐步选择: 第 1 步变量 runtime 已输入: R 方 = 0.7434 和 C(p) = 13.5198条件

12、数字的边界: 1, 1 第 2 步变量 age 已输入: R 方 = 0.7642 和 C(p) = 12.2249 1.0369, 4.1478 第 3 步变量 runpulse 已输入: R 方 = 0.8111 和 C(p) = 6.8278 1.3548, 11.597 第 4 步变量 maxpulse 已输入: R 方 = 0.8368 和 C(p) = 4.7661 8.4182, 76.851留在模型中的所有变量的显著性水平都为 0.1500。没有其他变量满足 0.1500 显著性水平,无法输入该模型。结果说明:(1)在显著水平015下,用逐步回归法挑选出四个自变量按runtim

13、e, age, runpulse, maxpulse 先后被选入回归模型。其它变量在0.15水平下是不显著的。(2)同时还输出了每个回归模型变化时的R2值增加值、R2值、CP值、相应的F统计量、P值。另外,在每步还列出了条件指数的最小值最大值,以及每一个回归变量的第类平方和。(3)age变量进入模型后,R2值的增加值(称为偏R2)为(650.66573-632.90010)/851.38154=0.020867 =0.7642-0.7434如果按CP值选择最优子集,随着进入回归模型中的自变量个数P从2到5个(包括截距),相应CP值从大到小为13.5198、12.2249、6.8278、4.76

14、61按照Mallows提出的回归模型最优自变量个数的选择准则,CP=4.7661是最接近自变量个数P=5的模型。当P=5时,CP=138.93001792/5.39197(3125)= 4.76608569因此,用逐步回归方法及CP值确认的拟合回归模型为:oxygen = 98.14789-0.19773age+0.27051maxpulse-0.34811runpulse-2.76758runtime(4)条件指数为最大特征值和每个特征值之比的平方根。当模型进入第四个自变量maxpulse时,最大的条件指数从较小11.597变成了较大76.851,说明存在一定程度的共线性,根据前面上篇例1的

15、分析,这个共线性方程可能为runpulsemaxpulse=0. 若引入新变量代替线性组合关系的变量:maxrun=maxpulse-runpulse重新进行逐步回归:data fitness2;set fitness;maxrun=maxpulse-runpulse;proc reg data= fitness2;model oxygen = age weight rstpulse maxrun runtime /selection=stepwise ;得到回归方程为:(其它输出略)oxygen = 89.48742 -0.16297 age -0.08063weight+0.38826 m

16、axrun-2.80555 runtime例2 同例1,用R2选择法逐步回归给出全部可能回归的程序,并且以R2值的大到小排序输出。model oxygen = age weight rstpulse maxpulse runpulse runtime /selection= rsquare b best=2;*选项 b 输出各回归系数;例如,含2个自变量按R2值第二大(0.7614)的回归模型为: oxygen= 93.088770.07351runpulse3.14019runtime例3 例2中的各个回归模型到底选哪个呢?方法是先用Mallows的Cp方法确定变量个数;对所有可能的回归按C

17、p由小到大进行排序并保留其前5种,并绘制Cp图。goptions reset=global gunit=pct cback=white border htitle=6 htext=3 ftext=swissb colors=(back);title Cp plot with Reference Linesmodel oxygen = age weight rstpulse maxpulse runpulse runtime /selection=cp adjrsq best=5 ;plot cp. * np. /chocking=red cmallows=blue vaxis=0 to 15

18、by 2 haxis=0 to 8 by 1;程序说明:(1) 选项selection=cp 指定用Mallows Cp选择法。选项adjrsq表示要输出每种回归模型的统计量Adj-R2. 选项best=5表示保留Cp值最小的前5种回归模型;(2)plot语句中的cp. * np.表达式(注意统计量关键字母后的小圆点)表示Y轴为Cp值X轴为P值(P值包括截距项);(3)Hocking(1976)建议选择满足Cp2PPfull 且CpP的模型。plot语句的选项chocking=red,表示画Cp=2PPfull 红色参考虚线,其中P是子模型中含截距的参数个数,Pfull是全模型中不含截距的参数个数;(4)Mallows(1973)建议考虑所有满足Cp较小且接近P的模型。plot语句的选项cmallows=blue,表示画Cp=P蓝色参考实线,其中P是子模型中含截距的参数个数;(5)从输出结果看,以Mallows的建议为标准,age, maxpulse, runpulse和runtime四个变量进入回归模型时Cp最小(4.76609),且与P=4+1=5最接近,因为54.76609256=4。而Cp=5.00021的模型满足要求,因为5.0002166=6且5.000210.83681815). 不同的标准提供不同的选择结果,这是常有的情况。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1