ImageVerifierCode 换一换
格式:DOCX , 页数:30 ,大小:675.20KB ,
资源ID:5880535      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/5880535.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(实验五相关和回归分析.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

实验五相关和回归分析.docx

1、实验五相关和回归分析实验五 相关和回归分析 相关分析是指对变量之间的相关关系进行描述与气宇的一种分析方式,简单相关分析通常指对两变量间相关关系的研究,其目的是确信两个变量之间是不是存在相关关系,并对其相关关系的强度进行度量,常用方式是考察两个变量的散点图和计算变量间的相关系数。多元线性回归分析研究多个变量的数量伴随关系,内容要紧包括模型的假定与查验、参数的估量与查验、回归诊断与预测。 很多非线性回归问题都能够转化为线性回归问题处置,如多项式回归、指数回归、对数回归、幂函数回归等。 实验目的 把握利用SAS进行简单相关分析和多元线性回归分析及非线性回归分析的方式。 实验内容 一、用INSIGHT

2、模块作简单相关分析与一元线性回归分析二、用“分析家”作多元线性回归分析 三、利用REG进程作回归分析 四、一元非线性回归分析 实验指导一、用INSIGHT模块作简单相关分析与一元线性回归分析【实验5-1】比萨斜塔是一建筑奇迹,工程师关于塔的稳固性作了大量研究工作,塔的斜度的测量值随时刻转变的关系提供了很多有效的信息,表5-1给出了1975年至1987年的测量值()。表中变量“斜度”表示塔上某一点的实际位置与假设塔为垂直时它所处位置之误差再减去2900mm。表5-1 比萨斜塔的斜度年份x75767778798081828384858687斜度y(1/10mm)642644656667673688

3、696698713717725742757 试分析y(斜度)关于年份x的相关关系,写出y关于x的线性回归方程,并利用所建回归方程预测1988年时比萨斜塔的斜度值。1. 数据的导入 第一将上表在Excel中处置后导入成SAS数据集,如图5-1所示,其中x表示年份y表示斜度。图5-1 数据集2. 制作散点图 制作斜度y与年份x的散点图,以便判定变量之间的相关性。步骤如下: (1) 在INSIGHT中打开数据集。 (2) 选择菜单“Analyze(分析)”“Scatter Plot (Y X)(散点图)”。 (3) 在打开的“Scatter Plot (Y X)”对话框当选定Y变量:Y;选定X变量:

4、x,如图5-2左所示。 (4) 单击“OK”按钮,取得斜度y与年份x的散点图,如图5-2右所示。 从散点图中能够看出,斜度y与年份x之间具有必然的线性关系。 图5-2 斜度y与年份x的散点图3. 相关系数计算 在INSIGHT中打开数据集。 (1) 选择菜单“Analyze(分析)”“Multivariate (Y X)(多变量)”。 (2) 在打开的“Multivariate (Y X)”对话框当选定Y变量:y;选定X变量:x,如图5-3左所示。. 图5-3 计算相关系数 (3) 单击“OK”按钮,取得结果如图5-3右所示。 结果显示斜度y与年份x的样本相关系数专门大,为。 (4) 为了查验

5、整体变量y与x的相关系数是不是为零,选择菜单:“Tables”“CORR p-values”,取得相关系数为零的原假设的p值,如图5-4所示。图5-4 相关系数的查验 由于p值很小,应拒绝原假设,能够以为斜度y与年份x之间均存在着显著的正相关关系。4. 一元线性回归 在INSIGHT中打开数据集。 (1) 选择菜单“Analyze”“Fit(Y X)(拟合)”,打开“Fit(Y X)”对话框。 (2) 在“Fit(Y X)”对话框中,选择变量Y,单击“Y”按钮,将Y设为响应变量;选择变量x,单击“X”按钮,将x设为自变量,如图5-5左所示。 (3) 单击Output按钮,在“Fit(Y X)”

6、输出选项表中增加选中Residual Normal复选项,要求输出残差的正态QQ图,如图5-5右所示。 图5-5 “Fit(Y X)”输出选项设置 (4) 两次单击“OK”按钮,取得分析结果。 显示的结果分为假设干张表,其中第二张表给出回归方程: 方程说明回归直线截距的估量值为,斜率的估量值为,如图5-6左下。回归系数表示比萨斜塔的“斜度”年平均增加。 图5-6 回归方程与散点图 第三张表是带有回归直线的散点图,给出了回归的图形表示,如图5-6右。 图的下面是参数回归拟合表(图5-7)。图5-7 参数回归拟合表其中判定系数R-Square(R2)= ,指出x能够说明Y的%的信息。还有1 % =

7、 %的信息不能被说明,这些信息由其他变量和随机因素所说明。图5-8 拟合汇总表 第四张拟合汇总表(图5-8)中Mean of Response(响应变量的均值)是变量Y的样本平均值,Root MSE(均方残差平方根)是对各观测点在直线周围分散程度的一个气宇值,为随机误差的标准差(也是实测值Y的标准差) 的无偏估量。Adj R-Sq是修正的判定系数。 第五张方差分析表(图5-9)包括对回归方程的显著查验,其中F统计量的值:图5-9 方差分析表 F查验的p值 ,表示模型显著有效。即以为Y与自变量x之间的线性回归关系显著。 第六张型查验表提供了与方差分析表一样的查验,如图5-10所示。图5-10 型

8、查验表 第七张参数估量表给出了回归直线截距和斜率的估量值及其显著性查验等内容。那个地址截距的t查验的p值= = ,说明截距项是显著非零的,斜率的t查验p值 ,说明斜率显著非零,即自变量x对因变量Y有显著的线性关系,如图5-11所示。图5-11 参数估量表图5-12 残差和预测值的散点图及残差的QQ图5. 回归诊断 在显示窗的底部有一个残差R_Y和预测值P_Y的散点图(图5-12左)。从图中看出,数据点随机地散布在零线附近,说明模型中残差等方差、独立性的假设没有问题。 从残差的QQ图(图7-12右)能够初步判定残差来自正态散布整体。为了进一步检验残差为正态散布的假定,回到数据窗口。能够看到残差R

9、_Y和预测值P_Y已加到数据集当中,能够用Distribution(Y)来验正残差的正态性。 (1) 选择菜单“Analyze(分析)”“Distribution (Y)(散布)”,打开“Distribution (Y)”对话框。在数据集的变量列表中,选择R_Y,然后单击“Y”按钮,R_Y被选为分析变量。 (2) 单击“Output”按钮,打开“Distribution (Y)(散布)”对话框。 (3) 仅选中“Tests for Normality”复选框,如图5-13所示。 图5-13 仅选中“Tests for Normality”复选框 图5-14 残差散布的正态性查验表 (4) 两次

10、单击“OK”按钮取得结果。 在“Tests for Normality”(正态性查验)表(图5-14)中看到,4种查验方式的p值均大于,不能拒绝原假设,说明能够同意残差正态性的假定。6. 利用回归方程进行预测图5-15 回归预测 当回归模型中各参数都通过了显著性查验,模型整体的拟合成效也不错时,就能够够用所成立的模型进行预测了。即通过自变量x的取值来预测因变量y的取值,例如,年份x为88时,计算斜度y的预测值(均值),能够进行如下操作: (1) 回到数据窗口,点击数据表的底部,在第一个空行的X列中填入88,并按Enter键(图5-15)。 (2) Y的预测值被自动计算出并显示在P_Y列当中。如

11、此能够取得任意多个预测值。从图5-15能够看到,年份x为88时,斜度y的预测值为。注意:仅当拟合窗口打开时才可按上述方式计算预测值。二、用“分析家”作多元线性回归分析【实验5-2】某研究人员需要分析我国固定资产投资状况的阻碍因素,选取5个可能的阻碍因素:国内生产总值、商品衡宇销售额、财政支出、社会消费品零售总额、进出口总额,统计19872001共15年的各项指标如表5-2所示()所示。试在的显著性水平下进行多元回归分析,判定哪些因素对固定资产投资有着显著阻碍,给出回归方程。表5-2 15年的统计数据年度固定投资总额国内生产总值商品房屋销售额财政支出社会消费品零售总额进出口总额198711009

12、675820198814721647440198916375421990451720182631991237859719924265938199386371411127119941995206201996199719981999200020011. 生成数据集 在“分析家”中直接打开上面的Excel数据表,选择编辑状态,修改每一个变量的属性,将变量名别离改成:年度:n、固定投资总额:y、国内生产总值:x一、商品衡宇销售额:x二、财政支出:x3、社会消费品零售总额:x4、进出口总额:x5。图8-16 Linear Regression对话框 以数据集存盘。2. 全回归分析 1) 选择主菜单“St

13、atistics(统计)”“Regression(回归)”“Linear(线性)”,打开“Linear Regression(线性回归)”对话框。 2) 选择变量列表中的变量y,单击“Dependent”按钮,选定响应变量,选择变量列表中的变量x一、x二、x3、x4、x5,单击“Explanatory”按钮,选定说明变量,如图5-16所示。 3) 单击“OK”按钮,取得分析结果如图5-17所示。图5-17 多元回归分析结果 分析结果包括方差分析表、拟合的汇总信息和回归系数估量值与显著性查验。方差分析表中显示模型的作用是显著的(F统计量的值为,p值,因此不能拒绝残差来自正态整体的假定。5. 预测

14、 通过回归诊断得知模型:是适合的,能够用于预测。 1) 假定02,03年国内生产总值(x1)、商品衡宇销售额(x2)、财政支出(x3)的数据已存入数据集中,如下图。图5-26 数据集2) 重复上面慢慢回归步骤,并在图5-16所示的“Linear Regression(线性回归)”对话框中,单击“predictions”按钮,打开“Linear Regression:predictions”对话框。按图5-27所示进行预测的Input(输入)、Output(输出)设置。图5-27 “Linear Regression:predictions”对话框 3) 两次单击“OK”,取得结果。在分析家的项

15、目治理器中点击“predictions”能够看到预测结果,如图5-28所示。图5-28 预测结果三、利用REG进程作回归分析【实验5-3】某种水泥在凝固时放出的热量y(cal/g)与水泥中四种化学成份x1,x2,x3,x4有关,现测得13组数据,如表5-3()所示。试从当选出要紧的变量,成立y关于它们的线性回归方程。表5-3 热量y与四种化学成份的实测数据x1x2x3x4y72666012915521156820113184775263311559223711761312244254182221474261402334116691210688121. 成立数据集 输入以下代码成立数据集sy5_

16、3并显示:data ; input x1 x2 x3 x4 y; cards;7 26 6 60 1 29 15 52 11 56 8 20 11 31 8 47 7 52 6 33 11 55 9 22 3 71 17 6 1 31 22 44 2 54 18 22 21 47 4 26 1 40 23 34 11 66 9 12 10 68 8 12 ;Title 数据集sy5_3;Proc print ;run; 运行结果如下图。图5-29 数据集sy5_32. 向后慢慢剔出法进行回归 执行以下代码:proc reg data = ; var y x1 - x4; model y = x

17、1 - x4/selection=backward; plot residual. * predicted.;run; 输出结果如下:图5-30 向后慢慢剔除的第0步(全回归)图5-31 向后慢慢剔除的第1步图5-32 向后慢慢剔除法第2步图5-33 向后慢慢剔除法结果汇总 向后慢慢剔除法的分析结果给出回归模型:Y = + + 残差对预测值的散点图显示如下:图5-34 残差散点图3. 结果分析 采纳向后慢慢剔除法回归的第0步是做全回归,结果如图5-30所示,所有系数均未通过查验(P值均大于),向后慢慢剔除法第1步将变量x3剔除,结果如图5-31所示,其中x2和x4的系数仍不能通过查验,接下来第

18、2步将变量x4剔除,结果如图5-32所示,现在的回归方程及x1和x2的系数均能通过查验,残差对预测值的散点图(图5-34)大体正常符合模型假定,因此方程Y = + + 为有效回归方程。四、一元非线性回归分析【实验5-4】已知数据如表5-4()所示。试别离采纳指数回归、对数回归、幂函数回归和倒幂函数回归4种非线性回归方式进行回归分析,并选择一个较好的回归方程。表5-4 实验数据X2Y1. 生成数据集图5-35 数据集sy5_4 运行下面程序生成并显示数据集sy5_4,如图5-35所示。data sy5_4; input x y; cards; 2 ;run;title 数据集sy5_4;proc

19、 print;run;2. 对x和y作相关分析 执行如下代码:/*画x和y的散点图*/goptions ftext=宋体;proc gplot data = sy5_4; plot y*x; title x和y的散点图; symbol v=dot i=none cv=orange ; run;/*求x和y的相关系数*/proc corr data = sy5_4;var x y;run; 运行上面程序,取得散点图(图5-36左)和x与y的相关系数(图5-36右): 图5-36 x与y的散点图与相关系数 由图可见x和y有必然的非线性关系,依照散点散布的形状考虑用下面几种非线性回归方式成立非线性回

20、归方程,并从当选出较为适合的回归方程。3. 倒幂函数回归图5-37 u和v的散点图 第一考虑倒幂函数拟合,执行如下代码:goptions ftext=宋体;data new1; set sy5_4; u = 1/x; v = y;run;/*画u和v的散点图*/ title u和v的散点图;proc gplot data = new1; plot v*u; symbol v=dot i=none cv=red ; run; 运行结果取得散点图5-37,由图可见,u和v有着较弱的线性关系。做线性回归:proc reg data = new1; var v u; model v = u; prin

21、t cli; title 残差图; plot residual. * predicted.;run; 运行结果如图5-38和图5-39所示。图5-38 倒幂函数回归结果 倒幂函数回归结果(图5-38):方差分析表中显示模型的作用是显著的(F统计量的值为,p值 = )。参数显著性查验说明,自变量的作用是显著的。回归方程为:v = +即: 残差对预测值的散点图(图5-39)说明,残差有必然趋势,不符合模型的假定,以上回归方程无效。图5-39 残差对预测值的散点图4. 幂函数回归 考虑幂函数拟合,执行如下代码:data new2; set sy5_4; u = log(x); v = log(y);

22、run;图5-40 u与v的散点图/*画u和v的散点图*/ title u和v的散点图;proc gplot data = new2; plot v*u; symbol v=dot i=none cv=red ; run; title 残差图;proc reg data = new2; var v u; model v = u; print cli; plot residual. * predicted.;run; 取得散点图如图5-40所示: 幂函数回归的结果见图5-41左: 图5-41 幂函数回归结果与残差对预测值的散点图 得回归方程:v = 即: 残差对预测值的散点图(如图5-41右)说明,残差有微弱趋势,不符合模型的假定,上面回归方程不佳。5. 指数函数回归 考虑指数函数拟合,执行如下代码:data new3; set sy5_4; u = x; v=log(y);run;图5-42 u与v的散点图/*画u和v的散点图*/ title u和v的散点图;proc gplot data = new3; plot v*u; symbol v=dot i=none cv=red ; run; title 残差图;proc reg data = new3; var v u; model v = u;

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1