实验五相关和回归分析.docx

上传人:b****6 文档编号:5880535 上传时间:2023-01-01 格式:DOCX 页数:30 大小:675.20KB
下载 相关 举报
实验五相关和回归分析.docx_第1页
第1页 / 共30页
实验五相关和回归分析.docx_第2页
第2页 / 共30页
实验五相关和回归分析.docx_第3页
第3页 / 共30页
实验五相关和回归分析.docx_第4页
第4页 / 共30页
实验五相关和回归分析.docx_第5页
第5页 / 共30页
点击查看更多>>
下载资源
资源描述

实验五相关和回归分析.docx

《实验五相关和回归分析.docx》由会员分享,可在线阅读,更多相关《实验五相关和回归分析.docx(30页珍藏版)》请在冰豆网上搜索。

实验五相关和回归分析.docx

实验五相关和回归分析

实验五相关和回归分析

相关分析是指对变量之间的相关关系进行描述与气宇的一种分析方式,简单相关分析通常指对两变量间相关关系的研究,其目的是确信两个变量之间是不是存在相关关系,并对其相关关系的强度进行度量,常用方式是考察两个变量的散点图和计算变量间的相关系数。

多元线性回归分析研究多个变量的数量伴随关系,内容要紧包括模型的假定与查验、参数的估量与查验、回归诊断与预测。

很多非线性回归问题都能够转化为线性回归问题处置,如多项式回归、指数回归、对数回归、幂函数回归等。

实验目的

把握利用SAS进行简单相关分析和多元线性回归分析及非线性回归分析的方式。

实验内容

一、用INSIGHT模块作简单相关分析与一元线性回归分析

二、用“分析家”作多元线性回归分析

三、利用REG进程作回归分析

四、一元非线性回归分析

实验指导

一、用INSIGHT模块作简单相关分析与一元线性回归分析

【实验5-1】比萨斜塔是一建筑奇迹,工程师关于塔的稳固性作了大量研究工作,塔的斜度的测量值随时刻转变的关系提供了很多有效的信息,表5-1给出了1975年至1987年的测量值()。

表中变量“斜度”表示塔上某一点的实际位置与假设塔为垂直时它所处位置之误差再减去2900mm。

表5-1比萨斜塔的斜度

年份x

75

76

77

78

79

80

81

82

83

84

85

86

87

斜度y(1/10mm)

642

644

656

667

673

688

696

698

713

717

725

742

757

试分析y(斜度)关于年份x的相关关系,写出y关于x的线性回归方程,并利用所建回归方程预测1988年时比萨斜塔的斜度值。

1.数据的导入

第一将上表在Excel中处置后导入成SAS数据集,如图5-1所示,其中x表示年份y表示斜度。

图5-1数据集

2.制作散点图

制作斜度y与年份x的散点图,以便判定变量之间的相关性。

步骤如下:

(1)在INSIGHT中打开数据集。

(2)选择菜单“Analyze(分析)”→“ScatterPlot(YX)(散点图)”。

(3)在打开的“ScatterPlot(YX)”对话框当选定Y变量:

Y;选定X变量:

x,如图5-2左所示。

(4)单击“OK”按钮,取得斜度y与年份x的散点图,如图5-2右所示。

从散点图中能够看出,斜度y与年份x之间具有必然的线性关系。

图5-2斜度y与年份x的散点图

3.相关系数计算

在INSIGHT中打开数据集。

(1)选择菜单“Analyze(分析)”→“Multivariate(YX)(多变量)”。

(2)在打开的“Multivariate(YX)”对话框当选定Y变量:

y;选定X变量:

x,如图5-3左所示。

.

图5-3计算相关系数

(3)单击“OK”按钮,取得结果如图5-3右所示。

结果显示斜度y与年份x的样本相关系数专门大,为。

(4)为了查验整体变量y与x的相关系数是不是为零,选择菜单:

“Tables”→“CORRp-values”,取得相关系数为零的原假设的p值,如图5-4所示。

图5-4相关系数的查验

由于p值很小,应拒绝原假设,能够以为斜度y与年份x之间均存在着显著的正相关关系。

4.一元线性回归

在INSIGHT中打开数据集。

(1)选择菜单“Analyze”→“Fit(YX)(拟合)”,打开“Fit(YX)”对话框。

(2)在“Fit(YX)”对话框中,选择变量Y,单击“Y”按钮,将Y设为响应变量;选择变量x,单击“X”按钮,将x设为自变量,如图5-5左所示。

(3)单击Output按钮,在“Fit(YX)”输出选项表中增加选中ResidualNormal复选项,要求输出残差的正态QQ图,如图5-5右所示。

图5-5“Fit(YX)”输出选项设置

(4)两次单击“OK”按钮,取得分析结果。

显示的结果分为假设干张表,其中第二张表给出回归方程:

方程说明回归直线截距的估量值为,斜率的估量值为,如图5-6左下。

回归系数表示比萨斜塔的“斜度”年平均增加。

图5-6回归方程与散点图

第三张表是带有回归直线的散点图,给出了回归的图形表示,如图5-6右。

图的下面是参数回归拟合表(图5-7)。

图5-7参数回归拟合表

其中判定系数R-Square(R2)=,指出x能够说明Y的%的信息。

还有1–%=%的信息不能被说明,这些信息由其他变量和随机因素所说明。

图5-8拟合汇总表

第四张拟合汇总表(图5-8)中MeanofResponse(响应变量的均值)是变量Y的样本平均值,RootMSE(均方残差平方根)是对各观测点在直线周围分散程度的一个气宇值,为随机误差ε的标准差(也是实测值Y的标准差)的无偏估量。

AdjR-Sq是修正的判定系数。

第五张方差分析表(图5-9)包括对回归方程的显著查验,其中F统计量的值:

图5-9方差分析表

F查验的p值<,表示模型显著有效。

即以为Y与自变量x之间的线性回归关系显著。

第六张Ⅲ型查验表提供了与方差分析表一样的查验,如图5-10所示。

图5-10Ⅲ型查验表

第七张参数估量表给出了回归直线截距和斜率的估量值及其显著性查验等内容。

那个地址截距的t查验的p值=<α=,说明截距项是显著非零的,斜率的t查验p值<,说明斜率显著非零,即自变量x对因变量Y有显著的线性关系,如图5-11所示。

图5-11参数估量表

图5-12残差和预测值的散点图及残差的QQ图

5.回归诊断

在显示窗的底部有一个残差R_Y和预测值P_Y的散点图(图5-12左)。

从图中看出,数据点随机地散布在零线附近,说明模型中残差等方差、独立性的假设没有问题。

从残差的QQ图(图7-12右)能够初步判定残差来自正态散布整体。

为了进一步检验残差为正态散布的假定,回到数据窗口。

能够看到残差R_Y和预测值P_Y已加到数据集当中,能够用Distribution(Y)来验正残差的正态性。

(1)选择菜单“Analyze(分析)”→“Distribution(Y)(散布)”,打开“Distribution(Y)”对话框。

在数据集的变量列表中,选择R_Y,然后单击“Y”按钮,R_Y被选为分析变量。

(2)单击“Output”按钮,打开“Distribution(Y)(散布)”对话框。

(3)仅选中“TestsforNormality”复选框,如图5-13所示。

图5-13仅选中“TestsforNormality”复选框图5-14残差散布的正态性查验表

(4)两次单击“OK”按钮取得结果。

在“TestsforNormality”(正态性查验)表(图5-14)中看到,4种查验方式的p值均大于,不能拒绝原假设,说明能够同意残差正态性的假定。

6.利用回归方程进行预测

图5-15回归预测

当回归模型中各参数都通过了显著性查验,模型整体的拟合成效也不错时,就能够够用所成立的模型进行预测了。

即通过自变量x的取值来预测因变量y的取值,例如,年份x为88时,计算斜度y的预测值(均值),能够进行如下操作:

(1)回到数据窗口,点击数据表的底部,在第一个空行的X列中填入88,并按Enter键(图5-15)。

(2)Y的预测值被自动计算出并显示在P_Y列当中。

如此能够取得任意多个预测值。

从图5-15能够看到,年份x为88时,斜度y的预测值为。

注意:

仅当拟合窗口打开时才可按上述方式计算预测值。

二、用“分析家”作多元线性回归分析

【实验5-2】某研究人员需要分析我国固定资产投资状况的阻碍因素,选取5个可能的阻碍因素:

国内生产总值、商品衡宇销售额、财政支出、社会消费品零售总额、进出口总额,统计1987~2001共15年的各项指标如表5-2所示()所示。

试在的显著性水平下进行多元回归分析,判定哪些因素对固定资产投资有着显著阻碍,给出回归方程。

表5-215年的统计数据

年度

固定投资总额

国内生产总值

商品房屋销售额

财政支出

社会消费品零售总额

进出口总额

1987

1100967

5820

1988

1472164

7440

1989

1637542

1990

4517

2018263

1991

2378597

1992

4265938

1993

8637141

11271

1994

1995

20620

1996

1997

1998

1999

2000

2001

1.生成数据集

在“分析家”中直接打开上面的Excel数据表,选择编辑状态,修改每一个变量的属性,将变量名别离改成:

年度:

n、固定投资总额:

y、国内生产总值:

x一、商品衡宇销售额:

x二、财政支出:

x3、社会消费品零售总额:

x4、进出口总额:

x5。

图8-16LinearRegression对话框

以数据集存盘。

2.全回归分析

1)选择主菜单“Statistics(统计)”→“Regression(回归)”→“Linear(线性)”,打开“LinearRegression(线性回归)”对话框。

2)选择变量列表中的变量y,单击“Dependent”按钮,选定响应变量,选择变量列表中的变量x一、x二、x3、x4、x5,单击“Explanatory”按钮,选定说明变量,如图5-16所示。

3)单击“OK”按钮,取得分析结果如图5-17所示。

图5-17多元回归分析结果

分析结果包括方差分析表、拟合的汇总信息和回归系数估量值与显著性查验。

方差分析表中显示模型的作用是显著的(F统计量的值为,p值<<=α)。

参数显著性查验说明,进入回归的5个自变量,其作用在其它变量进入回归的前提下并非都是显著的。

例如x3、x4、x5的作用就不显著。

因此有必要适被选择变量成立一个“最优”的回归方程。

3.慢慢回归分析

图5-18选择慢慢回归法

1)重复上面2中1),在“LinearRegression(线性回归)”对话框(图5-16)中,单击“Model”按钮,打开“LinearRegression:

Model”对话框。

在“Method”选项卡当选择“Stepwiseselection(慢慢选择法)”,如图5-18所示。

两次单击“OK”按钮,取得分析结果。

2)在显示结果中,第1步记录了只有x1进入回归方程的回归分析结果,其中回归方程和系数的查验均为显著,现在R2=,C(p)=;接着第2步是自变量x1和x2进入回归方程后的回归分析结果,回归方程及x1和x2的系数查验均为显著,但常数项查验不显著。

接着第3步是自变量x一、x2和x3进入回归方程后的回归分析结果。

其中回归方程及所有系数查验均为显著,常数项查验也显著。

且R2=提高了,C(p)=减少了。

图5-19慢慢回归第一、2步、3步及最后结果

在图5-19右下中指出在的查验水平下,不能再有其它变量进入模型。

比较R2和C(p)的值(图5-19右),应取包括变量x1、x2和x3的第三个模型作为较优的模型,对应的回归方程是:

4.回归诊断

图5-20LinearRegression:

Plots对话框

进行回归诊断的步骤如下:

1)重复上面2中1),在打开的“LinearRegression(线性回归)”对话框中,单击“Plots”按钮。

在打开的“LinearRegression:

Plots”对话框中,选择“Residual”选项卡,按图5-20所示选择有关复选框。

2)两次单击“OK”按钮,取得回归诊断结果,在“分析家”窗口的项目治理器中依次双击“ResidualPlots”下的“PlotofSTUDETvsPRED”和“PlotofRESIDUALvsNQQ”取得标准化后的残差图(图5-21左)和残差的QQ图(图5-21右)。

图5-21残差图和残差的QQ图

从标准化后的残差图(图5-21左)看出,数据点随机地散布在零线附近,说明模型中误差等方差、独立性的假设没有问题。

残差的QQ图(图5-21右)近似一条直线,能够初步判定残差来自正态散布整体,所建回归模型是有效的。

3)对残差作进一步查验:

图5-22LinearRegression:

SaveData对话框

在上述操作打开的“LinearRegression(线性回归)”对话框中,单击“SaveData”按钮。

在打开的“LinearRegression:

SaveData”对话框中,选中“Createandsavediagnosticsdata”复选框,并将列表中的第二项“RESIDUALResiduals”添加到左侧方框内,如图5-22所示。

两次单击“OK”后取得分析结果。

4)在“分析家”窗口的项目治理器中双击“Diagnostics”下的“DiagnosticsTable”能够看到在数据集中生成了残差数据,如图5-23所示。

图5-23生成残差数据

将“DiagnosticsTable”存盘(sy5_2_r)后在“分析家”中打开。

5)选择主菜单“Statistics(统计)”→“Descriptive(描述性统计)”→“Distributions…(散布)”,打开“Distributions”对话框,选择变量列表中的_RESID,单击“Analysis”按钮,选定分析变量,如图5-24左所示。

图5-24设置选项

6)单击“Fit(拟合)”按钮,在打开的对话框当选择拟合的散布类型:

Normal,利用样本估量量(Sampleestimates),如图5-24右所示。

7)两次单击“OK”按钮,并在分析家窗口的项目治理器中双击“FittedDistributionsofsy5_2_r”项,取得对残差_RESID的正态散布查验结果,如图5-25所示。

图5-25残差散布查验结果

三种查验均有p值>,因此不能拒绝残差来自正态整体的假定。

5.预测

通过回归诊断得知模型:

是适合的,能够用于预测。

1)假定02,03年国内生产总值(x1)、商品衡宇销售额(x2)、财政支出(x3)的数据已存入数据集中,如下图。

图5-26数据集

2)重复上面慢慢回归步骤,并在图5-16所示的“LinearRegression(线性回归)”对话框中,单击“predictions”按钮,打开“LinearRegression:

predictions”对话框。

按图5-27所示进行预测的Input(输入)、Output(输出)设置。

图5-27“LinearRegression:

predictions”对话框

3)两次单击“OK”,取得结果。

在分析家的项目治理器中点击“predictions”能够看到预测结果,如图5-28所示。

图5-28预测结果

三、利用REG进程作回归分析

【实验5-3】某种水泥在凝固时放出的热量y(cal/g)与水泥中四种化学成份x1,x2,x3,x4有关,现测得13组数据,如表5-3()所示。

试从当选出要紧的变量,成立y关于它们的线性回归方程。

表5-3热量y与四种化学成份的实测数据

x1

x2

x3

x4

y

7

26

6

60

1

29

15

52

11

56

8

20

11

31

8

47

7

52

6

33

11

55

9

22

3

71

17

6

1

31

22

44

2

54

18

22

21

47

4

26

1

40

23

34

11

66

9

12

10

68

8

12

1.成立数据集

输入以下代码成立数据集sy5_3并显示:

data;

inputx1x2x3x4y;

cards;

726660

1291552

1156820

1131847

752633

1155922

371176

1312244

2541822

2147426

1402334

1166912

1068812

;

Title'数据集sy5_3';

Procprint;

run;

运行结果如下图。

图5-29数据集sy5_3

2.向后慢慢剔出法进行回归

执行以下代码:

procregdata=;

varyx1-x4;

modely=x1-x4/selection=backward;

plotresidual.*predicted.;

run;

输出结果如下:

图5-30向后慢慢剔除的第0步(全回归)

图5-31向后慢慢剔除的第1步

图5-32向后慢慢剔除法第2步

图5-33向后慢慢剔除法结果汇总

向后慢慢剔除法的分析结果给出回归模型:

Y=++

残差对预测值的散点图显示如下:

图5-34残差散点图

3.结果分析

采纳向后慢慢剔除法回归的第0步是做全回归,结果如图5-30所示,所有系数均未通过查验(P值均大于),向后慢慢剔除法第1步将变量x3剔除,结果如图5-31所示,其中x2和x4的系数仍不能通过查验,接下来第2步将变量x4剔除,结果如图5-32所示,现在的回归方程及x1和x2的系数均能通过查验,残差对预测值的散点图(图5-34)大体正常符合模型假定,因此方程Y=++为有效回归方程。

四、一元非线性回归分析

【实验5-4】已知数据如表5-4()所示。

试别离采纳指数回归、对数回归、幂函数回归和倒幂函数回归4种非线性回归方式进行回归分析,并选择一个较好的回归方程。

表5-4实验数据

X

2

Y

1.生成数据集

图5-35数据集sy5_4

运行下面程序生成并显示数据集sy5_4,如图5-35所示。

datasy5_4;

inputxy;

cards;

2

;

run;

title'数据集sy5_4';

procprint;

run;

2.对x和y作相关分析

执行如下代码:

/*画x和y的散点图*/

goptionsftext='宋体';

procgplotdata=sy5_4;

ploty*x;

title'x和y的散点图';

symbolv=doti=nonecv=orange;

run;

/*求x和y的相关系数*/

proccorrdata=sy5_4;

varxy;

run;

运行上面程序,取得散点图(图5-36左)和x与y的相关系数(图5-36右):

图5-36x与y的散点图与相关系数

由图可见x和y有必然的非线性关系,依照散点散布的形状考虑用下面几种非线性回归方式成立非线性回归方程,并从当选出较为适合的回归方程。

3.倒幂函数

回归

图5-37u和v的散点图

第一考虑倒幂函数拟合,执行如下代码:

goptionsftext='宋体';

datanew1;

setsy5_4;

u=1/x;

v=y;

run;

/*画u和v的散点图*/

title'u和v的散点图';

procgplotdata=new1;

plotv*u;

symbolv=doti=nonecv=red;

run;

运行结果取得散点图5-37,由图可见,u和v有着较弱的线性关系。

做线性回归:

procregdata=new1;

varvu;

modelv=u;

printcli;

title'残差图';

plotresidual.*predicted.;

run;

运行结果如图5-38和图5-39所示。

图5-38倒幂函数回归结果

倒幂函数回归结果(图5-38):

方差分析表中显示模型的作用是显著的(F统计量的值为,p值<<=α)。

参数显著性查验说明,自变量的作用是显著的。

回归方程为:

v=+

即:

残差对预测值的散点图(图5-39)说明,残差有必然趋势,不符合模型的假定,以上回归方程无效。

图5-39残差对预测值的散点图

4.幂函数

回归

考虑幂函数拟合,执行如下代码:

datanew2;

setsy5_4;

u=log(x);

v=log(y);

run;

图5-40u与v的散点图

/*画u和v的散点图*/

title'u和v的散点图';

procgplotdata=new2;

plotv*u;

symbolv=doti=nonecv=red;

run;

title'残差图';

procregdata=new2;

varvu;

modelv=u;

printcli;

plotresidual.*predicted.;

run;

取得散点图如图5-40所示:

幂函数回归的结果见图5-41左:

图5-41幂函数回归结果与残差对预测值的散点图

得回归方程:

v=–

即:

残差对预测值的散点图(如图5-41右)说明,残差有微弱趋势,不符合模型的假定,上面回归方程不佳。

5.指数函数

回归

考虑指数函数拟合,执行如下代码:

datanew3;

setsy5_4;

u=x;

v=log(y);

run;

图5-42u与v的散点图

/*画u和v的散点图*/

title'u和v的散点图';

procgplotdata=new3;

plotv*u;

symbolv=doti=nonecv=red;

run;

title'残差图';

procregdata=new3;

varvu;

modelv=u;

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 党团工作 > 其它

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1