实验五相关和回归分析.docx

上传人:b****7 文档编号:23587564 上传时间:2023-05-18 格式:DOCX 页数:33 大小:679.68KB
下载 相关 举报
实验五相关和回归分析.docx_第1页
第1页 / 共33页
实验五相关和回归分析.docx_第2页
第2页 / 共33页
实验五相关和回归分析.docx_第3页
第3页 / 共33页
实验五相关和回归分析.docx_第4页
第4页 / 共33页
实验五相关和回归分析.docx_第5页
第5页 / 共33页
点击查看更多>>
下载资源
资源描述

实验五相关和回归分析.docx

《实验五相关和回归分析.docx》由会员分享,可在线阅读,更多相关《实验五相关和回归分析.docx(33页珍藏版)》请在冰豆网上搜索。

实验五相关和回归分析.docx

实验五相关和回归分析

实验五相关和回归分析

相关分析是指对变量之间的相关关系进行描述与度量的一种分析方法,简单相关分析通常指对两变量间相关关系的研究,其目的是确定两个变量之间是否存在相关关系,并对其相关关系的强度进行度量,常用方法是考察两个变量的散点图和计算变量间的相关系数。

多元线性回归分析研究多个变量的数量伴随关系,内容主要包括模型的假定与检验、参数的估计与检验、回归诊断与预测。

很多非线性回归问题都可以转化为线性回归问题处理,如多项式回归、指数回归、对数回归、幂函数回归等。

5.1实验目的

掌握使用SAS进行简单相关分析和多元线性回归分析及非线性回归分析的方法。

5.2实验内容

一、用INSIGHT模块作简单相关分析与一元线性回归分析

二、用“分析家”作多元线性回归分析

三、使用REG过程作回归分析

四、一元非线性回归分析

5.3实验指导

一、用INSIGHT模块作简单相关分析与一元线性回归分析

【实验5-1】比萨斜塔是一建筑奇迹,工程师关于塔的稳定性作了大量研究工作,塔的斜度的测量值随时间变化的关系提供了很多有用的信息,表5-1给出了1975年至1987年的测量值(sy5_1.xls)。

表中变量“斜度”表示塔上某一点的实际位置与假如塔为垂直时它所处位置之偏差再减去2900mm。

表5-1比萨斜塔的斜度

年份x

75

76

77

78

79

80

81

82

83

84

85

86

87

斜度y(1/10mm)

642

644

656

667

673

688

696

698

713

717

725

742

757

试分析y(斜度)关于年份x的相关关系,写出y关于x的线性回归方程,并利用所建回归方程预测1988年时比萨斜塔的斜度值。

1.数据的导入

首先将上表在Excel中处理后导入成SAS数据集Mylib.sy5_1,如图5-1所示,其中x表示年份y表示斜度。

图5-1数据集Mylib.sy5_1

2.制作散点图

制作斜度y与年份x的散点图,以便判断变量之间的相关性。

步骤如下:

(1)在INSIGHT中打开数据集Mylib.sy5_1。

(2)选择菜单“Analyze(分析)”→“ScatterPlot(YX)(散点图)”。

(3)在打开的“ScatterPlot(YX)”对话框中选定Y变量:

Y;选定X变量:

x,如图5-2左所示。

(4)单击“OK”按钮,得到斜度y与年份x的散点图,如图5-2右所示。

从散点图中可以看出,斜度y与年份x之间具有一定的线性关系。

图5-2斜度y与年份x的散点图

3.相关系数计算

在INSIGHT中打开数据集Mylib.sy5_1。

(1)选择菜单“Analyze(分析)”→“Multivariate(YX)(多变量)”。

(2)在打开的“Multivariate(YX)”对话框中选定Y变量:

y;选定X变量:

x,如图5-3左所示。

.

图5-3计算相关系数

(3)单击“OK”按钮,得到结果如图5-3右所示。

结果显示斜度y与年份x的样本相关系数很大,为0.994。

(4)为了检验总体变量y与x的相关系数是否为零,选择菜单:

“Tables”→“CORRp-values”,得到相关系数为零的原假设的p值,如图5-4所示。

图5-4相关系数的检验

由于p值很小,应拒绝原假设,可以认为斜度y与年份x之间均存在着显著的正相关关系。

4.一元线性回归

在INSIGHT中打开数据集Mylib.sy5_1。

(1)选择菜单“Analyze”→“Fit(YX)(拟合)”,打开“Fit(YX)”对话框。

(2)在“Fit(YX)”对话框中,选择变量Y,单击“Y”按钮,将Y设为响应变量;选择变量x,单击“X”按钮,将x设为自变量,如图5-5左所示。

(3)单击Output按钮,在“Fit(YX)”输出选项表中增加选中ResidualNormal复选项,要求输出残差的正态QQ图,如图5-5右所示。

图5-5“Fit(YX)”输出选项设置

(4)两次单击“OK”按钮,得到分析结果。

显示的结果分为若干张表,其中第二张表给出回归方程:

方程表明回归直线截距的估计值为-61.1209,斜率的估计值为9.3187,如图5-6左下。

回归系数9.3187表示比萨斜塔的“斜度”年平均增加9.3187。

图5-6回归方程与散点图

第三张表是带有回归直线的散点图,给出了回归的图形表示,如图5-6右。

图的下面是参数回归拟合表(图5-7)。

图5-7参数回归拟合表

其中判定系数R-Square(R2)=0.9880,指出x能够解释Y的98.8%的信息。

还有1–98.8%=1.2%的信息不能被解释,这些信息由其他变量和随机因素所解释。

图5-8拟合汇总表

第四张拟合汇总表(图5-8)中MeanofResponse(响应变量的均值)693.6923是变量Y的样本平均值,RootMSE(均方残差平方根)4.181是对各观测点在直线周围分散程度的一个度量值,为随机误差ε的标准差(也是实测值Y的标准差)的无偏估计。

AdjR-Sq是修正的判定系数。

第五张方差分析表(图5-9)包含对回归方程的显著检验,其中F统计量的值:

图5-9方差分析表

F检验的p值<0.0001,表示模型显著有效。

即认为Y与自变量x之间的线性回归关系显著。

第六张Ⅲ型检验表提供了与方差分析表一样的检验,如图5-10所示。

图5-10Ⅲ型检验表

第七张参数估计表给出了回归直线截距和斜率的估计值及其显著性检验等内容。

这里截距的t检验的p值=0.0333<=0.05,表明截距项是显著非零的,斜率的t检验p值<0.0001,表明斜率显著非零,即自变量x对因变量Y有显著的线性关系,如图5-11所示。

图5-11参数估计表

图5-12残差和预测值的散点图及残差的QQ图

5.回归诊断

在显示窗的底部有一个残差R_Y和预测值P_Y的散点图(图5-12左)。

从图中看出,数据点随机地散布在零线附近,表明模型中残差等方差、独立性的假设没有问题。

从残差的QQ图(图7-12右)可以初步判定残差来自正态分布总体。

为了进一步检验残差为正态分布的假定,回到数据窗口。

可以看到残差R_Y和预测值P_Y已加到数据集之中,可以用Distribution(Y)来验正残差的正态性。

(1)选择菜单“Analyze(分析)”→“Distribution(Y)(分布)”,打开“Distribution(Y)”对话框。

在数据集Mylib.sy5_1的变量列表中,选择R_Y,然后单击“Y”按钮,R_Y被选为分析变量。

(2)单击“Output”按钮,打开“Distribution(Y)(分布)”对话框。

(3)仅选中“TestsforNormality”复选框,如图5-13所示。

图5-13仅选中“TestsforNormality”复选框图5-14残差分布的正态性检验表

(4)两次单击“OK”按钮得到结果。

在“TestsforNormality”(正态性检验)表(图5-14)中看到,4种检验方法的p值均大于0.05,不能拒绝原假设,表明可以接受残差正态性的假定。

6.利用回归方程进行预测

图5-15回归预测

当回归模型中各参数都通过了显著性检验,模型整体的拟合效果也不错时,就可以用所建立的模型进行预测了。

即通过自变量x的取值来预测因变量y的取值,例如,年份x为88时,计算斜度y的预测值(均值),可以进行如下操作:

(1)回到数据窗口,点击数据表的底部,在第一个空行的X列中填入88,并按Enter键(图5-15)。

(2)Y的预测值被自动计算出并显示在P_Y列之中。

如此可以得到任意多个预测值。

从图5-15可以看到,年份x为88时,斜度y的预测值为758.9231。

注意:

仅当拟合窗口打开时才可按上述方法计算预测值。

二、用“分析家”作多元线性回归分析

【实验5-2】某研究人员需要分析我国固定资产投资状况的影响因素,选取5个可能的影响因素:

国内生产总值、商品房屋销售额、财政支出、社会消费品零售总额、进出口总额,统计1987~2001共15年的各项指标如表5-2所示(sy5_2.xls)所示。

试在0.05的显著性水平下进行多元回归分析,判断哪些因素对固定资产投资有着显著影响,给出回归方程。

表5-215年的统计数据

年度

固定投资总额

国内生产总值

商品房屋销售额

财政支出

社会消费品零售总额

进出口总额

1987

3791.7

11962.5

1100967

2262.18

5820

3084.2

1988

4753.8

14928.3

1472164

2491.21

7440

3821.8

1989

4410.4

16909.2

1637542

2823.78

8101.4

4155.9

1990

4517

18547.9

2018263

3083.59

8300.1

5560.1

1991

5594.5

21617.8

2378597

3386.62

9415.6

7225.8

1992

8080.1

26638.1

4265938

3742.2

10993.7

9119.6

1993

13072.3

34634.4

8637141

4642.3

12462.1

11271

1994

17042.1

46759.4

10184950

5792.62

16264.7

20381.9

1995

20019.26

58478.1

12577269

6823.72

20620

23499.9

1996

22913.55

67884.6

14271292

7937.55

24774.1

24133.8

1997

24941.11

74462.6

17994763

9233.56

27298.9

26967.2

1998

28406.17

78345.2

25133027

10798.18

29152.5

26857.7

1999

29854.71

82067.46

29878734

13187.67

31134.7

29896.3

2000

32917.73

89442.2

39354423

15886.5

34152.6

39274.2

2001

37213.49

95933.3

48627517

18902.58

37595.2

42193.3

1.生成数据集

在“分析家”中直接打开上面的Excel数据表(sy5_2.xls),选择编辑状态,修改每个变量的属性,将变量名分别改为:

年度:

n、固定投资总额:

y、国内生产总值:

x1、商品房屋销售额:

x2、财政支出:

x3、社会消费品零售总额:

x4、进出口总额:

x5。

图8-16LinearRegression对话框

以数据集Mylib.sy5_2存盘。

2.全回归分析

1)选择主菜单“Statistics(统计)”→“Regression(回归)”→“Linear(线性)”,打开“LinearRegression(线性回归)”对话框。

2)选择变量列表中的变量y,单击“Dependent”按钮,选定响应变量,选择变量列表中的变量x1、x2、x3、x4、x5,单击“Explanatory”按钮,选定解释变量,如图5-16所示。

3)单击“OK”按钮,得到分析结果如图5-17所示。

图5-17多元回归分析结果

分析结果包括方差分析表、拟合的汇总信息以及回归系数估计值与显著性检验。

方差分析表中显示模型的作用是显著的(F统计量的值为1567.35,p值<0.0001<0.05=α)。

参数显著性检验表明,进入回归的5个自变量,其作用在其它变量进入回归的前提下并不都是显著的。

例如x3、x4、x5的作用就不显著。

因此有必要适当选择变量建立一个“最优”的回归方程。

3.逐步回归分析

图5-18选择逐步回归法

1)重复上面2中1),在“LinearRegression(线性回归)”对话框(图5-16)中,单击“Model”按钮,打开“LinearRegression:

Model”对话框。

在“Method”选项卡中选择“Stepwiseselection(逐步选择法)”,如图5-18所示。

两次单击“OK”按钮,得到分析结果。

2)在显示结果中,第1步记录了只有x1进入回归方程的回归分析结果,其中回归方程和系数的检验均为显著,此时R2=0.9911,C(p)=58.5161;接着第2步是自变量x1和x2进入回归方程后的回归分析结果,回归方程及x1和x2的系数检验均为显著,但常数项检验不显著。

接着第3步是自变量x1、x2和x3进入回归方程后的回归分析结果。

其中回归方程及所有系数检验均为显著,常数项检验也显著。

且R2=0.9984提高了,C(p)=5.5226减少了。

图5-19逐步回归第1、2步、3步及最后结果

在图5-19右下中指出在0.05的检验水平下,不能再有其它变量进入模型。

比较R2和C(p)的值(图5-19右),应取包含变量x1、x2和x3的第三个模型作为较优的模型,对应的回归方程是:

4.回归诊断

图5-20LinearRegression:

Plots对话框

进行回归诊断的步骤如下:

1)重复上面2中1),在打开的“LinearRegression(线性回归)”对话框中,单击“Plots”按钮。

在打开的“LinearRegression:

Plots”对话框中,选择“Residual”选项卡,按图5-20所示选择有关复选框。

2)两次单击“OK”按钮,得到回归诊断结果,在“分析家”窗口的项目管理器中依次双击“ResidualPlots”下的“PlotofSTUDETvsPRED”和“PlotofRESIDUALvsNQQ”得到标准化后的残差图(图5-21左)和残差的QQ图(图5-21右)。

图5-21残差图和残差的QQ图

从标准化后的残差图(图5-21左)看出,数据点随机地散布在零线附近,表明模型中误差等方差、独立性的假设没有问题。

残差的QQ图(图5-21右)近似一条直线,可以初步判定残差来自正态分布总体,所建回归模型是有效的。

3)对残差作进一步检验:

图5-22LinearRegression:

SaveData对话框

在上述操作打开的“LinearRegression(线性回归)”对话框中,单击“SaveData”按钮。

在打开的“LinearRegression:

SaveData”对话框中,选中“Createandsavediagnosticsdata”复选框,并将列表中的第二项“RESIDUALResiduals”添加到左边方框内,如图5-22所示。

两次单击“OK”后得到分析结果。

4)在“分析家”窗口的项目管理器中双击“Diagnostics”下的“DiagnosticsTable”可以看到在数据集中生成了残差数据,如图5-23所示。

图5-23生成残差数据

将“DiagnosticsTable”存盘(sy5_2_r)后在“分析家”中打开。

5)选择主菜单“Statistics(统计)”→“Descriptive(描述性统计)”→“Distributions…(分布)”,打开“Distributions”对话框,选择变量列表中的_RESID,单击“Analysis”按钮,选定分析变量,如图5-24左所示。

图5-24设置选项

6)单击“Fit(拟合)”按钮,在打开的对话框中选择拟合的分布类型:

Normal,使用样本估计量(Sampleestimates),如图5-24右所示。

7)两次单击“OK”按钮,并在分析家窗口的项目管理器中双击“FittedDistributionsofsy5_2_r”项,得到对残差_RESID的正态分布检验结果,如图5-25所示。

图5-25残差分布检验结果

三种检验均有p值>0.05,因此不能拒绝残差来自正态总体的假定。

5.预测

通过回归诊断得知模型:

是合适的,可以用于预测。

1)假定02,03年国内生产总值(x1)、商品房屋销售额(x2)、财政支出(x3)的数据已存入数据集Mylib.sy5_2_new中,如图所示。

图5-26数据集Mylib.sy5_2_new

2)重复上面逐步回归步骤,并在图5-16所示的“LinearRegression(线性回归)”对话框中,单击“predictions”按钮,打开“LinearRegression:

predictions”对话框。

按图5-27所示进行预测的Input(输入)、Output(输出)设置。

图5-27“LinearRegression:

predictions”对话框

3)两次单击“OK”,得到结果。

在分析家的项目管理器中点击“predictions”可以看到预测结果,如图5-28所示。

图5-28预测结果

三、使用REG过程作回归分析

【实验5-3】某种水泥在凝固时放出的热量y(cal/g)与水泥中四种化学成分x1,x2,x3,x4有关,现测得13组数据,如表5-3(sy5_3.xls)所示。

试从中选出主要的变量,建立y关于它们的线性回归方程。

表5-3热量y与四种化学成分的实测数据

x1

x2

x3

x4

y

7

26

6

60

78.5

1

29

15

52

74.3

11

56

8

20

104.3

11

31

8

47

87.6

7

52

6

33

95.9

11

55

9

22

109.2

3

71

17

6

102.7

1

31

22

44

72.5

2

54

18

22

93.1

21

47

4

26

115.9

1

40

23

34

83.8

11

66

9

12

113.3

10

68

8

12

109.4

1.建立数据集

输入以下代码建立数据集sy5_3并显示:

datamylib.sy5_3;

inputx1x2x3x4y;

cards;

72666078.5

129155274.3

1156820104.3

113184787.6

75263395.9

1155922109.2

371176102.7

131224472.5

254182293.1

2147426115.9

140233483.8

1166912113.3

1068812109.4

;

Title'数据集sy5_3';

Procprint;

run;

运行结果如图所示。

图5-29数据集sy5_3

2.向后逐步剔出法进行回归

执行以下代码:

procregdata=Mylib.sy5_3;

varyx1-x4;

modely=x1-x4/selection=backward;

plotresidual.*predicted.;

run;

输出结果如下:

图5-30向后逐步剔除的第0步(全回归)

图5-31向后逐步剔除的第1步

图5-32向后逐步剔除法第2步

图5-33向后逐步剔除法结果汇总

向后逐步剔除法的分析结果给出回归模型:

Y=52.57735+1.46831x1+0.66225x2

残差对预测值的散点图显示如下:

图5-34残差散点图

3.结果分析

采用向后逐步剔除法回归的第0步是做全回归,结果如图5-30所示,所有系数均未通过检验(P值均大于0.05),向后逐步剔除法第1步将变量x3剔除,结果如图5-31所示,其中x2和x4的系数仍不能通过检验,接下来第2步将变量x4剔除,结果如图5-32所示,此时的回归方程及x1和x2的系数均能通过检验,残差对预测值的散点图(图5-34)基本正常符合模型假定,所以方程Y=52.57735+1.46831x1+0.66225x2为有效回归方程。

四、一元非线性回归分析

【实验5-4】已知数据如表5-4(sy5_4.xls)所示。

试分别采用指数回归、对数回归、幂函数回归和倒幂函数回归4种非线性回归方法进行回归分析,并选择一个较好的回归方程。

表5-4实验数据

X

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1.9

2

2.1

2.2

2.3

2.4

Y

109.95

40.45

20.09

24.53

11.02

7.39

4.95

2.72

1.82

1.49

0.82

0.3

0.2

0.22

1.生成数据集

图5-35数据集sy5_4

运行下面程序生成并显示数据集sy5_4,如图5-35所示。

datasy5_4;

inputxy;

cards;

1.1109.95

1.240.45

1.320.09

1.424.53

1.511.02

1.67.39

1.74.95

1.82.72

1.91.82

21.49

2.10.82

2.20.3

2.30.2

2.40.22

;

run;

title'数据集sy5_4';

procprint;

run;

2.对x和y作相关分析

执行如下代码:

/*画x和y的散点图*/

goptionsftext='宋体';

procgplotdata=sy5_4;

ploty*x;

title'x和y的散点图';

symbolv=doti=nonecv=orange;

run;

/*求x和y的相关系数*/

proccorrdata=sy5_4;

varxy;

run;

运行上面程序,得到散点图(图5-36左)以及x与y的相关系数(图5-36右):

图5-36x与y的散点图与相关系数

由图可见x和y有一定的非线性关系,根据散点分布的形状考虑用下面几种非线性回归方法建立非线性回归方程,并从中选出较为合适的回归方程。

3.倒幂函数

回归

图5-37u和v的散点图

首先考虑倒幂函数拟合,执行如下代码:

goptionsftext='宋体';

datanew1;

setsy5_4;

u=1/x;

v=y

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 幼儿教育 > 唐诗宋词

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1