实验四回归分析SAS过程1.docx

上传人:b****3 文档编号:3710724 上传时间:2022-11-24 格式:DOCX 页数:42 大小:96.52KB
下载 相关 举报
实验四回归分析SAS过程1.docx_第1页
第1页 / 共42页
实验四回归分析SAS过程1.docx_第2页
第2页 / 共42页
实验四回归分析SAS过程1.docx_第3页
第3页 / 共42页
实验四回归分析SAS过程1.docx_第4页
第4页 / 共42页
实验四回归分析SAS过程1.docx_第5页
第5页 / 共42页
点击查看更多>>
下载资源
资源描述

实验四回归分析SAS过程1.docx

《实验四回归分析SAS过程1.docx》由会员分享,可在线阅读,更多相关《实验四回归分析SAS过程1.docx(42页珍藏版)》请在冰豆网上搜索。

实验四回归分析SAS过程1.docx

实验四回归分析SAS过程1

课时授课计

 

、课

题:

实验四回归分析SAS过程

(1)

课次序号:

10

 

统计推断与预测

二、课

型:

上机实验

三、目的要求:

1.掌握利用SAS建立多元回归方程的方法;

2.能检验所建立回归方程的显著性与方程系数的显著性,能

根据实际问题作预测与控制.

四、教学重点:

会对实际数据建立有效的多元回归模型;能对回归模型进行运用,

对实际问题进行预测或控制.

教学难点:

多元回归模型的建立.

五、教学方法及手段:

传统教学与上机实验相结合.

六、参考资料:

《应用多元统计分析》,高惠璇编,北京大学出版社,2005;

《使用统计方法与SAS系统》,高惠璇编,北京大学出版社,

2001;

《多元统计分析》(二版),何晓群编,中国人民大学出版社,

2008;

《应用回归分析》(二版),何晓群编,中国人民大学出版社,

2007;

《统计建模与R软件》,薛毅编著,清华大学出版社,2007.

七、作业:

2.3(单)2.4

八、授课记录:

授课日期

班次

九、授课效果分析:

实验四回归分析SAS过程

(1)2学时

、实验目的和要求

掌握利用SAS建立多元回归方程的方法,掌握PROCREG过程,并能检验所建立回归方程的显著性与方程系数的显著性,能根据实际问题作预测与控制.

二、实验内容

1.PROCREG过程

般格式:

PROCREG;

MODEL因变量=回归变量/<选项部分>

其它选择语句

OUTPUTOUT=SAS数据集名关键字名=输出数据集中的变量名;

RUN;

SAS系

(1)PROCREG语句此语句是PROCREG过程的必需语句,指出要进行分析的数据集.省略此项,统对最新建立的数据集进行分析.

(2)MODEL语句中的选项部分该语句定义建模用的因变量、回归变量(自变量)、模型的选择及拟合结果输出的选择.在关键词“Model”之后,应指明因变量,等号后依次列出回归变量,每个变量间用空格分开.此语句的选项部分提供了最优模型的选择方法和其他拟合结果的输出选项,其中包括:

1)选择合适的建立模型方法:

SELECTION=name

其中“name”可以是FORWARD(或F)、BACKWARD(或B)、STEPWISE、RSQUARE、ADJRSQ、CP等之一.

SELECTION=FORWARDSLENTRY=显著性水平向前选择最优模型法(FORWARD):

从仅含常数项的回归模型开始,逐个加入自变量,对每一个尚不在方程内的自变量按一定显著性水平,根据其一旦进入模型后对模型的贡献大小逐步引入方程,直至再没有对模型有显著贡献的自变量.“SLENTRY=显著性水平”为自变量进入模型的控制水平,写在选择方法语句之后.若省去此句,则SAS系统默认的水平为SLENTRY=0.05.

SELECTION=BACKWARDSLSTAY=显著性水平

向后删除法(BACKWARD):

先建立包含全部自变量的线性回归模型,然后按一定的显著性水平从模型中逐步剔除变量.缺省SLSTAY=0.1

SELECTION=STEPWISESLENTRY=入选水平SLSTAY=易9除水平逐步回归法(STEPWISE):

按向前选择法(前进法)进入变量,再对模型内所有

变量检验,看是否有因新变量引入而对模型的贡献变得不显著,若有就剔除,若无则保留,直至方程内所有变量均显著.逐步法有两个控制水平,即选入水平(SLENTRY=入选水平)

和剔除水平(SLSTAY=剔除水平),而且剔除水平应低于选入水平.

缺省SLENTRY=0.15SLSTAY=0.15

SELECTION=RSQUARE

在所有可能的回归方程中用Rp准则选择最优模型的方法.在每一个给定的自变量

2

个数的水平上,打印出使Rp达到最大的那个回归模型的拟合结果.

SELECTION=ADJRSQ:

修订的R:

准则选择最优模型法.

SELECTION=CP:

Cp准则选择最优模型法.

注意:

以上方法只可在选项部分写出其中一种,不可并用.

2)对模型选取细节的选项

DETAILS:

对模型选取方法FORWARD、BACKWARD、STEPWISE,若打印

F值、模

出每一步引入和删除自变量及相关信息选用此项.如一个自变量选入模型时的偏型的R2值和一个自变量被剔除时模型R2值及有关参数估计的信息.

NOINT:

取消回归模型的常数项,即拟合过原点的回归方程.

3)对估计细节内容的选择:

在选项部分,还可以选择一个或多个(中间用空格分开)参数估计和拟合残差等相关内容,常用的有:

CORRB:

输出参数估计的相关系数矩阵,第i行第j列为与时相关系数估计.

COVB:

输出估计参数的协方差矩阵,即MSE(XTX)-1.

P:

输出因变量拟合值、观测值、拟合残差.若已选CLI、CLM、R,无需该选项.

R:

输出有关残差及用于影响性分析的各量,包括拟合值的标准差、残差、学生化

I:

输出矩阵(XTX)d.输出形式为「(X

残差(残差除以标准差)及Cook距离(度量了当删除某观测值后,参数估计的总变化量)

SSE」

Model语句的“选项部分”.对以上估计细节内容只是最终选择

ADJRSQ和CP方

tx厂

注意:

以上选择内容可以和最优模型选择方法并用于

BACKWARD、FORWARD、STEPWISE的模型选择方法,模型的相应结果;对RSQUARE准则,只给出全模型的相应结果;对于

法,给出具有最大R;和Cp值的模型的相应结果.

(3)OUTPUT语句一一建立SAS的输出结果数据集此语句建立一个与估计内容有关的SAS数据集.语句格式为:

OUTPUTOUT=SAS数据集名关键字名=输出数据集中的变量名;

关键字名为需要的统计量名,它们有

PREDICTED(或P)=name:

因变量拟合值,指定名称为name;

RESIDUAL(或R)=name:

残差及指定的名称;

STUDENT=name:

标准化(或学生化)残差;

L95M=name:

因变量期望值的95%的置信区间的置信下限;

U95M=name:

因变量期望值的95%的置信上限;

L95=name:

因变量值的95%置信区间的置信下限;

U95=name:

因变量值的95%的置信区间的置信上限;

COOKD(COOK氏D值)=name:

Cooki距离,用于影响性分析的统计量;

H=name:

杠杆量,即Xi(XTX)」xT,i=1,2,…,n,Xi是设计矩阵X的第i行;

PRESS=name:

di(p)值,用以估计第i组观测值对拟合值的影响;

DFFITS=name:

用以估计第i组观测值对参数估计的影响;

STDP=name:

期望值的标准误差

STDR=name:

残差的标准误差;

name飞等号前的变量指定一名称

STDI=name:

预测值的标准误差;

PROCREG过程总是自动输出相应模型

t统计量值及相应的P值•方差分析表、检

其中等号前的部分为输出语句的关键词,后面的

以上介绍了一些常用的选项•无论选项如何,

的参数估计值及其标准差,检验参数是否为零的

验回归关系显著性的F统计量和P值,复相关系数及其平方值等.

2.示例

例1(书上例2.3)某科学基金会的管理人员欲了解从事研究工作的中、高水平的数学

家的年工资额丫与他们研究成果(论文、著作等)的质量指标X1、从事研究工作时间X2、能获得资助的指标X3•为此按一定设计方案调查了24位此类型的数学家,得数据如书上表

2.3所示.

(1)假设误差服从N(0,b2)分布,建立丫与X1,X2,X3之间的线性回归方程并研究相应的统计推断问题;

(2)假设某位数学家的关于Xi,X2,X3的值为(Xoi,Xo2,Xo3)=(5.1,20,7.2),试预测他

解:

(1)建立回归模型进行统计推断

设丫与X1,X2,X3回归模型丫=*+P1X1+P2X2+P3X3+S

其中

1)

观测值满足yi=p0+p1Xi1+p2Xi2+p3Xi3+Ei,i=1,2,…,24

(i=1,2"-,24)相互独立,且Si~N(0,cr2).

£~N(0,/1)

SA繇统回归分析的procreg过程进行统计推断

程序:

dataexamp2_3;

inputyx1-x3;

cards

33.23.596.1

40.35.3206.4

38.75.1187.4

46.85.8336.7

41.44.2317.5

37.56.0135.939.06.8256.0

40.75.5304.0

30.13.155.8

52.97.2478.3

38.24.5255.0

31.84.9116.4

43.38.0237.6

44.16.5357.0

42.86.6395.0

33.63.7214.4

34.26.275.548.07.0407.038.04.0356.0

35.94.5233.5

40.45.9334.9

36.85.6274.3

45.24.8348.035.13.9155.0run;

modely=x1-x3/i;

run;

/*

模型因变量

y,自变量x1、x2、

x3,输岀Hessian矩阵*/

2)

由方差分析表进行统计推断

AnalysisofVarianee

方差分析表

 

Source

FValuePr>F

SumofMean

DFSquaresSquare

方差来源

自由度

平方和(SS)

Model

Error

均方(MS

p-1=3SSR=627.81700MSR=SSR/3=209.27233F

n-p=24-4=20SSE=61.44300MSE=SSE/20=3.07215

0=MSR/MSE检验p值p0

0=68.12<0001

 

CorrectedTotal23SST=689.26000

RootMSE

AdjR-Sq0.8975

1.75276R-Square0.9109DependentMean39.50000

CoeffVar4.43735

从方差分析表得出c/2=MSE=3.0722;

线性回归关系显著性检验:

H。

p1

邛2=P3=0

msrh0真

统计量F〜f(3,20),其观测值F0=68.119

MSE

p=PH0(F>F0)=0.0001,拒绝H0,认为Y与Xi,X2,X3的线性回归关系是高度显著的.

另外,由方差分析表给出宀磐二签勿9109,也表明线性回归关系高度显著・

3)

回归参数的统计推断的SAS输出结果

ParameterEstimates

参数估计表

Variable

DF

Estimate

Error

tValue

Pr>|t|

参数

参数估计值U

标准差估计值s(S

Intercept

1

17.84693

2.00188

8.92

<.0001

x1

1

1.10313

0.32957

3.35

0.0032

x2

1

0.32152

0.03711

8.66

<.0001

x3

1

1.28894

0.29848

4.32

0.0003

由程序结果给出参数估计值ft,

检验假设H0k:

Pk

)t值t0kP=PH0(|tk|mt0k|)

ParameterStandard

=0,k=1,2,3

仔k-PkHTtk——:

AJ——bJCkk

—0)bJCkk

对给出显著性水平a=0.05,由参数估计表最后一列检验P0k值看出,

P0k=PH0k(|tk罔tk0|)<0.05,拒绝H0k,认为Xk(k=1,2,3)对Y均有显著影响.

4)回归参数的区间估计

进一步,取置信水平a=0.05,由于ta(n-p)=t0.975(20)=2.086,利用表中的参数

估计值和相应的标准差估计式Kk±t0.975(20)s(£,),求得的置信度95%的置信

区间分别为

Po:

^±to.975(2O)s(化)=17.8469±2.086X2.0019=(13.6709,22.0229)

Pi:

1.1031±2.086X0.3296=(0.4156,1.7906)

p2:

0.3215±2.086x0.0371=(0.2441,0.3989)

p3:

1.2889±2.086X0.2985=(0.6662,1.9116)

(2)关于丫的预测

TheREGProcedure

Model:

MODEL1

DependentVariable:

y

参数估计SSE

X'XInverse,ParameterEstimates,andSSE

(XTX)」

VariableIntercept

x1

x2

x3

回归参数值

Intercept1.3044630488-0.1018735280.0004420084-0.121579266

x1

17.846930636

x2

x3

-0.101873528

0.0004420084

-0.121579266

17.846930636

由上表1-4行,

0.035355881

-0.001674335

-0.007647007

1.1031303951

-0.001674335

-0.007647007

1.1031303951

0.0004482371

-0.000443861

0.3215196814

-0.000443861

0.3215196814

2-5列构成的矩阵为

「1.30446

-0.10187

.028*******

1.2889408958

1.2889408958

0.00044

-0.12158]

SSE=61.443003635

-0.10187

0.03536

-0.00167

-0.00765

0.00044

-0.00167

0.00045

-0.00044

L-0.12158

-0.00765

-0.00044

0.02900

SSE=61.4430,鸽(XX)-XTY=(17.8469,1.1031,0.3215,1.2889)T,代入得

经验回归方程

Y=17.8469+1.1031X1+0.3215X2+1.2889X3

对于给定X1,X2,X3的值(X01,X02,X03)=(5.1,20,7.2),由经验回归方程可得y。

预测值

A

y0=17.8469+1.1031x5.1+0.3215x20+1.2889x7.2=39.1828

令X0=(1,X01,X02,X03)T=(1,5.1,20,7.2)t,由MSE=3.0722直接计算可得

yo的置信度为95%勺置信区间

y,±t0.975(20)jMSE[1+XT(XTX)二X0]=39.1828±2.086X1.8412=(35.3420,43.0236)此置信区间的长度较小,因而对实际有较好的参考价值.

求因变量均值和因变量均值的置信区间:

OUTPUTOUT=bL95M=u1U95M=u2L95=v1U95=v2;

Procprintdata=b;

run;

结果:

TheSASSystem08:

32Wednesday,September22,20123

y置信下限置信上限y置信下限上限

yi±t0.975(20)jMSE[1+x:

(XTX尸Xi]

Obs

y

x1

x2

x3

u1

u2v1

v2

1

33.2

3.5

9

6.1

30.8968

34.0314

28.4861

36.4421

2

40.3

5.3

20

6.4

37.4854

39.2609

34.6107

42.1356

3

38.7

5.1

18

7.4

37.4707

40.1261

34.9086

42.6882

4

46.8

5.8

33

6.7

42.5205

44.4618

39.7083

47.2740

5

41.4

4.2

31

7.5

40.4232

43.8053

38.0859

46.1426

6

37.5

6.0

13

5.9

34.8524

37.6481

32.3359

40.1645

7

39.0

6.8

25

6.0

39.8817

42.3580

37.2597

44.9800

8

40.7

5.5

30

4.0

37.1681

40.2629

34.7453

42.6857

9

30.1

3.1

5

5.8

28.5559

32.1443

26.2774

34.4228

10

52.9

7.2

47

8.3

49.6366

53.5616

47.4495

55.7487

11

38.2

4.5

25

5.0

36.2392

38.3482

33.4885

41.0989

12

31.8

4.9

11

6.4

33.7304

36.3460

31.1552

38.9212

13

43.3

8.0

23

7.6

41.7930

45.9327

39.6615

48.0643

14

44.1

6.5

35

7.0

44.1509

46.4352

41.4626

49.1235

15

42.8

6.6

39

5.0

42.5368

45.6863

40.1307

48.0925

16

33.6

3.7

21

4.4

32.9302

35.7734

30.4289

38.2746

17

34.2

6.2

7

5.5

32.1359

35.9164

29.9103

38.1420

18

48.0

7.0

40

7.0

46.0530

48.8515

43.5374

51.3670

19

38.0

4.0

35

6.0

39.6197

42.8729

37.2446

45.2480

35.9

4.5

23

3.5

33.0568

36.3778

30.7017

38.7328

21

40.4

5.9

33

4.9

40.0280

42.5347

37.4163

45.1464

22

36.8

5.6

27

4.3

36.9005

39.5954

34.3514

42.1445

23

45.2

4.8

34

8.0

42.6520

46.1184

40.3390

48.4313

24

35.1

3.9

15

5.0

32.2029

34.6304

29.5643

37.2690

说明:

10程序窗口直接调入

Txt数据文件做回归分析

Example2_3数据存在桌面ex2-3.txt文件里,无变量名,调用Txt文件做回归分析,

程序:

DATAexamp2_3;

INFILE'C:

\Users\Administrator\Desktop\ex2-3.txt';

INPUTYX1X2X3;

PROCPRINT;I

调用回归分析的reg过程*/

RUN;I

模型因变量y,自变量x1、x2、x3,输出Hessian矩阵*/

procregdata=examp23;/*

modelY=X1-X3/i;/*

run;

输出结果同上。

2°菜单操作调入Excel文件,进行回归分析

1)建立SAS数据集

File—ImportData—选Excel97,找examp2_3.xls文件点OK—Option选项选第一行为变

量名,点next—在逻辑库文件选Work(临时库,也可事先建立一个永久数据库),取个文件

名a点击finish,则在Work库里就出现a文件(如想将结果保存,可点Next,选择存放地

址,建立一个SAS文件,如a.sas)。

2)导入SAS数据集

点击solutists—Analysis—Analyst—File下打开Openbysasdata---在SelectLibertywork

找到a文件,双击;

3)统计分析

Statises-regress—linear—导入到dependent,X1,X2,X3导入到explanatory解释变量(全

部自变量拟合),点OK得步骤

(1)结果;

4)进一步的选择

一些选项:

model选项下多种选则,可选,默认fullmoden(完整的),Forward(向后),Backward(向前选取变量),stepwise(逐步回归),R-square(r2准则)女0,AdiustedR-square(修正R2

准则)等默认,全模型。

Predictions预测:

Predictoriginalsample(原始数据预测),Listpredictions(列出预测),Addresiduals(残差预

测),Addresidualslimits(残差预测区间)。

Predictions11:

45Thursday,September23,20131

LowerUpper

PredictedpredictionpredictionResidual

的预测值Y的置信区间下限置信上线Y的残差

ObsYX1X2X3YlimitofYlimitofYofY

1

33.2

3.5

9

6.1

32.4641

30.8968

34.0314

0.73590

2

40.3

5.3

20

6.4

38.3731

37.4854

39.2609

1.92686

3

38.7

5.1

18

7.4

38.7984

37.4707

40.1261

-0.09841

4

46.8

5.8

33

6.7

43.4911

42.5205

44.4618

3.3

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 能源化工

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1