应用回归分析习题答案SAS程序.docx

资源描述

应用回归分析习题答案SAS程序.docx

《应用回归分析习题答案SAS程序.docx》由会员分享，可在线阅读，更多相关《应用回归分析习题答案SAS程序.docx（48页珍藏版）》请在冰豆网上搜索。

应用回归分析习题答案SAS程序.docx

应用回归分析习题答案SAS程序

2.16

（1）绘制y对x的散点图，可以用直线回归描述两者之间的关系吗?

程序如下:

结果:

表一：

由表一，可得可以用直线回归描述两者的关系。

（2）建立y对x的线性回归，prcliclm

结果

表二:

由表二可得，F=112.81，P<0.0001，可知，模型的拟合数据较好。

表三：

又R方=0.6972，故知因变量y总体变异中69.72%被自变量x所解释。

表四：

由表四P<0.0001可知自变量x有显著性意义，常数项也有显著性意义。

表五：

由表五即y的描述性统计量，因为所有的学生残差的绝对值小于3，所有cookD小于5，故可以认为数据中没有极端点。

故可得结论，教师的人均年工资合学生的人均经费投入呈直线关系。

由表四，模型为:

Y=12113+3.314x

3.11

（1）程序：

datahuoyun;

inputyx1-x3@@;

cards;

16070351.0

26075402.4

21065402.0

26574423.0

24072381.2

22068451.5

27578424.0

16066362.0

27570443.2

25065423.0

;

run;

procprint;

run;

proccorrdata=huoyunnosimplenoprob;

run;

Pearson 相关系数, N = 10

1.00000

0.55565

0.73062

0.72354

0.55565

1.00000

0.11295

0.39839

0.73062

0.11295

1.00000

0.54747

0.72354

0.39839

0.54747

1.00000

（2）

procregdata=huoyun;

modely=x1x2x3/rpclmcli;

run;

参数估计值

变量

自由度

参数

估计值

标准

误差

t 值

Pr > |t|

Intercept

-348.28017

176.45922

-1.97

0.0959

3.75404

1.93332

1.94

0.1002

7.10071

2.88028

2.47

0.0488

12.44747

10.56933

1.18

0.2835

回归方程为:

（3）

均方根误差

23.44188

R方

0.8055

因变量均值

231.50000

调整R方

0.7083

变异系数

10.12608

样本决定系数R方为0.8055则回归方程显著；

（4）

方差分析

源

自由度

平方

和

均方

F值

Pr > F

模型

13655

4551.78984

8.28

0.0149

误差

3297.13048

549.52175

校正合计

16953

F=8.28,P=0.0149模型有显著性意义；

（5）

参数估计值

变量

自由度

参数

估计值

标准

误差

t 值

Pr > |t|

Intercept

-348.28017

176.45922

-1.97

0.0959

3.75404

1.93332

1.94

0.1002

7.10071

2.88028

2.47

0.0488

12.44747

10.56933

1.18

0.2835

工业总产值的P值为0.1002在显著性水平0.05上对y货运总量不显著；

农业总产值的P值为0.0488在显著性水平0.05上对y货运总量显著；

居民非商品支出P值为0.2835在显著性水平0.05上对y货运总量不显著；

（6）

剔除

重新建立回归方程

procregdata=huoyun;

modely=x1x2/clb;

run;

方差分析

源

自由度

平方

和

均方

F值

Pr > F

模型

12893

6446.59950

11.12

0.0067

误差

4059.30099

579.90014

校正合计

16953

F值为11.12，P值为0.0067模型高度显著；

参数估计值

变量

自由度

参数

估计值

标准

误差

t 值

Pr > |t|

Intercept

-459.62365

153.05757

-3.00

0.0199

4.67563

1.81607

2.57

0.0368

8.97096

2.46846

3.63

0.0084

工业总产值的P值为0.0368在显著性水平0.05上对y货运总量显著；

农业总产值的P值为0.0084在显著性水平0.05上对y货运总量显著；

（7）

参数估计值

变量

自由度

参数

估计值

标准

误差

t 值

Pr > |t|

95%置信限

Intercept

-459.62365

153.05757

-3.00

0.0199

-821.54730

-97.70001

4.67563

1.81607

2.57

0.0368

0.38130

8.96996

8.97096

2.46846

3.63

0.0084

3.13398

14.80794

的回归系数置信区间为（0.38130，8.9996）

的回归系数置信区间为（3.13398，14.80794）

4.9

（1）用普通最小二乘法建立y与x的回归方程,并画出残差散点图。

程序：

datayd;

inputxy@@;

cards;

6790.792920.4410120.564930.795822.7

11563.649974.7321899.510975.3420786.85

18185.8417005.217473.2520304.4316433.16

4140.53540.1712761.887450.774351.395400.56

8741.5615435.2810290.64710414340.318374.2

17484.8813813.4814287.5812552.6317774.99

3700.5923168.1911304.794630.517701.74724

4.18083.947900.967833.294060.4412423.24

6582.1417465.714680.6411141.904130.51

17878.33356014.9414955.1122213.8515263.93

;

procplotdata=yd;

ploty*x='*';

run;

结果

由散点图可知:

Y和X有线性关系，故可建立回归方程。

程序

procregdata=yd;

modely=x/r;

outputout=out1r=residual;

run;

procgplotdata=out1;

plotresidual*x;

run;

结果:

由方差分析可得:

P<0.005,所以该回归方程显著.R方=0.7046,调整R方为0.6988,可知回归方程的拟合度较高.

由参数估计:

常数项的检验P>0.0655大于0.05,故常数项不显著.需要除去常数项重新拟合方程。

程序

procregdata=yd;

modely=x/noint;

run;

结果:

由方差分析得:

P<0.05,所以该回归方程显著,而且F值较有常数项时更大,所以无常数项时拟合方程更好;R方=0.8704,调整R方为0.8679,回归方程的拟合度有较大幅度提高;

由参数估计:

参数P值均<0.05,参数显著有效;

所以拟合方程为:

y=0.00314x

残差散点图如下:

（2）判断该问题是否存在异方差。

由残差散点图可以得:

误差随X的增加而波动幅度增加,呈大喇叭的形状,因此认为方差项存在异方差.

故利用等级相关系数法判断:

procregdata=yd;

modely=x/rnoint;

outputout=out1r=residual;

run;

dataout2;

setout1;

z=abs（residual）;

run;

proccorrdata=out2spearman;

varxz;

run;

结果:

残差绝对值与xi的等级相关系数rs=0.21271,对应的P值=0.126,认为残差绝对值与自变量xi显著相关,存在异方差.

（2）若存在异方差，用幂指数型的权函数建立加权最小二乘回归方程。

由

（2）结论存在异方差，则程序：

dataa;

setyd;

arrayrow{10}w1-w10;

arrayp{10}（-2,-1.5,-1,-0.5,0,0.5,1,1.5,2,2.5）;

doi=1to10;

row{i}=1/x**p{i};

end;

run;

procprint;

run;

procregdata=a;

modely=x/r;

weightw1;

outputout=out1r=residual;

run;

procgplotdata=out1;

plotresidual*x;

run;

结果；

由方差分析:

p<0.05，回归方程显著有效；R方=0.8175，调整R方为0.8139，回归方程拟合度较高；由参数估计：

参数检验的P值均小于0.05，参数显著有效；

所以回归方程：

y=-2.40038+0.0046x

残差散点图：

由残差图可以知：

误差仍随着x的增加而波动增加，所有认为误差仍存在异方差.

（4）用方差稳定变换

消除异方差。

prprocregdata=yd;

modely=x/r;

outputout=out1r=residual;

run;

procgplotdata=out1;

plotresidual*x;

run;

dataa1;

setyd;

y=sqrt（y）;

run;

procprint;

run;

procregdata=a1;

modely=x/r;

outputout=out1r=residual;

run;

procgplotdata=out1;

plotresidual*x;

run;

结果：

由方差分析：

回归方程通过了检验，调整R方0.6416，回归方程的系数也都通过了检验，因此经过变换的回归方程为：

y=0.58223+0.00095286x

残差图如下：

4.13

（1）用普通最小二乘法建立回归方程

首先建立数据集,并画出散点图

dataa;

inputidxy@@;

cards;

1127.320.96

213021.4

3132.721.96

4129.421.52

513522.39

6137.122.76

7141.123.48

8142.823.66

9145.524.1

10145.324.01

11148.324.54

12146.424.28

13150.225

14153.125.64

15157.326.46

16160.726.98

17164.227.52

18165.627.78

19168.728.24

2017228.78

;

run;

procprint;

run;

procgplotdata=a;

ploty*x;

run;

然后建立回归方程

procregdata=a;

modely=x/clbprspecdw;

outputout=outr=residual;

run;

结果如下:

方差分析

源

自由度

平方

和

均方

F值

Pr > F

模型

110.59832

11648.6

<.0001

误差

0.17090

0.00949

校正合计

110.76922

均方根误差

0.09744

R方

0.9985

因变量均值

24.57300

调整R方

0.9984

变异系数

0.39653

参数估计值

变量

自由度

参数

估计值

标准

误差

t 值

Pr > |t|

95%置信限

Intercept

-1.43483

0.24196

-5.93

<.0001

-1.94316

-0.92650

0.17616

0.00163

107.93

<.0001

0.17273

0.17959

结果分析:

（1）由方差分析可知:

P值小于0.05,所以该回归方程显著有效.

（2）R方=0.9985,调整R方=0.9984,可见该回归方程拟合度较高.

（3）由参数估计可得各参数检验的P值均小于0.05,参数显著有效.

（4）拟合的回归方程为:

（2）用残差图及DW检验诊断序列的自相关

残差图：

残差图呈现锯齿形,所以残差存在自相关。

第一和第二矩指定的检验

自由度

卡方

Pr > 卡方

1.84

0.3978

Durbin-WatsonD

0.663

观测数

第一阶自相关

0.644

查DW分布表可得临界值

和

分别为1.20和1.41,由于DW值=0.663小于

故模型存在序列正自相关性.

（3）用迭代法处理序列相关,并建立回归方程

dataaa;

setout;

ro=1-0.5*0.663;

y_t_1=y-ro*lag1（y）;

x_t_1=xro*lag1（x）;

run;

procprintdata=aa;;

run;

procregdata=aa;

modely_t_1=x_t_1/clbprspecDW;

run;

结果如下:

方差分析

源

自由度

平方

和

均方

F值

Pr > F

模型

13.13330

2467.41

<.0001

误差

0.09049

0.00532

校正合计

13.22379

均方根误差

0.07296

R方

0.9932

因变量均值

8.48413

调整R方

0.9928

变异系数

0.85992

参数估计值

变量

自由度

参数

估计值

标准

误差

t 值

Pr > |t|

95%置信限

Intercept

-0.30006

0.17763

-1.69

0.1094

-0.67483

0.07471

x_t_1

0.17268

0.00348

49.67

<.0001

0.16535

0.18002

结果分析:

迭代法所得的回归模型通过了显著性检验,调整R方=0.9928,方程拟合度较高,但常数性参数检验的p值=0.1094大于0.05，不显著，除去常数项再建立回归方程.

第一和第二矩指定的检验

自由度

卡方

Pr > 卡方

0.87

0.6467

Durbin-WatsonD

1.360

观测数

第一阶自相关

0.293

又由DW=1.306，查DW，n=19,k=2.可知

和

分别为1.18和1.40，DW=1.360在

和

之间，所以迭代法建立的回归方程的误差项无自相关.

procregdata=aa;

modely_t_1=x_t_1/nointclbprspecDW;

run;

结果如下：

方差分析

源

自由度

平方

和

均方

F值

Pr > F

模型

1380.74604

235188

<.0001

误差

0.10567

0.00587

未校正合计

1380.85172

均方根误差

0.07662

R方

0.9999

因变量均值

8.48413

调整R方

0.9999

变异系数

0.90311

参数估计值

变量

自由度

参数

估计值

标准

误差

t 值

Pr > |t|

95%置信限

x_t_1

0.16684

0.00034402

484.96

<.0001

0.16611

0.16756

回归方程通过了显著性检验，拟合度也有提高，参数检验也通过。

回归方程：

其中

（4）用一阶差分法处理数据，并建立回归方程

dataaaa;

seta;

difx=x-lag1（x）;

dify=y-lag1（y）;

run;

procregdata=aaa;

modeldify=difx/rpDW;

run;

结果如下：

方差分析

源

自由度

平方

和

均方

F值

Pr > F

模型

2.11593

381.34

<.0001

误差

0.09433

0.00555

校正合计

2.21025

均方根误差

0.07449

R方

0.9573

因变量均值

0.41158

调整R方

0.9548

变异系数

18.09839

参数估计值

变量

自由度

参数

估计值

标准

误差

t 值

Pr > |t|

Intercept

0.03289

0.02585

1.27

0.2203

difx

0.16096

0.00824

19.53

<.0001

调整R方=0.9548，方程拟合度较高，一阶差分法处理数据后建立的回归模型通过了显著性检验，，回归方程为：

其中

，

Durbin-WatsonD

1.480

观测数

第一阶自相关

0.253

DW=1.480,查DW，n=19,k=2.可知

和

分别为1.18和1.40,DW=1.480在1.40和4-1.40之间，误差项之间无自相关.

（5）比较以上各方法所建回归方程的优良性

如果回归模型不存在序列相关，那么普通最小二乘法比迭代法和一阶差分法操作起来更简便，但是当回归模型存在序列相关性时，普通最小二乘法所建立的回归方程就不适用了，迭代法或一阶差分法更为适用。

而一阶差分法的应用条件是自相关系数P=1，当P接近1时，一阶差分法比迭代法好，当原模型存在较高程度的一阶自相关的情况时，一般使用一阶差分法而不用迭代法。

因为一阶差分法比迭代法简单而且，迭代法需要用样本估计自相关系数p，对p的估计误差会影响迭代法的使用效率，迭代法的算法时间复杂度比一阶差分的高，在效率上不如一阶差分好。

4.14

（1）用最小二乘法建立回归方程,用残差图及DW检验诊断序列的自相关性

首先建立数据集

dataa;

inputyx1x2@@;

cards;

893.935292

1091.275252

1229.975267

1045.855379

997.245318

1495.146393

1200.565331

747.244204

866.435266

6035253

343.525315

472.16271

171.794166

135.794204

925.955335

1574.015352

1405.335274

971.274333

1165.25302

597.854324

490.344327

709.595206

987.35310

954.66306

1216.896350

1491.525275

668.34173

915.035360

565.924340

1267.985380

930.246285

379.384232

500.745294

83.655220

982.946391

722.284279

1337.445322

1150.514231

1514.846368

1442.085357

767.645260

1020.035298

1067.495350

1484.126320

957.684227

1344.915261

1361.785303

1424.696263

1158.214215

827.564294

803.164288

1447.466257

;

run;

procprintdata=a;

run;

procregdata=a;

modely=x1x2/clbprspecDW;

outputout=outr=residual;

run;

procgplotdata=out;

plotresidual*y;

run;

结果分析:

方差分析

源

自由度

平方

和

均方

F值

Pr > F

模型

2205552

1102776

10.15

0.0002

误差

5326177

展开阅读全文