应用回归分析习题答案SAS程序.docx
《应用回归分析习题答案SAS程序.docx》由会员分享,可在线阅读,更多相关《应用回归分析习题答案SAS程序.docx(48页珍藏版)》请在冰豆网上搜索。
应用回归分析习题答案SAS程序
2.16
(1)绘制y对x的散点图,可以用直线回归描述两者之间的关系吗?
程序如下:
结果:
表一:
由表一,可得可以用直线回归描述两者的关系。
(2)建立y对x的线性回归,prcliclm
结果
表二:
由表二可得,F=112.81,P<0.0001,可知,模型的拟合数据较好。
表三:
又R方=0.6972,故知因变量y总体变异中69.72%被自变量x所解释。
表四:
由表四P<0.0001可知自变量x有显著性意义,常数项也有显著性意义。
表五:
由表五即y的描述性统计量,因为所有的学生残差的绝对值小于3,所有cookD小于5,故可以认为数据中没有极端点。
故可得结论,教师的人均年工资合学生的人均经费投入呈直线关系。
由表四,模型为:
Y=12113+3.314x
3.11
(1)程序:
datahuoyun;
inputyx1-x3@@;
cards;
16070351.0
26075402.4
21065402.0
26574423.0
24072381.2
22068451.5
27578424.0
16066362.0
27570443.2
25065423.0
;
run;
procprint;
run;
proccorrdata=huoyunnosimplenoprob;
run;
Pearson 相关系数, N = 10
y
x1
x2
x3
y
1.00000
0.55565
0.73062
0.72354
x1
0.55565
1.00000
0.11295
0.39839
x2
0.73062
0.11295
1.00000
0.54747
x3
0.72354
0.39839
0.54747
1.00000
(2)
procregdata=huoyun;
modely=x1x2x3/rpclmcli;
run;
参数估计值
变量
自由度
参数
估计值
标准
误差
t 值
Pr > |t|
Intercept
1
-348.28017
176.45922
-1.97
0.0959
x1
1
3.75404
1.93332
1.94
0.1002
x2
1
7.10071
2.88028
2.47
0.0488
x3
1
12.44747
10.56933
1.18
0.2835
回归方程为:
(3)
均方根误差
23.44188
R方
0.8055
因变量均值
231.50000
调整R方
0.7083
变异系数
10.12608
样本决定系数R方为0.8055则回归方程显著;
(4)
方差分析
源
自由度
平方
和
均方
F值
Pr > F
模型
3
13655
4551.78984
8.28
0.0149
误差
6
3297.13048
549.52175
校正合计
9
16953
F=8.28,P=0.0149模型有显著性意义;
(5)
参数估计值
变量
自由度
参数
估计值
标准
误差
t 值
Pr > |t|
Intercept
1
-348.28017
176.45922
-1.97
0.0959
x1
1
3.75404
1.93332
1.94
0.1002
x2
1
7.10071
2.88028
2.47
0.0488
x3
1
12.44747
10.56933
1.18
0.2835
工业总产值的P值为0.1002在显著性水平0.05上对y货运总量不显著;
农业总产值的P值为0.0488在显著性水平0.05上对y货运总量显著;
居民非商品支出P值为0.2835在显著性水平0.05上对y货运总量不显著;
(6)
剔除
重新建立回归方程
procregdata=huoyun;
modely=x1x2/clb;
run;
方差分析
源
自由度
平方
和
均方
F值
Pr > F
模型
2
12893
6446.59950
11.12
0.0067
误差
7
4059.30099
579.90014
校正合计
9
16953
F值为11.12,P值为0.0067模型高度显著;
参数估计值
变量
自由度
参数
估计值
标准
误差
t 值
Pr > |t|
Intercept
1
-459.62365
153.05757
-3.00
0.0199
x1
1
4.67563
1.81607
2.57
0.0368
x2
1
8.97096
2.46846
3.63
0.0084
工业总产值的P值为0.0368在显著性水平0.05上对y货运总量显著;
农业总产值的P值为0.0084在显著性水平0.05上对y货运总量显著;
(7)
参数估计值
变量
自由度
参数
估计值
标准
误差
t 值
Pr > |t|
95%置信限
Intercept
1
-459.62365
153.05757
-3.00
0.0199
-821.54730
-97.70001
x1
1
4.67563
1.81607
2.57
0.0368
0.38130
8.96996
x2
1
8.97096
2.46846
3.63
0.0084
3.13398
14.80794
的回归系数置信区间为(0.38130,8.9996)
的回归系数置信区间为(3.13398,14.80794)
4.9
(1)用普通最小二乘法建立y与x的回归方程,并画出残差散点图。
程序:
datayd;
inputxy@@;
cards;
6790.792920.4410120.564930.795822.7
11563.649974.7321899.510975.3420786.85
18185.8417005.217473.2520304.4316433.16
4140.53540.1712761.887450.774351.395400.56
8741.5615435.2810290.64710414340.318374.2
17484.8813813.4814287.5812552.6317774.99
3700.5923168.1911304.794630.517701.74724
4.18083.947900.967833.294060.4412423.24
6582.1417465.714680.6411141.904130.51
17878.33356014.9414955.1122213.8515263.93
;
procplotdata=yd;
ploty*x='*';
run;
结果
由散点图可知:
Y和X有线性关系,故可建立回归方程。
程序
procregdata=yd;
modely=x/r;
outputout=out1r=residual;
run;
procgplotdata=out1;
plotresidual*x;
run;
结果:
由方差分析可得:
P<0.005,所以该回归方程显著.R方=0.7046,调整R方为0.6988,可知回归方程的拟合度较高.
由参数估计:
常数项的检验P>0.0655大于0.05,故常数项不显著.需要除去常数项重新拟合方程。
程序
procregdata=yd;
modely=x/noint;
run;
结果:
由方差分析得:
P<0.05,所以该回归方程显著,而且F值较有常数项时更大,所以无常数项时拟合方程更好;R方=0.8704,调整R方为0.8679,回归方程的拟合度有较大幅度提高;
由参数估计:
参数P值均<0.05,参数显著有效;
所以拟合方程为:
y=0.00314x
残差散点图如下:
(2)判断该问题是否存在异方差。
由残差散点图可以得:
误差随X的增加而波动幅度增加,呈大喇叭的形状,因此认为方差项存在异方差.
故利用等级相关系数法判断:
procregdata=yd;
modely=x/rnoint;
outputout=out1r=residual;
run;
dataout2;
setout1;
z=abs(residual);
run;
proccorrdata=out2spearman;
varxz;
run;
结果:
残差绝对值与xi的等级相关系数rs=0.21271,对应的P值=0.126,认为残差绝对值与自变量xi显著相关,存在异方差.
(2)若存在异方差,用幂指数型的权函数建立加权最小二乘回归方程。
由
(2)结论存在异方差,则程序:
dataa;
setyd;
arrayrow{10}w1-w10;
arrayp{10}(-2,-1.5,-1,-0.5,0,0.5,1,1.5,2,2.5);
doi=1to10;
row{i}=1/x**p{i};
end;
run;
procprint;
run;
procregdata=a;
modely=x/r;
weightw1;
outputout=out1r=residual;
run;
procgplotdata=out1;
plotresidual*x;
run;
结果;
由方差分析:
p<0.05,回归方程显著有效;R方=0.8175,调整R方为0.8139,回归方程拟合度较高;由参数估计:
参数检验的P值均小于0.05,参数显著有效;
所以回归方程:
y=-2.40038+0.0046x
残差散点图:
由残差图可以知:
误差仍随着x的增加而波动增加,所有认为误差仍存在异方差.
(4)用方差稳定变换
消除异方差。
prprocregdata=yd;
modely=x/r;
outputout=out1r=residual;
run;
procgplotdata=out1;
plotresidual*x;
run;
dataa1;
setyd;
y=sqrt(y);
run;
procprint;
run;
procregdata=a1;
modely=x/r;
outputout=out1r=residual;
run;
procgplotdata=out1;
plotresidual*x;
run;
结果:
由方差分析:
回归方程通过了检验,调整R方0.6416,回归方程的系数也都通过了检验,因此经过变换的回归方程为:
y=0.58223+0.00095286x
残差图如下:
4.13
(1)用普通最小二乘法建立回归方程
首先建立数据集,并画出散点图
dataa;
inputidxy@@;
cards;
1127.320.96
213021.4
3132.721.96
4129.421.52
513522.39
6137.122.76
7141.123.48
8142.823.66
9145.524.1
10145.324.01
11148.324.54
12146.424.28
13150.225
14153.125.64
15157.326.46
16160.726.98
17164.227.52
18165.627.78
19168.728.24
2017228.78
;
run;
procprint;
run;
procgplotdata=a;
ploty*x;
run;
然后建立回归方程
procregdata=a;
modely=x/clbprspecdw;
outputout=outr=residual;
run;
结果如下:
方差分析
源
自由度
平方
和
均方
F值
Pr > F
模型
1
110.59832
110.59832
11648.6
<.0001
误差
18
0.17090
0.00949
校正合计
19
110.76922
均方根误差
0.09744
R方
0.9985
因变量均值
24.57300
调整R方
0.9984
变异系数
0.39653
参数估计值
变量
自由度
参数
估计值
标准
误差
t 值
Pr > |t|
95%置信限
Intercept
1
-1.43483
0.24196
-5.93
<.0001
-1.94316
-0.92650
x
1
0.17616
0.00163
107.93
<.0001
0.17273
0.17959
结果分析:
(1)由方差分析可知:
P值小于0.05,所以该回归方程显著有效.
(2)R方=0.9985,调整R方=0.9984,可见该回归方程拟合度较高.
(3)由参数估计可得各参数检验的P值均小于0.05,参数显著有效.
(4)拟合的回归方程为:
(2)用残差图及DW检验诊断序列的自相关
残差图:
残差图呈现锯齿形,所以残差存在自相关。
第一和第二矩指定的检验
自由度
卡方
Pr > 卡方
2
1.84
0.3978
Durbin-WatsonD
0.663
观测数
20
第一阶自相关
0.644
查DW分布表可得临界值
和
分别为1.20和1.41,由于DW值=0.663小于
故模型存在序列正自相关性.
(3)用迭代法处理序列相关,并建立回归方程
dataaa;
setout;
ro=1-0.5*0.663;
y_t_1=y-ro*lag1(y);
x_t_1=xro*lag1(x);
run;
procprintdata=aa;;
run;
procregdata=aa;
modely_t_1=x_t_1/clbprspecDW;
run;
结果如下:
方差分析
源
自由度
平方
和
均方
F值
Pr > F
模型
1
13.13330
13.13330
2467.41
<.0001
误差
17
0.09049
0.00532
校正合计
18
13.22379
均方根误差
0.07296
R方
0.9932
因变量均值
8.48413
调整R方
0.9928
变异系数
0.85992
参数估计值
变量
自由度
参数
估计值
标准
误差
t 值
Pr > |t|
95%置信限
Intercept
1
-0.30006
0.17763
-1.69
0.1094
-0.67483
0.07471
x_t_1
1
0.17268
0.00348
49.67
<.0001
0.16535
0.18002
结果分析:
迭代法所得的回归模型通过了显著性检验,调整R方=0.9928,方程拟合度较高,但常数性参数检验的p值=0.1094大于0.05,不显著,除去常数项再建立回归方程.
第一和第二矩指定的检验
自由度
卡方
Pr > 卡方
2
0.87
0.6467
Durbin-WatsonD
1.360
观测数
19
第一阶自相关
0.293
又由DW=1.306,查DW,n=19,k=2.可知
和
分别为1.18和1.40,DW=1.360在
和
之间,所以迭代法建立的回归方程的误差项无自相关.
procregdata=aa;
modely_t_1=x_t_1/nointclbprspecDW;
run;
结果如下:
方差分析
源
自由度
平方
和
均方
F值
Pr > F
模型
1
1380.74604
1380.74604
235188
<.0001
误差
18
0.10567
0.00587
未校正合计
19
1380.85172
均方根误差
0.07662
R方
0.9999
因变量均值
8.48413
调整R方
0.9999
变异系数
0.90311
参数估计值
变量
自由度
参数
估计值
标准
误差
t 值
Pr > |t|
95%置信限
x_t_1
1
0.16684
0.00034402
484.96
<.0001
0.16611
0.16756
回归方程通过了显著性检验,拟合度也有提高,参数检验也通过。
回归方程:
.
其中
=
.
(4)用一阶差分法处理数据,并建立回归方程
dataaaa;
seta;
difx=x-lag1(x);
dify=y-lag1(y);
run;
procregdata=aaa;
modeldify=difx/rpDW;
run;
结果如下:
方差分析
源
自由度
平方
和
均方
F值
Pr > F
模型
1
2.11593
2.11593
381.34
<.0001
误差
17
0.09433
0.00555
校正合计
18
2.21025
均方根误差
0.07449
R方
0.9573
因变量均值
0.41158
调整R方
0.9548
变异系数
18.09839
参数估计值
变量
自由度
参数
估计值
标准
误差
t 值
Pr > |t|
Intercept
1
0.03289
0.02585
1.27
0.2203
difx
1
0.16096
0.00824
19.53
<.0001
调整R方=0.9548,方程拟合度较高,一阶差分法处理数据后建立的回归模型通过了显著性检验,,回归方程为:
其中
,
.
Durbin-WatsonD
1.480
观测数
19
第一阶自相关
0.253
DW=1.480,查DW,n=19,k=2.可知
和
分别为1.18和1.40,DW=1.480在1.40和4-1.40之间,误差项之间无自相关.
(5)比较以上各方法所建回归方程的优良性
如果回归模型不存在序列相关,那么普通最小二乘法比迭代法和一阶差分法操作起来更简便,但是当回归模型存在序列相关性时,普通最小二乘法所建立的回归方程就不适用了,迭代法或一阶差分法更为适用。
而一阶差分法的应用条件是自相关系数P=1,当P接近1时,一阶差分法比迭代法好,当原模型存在较高程度的一阶自相关的情况时,一般使用一阶差分法而不用迭代法。
因为一阶差分法比迭代法简单而且,迭代法需要用样本估计自相关系数p,对p的估计误差会影响迭代法的使用效率,迭代法的算法时间复杂度比一阶差分的高,在效率上不如一阶差分好。
4.14
(1)用最小二乘法建立回归方程,用残差图及DW检验诊断序列的自相关性
首先建立数据集
dataa;
inputyx1x2@@;
cards;
893.935292
1091.275252
1229.975267
1045.855379
997.245318
1495.146393
1200.565331
747.244204
866.435266
6035253
343.525315
472.16271
171.794166
135.794204
925.955335
1574.015352
1405.335274
971.274333
1165.25302
597.854324
490.344327
709.595206
987.35310
954.66306
1216.896350
1491.525275
668.34173
915.035360
565.924340
1267.985380
930.246285
379.384232
500.745294
83.655220
982.946391
722.284279
1337.445322
1150.514231
1514.846368
1442.085357
767.645260
1020.035298
1067.495350
1484.126320
957.684227
1344.915261
1361.785303
1424.696263
1158.214215
827.564294
803.164288
1447.466257
;
run;
procprintdata=a;
run;
procregdata=a;
modely=x1x2/clbprspecDW;
outputout=outr=residual;
run;
procgplotdata=out;
plotresidual*y;
run;
结果分析:
方差分析
源
自由度
平方
和
均方
F值
Pr > F
模型
2
2205552
1102776
10.15
0.0002
误差
49
5326177