应用回归分析习题答案SAS程序Word文档格式.docx
《应用回归分析习题答案SAS程序Word文档格式.docx》由会员分享,可在线阅读,更多相关《应用回归分析习题答案SAS程序Word文档格式.docx(48页珍藏版)》请在冰豆网上搜索。
x1
x2
x3
1.00000
0.55565
0.73062
0.72354
0.11295
0.39839
0.54747
(2)
procregdata=huoyun;
modely=x1x2x3/rpclmcli;
参数估计值
变量
自由度
参数
估计值
标准
误差
t
值
Pr
>
|t|
Intercept
1
-348.28017
176.45922
-1.97
0.0959
3.75404
1.93332
1.94
0.1002
7.10071
2.88028
2.47
0.0488
12.44747
10.56933
1.18
0.2835
回归方程为:
(3)
均方根误差
23.44188
R方
0.8055
因变量均值
231.50000
调整R方
0.7083
变异系数
10.12608
样本决定系数R方为0.8055则回归方程显著;
(4)
方差分析
源
平方
和
均方
F值
F
模型
3
13655
4551.78984
8.28
0.0149
6
3297.13048
549.52175
校正合计
9
16953
F=8.28,P=0.0149模型有显著性意义;
(5)
工业总产值的P值为0.1002在显著性水平0.05上对y货运总量不显著;
农业总产值的P值为0.0488在显著性水平0.05上对y货运总量显著;
居民非商品支出P值为0.2835在显著性水平0.05上对y货运总量不显著;
(6)
剔除
重新建立回归方程
modely=x1x2/clb;
2
12893
6446.59950
11.12
0.0067
7
4059.30099
579.90014
F值为11.12,P值为0.0067模型高度显著;
-459.62365
153.05757
-3.00
0.0199
4.67563
1.81607
2.57
0.0368
8.97096
2.46846
3.63
0.0084
工业总产值的P值为0.0368在显著性水平0.05上对y货运总量显著;
农业总产值的P值为0.0084在显著性水平0.05上对y货运总量显著;
(7)
95%置信限
-821.54730
-97.70001
0.38130
8.96996
3.13398
14.80794
的回归系数置信区间为(0.38130,8.9996)
的回归系数置信区间为(3.13398,14.80794)
4.9
(1)用普通最小二乘法建立y与x的回归方程,并画出残差散点图。
程序:
datayd;
inputxy@@;
6790.792920.4410120.564930.795822.7
11563.649974.7321899.510975.3420786.85
18185.8417005.217473.2520304.4316433.16
4140.53540.1712761.887450.774351.395400.56
8741.5615435.2810290.64710414340.318374.2
17484.8813813.4814287.5812552.6317774.99
3700.5923168.1911304.794630.517701.74724
4.18083.947900.967833.294060.4412423.24
6582.1417465.714680.6411141.904130.51
17878.33356014.9414955.1122213.8515263.93
procplotdata=yd;
ploty*x='
*'
由散点图可知:
Y和X有线性关系,故可建立回归方程。
程序
procregdata=yd;
modely=x/r;
outputout=out1r=residual;
procgplotdata=out1;
plotresidual*x;
结果:
由方差分析可得:
P<
0.005,所以该回归方程显著.R方=0.7046,调整R方为0.6988,可知回归方程的拟合度较高.
由参数估计:
常数项的检验P>
0.0655大于0.05,故常数项不显著.需要除去常数项重新拟合方程。
procregdata=yd;
modely=x/noint;
由方差分析得:
0.05,所以该回归方程显著,而且F值较有常数项时更大,所以无常数项时拟合方程更好;
R方=0.8704,调整R方为0.8679,回归方程的拟合度有较大幅度提高;
参数P值均<
0.05,参数显著有效;
所以拟合方程为:
y=0.00314x
残差散点图如下:
(2)判断该问题是否存在异方差。
由残差散点图可以得:
误差随X的增加而波动幅度增加,呈大喇叭的形状,因此认为方差项存在异方差.
故利用等级相关系数法判断:
modely=x/rnoint;
dataout2;
setout1;
z=abs(residual);
proccorrdata=out2spearman;
varxz;
残差绝对值与xi的等级相关系数rs=0.21271,对应的P值=0.126,认为残差绝对值与自变量xi显著相关,存在异方差.
(2)若存在异方差,用幂指数型的权函数建立加权最小二乘回归方程。
由
(2)结论存在异方差,则程序:
dataa;
setyd;
arrayrow{10}w1-w10;
arrayp{10}(-2,-1.5,-1,-0.5,0,0.5,1,1.5,2,2.5);
doi=1to10;
row{i}=1/x**p{i};
end;
procprint;
procregdata=a;
weightw1;
结果;
由方差分析:
p<
0.05,回归方程显著有效;
R方=0.8175,调整R方为0.8139,回归方程拟合度较高;
由参数估计:
参数检验的P值均小于0.05,参数显著有效;
所以回归方程:
y=-2.40038+0.0046x
残差散点图:
由残差图可以知:
误差仍随着x的增加而波动增加,所有认为误差仍存在异方差.
(4)用方差稳定变换
消除异方差。
prprocregdata=yd;
dataa1;
y=sqrt(y);
procregdata=a1;
结果:
由方差分析:
回归方程通过了检验,调整R方0.6416,回归方程的系数也都通过了检验,因此经过变换的回归方程为:
y=0.58223+0.00095286x
残差图如下:
4.13
(1)用普通最小二乘法建立回归方程
首先建立数据集,并画出散点图
inputidxy@@;
1127.320.96
213021.4
3132.721.96
4129.421.52
513522.39
6137.122.76
7141.123.48
8142.823.66
9145.524.1
10145.324.01
11148.324.54
12146.424.28
13150.225
14153.125.64
15157.326.46
16160.726.98
17164.227.52
18165.627.78
19168.728.24
2017228.78
procgplotdata=a;
ploty*x;
然后建立回归方程
modely=x/clbprspecdw;
outputout=outr=residual;
结果如下:
110.59832
11648.6
<
.0001
18
0.17090
0.00949
19
110.76922
0.09744
0.9985
24.57300
0.9984
0.39653
-1.43483
0.24196
-5.93
-1.94316
-0.92650
x
0.17616
0.00163
107.93
0.17273
0.17959
结果分析:
(1)由方差分析可知:
P值小于0.05,所以该回归方程显著有效.
(2)R方=0.9985,调整R方=0.9984,可见该回归方程拟合度较高.
(3)由参数估计可得各参数检验的P值均小于0.05,参数显著有效.
(4)拟合的回归方程为:
(2)用残差图及DW检验诊断序列的自相关
残差图:
残差图呈现锯齿形,所以残差存在自相关。
第一和第二矩指定的检验
卡方
1.84
0.3978
Durbin-WatsonD
0.663
观测数
20
第一阶自相关
0.644
查DW分布表可得临界值
分别为1.20和1.41,由于DW值=0.663小于
故模型存在序列正自相关性.
(3)用迭代法处理序列相关,并建立回归方程
dataaa;
setout;
ro=1-0.5*0.663;
y_t_1=y-ro*lag1(y);
x_t_1=xro*lag1(x);
procprintdata=aa;
procregdata=aa;
modely_t_1=x_t_1/clbprspecDW;
13.13330
2467.41
17
0.09049
0.00532
13.22379
0.07296
0.9932
8.48413
0.9928
0.85992
-0.30006
0.17763
-1.69
0.1094
-0.67483
0.07471
x_t_1
0.17268
0.00348
49.67
0.16535
0.18002
迭代法所得的回归模型通过了显著性检验,调整R方=0.9928,方程拟合度较高,但常数性参数检验的p值=0.1094大于0.05,不显著,除去常数项再建立回归方程.
0.87
0.6467
1.360
0.293
又由DW=1.306,查DW,n=19,k=2.可知
分别为1.18和1.40,DW=1.360在
之间,所以迭代法建立的回归方程的误差项无自相关.
modely_t_1=x_t_1/nointclbprspecDW;
结果如下:
1380.74604
235188
0.10567
0.00587
未校正合计
1380.85172
0.07662
0.9999
0.90311
0.16684
0.00034402
484.96
0.16611
0.16756
回归方程通过了显著性检验,拟合度也有提高,参数检验也通过。
回归方程:
.
其中
=
(4)用一阶差分法处理数据,并建立回归方程
dataaaa;
seta;
difx=x-lag1(x);
dify=y-lag1(y);
procregdata=aaa;
modeldify=difx/rpDW;
2.11593
381.34
0.09433
0.00555
2.21025
0.07449
0.9573
0.41158
0.9548
18.09839
0.03289
0.02585
1.27
0.2203
difx
0.16096
0.00824
19.53
调整R方=0.9548,方程拟合度较高,一阶差分法处理数据后建立的回归模型通过了显著性检验,,回归方程为:
,
1.480
0.253
DW=1.480,查DW,n=19,k=2.可知
分别为1.18和1.40,DW=1.480在1.40和4-1.40之间,误差项之间无自相关.
(5)比较以上各方法所建回归方程的优良性
如果回归模型不存在序列相关,那么普通最小二乘法比迭代法和一阶差分法操作起来更简便,但是当回归模型存在序列相关性时,普通最小二乘法所建立的回归方程就不适用了,迭代法或一阶差分法更为适用。
而一阶差分法的应用条件是自相关系数P=1,当P接近1时,一阶差分法比迭代法好,当原模型存在较高程度的一阶自相关的情况时,一般使用一阶差分法而不用迭代法。
因为一阶差分法比迭代法简单而且,迭代法需要用样本估计自相关系数p,对p的估计误差会影响迭代法的使用效率,迭代法的算法时间复杂度比一阶差分的高,在效率上不如一阶差分好。
4.14
(1)用最小二乘法建立回归方程,用残差图及DW检验诊断序列的自相关性
首先建立数据集
inputyx1x2@@;
893.935292
1091.275252
1229.975267
1045.855379
997.245318
1495.146393
1200.565331
747.244204
866.435266
6035253
343.525315
472.16271
171.794166
135.794204
925.955335
1574.015352
1405.335274
971.274333
1165.25302
597.854324
490.344327
709.595206
987.35310
954.66306
1216.896350
1491.525275
668.34173
915.035360
565.924340
1267.985380
930.246285
379.384232
500.745294
83.655220
982.946391
722.284279
1337.445322
1150.514231
1514.846368
1442.085357
767.645260
1020.035298
1067.495350
1484.126320
957.684227
1344.915261
1361.785303
1424.696263
1158.214215
827.564294
803.164288
1447.466257
procprintdata=a;
modely=x1x2/clbprspecDW;
procgplotdata=out;
plotresidual*y;
2205552
1102776
10.15
0.0002
49
5326177