应用回归分析第四版习题76答案.docx
《应用回归分析第四版习题76答案.docx》由会员分享,可在线阅读,更多相关《应用回归分析第四版习题76答案.docx(14页珍藏版)》请在冰豆网上搜索。
应用回归分析第四版习题76答案
7.6
(1)首先计算y与其余4个变量的简单相关系数
程序:
dataa;
inputyx1-x4@@;
cards;
0.967.36.8551.9
1.1111.319.81690.9
4.8173.07.71773.7
3.280.87.21014.5
7.8199.716.51963.2
2.716.22.212.2
1.6107.410.71720.2
12.5185.427.11843.8
1.096.11.71055.9
2.672.89.11464.3
0.364.22.11142.7
4.0132.211.22376.7
0.858.66.01422.8
3.5174.612.726117.1
10.2263.515.634146.7
3.079.38.91529.9
0.214.80.6242.1
0.473.55.91125.3
1.024.75.0413.4
6.8139.47.22864.3
11.6368.216.832163.9
1.695.73.81044.5
1.2109.610.31467.9
7.2196.215.81639.7
3.2102.212.01097.1
;
run;
proccorrdata=anoprob;
labely="不良贷款"x1="各项贷款余额"x2="本年累计应收贷款"x3="贷款项目个数"x4="本年固定资产投资额";
varyx1-x4;
run;
Pearson 相关系数, N = 25
y
x1
x2
x3
x4
y
不良贷款
1.00000
0.84357
0.73151
0.70028
0.51852
x1
各项贷款余额
0.84357
1.00000
0.67877
0.84842
0.77970
x2
本年累计应收贷款
0.73151
0.67877
1.00000
0.58583
0.47243
x3
贷款项目个数
0.70028
0.84842
0.58583
1.00000
0.74665
x4
本年固定资产投资额
0.51852
0.77970
0.47243
0.74665
1.00000
由Y与四个自变量之相关系数为0.84357,0.73151,0.70028,0.51852,且都通过显著性检验,说明Y与四个变量是显著线性相关的,变量之间也存在一定的线性相关性。
(2)建立不良贷款y对4个自变量的线性回归方程,所得的回归系数是否合理?
程序:
procregdata=a;
modely=x1-x4;
run;
参数估计值
变量
自由度
参数
估计值
标准
误差
t 值
Pr > |t|
Intercept
1
-1.02164
0.78237
-1.31
0.2064
x1
1
0.04004
0.01043
3.84
0.0010
x2
1
0.14803
0.07879
1.88
0.0749
x3
1
0.01453
0.08303
0.17
0.8629
x4
1
-0.02919
0.01507
-1.94
0.0670
由结果得自变量x2,x3,x4没有通过t检验,说明回归方程不显著,由实际意义出发,x4的系数不能是负的。
所以所得的回归系数不合理
(3)分析回归模型的共线性。
程序:
procregdata=a;
modely=x1-x4/collinvif;
run;
参数估计值
变量
标签
自由度
参数
估计值
标准
误差
t 值
Pr > |t|
方差
膨胀
Intercept
Intercept
1
-1.02164
0.78237
-1.31
0.2064
0
x1
各项贷款余额
1
0.04004
0.01043
3.84
0.0010
5.33081
x2
本年累计应收贷款
1
0.14803
0.07879
1.88
0.0749
1.88986
x3
贷款项目个数
1
0.01453
0.08303
0.17
0.8629
3.83482
x4
本年固定资产投资额
1
-0.02919
0.01507
-1.94
0.0670
2.78122
共线性诊断
个数
特征值
条件
指数
偏差比例
Intercept
x1
x2
x3
x4
1
4.53829
1.00000
0.00848
0.00259
0.00659
0.00286
0.00488
2
0.20263
4.73256
0.68053
0.03353
0.01506
0.00772
0.09133
3
0.15691
5.37793
0.15815
0.00251
0.65595
0.00596
0.13230
4
0.06609
8.28687
0.00115
0.08807
0.20045
0.35650
0.71687
5
0.03608
11.21475
0.15169
0.87330
0.12196
0.62696
0.05462
由所有VIF<10,所以自变量之间不存在共线性。
由共线性诊断,第5行中x1,x3系数分别是0.87330、0.62696说明这两个变量之间有共线性。
(4)后退法和逐步回归法选择变量。
程序:
procregdata=a;
modely=x1-x4/selection=backwardvifcollin;
modely=x1-x4/selection=stepwisevifcollin;
run;
后退法:
参数估计值
变量
标签
自由度
参数
估计值
标准
误差
t 值
Pr > |t|
方差
膨胀
Intercept
Intercept
1
-0.97160
0.71124
-1.37
0.1864
0
x1
各项贷款余额
1
0.04104
0.00853
4.81
<.0001
3.73105
x2
本年累计应收贷款
1
0.14886
0.07682
1.94
0.0662
1.88311
x4
本年固定资产投资额
1
-0.02850
0.01421
-2.01
0.0579
2.59014
共线性诊断
个数
特征值
条件
指数
偏差比例
Intercept
x1
x2
x4
1
3.59663
1.00000
0.01577
0.00584
0.01067
0.00833
2
0.19800
4.26201
0.79074
0.06064
0.00164
0.11561
3
0.15469
4.82185
0.14958
0.00056777
0.62798
0.20874
4
0.05067
8.42475
0.04392
0.93295
0.35971
0.66732
由后退法所得回归方程为:
Y=-0.97160+0.04104x1+0.14886x2-0.02850x4,方差扩大因子VIF均<10,不存在多重共线性,但x4得系数为负数不合理。
逐步回归法:
参数估计值
变量
标签
自由度
参数
估计值
标准
误差
t 值
Pr > |t|
方差
膨胀
Intercept
Intercept
1
-0.97160
0.71124
-1.37
0.1864
0
x1
各项贷款余额
1
0.04104
0.00853
4.81
<.0001
3.73105
x2
本年累计应收贷款
1
0.14886
0.07682
1.94
0.0662
1.88311
x4
本年固定资产投资额
1
-0.02850
0.01421
-2.01
0.0579
2.59014
共线性诊断
个数
特征值
条件
指数
偏差比例
Intercept
x1
x2
x4
1
3.59663
1.00000
0.01577
0.00584
0.01067
0.00833
2
0.19800
4.26201
0.79074
0.06064
0.00164
0.11561
3
0.15469
4.82185
0.14958
0.00056777
0.62798
0.20874
4
0.05067
8.42475
0.04392
0.93295
0.35971
0.66732
逐步回归法所得回归方程:
Y=-0.97160+0.04104x1+0.14886x2-0.02850x4,方差扩大因子VIF<10,所以不存在多重共线性问题。
而x4系数为负数不合理,故仍存在共线性
(4)建立岭回归
程序:
procregdata=agraphicsoutest=outoutvif;
modely=x1-x4/ridge=0to1by0.1;
plot/ridgeplot;
Run;
procprintdata=out;
run;
由岭迹图,当K>=0.4,岭迹曲线趋于稳定,说明K=0.4即可以满足岭回归参数估计的均方误差较小的要求,对应的岭回归估计的回归方程:
Y=-0.78981+0.01712x1+0.15734x2+0.07014x3-0.00214x4
X4的系数仍为负值,不合理。
Obs
_MODEL_
_TYPE_
_DEPVAR_
_RIDGE_
_PCOMIT_
_RMSE_
Intercept
x1
x2
x3
x4
y
1
MODEL1
PARMS
y
.
.
1.77875
-1.02164
0.04004
0.14803
0.01453
-0.02919
-1
2
MODEL1
RIDGEVIF
y
0.0
.
.
.
5.33081
1.88986
3.83482
2.78122
-1
3
MODEL1
RIDGE
y
0.0
.
1.77875
-1.02164
0.04004
0.14803
0.01453
-0.02919
-1
4
MODEL1
RIDGEVIF
y
0.1
.
.
.
1.80865
1.19844
1.65164
1.46562
-1
5
MODEL1
RIDGE
y
0.1
.
1.85428
-1.08706
0.02740
0.16859
0.05344
-0.01564
-1
6
MODEL1
RIDGEVIF
y
0.2
.
.
.
0.93111
0.86788
0.95937
0.94043
-1
7
MODEL1
RIDGE
y
0.2
.
1.93863
-1.01264
0.02210
0.16843
0.06457
-0.00892
-1
8
MODEL1
RIDGEVIF
y
0.3
.
.
.
0.58253
0.66793
0.64226
0.66858
-1
9
MODEL1
RIDGE
y
0.3
.
2.00683
-0.90540
0.01910
0.16347
0.06867
-0.00485
-1
10
MODEL1
RIDGEVIF
y
0.4
.
.
.
0.40810
0.53419
0.46812
0.50677
-1
11
MODEL1
RIDGE
y
0.4
.
2.06377
-0.78981
0.01712
0.15734
0.07014
-0.00214
-1
12
MODEL1
RIDGEVIF
y
0.5
.
.
.
0.30765
0.43920
0.36116
0.40141
-1
13
MODEL1
RIDGE
y
0.5
.
2.11323
-0.67386
0.01569
0.15111
0.07039
-0.00022
-1
14
MODEL1
RIDGEVIF
y
0.6
.
.
.
0.24400
0.36885
0.29019
0.32835
-1
15
MODEL1
RIDGE
y
0.6
.
2.15754
-0.56060
0.01459
0.14515
0.07002
0.00118
-1
16
MODEL1
RIDGEVIF
y
0.7
.
.
.
0.20079
0.31505
0.24035
0.27526
-1
17
MODEL1
RIDGE
y
0.7
.
2.19809
-0.45128
0.01370
0.13958
0.06929
0.00223
-1
18
MODEL1
RIDGEVIF
y
0.8
.
.
.
0.16985
0.27287
0.20378
0.23524
-1
19
MODEL1
RIDGE
y
0.8
.
2.23577
-0.34634
0.01296
0.13440
0.06837
0.00304
-1
20
MODEL1
RIDGEVIF
y
0.9
.
.
.
0.14677
0.23911
0.17600
0.20419
-1
21
MODEL1
RIDGE
y
0.9
.
2.27118
-0.24587
0.01234
0.12961
0.06733
0.00367
-1
22
MODEL1
RIDGEVIF
y
1.0
.
.
.
0.12897
0.21160
0.15430
0.17952
-1
23
MODEL1
RIDGE
y
1.0
.
2.30470
-0.14980
0.01179
0.12517
0.06623
0.00417
-1
(6)剔出
后再做岭回归。
程序:
procregdata=agraphicsoutest=out1outvif;
modely=x1x2x4/ridge=0to1by0.1;
plot/ridgeplot;
run;
procprintdata=out1;
run;
由岭迹图,当K=0.4后,岭迹曲线趋于稳定,说明K=0.4即可以满足岭回归参数估计的均方误差较小的的要求,对应的岭回归估计的回归方程:
y=-0.44738+0.02002x1+0.17052x2+0.00190x4.
X4的回归系数变为正值,合理。
Obs
_MODEL_
_TYPE_
_DEPVAR_
_RIDGE_
_PCOMIT_
_RMSE_
Intercept
x1
x2
x4
Y
1
MODEL1
PARMS
Y
.
.
1.73721
-0.97160
0.04104
0.14886
-0.02850
-1
2
MODEL1
RIDGEVIF
Y
0.0
.
.
.
3.73105
1.88311
2.59014
-1
3
MODEL1
RIDGE
Y
0.0
.
1.73721
-0.97160
0.04104
0.14886
-0.02850
-1
4
MODEL1
RIDGEVIF
Y
0.1
.
.
.
1.57085
1.16760
1.32188
-1
5
MODEL1
RIDGE
Y
0.1
.
1.80898
-0.88571
0.03038
0.17545
-0.01260
-1
6
MODEL1
RIDGEVIF
Y
0.2
.
.
.
0.89936
0.83890
0.86203
-1
7
MODEL1
RIDGE
Y
0.2
.
1.89761
-0.74503
0.02526
0.17883
-0.00511
-1
8
MODEL1
RIDGEVIF
Y
0.3
.
.
.
0.60246
0.64548
0.62902
-1
9
MODEL1
RIDGE
Y
0.3
.
1.97268
-0.59498
0.02216
0.17573
-0.00082
-1
10
MODEL1
RIDGEVIF
Y
0.4
.
.
.
0.44325
0.51790
0.48934
-1
11
MODEL1
RIDGE
Y
0.4
.
2.03698
-0.44738
0.02002
0.17052
0.00190
-1
12
MODEL1
RIDGEVIF
Y
0.5
.
.
.
0.34668
0.42785
0.39679
-1
13
MODEL1
RIDGE
Y
0.5
.
2.09383
-0.30599
0.01842
0.16470
0.00373
-1
14
MODEL1
RIDGEVIF
Y
0.6
.
.
.
0.28284
0.36126
0.33126
-1
15
MODEL1
RIDGE
Y
0.6
.
2.14535
-0.17196
0.01715
0.15883
0.00500
-1
16
MODEL1
RIDGEVIF
Y
0.7
.
.
.
0.23789
0.31031
0.28260
-1
17
MODEL1
RIDGE
y
0.7
.
2.19285
-0.04544
0.01611
0.15314
0.00591
-1
18
MODEL1
RIDGEVIF
Y
0.8
.
.
.
0.20468
0.27025
0.24516
-1
19
MODEL1
RIDGE
Y
0.8
.
2.23715
0.07382
0.01524
0.14774
0.00657
-1
20
MODEL1
RIDGEVIF
Y
0.9
.
.
.
0.17921
0.23806
0.21555
-1
21
MODEL1
RIDGE
Y
0.9
.
2.27882
0.18622
0.01448
0.14264
0.00704
-1
22
MODEL1
RIDGEVIF
Y
1.0
.
.
.
0.15906
0.21173
0.19158
-1
23
MODEL1
RIDGE
Y
1.0
.
2.31823
0.29222
0.01382
0.13784
0.00738
-1
(7)主成分回归:
程序:
procregdata=aoutest=out3outvif;
modely=x1-x4/pcomit=1;
run;
procprintdata=out3;
run;
Obs
_MODEL_
_TYPE_
_DEPVAR_
_RIDGE_
_PCOMIT_
_RMSE_
Intercept
x1
x2
x3
x4
y
1
MODEL1
PARMS
y
.
.
1.77875
-1.02164
0.04004
0.14803
0.01453
-0.02919
-1
2
MODEL1
IPCVIF
y
.
1
.
.
0.21456
1.59148
2.01913
2.44992
-1
3
MODEL1
IPC
y
.
1
2.01748
-1.66545
0.01297
0.23096
0.16586
-0.01541
-1
对应的主成分回归所得估计的回归方程:
Y=-1.66545+0.01297x1+0.23096x2+0.16586x3-0.01541x4。