回归习题311.docx
《回归习题311.docx》由会员分享,可在线阅读,更多相关《回归习题311.docx(14页珍藏版)》请在冰豆网上搜索。
回归习题311
统计0902班学号:
0120924440212姓名:
高瑞
3.11研究货运总量y(万吨)与工业总值x1(亿元)、农业总值x2(亿元)、居民非商品支出(亿元)的关系。
数据见表。
(1)计算出y,x1,x2,x3的相关系数矩阵;
(2)求y关于x1,x2,x3的三元线性回归方程;
(3)对所求得的方程作拟合优度检验;
(4)对回归方程做显著性检验;
(5)对每一个回归系数做显著性检验;
(6)如果有的回归系数没有通过显著性检验,将其剔除。
重新建立回归方程,再做回归方程的显著性检验和回归系数的显著性检验;
(7)求出每一个回归系数的置信水平为95%的置信区间;
(8)求标准化的回归方程;
(9)求当x01=75,x02=42,x03=3.1时的拟合值y0(hat),给定置信水平为95%,用spss软件计算精确置信区间,用手工计算近似预测区间;
(10)结合回归方程对问题作一些基本分析。
数据:
编号
货运总量
y(万吨)
工业总产值
x1(亿元)
农业总产值
x2(亿元)
居民非商品支出
x3(亿元)
1
160
70
35
1.0
2
260
75
40
2.4
3
210
65
40
2.0
4
265
74
42
3.0
5
240
72
38
1.2
6
220
68
45
1.5
7
275
78
42
4.0
8
160
66
36
2.0
9
275
70
44
3.2
10
250
65
42
3.0
解:
(1)计算出y,x1,x2,x3的相关系数矩阵;
Correlations
货运总量
y(万吨)
工业总产值
x1(亿元)
农业总产值
x2(亿元)
居民非商品支出x3(亿元)
货运总量
y(万吨)
PearsonCorrelation
1
.556
.731
.724
Sig.(2-tailed)
.095
.016
.018
N
10
10
10
10
工业总产值
x1(亿元)
PearsonCorrelation
.556
1
.113
.398
Sig.(2-tailed)
.095
.756
.254
N
10
10
10
10
农业总产值
x2(亿元)
PearsonCorrelation
.731
.113
1
.547
Sig.(2-tailed)
.016
.756
.101
N
10
10
10
10
居民非商品支出
x3(亿元)
PearsonCorrelation
.724
.398
.547
1
Sig.(2-tailed)
.018
.254
.101
N
10
10
10
10
(2)求y关于x1,x2,x3的三元线性回归方程;
Coefficientsa
Model
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
B
Std.Error
Beta
1
(Constant)
-348.280
176.459
-1.974
.096
工业总产值x1(亿元)
3.754
1.933
.385
1.942
.100
农业总产值x2(亿元)
7.101
2.880
.535
2.465
.049
居民非商品支出x3(亿元)
12.447
10.569
.277
1.178
.284
a.DependentVariable:
货运总量y(万吨)
Y=-348.280+3.754x1+1.101x2+12.447x3
(3)对所求得的方程作拟合优度检验;
ModelSummary
Model
R
RSquare
AdjustedRSquare
Std.ErroroftheEstimate
1
.898a
.806
.708
23.442
a.Predictors:
(Constant),居民非商品支出x3(亿元),工业总产值x1(亿元),农业总产值x2(亿元)
R^2=0.806,算是通过了拟合优度的检验,线性关系比较显著。
(4)对回归方程做显著性检验;
ANOVAb
Model
SumofSquares
df
MeanSquare
F
Sig.
1
Regression
13655.370
3
4551.790
8.283
.015a
Residual
3297.130
6
549.522
Total
16952.500
9
a.Predictors:
(Constant),居民非商品支出x3(亿元),工业总产值x1(亿元),农业总产值x2(亿元)
b.DependentVariable:
货运总量y(万吨)
P值=0.015.当显著性水平为0.05时,由于p<0.05,所以通过了显著性检验,说明原假设不成立,即方程线性关系显著。
(5)对每一个回归系数做显著性检验;
Coefficientsa
Model
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
B
Std.Error
Beta
1
(Constant)
-348.280
176.459
-1.974
.096
工业总产值x1(亿元)
3.754
1.933
.385
1.942
.100
农业总产值x2(亿元)
7.101
2.880
.535
2.465
.049
居民非商品支出x3(亿元)
12.447
10.569
.277
1.178
.284
a.DependentVariable:
货运总量y(万吨)
P(x1)=.096p>0.05x1的系数在显著性水平为0.05的情况下是不显著的。
P(x2)=.100p>0.05x2的系数在显著性水平为0.05的情况下是不显著的。
P(x3)=.284p>0.05x3的系数在显著性水平为0.05的情况下是不显著的。
(6)如果有的回归系数没有通过显著性检验,将其剔除。
重新建立回归方程,再做回归方程的显著性检验和回归系数的显著性检验;
将p值最大的x3去掉然后进行新的线性回归得到结果如下:
Coefficientsa
Model
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
B
Std.Error
Beta
1
(Constant)
-459.624
153.058
-3.003
.020
工业总产值x1(亿元)
4.676
1.816
.479
2.575
.037
农业总产值x2(亿元)
8.971
2.468
.676
3.634
.008
a.DependentVariable:
货运总量y(万吨)
Y=-459.624+4.676x1+8.971x2
P(x1)=0.037p<0.05x1的系数在显著性水平为0.05的情况下是显著的。
P(x2)=0.08p<0.05x2的系数在显著性水平为0.05的情况下是显著的。
ANOVAb
Model
SumofSquares
df
MeanSquare
F
Sig.
1
Regression
12893.199
2
6446.600
11.117
.007a
Residual
4059.301
7
579.900
Total
16952.500
9
a.Predictors:
(Constant),农业总产值x2(亿元),工业总产值x1(亿元)
b.DependentVariable:
货运总量y(万吨)
P值=0.007.当显著性水平为0.05时,由于p<0.05,所以通过了显著性检验,说明原假设不成立,即方程线性关系显著。
(7)求出每一个回归系数的置信水平为95%的置信区间;
Coefficientsa
Model
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
95%ConfidenceIntervalforB
B
Std.Error
Beta
LowerBound
UpperBound
1
(Constant)
-348.280
176.459
-1.974
.096
-780.060
83.500
工业总产值x1(亿元)
3.754
1.933
.385
1.942
.100
-.977
8.485
农业总产值x2(亿元)
7.101
2.880
.535
2.465
.049
.053
14.149
居民非商品支出x3(亿元)
12.447
10.569
.277
1.178
.284
-13.415
38.310
X1的95%的置信区间是(-.977,8.485)
X2的95%的置信区间是(.053,14.149)
X3的95%的置信区间是(-13.415,38.310)
(8)求标准化的回归方程;
Coefficientsa
Model
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
B
Std.Error
Beta
1
(Constant)
-5.102E-16
.171
.000
1.000
Zscore(工业总产值x1(亿元))
.385
.198
.385
1.942
.100
Zscore(农业总产值x2(亿元))
.535
.217
.535
2.465
.049
Zscore(居民非商品支出x3(亿元))
.277
.235
.277
1.178
.284
a.DependentVariable:
Zscore(货运总量y(万吨))
Y=0.385x1+0.535x2+0.277x3
(9)求当x01=75,x02=42,x03=3.1时的拟合值y0(hat),给定置信水平为95%,用spss软件计算精确置信区间,用手工计算近似预测区间;
y0(hat)=270.0896643839904
y0(hat)的95%的置信区间为(206.0589531489654,334.12037561901536)
(10)结合回归方程对问题作一些基本分析。
Y=-348.280+3.754x1+1.101x2+12.447x3
通过这个方程我们可以知道货运总量与工业总产值,农业总产值和居民非商品支出的线性关系。
当农业总产值和居民非商品支出不变时,我们可以得出,工业总产值每增加一个单位,货运总量增加3.754个单位。
同样,当工业总产值,农业总产值不变时,居民非商品支出每增加一个单位,货运总量增加12.447个单位。
而工业总产值,和居民非商品支出不变时,农业总产值每增加一个单位,货运总量增加1.101个单位。
4.9表是用电高峰每小时用电量y与每月总用电量x的数据.
(1)用普通最小二乘法建立y与x的回归方程,并画出残差图;
(2)诊断该问题是否存在异方差;
(3)如果存在异方差,用幂指数型的权函数建立加权最小二乘回归方程;
(4)用方差稳定变换y’=y^(1/2)消除异方差;
表:
用户序号
x
y
用户序号
x
y
1
679
0.79
28
1748
4.88
2
292
0.44
29
1381
3.48
3
1012
0.56
30
1428
7.58
4
493
0.79
31
1255
2.63
5
582
2.70
32
1777
4.99
6
1156
3.64
33
370
0.59
7
997
4.73
34
2316
8.19
8
2189
9.50
35
1130
4.79
9
1097
5.34
36
463
0.51
10
2078
6.85
37
770
1.74
11
1818
5.84
38
724
4.10
12
1700
5.21
39
808
3.94
13
747
3.25
40
790
0.96
14
2030
4.43
41
783
3.29
15
1643
3.16
42
406
0.44
16
414
0.50
43
1242
3.24
17
354
0.17
44
658
2.14
18
1276
1.88
45
1746
5.71
19
745
0.77
46
468
0.64
20
435
1.39
47
1114
1.90
21
540
0.56
48
413
0.51
22
874
1.56
49
1787
8.33
23
1543
5.28
50
3560
14.94
24
1029
0.64
51
1495
5.11
25
710
4.00
52
2221
3.85
26
1434
0.31
53
1526
3.93
27
837
4.20
解:
(1)用普通最小二乘法建立y与x的回归方程,并画出残差图;
Coefficientsa
Model
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
B
Std.Error
Beta
1
(Constant)
-.831
.442
-1.882
.065
x
.004
.000
.839
11.030
.000
a.DependentVariable:
y
Y=-0.831+0.004x
残差图
(2)诊断该问题是否存在异方差;
Correlations
x
z
Spearman'srho
x
CorrelationCoefficient
1.000
.318*
Sig.(2-tailed)
.
.021
N
53
53
z
CorrelationCoefficient
.318*
1.000
Sig.(2-tailed)
.021
.
N
53
53
*.Correlationissignificantatthe0.05level(2-tailed).
P值=0.021<0.05,则认为残差绝对值与自变量显著相关,存在异方差
(3)如果存在异方差,用幂指数型的权函数建立加权最小二乘回归方程;
Log-LikelihoodValuesb
Power
-2
-121.068
-1.5
-114.545
-1
-108.466
-0.5
-102.983
0
-98.353
0.5
-94.837
1
-92.581
1.5
-91.588a
2
-91.756
a.Thecorrespondingpowerisselectedforfurtheranalysisbecauseitmaximizesthelog-likelihoodfunction.
ModelDescription
DependentVariable
y
IndependentVariables
1
x
Weight
Source
x
PowerValue
1.500
Model:
MOD_1.
b.Dependentvariable:
y,sourcevariable:
x
Coefficients
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
B
Std.Error
Beta
Std.Error
(Constant)
-.683
.298
-2.296
.026
x
.004
.000
.812
.082
9.930
.000
由表可以m=1.5时对数似然达到极大
Y=-0.683+0.004x
(4)用方差稳定变换y’=y^(1/2)消除异方差;
Coefficientsa
Model
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
B
Std.Error
Beta
1
(Constant)
.582
.130
4.481
.000
x
.001
.000
.805
9.699
.000
a.DependentVariable:
n
Y’=0.582+0.001x