应用回归分析第2章课后习题参考答案.docx
《应用回归分析第2章课后习题参考答案.docx》由会员分享,可在线阅读,更多相关《应用回归分析第2章课后习题参考答案.docx(21页珍藏版)》请在冰豆网上搜索。
应用回归分析第2章课后习题参考答案
应用回归分析-第2章课后习题参考答案
LT
2.5.证明是的无偏估计。
证明:
若要证明是的无偏估计,则只需证明E()=。
因为,的最小二乘估计为其中
E()=E()=E()=E[]
=E[]
=E()+E()+E()
其中
==
由于=0,所以=
==
=)==0
又因为一元线性回归模型为
所以E()=0所以
E()+E()+E(
=
=
所以是的无偏估计。
2.6解:
因为,,
联立式,得到。
因为,,所以
2.7证明平方和分解公式:
SST=SSE+SSR
证明:
2.8验证三种检验的关系,即验证:
(1);
(2)
证明:
(1)因为,所以
又因为,所以
故得证。
(2)
2.9验证(2.63)式:
证明:
其中:
注:
各个因变量是独立的随机变量
2.10用第9题证明是的无偏估计量
证明:
注:
2.11验证
证明:
所以有
以上表达式说明r²与F等价,但我们要分别引入这两个统计量,而不是只引入其中一个。
理由如下:
r²与F,n都有关,且当n较小时,r较大,尤其当n趋向于2时,|r|趋向于1,说明x与y的相关程度很高;但当n趋向于2或等于2时,可能回归方程并不能通过F的显著性检验,即可能x与y都不存在显著的线性关系。
所以,仅凭r较大并不能断定x与y之间有密切的相关关系,只有当样本量n较大时才可以用样本相关系数r判定两变量间的相关程度的强弱。
F检验检验是否存在显著的线性关系,相关系数的
显著性检验是判断回归直线与回归模型拟合的优劣,只有二者结合起来,才可以更好的回归结果的好坏。
2.12如果把自变量观测值都乘以2,回归参数的最小二乘法估计和会发生什么变化?
如果把自变量观测值都加上2,回归参数的最小二乘估计和会发生什么变化?
解:
解法
(一):
我们知道当,时,用最小二乘法估计的和分别为当时
有将带入得到
当时
有
将带入得到·
解法
(二):
当,时,有
当时
当,,
由最小二乘法可知,离差平方和时,其估计值应当有。
即回归参数的最小二乘估计和在自变量观测值变化时不会变。
2.13如果回归方程相应的相关系数r很大,则用它预测时,预测误差一定较小。
这一结论能成立吗?
对你的回答说明理由。
解:
这一结论不成立。
因为相关系数r表示x与线性关系的密切程度,而它接近1的程度与数据组数有关。
n越小,r越接近1。
n=2时,|r|=1。
因此仅凭相关系数说明x与有密切关系是不正确的。
只有在样本量较大时,用相关系数r判定两变量之间的相关程度才可以信服,这样预测的误差才会较小。
2.14解:
(1)散点图为:
(2)x与y大致在一条直线上,所以x与y大致呈线性关系。
(3)得到计算表:
X
Y
1
10
4
100
20
6
(-14)2
(-4)2
2
10
1
100
10
13
(-7)2
(3)2
3
20
0
0
0
20
0
0
4
20
1
0
0
27
72
72
5
40
4
400
40
34
142
(-6)2
和15
100
和Lxx=10
Lyy=600
和Lxy=70
和100
SSR=490
SSE=110
均3
均20
均20
所以回归方程为:
(4)=
所以,
(5)因为,的置信区间为;
同理,因为,所以,的置信区间为。
查表知,
所以,的置信区间为(-21.21,19.21),的置信区间为(0.91,13.09)。
(6)决定系数
(7)计算得出,方差分析表如下:
方差来源
平方和
自由度
均方
F值
SSR
490
1
490
13.364
SSE
110
3
36.667
SST
600
4
查表知,F0.05(1,3)=10.13,F值>F0.05(1,3),故拒绝原假设,说明回归方程显著。
(8)做回归系数β1的显著性检验
计算t统计量:
查表知,,所以,t>t0.05/2(3),所以接受原假设,说明x和Y有显著的线性关系。
(9)做相关系数r的显著性检验:
因为
所以,相关系数
因为查表知,n-2等于3时,%的值为0.959,%的值为0.878。
所以,%<|r|<%,故x与y有显著的线性关系。
(10)残差表为:
序号
残差
1
1
10
6
4
2
2
10
13
-3
3
3
20
20
0
4
4
20
27
-7
5
5
40
34
6
残差图为:
(11)当X0=4.2时,
其95%的置信区间近似为,即为:
(17.1,39.7)。
2.15解:
(1)画散点图;
图形→旧对话框→散点图,得到散点图(表1)如下:
(2)x与y之间是否大致呈线性关系?
由上面
(1)散点图可以看出,x与y之间大致呈线性关系。
用最小二乘估计求出回归方程;
分析→回归→线性,得到“回归系数显著性检验表(表2)”如下:
Coefficientsa
Model
UnstandardizedCoefficients
StandardizedCoefficients
t
B
Std.Error
Beta
1
(Constant)
.118
.355
.333
每周签发的新保单数目x
.004
.000
.949
8.509
a.DependentVariable:
每周加班工作时间y
由上表可知:
=0.118=0.004
所以可得回归方程为:
=0.118+0.004x
(4)求回归标准误差;
分析→回归→线性,得到“方析分析表(表3)”如下:
ANOVAb
Model
SumofSquares
df
MeanSquare
F
Sig.
1
Regression
16.682
1
16.682
72.396
.000a
Residual
1.843
8
.230
Total
18.525
9
a.Predictors:
(Constant),每周签发的新保单数目x
b.DependentVariable:
每周加班工作时间y
由上表可得,
SSE=1.843n=10
故回归标准误差为:
====0.23
==0.48
(5)给出与的置信度为95%的区间估计;
由表2可以看出,当置信度为95%时,
的预测区间为:
[-0.701,0.937]
的预测区间为:
[0.003,0.005]
(6)计算x与y的决定系数;
分析→回归→线性,得到“模型概要表(表4)”如下:
ModelSummaryb
Model
R
RSquare
AdjustedRSquare
Std.ErroroftheEstimate
1
.949a
.900
.888
.4800
a.Predictors:
(Constant),每周签发的新保单数目x
b.DependentVariable:
每周加班工作时间y
由上表可知,x与y的决定系数为0.9,可以看到很接近于1,这就说明此模型的拟合度很好。
(7)对回归方程作方差分析;
由“方差分析表(表3)”可得,F-值=72.396,
我们知道,当原假设:
=0成立时,F服从自由度为(1,n-2)的F分布(见),临界值(1,n-2)=(1,8)=5.32
因为F-值=72.396>5.32,
所以拒绝原假设,说明回归方程显著,即x与y有
显著的线性关系。
(8)做回归系数显著性的检验;
由“回归系数显著性检验表(表2)”可得,
的t检验统计量为t=8.509,对应p-值近似为0,p<,
说明每周签发的新报单数目x对每周加班工作时间y有显著的影响。
(9)做相关系数的显著性检验;
分析→相关→双变量,得到“相关分析表(表5)”如下:
Correlations
每周签发的新保单数目x
每周加班工作时间y
每周签发的新保单数目x
PearsonCorrelation
1
.949**
Sig.(2-tailed)
.000
N
10
10
每周加班工作时间y
PearsonCorrelation
.949**
1
Sig.(2-tailed)
.000
N
10
10
**.Correlationissignificantatthe0.01level(2-tailed).
由上表可知,相关系数为0.949,说明x与y显著线性相关。
(10)对回归方程作残差图并作相应的分析;
从上图可以看出,残差是围绕e=0随即波动的,满足模型的基本假设。
(11)该公司预计下一周签发新保单=1000张,需要的加班时间是多少?
当=1000张时,=0.118+0.004×1000=4.118小时。
(12)给出的置信水平为95%的精确预测区间和近似预测区间。
(13)给出E()置信水平为95%的区间估计。
最后两问一起解答:
在计算回归之前,把自变量新值输入样本数据中,因变量的相应值空缺,然后在Save对话框中点选Individul和Mean计算因变量单个新值和因变量平均值E()的置信区间。
结果显示在原始数据表中,如下图所示(由于排版问题,中间部分图省略):
的精确预测区间为:
[2.519,4.887]
E()的区间估计为:
[3.284,4.123]
而的近似预测区间则根据2手动计算,结果为:
[4.118-2×0.48,4.118+2×0.48]=[3.158,5.078]
2.16解答:
(1)绘制y对x的散点图,可以用直线回归描述两者之间的关系吗?
如图所示:
(2)由上图可以看出,y与x的散点分布大致呈直线趋势,所以可以用直线回归描述两者之间的关系。
(3)建立y对x的线性回归。
利用SPSS建立y对x的线性回归,输出结果如下:
表1
模型汇总
模型
R
R方
调整R方
标准估计的误差
1
.835a
.697
.691
2323.256
a.预测变量:
(常量),x。
表2方差分析表
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
6.089E8
1
6.089E8
112.811
.000a
残差
2.645E8
49
5397517.938
总计
8.734E8
50
a.预测变量:
(常量),x。
b.因变量:
y
表3系数表
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
12112.629
1197.768
10