应用回归分析第2章课后习题参考答案讲解.docx
《应用回归分析第2章课后习题参考答案讲解.docx》由会员分享,可在线阅读,更多相关《应用回归分析第2章课后习题参考答案讲解.docx(21页珍藏版)》请在冰豆网上搜索。
![应用回归分析第2章课后习题参考答案讲解.docx](https://file1.bdocx.com/fileroot1/2022-10/24/8cbc3c40-b547-4b5d-a726-3c6e8a350637/8cbc3c40-b547-4b5d-a726-3c6e8a3506371.gif)
应用回归分析第2章课后习题参考答案讲解
2.1一元线性回归模型有哪些基本假定?
答:
1.解释变量是非随机变量,观测值是常数。
2.等方差及不相关的假定条件为
这个条件称为高斯-马尔柯夫(Gauss-Markov)条件,简称G-M条件。
在此条件下,便可以得到关于回归系数的最小二乘估计及误差项方差估计的一些重要性质,如回归系数的最小二乘估计是回归系数的最小方差线性无偏估计等。
3.正态分布的假定条件为
在此条件下便可得到关于回归系数的最小二乘估计及估计的进一步结果,如它们分别是回归系数的最及的最小方差无偏估计等,并且可以作回归的显著性检验及区间估计。
4.通常为了便于数学上的处理,还要求及样本容量的个数要多于解释变量的个数。
在整个回归分析中,线性回归的统计模型最为重要。
一方面是因为线性回归的应用最广泛;另一方面是只有在回归模型为线性的假设下,才能的到比较深入和一般的结果;再就是有许多非线性的回归模型可以通过适当的转化变为线性回归问题进行处理。
因此,线性回归模型的理论和应用是本书研究的重点。
1.如何根据样本求出及方差的估计;
2.对回归方程及回归系数的种种假设进行检验;
3.如何根据回归方程进行预测和控制,以及如何进行实际问题的结构分析。
2.2考虑过原点的线性回归模型
误差仍满足基本假定。
求的最小二乘估计。
答:
令即
解得即的最小二乘估计为
2.3证明:
Q(,)=∑(--)2
因为Q(,)=minQ(,)
而Q(,)非负且在上可导,当Q取得最小值时,有
即-2∑(--)=0-2∑(--)=0
又∵=-(+)=--∴∑=0,∑=0
(即残差的期望为0,残差以变量x的加权平均值为零)
2.4解:
参数β0,β1的最小二乘估计与最大似然估计在εi~N(0,2)i=1,2,……n的条件下等价。
证明:
因为
所以
其最大似然函数为
已知使得Ln(L)最大的,就是,的最大似然估计值。
即使得下式最小:
因为恰好就是最小二乘估计的目标函数相同。
所以,在的条件下,参数β0,β1的最小二乘估计与最大似然估计等价。
2.5.证明是的无偏估计。
证明:
若要证明是的无偏估计,则只需证明E()=。
因为,的最小二乘估计为其中
E()=E()=E()=E[]
=E[]
=E()+E()+E()
其中
==
由于=0,所以=
==
=)==0
又因为一元线性回归模型为
所以E()=0所以
E()+E()+E(
=
=
所以是的无偏估计。
2.6解:
因为,,
联立式,得到。
因为,,所以
2.7证明平方和分解公式:
SST=SSE+SSR
证明:
2.8验证三种检验的关系,即验证:
(1);
(2)
证明:
(1)因为,所以
又因为,所以
故得证。
(2)
2.9验证(2.63)式:
证明:
其中:
注:
各个因变量是独立的随机变量
2.10用第9题证明是的无偏估计量
证明:
注:
2.11验证
证明:
所以有
以上表达式说明r²与F等价,但我们要分别引入这两个统计量,而不是只引入其中一个。
理由如下:
r²与F,n都有关,且当n较小时,r较大,尤其当n趋向于2时,|r|趋向于1,说明x与y的相关程度很高;但当n趋向于2或等于2时,可能回归方程并不能通过F的显著性检验,即可能x与y都不存在显著的线性关系。
所以,仅凭r较大并不能断定x与y之间有密切的相关关系,只有当样本量n较大时才可以用样本相关系数r判定两变量间的相关程度的强弱。
F检验检验是否存在显著的线性关系,相关系数的
显著性检验是判断回归直线与回归模型拟合的优劣,只有二者结合起来,才可以更好的回归结果的好坏。
2.12如果把自变量观测值都乘以2,回归参数的最小二乘法估计和会发生什么变化?
如果把自变量观测值都加上2,回归参数的最小二乘估计和会发生什么变化?
解:
解法
(一):
我们知道当,时,用最小二乘法估计的和分别为当时
有将带入得到
当时
有
将带入得到·
解法
(二):
当,时,有
当时
当,,
由最小二乘法可知,离差平方和时,其估计值应当有。
即回归参数的最小二乘估计和在自变量观测值变化时不会变。
2.13如果回归方程相应的相关系数r很大,则用它预测时,预测误差一定较小。
这一结论能成立吗?
对你的回答说明理由。
解:
这一结论不成立。
因为相关系数r表示x与线性关系的密切程度,而它接近1的程度与数据组数有关。
n越小,r越接近1。
n=2时,|r|=1。
因此仅凭相关系数说明x与有密切关系是不正确的。
只有在样本量较大时,用相关系数r判定两变量之间的相关程度才可以信服,这样预测的误差才会较小。
2.14解:
(1)散点图为:
(2)x与y大致在一条直线上,所以x与y大致呈线性关系。
(3)得到计算表:
X
Y
1
10
4
100
20
6
(-14)2
(-4)2
2
10
1
100
10
13
(-7)2
(3)2
3
20
0
0
0
20
0
0
4
20
1
0
0
27
72
72
5
40
4
400
40
34
142
(-6)2
和15
100
和Lxx=10
Lyy=600
和Lxy=70
和100
SSR=490
SSE=110
均3
均20
均20
所以回归方程为:
(4)=
所以,
(5)因为,的置信区间为;
同理,因为,所以,的置信区间为。
查表知,
所以,的置信区间为(-21.21,19.21),的置信区间为(0.91,13.09)。
(6)决定系数
(7)计算得出,方差分析表如下:
方差来源
平方和
自由度
均方
F值
SSR
490
1
490
13.364
SSE
110
3
36.667
SST
600
4
查表知,F0.05(1,3)=10.13,F值>F0.05(1,3),故拒绝原假设,说明回归方程显著。
(8)做回归系数β1的显著性检验
计算t统计量:
查表知,,所以,t>t0.05/2(3),所以接受原假设,说明x和Y有显著的线性关系。
(9)做相关系数r的显著性检验:
因为
所以,相关系数
因为查表知,n-2等于3时,%的值为0.959,%的值为0.878。
所以,%<|r|<%,故x与y有显著的线性关系。
(10)残差表为:
序号
残差
1
1
10
6
4
2
2
10
13
-3
3
3
20
20
0
4
4
20
27
-7
5
5
40
34
6
残差图为:
(11)当X0=4.2时,
其95%的置信区间近似为,即为:
(17.1,39.7)。
2.15解:
(1)画散点图;
图形→旧对话框→散点图,得到散点图(表1)如下:
(2)x与y之间是否大致呈线性关系?
由上面
(1)散点图可以看出,x与y之间大致呈线性关系。
用最小二乘估计求出回归方程;
分析→回归→线性,得到“回归系数显著性检验表(表2)”如下:
Coefficientsa
Model
UnstandardizedCoefficients
StandardizedCoefficients
t
B
Std.Error
Beta
1
(Constant)
.118
.355
.333
每周签发的新保单数目x
.004
.000
.949
8.509
a.DependentVariable:
每周加班工作时间y
由上表可知:
=0.118=0.004
所以可得回归方程为:
=0.118+0.004x
(4)求回归标准误差;
分析→回归→线性,得到“方析分析表(表3)”如下:
ANOVAb
Model
SumofSquares
df
MeanSquare
F
Sig.
1
Regression
16.682
1
16.682
72.396
.000a
Residual
1.843
8
.230
Total
18.525
9
a.Predictors:
(Constant),每周签发的新保单数目x
b.DependentVariable:
每周加班工作时间y
由上表可得,
SSE=1.843n=10
故回归标准误差为:
====0.23
==0.48
(5)给出与的置信度为95%的区间估计;
由表2可以看出,当置信度为95%时,
的预测区间为:
[-0.701,0.937]
的预测区间为:
[0.003,0.005]
(6)计算x与y的决定系数;
分析→回归→线性,得到“模型概要表(表4)”如下:
ModelSummaryb
Model
R
RSquare
AdjustedRSquare
Std.ErroroftheEstimate
1
.949a
.900
.888
.4800
a.Predictors:
(Constant),每周签发的新保单数目x
b.DependentVariable:
每周加班工作时间y
由上表可知,x与y的决定系数为0.9,可以看到很接近于1,这就说明此模型的拟合度很好。
(7)对回归方程作方差分析;
由“方差分析表(表3)”可得,F-值=72.396,
我们知道,当原假设:
=0成立时,F服从自由度为(1,n-2)的F分布(见),临界值(1,n-2)=(1,8)=5.32
因为F-值=72.396>5.32,
所以拒绝原假设,说明回归方程显著,即x与y有
显著的线性关系。
(8)做回归系数显著性的检验;
由“回归系数显著性检验表(表2)”可得,
的t检验统计量为t=8.509,对应p-值近似为0,p<,
说明每周签发的新报单数目x对每周加班工作时间y有显著的影响。
(9)做相关系数的显著性检验;
分析→相关→双变量,得到“相关分析表(表5)”如下:
Correlations
每周签发的新保单数目x
每周加班工作时间y
每周签发的新保单数目x
PearsonCorrelation
1
.949**
Sig.(2-tailed)
.000
N
10
10
每周加班工作时间y
PearsonCorrelation
.949**
1
Sig.(2-tailed)
.000
N
10
10
**.Correlationissignificantatthe0.01level(2-tailed).
由上表可知,相关系数为0.949,说明x与y显著线性相关。
(10)对回归方程作残差图并作相应的分析;
从上图可以看出,残差是围绕e=0随即波动的,满足模型的基本假设。