应用回归分析第2章课后习题参考答案.docx
《应用回归分析第2章课后习题参考答案.docx》由会员分享,可在线阅读,更多相关《应用回归分析第2章课后习题参考答案.docx(31页珍藏版)》请在冰豆网上搜索。
应用回归分析第2章课后习题参考答案
2.1一元线性回归模型有哪些基本假定?
答:
1.解释变量X「X2,上Xp,是非随机变量,观测值Xi!
Xi2,上,Xp是常数。
2.等方差及不相关的假定条件为
日叨=0,i=1,2,A,n
k2,i=j
cov(ij)h(i,j=1,2A,n)
0,i幻
这个条件称为高斯-马尔柯夫(Gauss-Markov)条件,简称G-M条件。
在此条件下,便可以得到关于回归系数的最小二乘估计及误差项方差二2估计的一些重要性质,如回归系数的最小二乘估计是回归系数的最小方差线性无偏估计等。
3.正态分布的假定条件为
厂2
(〜N(0卫),i=1,2A,n
3,%,A,%相互独立
在此条件下便可得到关于回归系数的最小二乘估计及-2估计的进一步结果,
如它们分别是回归系数的最及匚2的最小方差无偏估计等,并且可以作回归的显
著性检验及区间估计。
4.通常为了便于数学上的处理,还要求n•p,及样本容量的个数要多于解释变量的个数。
在整个回归分析中,线性回归的统计模型最为重要。
一方面是因为线性回归
的应用最广泛;另一方面是只有在回归模型为线性的假设下,才能的到比较深入
和一般的结果;再就是有许多非线性的回归模型可以通过适当的转化变为线性回归问题进行处理。
因此,线性回归模型的理论和应用是本书研究的重点。
1.如何根据样本(Xi,xi2,上,xip;yj(i=1,2,上,n)求出:
0,“:
2,上厂p及方差匚2
的估计;
2.对回归方程及回归系数的种种假设进行检验;
3.如何根据回归方程进行预测和控制,以及如何进行实际问题的结构分析。
2.2考虑过原点的线性回归模型
%=1氷•;i,i=1,2」,n误差;!
,;2,上,;n仍满足基本假定。
求的最小二乘估计。
nn
答:
Q
(1)八(%-E(yJ)2八㈣-讥)2
i=1i=i
.:
Q
一(y--iXi)Xi
i丄
xyi2'-ax2
idiJ
n
=0,即vXiyi
i4
n
'Xiyi
i4
n
、Xi2
i丄
n
送xw
解得—,即!
?
的最小二乘估计为f?
2
i4
I-l.:
.y
2.3证明:
Q('0,1)=刀(yi-0-1Xi)2
『fBP
因为Q(0,1)=minQ(0,1)
-Q
:
:
?
2:
Q
而Q(o,1)非负且在R上可导,当Q取得最小值时,有0
AAA呱
即-2刀(yi-0-1Xi)=0-2刀(yi-:
0-■1Xi)Xi=0
AAaA
又e=yi-(°0+°1x)=yi-B0-卩1Xi.•.”e=o,刀ex=0
(即残差的期望为0,残差以变量X的加权平均值为零)
2.4解:
参数B0,B1的最小二乘估计与最大似然估计在&i~N(0,2)
i=1,2,…
•…n的条件下等价。
2.
证明:
因为;i~N(*),i"2..…°
2所以Yi八0」1X1」~N(:
0「1X1,1)其最大似然函数为
n
L(:
0,r卢2)=二:
/i(Yi)=(2=2)』/2exp{-2'M-(:
0T0,X」]2}
Ln山札戸®2)}=—才1n(2心2)-
1n
2、1、、
2J
2-id
2^2im
[Yi-(r「0,Xi)]2
已知使得Ln(L)最大的氏,翼就是B,P的最大似然估计值。
01
nn
Q=E(Yi-YV=迟(Y—偲+%Xi))2
即使得下式最小:
11①
因为①恰好就是最小二乘估计的目标函数相同。
2
所以,在;i~N(0f),i胡,2,•.…n的条件下,参数b0,b1的最小二
乘估计与最大似然估计等价
2.5.证明:
0是:
0的无偏估计。
证明:
若要证明:
0是:
0的无偏估计,则只需证明E(:
0)=:
0。
X-M=Lxy/Lxx
因为:
0,:
1的最小二乘估计为
y一-x其中
Lxy八
(Xi-x)(yi—y)二為Xiyi—nxy二為Xiyi
Xi二yi
n
Lxx八
(Xi—X)2二亠Xi2
2
-nx
=11
2
Xi
Xi)2
E(0)=E(
一?
x%
y一?
-X)=E(门i4
-X'
Xj-xyi)=E[yn
--x£^)yi
]
Lxx
=E[
_Xj「X
x
Lxx
-L-Xi
■J
]
=E(
其中
(-
i生n
_Xi-X
x
Lxx
)+E(v
(丄一X^^^)-Xi
□Lxx
)+E(vn
(「吕
Lxx)
Xi_X)'0
Lxx
(丄-x”),(n-
nLn
Lxx
产、(Xi—X))
LxxiT
迟(Xi
由于y
-X)
=0,
所以7nLxx=0
Lxx
-X^^Xi)'-(^^(Xi-X)Xi)
Lxxi吕
Lxx
■:
i(X
Lxxid
(Xi-X)(Xi-X)一__
)=1(X-x)=0
yi='o「-Xi•;;
又因为一元线性回归模型为
各r独立同分布,
其分布为N(0f2)
所以E(
;i)=0所以
LXX
、.(卡
XX
):
-Xi
=e(⑴e(o)-4(n_x
Lxx
-'o
所以:
o是:
o的无偏估计。
八*yi
2.6解:
因为nv
①,
育y「x
②,
yLxxyi
联立①②③式,得到
1—y—x
八(——x—n
L)y
1i-X
Var(:
)二Var「(x・
0yn'
xx
)y]
n1—Xi-X
八[(X*)]Var(yi)
i胡nLxx
n
=x
[A&xL^)
Lxx
nLxx
因为Lxx±(Xi-X),沙十。
xx
i生
,所以
1—叽。
)监(X)
2y(XiX)
2x
'(X—x)
i=1
Lxx
nLxx
—2
1(X)_nLxx
2(Xi—x)丿
(X)
2.7证明平方和分解公式:
SST=SSE+SSR
一nn
证明:
sst=e(y^yf=x[(%-?
)+(?
-y]2
i=1id
nnn
八?
i-y22、yi-?
i)(?
i-y'yi-?
)2
i1idid
nn
八V\-、2、yi_?
)2=SSRSSE
i=1i=1
2.8验证三种检验的关系,即验证:
(1)
■(n-2)r
t
J-r2;
7
(2)
SSR/1Lxx弭2
SSE/(n»「
SSR二:
证明:
(1)
因为
Lxx和二
SSE
n-2
,所以
(n-2)SSR
(n-2)SSRssT
SSE
n
-2
SSE
SSESST
2
又因为r
SSR
SST,
所以
1_r
SST-SSRSSE
(n-2)r
SST
SST
故
(2)
/-r2得证。
SSR八(y?
.-y)
i吕
n
(彳?
Xj
i生
-y)2八
-x)-y)2
n
=送(f?
(Xi_x))2=l?
2Lxx
i4
lSSR/1
F=
SSE/(n-2)
2.9验证(2.63)
r
式:
var(e)=
仁丄.xi-x
n
Lxx
证明:
var(e)=var
(y.-y.)=var(y.)-var(y.)-2cov(y.,y.)
A.
var(y.)var(0°+
A.
px.)
1x.
-2cov(y.,y+
-
--2]
[
-—2〕
a沁2
1+(Xi-X)
—2b2
1+(xrx)
[
nLxx
I
nLxx
1(Xi-x))
-丄
n
Lxx
其中:
cov
yeXix
1
=•covyj,ycov
yi,(Xi-X)
1丿
=cov
—(Xi-X)
yi———yi
XX
1n)-
y,—'y-xcov
invii
—2
2xrx2十CJ
Lxx
一2、
+*i-X)
nLxx
注:
各个因变量yi,y2y是独立的随机变量
var(XY)二var(X)var(Y)_2cov(X,Y)
2.10用第9题证明
A
2
CJ
2
'巳曰
n-2是二
2的无偏估计量
证明:
E
(J
nzn-2i=1
Ey「yi
丄J
n-2i=1
丄J
n-2i=1
varei
n-2id
—2
送1」-幺二xl
CT
nLxx
(n-2bn-2
2
=ff
注:
var(X)=E(x2)」E(X)『
2_F
2.11验证rF•n—2
证明:
SSR
F二SSE
(n-2)
SSE_(n-2)
二*(n_2)所以有SSLF
SSE
2_SSR_SSR_1_1_F
r二苛二SSRSSE=1SSE〔.(n-2)=Fn-2
/SSRiJ/f丿
以上表达式说明r2与F等价,但我们要分别引入这两个统计量,而不是只引入其中一个。
理由如下:
1r2与F,n都有关,且当n较小时,r较大,尤其当n趋向于2时,|r|趋向于1,说明x与y的相关程度很高;但当n趋向于2或等于2时,可能回归方程并不能通过F的显著性检验,即可能x与y都不存在显著的线性关系。
所以,仅凭r较大并不能断定x与y之间有密切的相关关系,只有当样本量n较大时才可以用样本相关系数r判定两变量间的相关程度的强弱。
2F检验检验是否存在显著的线性关系,相关系数的
显著性检验是判断回归直线与回归模型拟合的优劣,只有二者结合起来,才可以
更好的回归结果的好坏。
2.12如果把自变量观测值都乘以2,回归参数的最小二乘法估计氏和冈会发生什么变化?
如果把自变量观测值都加上2,回归参数的最小二乘估计区和氏会发生什么变化?
解:
解法
(一):
我们知道当%「一必;i,E(yi)=『时,用最小二乘法估
1邑s刃
-i-i
A=山
计的?
和?
分别为
U⑴当x:
=2xi时
有错误!
未找到引用源
壬二一232丙=2x
科1-1
尹=丄士丈」壬5+兀点)=戸+死直«i-L冲i-l
将②③带入①得到
炉y—稲
n
£(年—刃5—刃
2-1
-窃
i-1
⑵当Xj=2Xj时源。
輕
2-1
错误!
未找到引用
有错误!
未找到引用源。
错误!
未找到引用源将②③带入①得到•
隽=y-^A
n
另(阳-耳3-刃U1
另(獰-初
3-1
解法
(二):
当%=札+咕+遇,E(yJ=Po+0iX时,有
nn
Q(氏,片)二》(y-E(yJ)2=迟⑶—札—眼)2
i=1i=1
当x「=2Xi时yi=:
0•2:
iXj;i二yi•ixE(y「)=:
o,2ixi
nnn
Q(B°,跆‘二迟(y「-E(yy(yi+RiXi」0—2毗「=迟(y「九_Bix)2
i」i4i」
当Xi"=Xi+2y「=Bo+加+2當+Bi=yi+2^1E(y;)=+盼+2为
当
nnn
Q(~,J八A-E(yJ)2八(yi•2r-一:
。
-一:
必-2J八卜「。
_非)2
iAiAi」rh
由
最小二乘法可知,离差平方和Q(:
0,:
1)=Q(:
0,:
1)=Q(:
0,:
1)时,其估计值应当有错误!
未找到引用源。
。
即回归参数的最小二乘估计氐和网在自变量观测值变化时不会变。
2.13如果回归方程错误!
未找到引用源。
相应的相关系数r很大,则用它预测时,预测误差一定较小。
这一结论能成立吗?
对你的回答说明理由。
解:
这一结论不成立。
因为相关系数r表示x与错误!
未找到引用源。
线性关系的密切程度,而它接近1的程度与数据组数有关。
n越小,r越接近1。
n=2时,|r|=1。
因此仅凭相关系数说明x与?
有密切关系是不正确的。
只有在样本量较大时,用相关系数r判定两变量之间的相关程度才可以信服,这样预测的误差才会较小。
2.14解:
(1)散点图为:
(2)x与y大致在一条直线上,所以x与y大致呈线性关系
(3)得
:
到计
算表:
X
Y
2
(Xi-X)
2
(Yi-Y)
(Xi-X)(Yi-Y)
Y?
&-Y)2
(Y?
-Yi)2
1
10
4
100
20
6
(-14)2
(-4)2
2
10
Ifl-
1
aa
100
10
13
(-7)2
(3)2
3
20
0
0
0
20
0
0
4
20
1
0
0
27
72
72
5
40
4
400
40
34
142
(-6)2
和
15
100
和
Lxx=10
Lyy=60
0
和Lxy=70
和
100
SSR=490
SSE=110
均3
均
20
均20
1n2
磴Wn—2
•sse二空
3
所以回归方程为:
W=%十国X=-1+7XA2
CF
(4)
J、3306.1
所以,3
时:
N(00,』+学声2)
0的置信区间为
匕(x〉2;
7
丹k2
1:
N(_1,—)
xx
同理,因为Lxx,所以,
查表知,GL辭給磁(班3陆
A
P
1的置信区间为
=20-37--1.
xx
0
(5)因为nLxx
AA.
所以,卩0的置信区间为(-21.21,19.21),卩1的置信区间为(0.91,13.09)。
2SSRSSR490
(6)决疋系数R20.817
SSTLyy600
(7)计算得出,方差分析表如下:
方差来源
平方和
自由度
均方
F值
SSR
490
1
490
13.364
SSE
110
3
36.667
SST
600
4
查表知,F0.05(1,3)=10.13,F值>F0.05(1,3),故拒绝原假设,说明回归方程显著。
1的显著性检验
(8)做回归系数B
计算t统计量:
查表知,n-2)
说明x和Y有显著的线性关系
(9)做相关系数r的显著性检验:
因为
:
2
所以,相关系数R:
0.951
=鮎曲⑶=3.182
。
1匚7帀21
3.66£^/330履
3
所以,t>t0.05/2(3),所以接受原假设,
只2严―Si?
SSTLyy600
因为查表知,n-2等于3时•=1%勺值为0.959•=5%勺值为0.878。
所以,a=5%v|r|v口=〔%故x与y有显著的线性关系。
(10)残差表为:
序号
x
y
Ay
残差e
1
1
10
6
4
2
2
10
13
-3
3
3
20
20
0
4
4
20
27
-7
5
5
40
34
6
残差图为:
(11)当X0=4.2时苦
AA
其95%勺置信区间
可近似为近似为y±2口,即为:
(17.1,39
2.15解:
(1)画散点图;
散点图,得到散点图(表1)如下:
图形一旧对话框-
-fiX-
-75C-
I1
(2)x与y之间是否大致呈线性关系?
由上面
(1)散点图可以看出,x与y之间大致呈线性关系。
用最小二乘估计求出回归方程;
分析一回归一线性,得到“回归系数显著性检验表(表2)如下:
Coefficientsa
Model
UnstandardizedCoefficients
Standardized
Coefficients
t
B
Std.Error
Beta
1
(Constant)
.118
.355
.333
每周签发的新保单数
目x
.004
.000
.949
8.509
a.DependentVariable:
每周加班工作时间y
由上表可知:
nJWulETii喘
1.D-
AA
0=0.1181=0.004
所以可得回归方程为:
y=0.118+0.004x
(4)求回归标准误差二;
分析一回归一线性,得到“方析分析表(表3)”如下:
ANOVAb
Model
Sumof
Squares
df
MeanSquare
F
Sig.
1
Regression
16.682
1
16.682
72.396
.000a
Residual
1.843
8
.230
Total
18.525
9
a.Predictors:
(Constant),每周签发的新保单数目x
b.DependentVariable:
每周加班工作时间y
2
1
=n-2
v(yLyi)
SSE1.843
=n-2=10-2=0.23
=0.48
由上表可得,
SSE=1.843n=10
故回归标准误差为:
PP
(5)给出0与1的置信度为95%勺区间估计;由表2可以看出,当置信度为95%寸,
A
P
0的预测区间为:
[-0.701,0.937]
1的预测区间为:
[0.003,0.005]
(6)计算x与y的决定系数;
分析一回归一线性,得到“模型概要表(表4)”如下:
ModelSummaryb
Model
R
RSquare
AdjustedRSquare
Std.Errorofthe
Estimate
1
.949a
.900
.888
.4800
a.Predictors:
(Constant),每周签发的新保单数目x
b.DependentVariable:
每周加班工作时间y
由上表可知,x与y的决定系数为0.9,可以看到很接近于1,这就说明此模型的拟合度很好。
(7)对回归方程作方差分析;
由“方差分析表(表3)”可得,F-值=72.396,
,B
我们知道,当原假设H0:
1=0成立时,F服从自由度为(1,n-2)的F
分布(见P38),临界值Fa(1,n-2)=F0.05(1,8)=5.32
因为F-值=72.396>5.32,
所以拒绝原假设,说明回归方程显著,即x与y有
显著的线性关系。
(8)做回归系数:
1显著性的检验;
由“回归系数显著性检验表(表2)”可得,
A
1的t检验统计量为t=8.509,对应p-值近似为0,pc,说明每周签发的新报单数目x对每周加班工作时间y有显著的影响
(9)做相关系数的显著性检验;
分析一相关一双变量,得到“相关分析表(表5)”如下:
Correlations
每周签发的新
保单数目x
每周加班工作时间y
每周签发的新保单数目
x
Pearson
Correlation
1
.949**
Sig.(2-tailed)
.000
N
10
10
每周加班工作时间y
Pearson
Correlation
.949**
1
Sig.(2-tailed)
.000
N
10
10
**.Correlationissignificantatthe0.01level(2-tailed).
由上表可知,相关系数为0.949,说明x与y显著线性相关。
(10)对回归方程作残差图并作相应的分析;
NormalP-P尸lotofRegressionStandardizedResidual
DependentVariable:
毎周加闵士-r1作时问*
U.U0.2CJ.4口用□.日1.O
Obs@rvedCumProb
qEdE30pfiMdlll
从上图可以看出,残差是围绕e=0随即波动的,满足模型的基本假设。
(11)该公司预计下一周签发新保单xo=iooo张,需要的加班时间是多少?
当x0=1000张时,yo=0.118+0.004X1000=4.118小时。
(12)给出y0的置信水平为95%勺精确预测区间和近似预测区间。
(13)给出E(y0)置信水平为95%勺区间估计。
最后两问一起解答:
在计算回归之前,把自变量新值x0输入样本数据中,因变量的相应值空缺,然后在Save对话框中点选Individul和Mean计算因变量单个新值y。
和因变量平均值E(y0)的置信区间。
结果显示在原始数据表中,如下图所示(由于排
版问题,中间部分图省略):
y°的精确预测区间为:
[2.519,4.887]
E(y°)的区间估计为:
[3.284,4.123]
而y°的近似预测区间则根据y°-2二手动计算,结果为:
[4.118-2X0.48,4.118+2X°.48]=[3.158,5.078]
2.16解答:
(1)绘制y对x的散点图,可以用直线回归描述两者之间的关系吗?
如图所示:
系数a
模型非标准化系数|
标准系数
t
Sig.
(2)由上图可以看出,y与x的散点分布大致呈直线趋势,所以可以用直线回归描述两者之间的关系。
(3)建立y对x的线性回归。
利用SPSS建立y对x的线性回归,输出结果如下:
表1
模型汇总
模型
R
R方
调整R方
标准估计的
误差
1
.835a
.697
.691
2323.256
a.预测变量:
(常量),x。
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
6.089E8
1
6.089E8
112.811.
000a
残差
2.645E8
49
5397517.938
总计
8.734E8
50