应用回归分析第三版何晓群 刘文卿 课后习题答案 完整版.docx
《应用回归分析第三版何晓群 刘文卿 课后习题答案 完整版.docx》由会员分享,可在线阅读,更多相关《应用回归分析第三版何晓群 刘文卿 课后习题答案 完整版.docx(53页珍藏版)》请在冰豆网上搜索。
应用回归分析第三版何晓群刘文卿课后习题答案完整版
资料范本
本资料为word版本,可以直接编辑和打印,感谢您的下载
应用回归分析(第三版)何晓群刘文卿课后习题答案完整版
地点:
__________________
时间:
__________________
说明:
本资料适用于约定双方经过谈判,协商而共同承认,共同遵守的责任与义务,仅供参考,文档可直接下载或修改,不需要的部分可直接删除,使用时请详细阅读内容
第二章一元线性回归分析
思考与练习参考答案
2.1一元线性回归有哪些基本假定?
答:
假设1、解释变量X是确定性变量,Y是随机变量;
假设2、随机误差项ε具有零均值、同方差和不序列相关性:
E(εi)=0i=1,2,…,n
Var(εi)=s2i=1,2,…,n
Cov(εi,εj)=0i≠ji,j=1,2,…,n
假设3、随机误差项ε与解释变量X之间不相关:
Cov(Xi,εi)=0i=1,2,…,n
假设4、ε服从零均值、同方差、零协方差的正态分布
εi~N(0,s2)i=1,2,…,n
2.2考虑过原点的线性回归模型
Yi=β1Xi+εii=1,2,…,n
误差εi(i=1,2,…,n)仍满足基本假定。
求β1的最小二乘估计
解:
得:
2.3证明(2.27式),Sei=0,SeiXi=0。
证明:
其中:
即:
Sei=0,SeiXi=0
2.4回归方程E(Y)=β0+β1X的参数β0,β1的最小二乘估计与最大似然估计在什么条件下等价?
给出证明。
答:
由于εi~N(0,s2)i=1,2,…,n
所以Yi=β0+β1Xi+εi~N(β0+β1Xi,s2)
最大似然函数:
使得Ln(L)最大的,就是β0,β1的最大似然估计值。
同时发现使得Ln(L)最大就是使得下式最小,
上式恰好就是最小二乘估计的目标函数相同。
值得注意的是:
最大似然估计是在εi~N(0,s2)的假设下求得,最小二乘估计则不要求分布假设。
所以在εi~N(0,s2)的条件下,参数β0,β1的最小二乘估计与最大似然估计等价。
2.5证明是β0的无偏估计。
证明:
2.6证明
证明:
2.7证明平方和分解公式:
SST=SSE+SSR
证明:
2.8验证三种检验的关系,即验证:
(1);
(2)
证明:
(1)
(2)
2.9验证(2.63)式:
证明:
其中:
2.10用第9题证明是s2的无偏估计量
证明:
2.11验证决定系数与F值之间的关系式
证明:
2.14为了调查某广告对销售收入的影响,某商店记录了5个月的销售收入y(万元)和广告费用x(万元),数据见表2.6,要求用手工计算:
表2.6
画散点图(略)
X与Y是否大致呈线性关系?
答:
从散点图看,X与Y大致呈线性关系。
用最小二乘法估计求出回归方程。
计算表
回归方程为:
求回归标准误差
先求SSR(Qe)见计算表。
所以
给出的置信度为95%的区间估计;
由于(1-a)的置信度下,的置信区间是
查表可得
所以的95%的区间估计为:
(7—3.182*1.915,7+3.182*1.915),即(0.906,13.094)。
所以的95%的区间估计为:
(-1-3.182*6.351,-1+3.182*6.351),
即(-21.211,19.211)。
的置信区间包含0,表示不显著。
计算x和y的决定系数
说明回归方程的拟合优度高。
对回归方程作方差分析
方差分析表
F值=13.364>F0.05(1,3)=10.13(当n=1,n=8时,α=0.05查表得对应的值为10.13),所以拒绝原假设,说明回归方程显著。
(8)做回归系数β1的显著性检验H0:
β1=0
t值=3.656>t0.05/2(3)=3.182,所以拒绝原假设,说明x对Y有显著的影响。
做相关系数R的显著性检验
R值=0.904>R0.05(3)=0.878,所以接受原假设,说明x和Y有显著的线性关系。
对回归方程作残差图并作相应的分析
残差图(略).从残差图上看出,残差是围绕e=0在一个固定的带子里随机波动,基本满足模型的假设ei~N(0,s2),但由于样本量太少,所以误差较大.
求广告费用为4.2万元时,销售收入将达到多少?
并给出置信度为95%的置信区间.
解:
当X0=4.2时,
所以广告费用为4.2万元时,销售收入将达到28.4万元.
由于置信度为1-α时,Y0估计值的置信区间为:
所以求得Y0的95%的置信区间为:
[6.05932,50.74068]
预测误差较大.
2.15一家保险公司十分关心其总公司营业部加班的制度,决定认真调查一下现状。
经过十周时间,收集了每周加班工作时间的数据和签发的新保单数目,x为每周新签发的保单数目,y为每周加班工作时间(小时)。
见表2.7。
表2..7
1、画散点图
2、由散点图可以看出,x与y之间大致呈线性关系。
3、用最小二乘法求出回归系数
由表可知:
回归方程为:
4、求回归标准误差
由方差分析表可以得到:
SSE=1.843
故回归标准误差,=0.48。
5、给出回归系数的置信度为95%的区间估计
由回归系数显著性检验表可以看出,当置信度为95%时:
的预测区间为[-0.701,0.937],的预测区间为[0.003,0.005].
的置信区间包含0,表示不拒绝为零的假设。
6、决定系数
由模型概要表得到决定系数为0.9接近于1,说明模型的拟合优度高。
7.对回归方程作方差分析
由方差分析表可知:
F值=72.396>5.32(当n=1,n=8时,查表得对应的值为5.32)
P值0,所以拒绝原假设,说明回归方程显著。
8、对的显著性检验
从上面回归系数显著性检验表可以得到的t统计量为t=8.509,所对应的p值近似为0,通过t检验。
说明每周签发的新保单数目x对每周加班工作时间y有显著的影响。
9.做相关系数显著性检验
相关系数达到0.949,说明x与y显著线性相关。
10、对回归方程作残差图并作相应分析
从残差图上看出,残差是围绕e=0随即波动,满足模型的基本假设。
11、该公司预计下一周签发新保单X0=1000张,需要的加班时间是多少?
当x=1000张时,小时
12、给出Y0的置信水平为95%的预测区间
通过SPSS运算得到Y0的置信水平为95%的预测区间为:
(2.5195,4.8870)。
13给出E(Y0)的置信水平为95%的预测区间
通过SPSS运算得到Y0的置信水平为95%的预测区间为:
(3.284,4.123)。
2.16表是1985年美国50个州和哥伦比亚特区公立学校中教师的人均年工资y(美元)和学生的人均经费投入x(美元).
解答:
(1)绘制y对x的散点图,可以用直线回归描述两者之间的关系吗?
由上图可以看出y与x的散点分布大致呈直线趋势。
(2)建立y对x的线性回归。
利用SPSS进行y和x的线性回归,输出结果如下:
表1模型概要
由表1可知,x与y决定系数为,说明模型的拟合效果一般。
x与y线性相关系数R=0.835,说明x与y有较显著的线性关系。
由表2(方差分析表中)看到,F=112.811,显著性Sig.p,说明回归方程显著。
由表3可见对的显著性t检验P值近似为零,故显著不为0,说明x对y有显著的线性影响。
综上,模型通过检验,可以用于预测和控制。
x与y的线性回归方程为:
(3)绘制标准残差的直方图和正态概率图
图1标准残差的直方图
理论正
态概率
观测值概率
图2标准残差的正态概率P-P图
由图1可见标准化后残差近似服从正态分布,由图2可见正态概率图中的各个散点都分布在45°线附近,所以没有证据证明误差项服从同方差的正态分布的假定是不真实的,即残差通过正态性检验,满足模型基本假设。
第3章多元线性回归
思考与练习参考答案
3.2讨论样本容量n与自变量个数p的关系,它们对模型的参数估计有何影响?
答:
在多元线性回归模型中,样本容量n与自变量个数p的关系是:
n>>p。
如果n<=p对模型的参数估计会带来很严重的影响。
因为:
在多元线性回归模型中,有p+1个待估参数β,所以样本容量的个数应该大于解释变量的个数,否则参数无法估计。
解释变量X是确定性变量,要求,表明设计矩阵X中的自变量列之间不相关,即矩阵X是一个满秩矩阵。
若,则解释变量之间线性相关,是奇异阵,则的估计不稳定。
3.3证明随机误差项ε的方差s2的无偏估计。
证明:
3.4一个回归方程的复相关系数R=0.99,样本决定系数R2=0.9801,我们能判断这个回归方程就很理想吗?
答:
不能断定这个回归方程理想。
因为:
在样本容量较少,变量个数较大时,决定系数的值容易接近1,而此时可能F检验或者关于回归系数的t检验,所建立的回归方程都没能通过。
样本决定系数和复相关系数接近于1只能说明Y与自变量X1,X2,…,Xp整体上的线性关系成立,而不能判断回归方程和每个自变量是显著的,还需进行F检验和t检验。
在应用过程中发现,在样本容量一定的情况下,如果在模型中增加解释变量必定使得自由度减少,使得R2往往增大,因此增加解释变量(尤其是不显著的解释变量)个数引起的R2的增大与拟合好坏无关。
3.7验证
证明:
多元线性回归方程模型的一般形式为:
其经验回归方程式为,
又,
故,
中心化后,则有,
左右同时除以,
令,
样本数据标准化的公式为
,
则上式可以记为
则有
3.10验证决定系数R2与F值之间的关系式:
证明:
3.11研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民非商品支出x3(亿元)的关系。
数据见表3.9(略)。
(1)计算出y,x1,x2,x3的相关系数矩阵。
SPSS输出如下:
则相关系数矩阵为:
(2)求出y与x1,x2,x3的三元回归方程。
对数据利用SPSS做线性回归,得到回归方程为
(3)对所求的方程作拟合优度检验。
由上表可知,调整后的决定系数为0.708,说明回归方程对样本观测值的拟合程度较好。
(4)对回归方程作显著性检验;
原假设:
F统计量服从自由度为(3,6)的F分布,给定显著性水平=0.05,查表得,由方查分析表得,F值=8.283>4.76,p值=0.015,拒绝原假设,由方差分析表可以得到,说明在置信水平为95%下,回归方程显著。
(5)对每一个回归系数作显著性检验;
做t检验:
设原假设为,
统计量服从自由度为n-p-1=6的t分布,给定显著性水平0.05,查得单侧检验临界值为1.943,X1的t值=1.942<1.943,处在否定域边缘。
X2的t值=2.465>1.943。
拒绝原假设。
由上表可得,在显著性水平时,只有的P值<0.05,通过检验,即只有的回归系数较为显著;其余自变量的P值均大于0.05,即x1,x2的系数均不显著。
(6)如果有的回归系数没有通过显著性检验,将其剔除,重新建立回归方程,并作回归方程的显著性检验和回归系数的显著性检验。
解:
用后退法对数据重新做回归分析,结果如下:
选择模型二,重新建立的回归方程为:
对新的回归方程做显著性检验:
原假设:
F服从自由度为(2,7)的F分布,给定显著性水平=0.05,查表得,由方差分析表得,F值=11.117>4.74,p值=0.007,拒绝原假设.
认为在显著性水平=0.05下,x1,x2整体上对y有显著的线性影响,即回归方程是显著的。
对每一个回归系数做显著性检验:
做t检验:
设原假设为,统计量服从自由度为n-p-1=7的t分布,给定显著性水平0.05,查得单侧检验临界值为1.895,X1的t值=2.575>1.895,拒绝原假设。
故显著不为零,自变量X1对因变量y的线性效果显著;
同理β2也通过检验。
同时从回归系数显著性检验表可知:
X1,X2的p值都小于0.05,可认为对x1,x2分别对y都有显著的影响。
(7)求出每一个回归系数的置信水平为955D置信区间
由回归系数表可以看到,β1置信水平为95%的置信区间[0.381,8.970],
β2置信水平为95%的置信区间[3.134,14.808]
(8)求标准化回归方程
由回归系数表(上表)可得,标准化后的回归方程为:
(9)求当x01=75,x02=42,x03=3.1时的y的预测值,给定置信水平95%,用SPSS软件计算精确置信区间,用手工计算近似预测区间;
由SPSS输出结果可知,当时,(见上表),的置信度为95%的精确预测区间为(204.4,331.2)(见下表),的置信度为95%的近似预测区间为,手工计算得:
(219.6,316.0)。
(10)结合回归方程对问题做一些简单分析。
答:
由回归方程
可知农业总产值固定的时候,工业总产值每增加1亿元,货运总量增加4.676万吨;工业总产值固定的时候,农业总产值每增加1亿元,货运总量增加8.971万吨。
而居民非商品支出对货运总量没有显著的线性影响。
由标准化回归方程可知:
工业总产值、农业总产值与Y都是正相关关系,比较回归系数的大小可知农业总产值X2对货运总量Y的影响程度大一些。
第4章违背基本假设的情况
思考与练习参考答案
4.1试举例说明产生异方差的原因。
答:
例4.1:
截面资料下研究居民家庭的储蓄行为
Yi=b0+b1Xi+εi
其中:
Yi表示第i个家庭的储蓄额,Xi表示第i个家庭的可支配收入。
由于高收入家庭储蓄额的差异较大,低收入家庭的储蓄额则更有规律性,差异较小,所以εi的方差呈现单调递增型变化。
例4.2:
以某一行业的企业为样本建立企业生产函数模型
Yi=Aib1Kib2Lib3eεi
被解释变量:
产出量Y,解释变量:
资本K、劳动L、技术A,那么每个企业所处的外部环境对产出量的影响被包含在随机误差项中。
由于每个企业所处的外部环境对产出量的影响程度不同,造成了随机误差项的异方差性。
这时,随机误差项ε的方差并不随某一个解释变量观测值的变化而呈规律性变化,呈现复杂型。
4.2异方差带来的后果有哪些?
答:
回归模型一旦出现异方差性,如果仍采用OLS估计模型参数,会产生下列不良后果:
1、参数估计量非有效
2、变量的显著性检验失去意义
3、回归方程的应用效果极不理想
总的来说,当模型出现异方差性时,参数OLS估计值的变异程度增大,从而造成对Y的预测误差变大,降低预测精度,预测功能失效。
4.3简述用加权最小二乘法消除一元线性回归中异方差性的思想与方法。
答:
普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。
其中每个平方项的权数相同,是普通最小二乘回归参数估计方法。
在误差项等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。
然而在异方差的条件下,平方和中的每一项的地位是不相同的,误差项的方差大的项,在残差平方和中的取值就偏大,作用就大,因而普通最小二乘估计的回归线就被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。
由OLS求出的仍然是的无偏估计,但不再是最小方差线性无偏估计。
所以就是:
对较大的残差平方赋予较小的权数,对较小的残差平方赋予较大的权数。
这样对残差所提供信息的重要程度作一番校正,以提高参数估计的精度。
加权最小二乘法的方法:
4.4简述用加权最小二乘法消除多元线性回归中异方差性的思想与方法。
答:
运用加权最小二乘法消除多元线性回归中异方差性的思想与一元线性回归的类似。
多元线性回归加权最小二乘法是在平方和中加入一个适当的权数,以调整各项在平方和中的作用,加权最小二乘的离差平方和为:
(2)
加权最小二乘估计就是寻找参数的估计值使式
(2)的离差平方和达极小。
所得加权最小二乘经验回归方程记做
(3)
多元回归模型加权最小二乘法的方法:
首先找到权数,理论上最优的权数为误差项方差的倒数,即
(4)
误差项方差大的项接受小的权数,以降低其在式
(2)平方和中的作用;误差项方差小的项接受大的权数,以提高其在平方和中的作用。
由
(2)式求出的加权最小二乘估计就是参数的最小方差线性无偏估计。
一个需要解决的问题是误差项的方差是未知的,因此无法真正按照式(4)选取权数。
在实际问题中误差项方差通常与自变量的水平有关(如误差项方差随着自变量的增大而增大),可以利用这种关系确定权数。
例如与第j个自变量取值的平方成比例时,即=k时,这时取权数为
(5)
更一般的情况是误差项方差与某个自变量(与|ei|的等级相关系数最大的自变量)取值的幂函数成比例,即=k,其中m是待定的未知参数。
此时权数为
(6)
这时确定权数的问题转化为确定幂参数m的问题,可以借助SPSS软件解决。
4.5(4.5)式一元加权最小二乘回归系数估计公式。
证明:
由
得:
4.6验证(4.8)式多元加权最小二乘回归系数估计公式。
证明:
对于多元线性回归模型
(1)
,即存在异方差。
设
,
用左乘
(1)式两边,得到一个新的的模型:
,即。
因为,
故新的模型具有同方差性,故可以用广义最小二乘法估计该模型,得
原式得证。
4.7有同学认为当数据存在异方差时,加权最小二乘回归方程与普通最小二乘回归方程之间必然有很大的差异,异方差越严重,两者之间的差异就越大。
你是否同意这位同学的观点?
说明原因。
答:
不同意。
当回归模型存在异方差时,加权最小二乘估计(WLS)只是普通最小二乘估计(OLS)的改进,这种改进可能是细微的,不能理解为WLS一定会得到与OLS截然不同的方程来,或者大幅度的改进。
实际上可以构造这样的数据,回归模型存在很强的异方差,但WLS与OLS的结果一样。
加权最小二乘法不会消除异方差,只是消除异方差的不良影响,从而对模型进行一点改进。
4.8对例4.3的数据,用公式计算出加权变换残差,绘制加权变换残差图,根据绘制出的图形说明加权最小二乘估计的效果。
解:
用公式计算出加权变换残差,分别绘制加权最小二乘估计后的残差图和加权变换残差图(见下图)。
根据绘制出的两个图形可以发现加权最小二乘估计没有消除异方差,只是对原OLS的残差有所改善,而经过加权变换后的残差不存在异方差。
4.9参见参考文献[2],表4.12(P138)是用电高峰每小时用电量y与每月总用电量x的数据。
(1)用普通最小二乘法建立y与x的回归方程,并画出残差散点图。
解:
SPSS输出结果如下:
由上表可得回归方程为:
残差图为:
(2)诊断该问题是否存在异方差;
解:
a由残差散点图可以明显看出存在异方差,误差的方差随着的增加而增大。
b用SPSS做等级相关系数的检验,结果如下表所示:
得到等级相关系数,P值=0.021,认为残差绝对值与自变量显著相关,存在异方差。
(3)如果存在异方差,用幂指数型的权函数建立加权最小二乘回归方程;
解:
SPSS输出结果如图:
Coefficients
a,b
-.683
.298
-2.296
.026
.004
.000
.812
9.930
.000
(Constant)
x
Model
1
B
Std.Error
Unstandardized
Coefficients
Beta
Standardized
Coefficients
t
Sig.
DependentVariable:
y
a.
WeightedLeastSquaresRegression-WeightedbyWeightforyfromWLS,MOD_2
x**-1.500
b.
由上述表可得,在时对数似然函数达到最大,则幂指数的最优取值为。
加权后的回归方程为:
。
计算加权后的残差,并对残差绝对值和自变量做等级相关系数分析,结果如下表所示:
,P值为0.019<0.05,即加权最小二乘法没有消除异方差,只是消除异方差的不良影响,从而对模型进行一点改进。
Correlations
1.000
.321
*
.
.019
53
53
.321
*
1.000
.019
.
53
53
CorrelationCoefficient
Sig.(2-tailed)
N
CorrelationCoefficient
Sig.(2-tailed)
N
x
abseiw
Spearman'srho
x
abseiw
Correlationissignificantatthe0.05level(2-tailed).
*.
(4)用方差稳定变换消除异方差。
解:
对应变量做方差稳定变换()后,用最小二乘法做回归,SPSS结果如下表:
Coefficients
a
.582
.130
4.481
.000
.001
.000
.805
9.699
.000
(Constant)
x
Model
1
B
Std.Error
Unstandardized
Coefficients
Beta
Standardized
Coefficients
t
Sig.
DependentVariable:
sqrty
a.
则回归方程为:
。
保存预测值,计算出残差的绝对值后,计算等级相关系数,见下表:
其中,P值=0.254>0.05,说明异方差已经消除。
4.10试举一可能产生随机误差项序列相关的经济例子。
答:
例如,居民总消费函数模型:
Ct=b0+b1Yt+εtt=1,2,…,n
由于居民收入对消费影响有滞后性,而且今年消费水平受上年消费水平影响,则可能出现序列相关性。
另外由于消费习惯的影响被包含在随机误差项中,则可能出现序列相关性(往往是正相关)。
序列相关性带来的严重后果是什么?
答:
直接用普通最小二乘法估计随机误差项存在序列相关性的线性回归模型未知参数时,会产生下列一些问题:
参数估计量仍然是无偏的,但不具有有效性,因为有自相关性时参数估计值的方差大于无自相关性时的方差。
均方误差MSE可能严重低估误差项的方差
变量的显著性检验失去意义:
在变量的显著性检验中,统计量是建立在参数方差正确估计基础之上的,当参数方差严重低估时,容易导致t值和F值偏大,即可能导致得出回归参数统计检验和回归方程检验显著,但实际并不显著的严重错误结论。
当存在序列相关时,仍然是的无偏估计,但在任一特定的样本中,可能严重歪曲b的真实情况,即最小二乘法对抽样波动变得非常敏感
模型的预测和结构分析失效。
总结DW检验的优缺点。
答:
优点:
1.应用广泛,一般的计算机软件都可以计算出DW值;
2.适用于小样本;
3.可用于检验随机扰动项具有一阶自回归形式的序列相关问题。
缺点:
1.DW检验有两个不能确定的区域,一旦DW值落入该区域,就无法判断。
此时,只有增大样本容量或选取其他方法;
2.DW统计量的上、下界表要求n>15,这是由于样本如果再小,利用残差就很难对自相关性的存在做出比较正确的诊断;
3.DW检验不适应随机项具有高阶序列相关性的检验。
4.13表4.13中是某软件公司月销售额数据,其中,x为总公司的月销售额(万元);y为某分公司的月销售额(万元)。
(1)用普通最小二乘法建立y与x的回归方程;
由上表可知:
用普通二乘法建立的回归方程为
(2)用残差图及DW检验诊断序列的相关性;
1.以自变量x为横轴,普通