《应用回归分析》课后题答案整理版.docx
《《应用回归分析》课后题答案整理版.docx》由会员分享,可在线阅读,更多相关《《应用回归分析》课后题答案整理版.docx(42页珍藏版)》请在冰豆网上搜索。
《应用回归分析》课后题答案整理版
《应用回归分析》课后题答案[整理版]
《应用回归分析》部分课后习题答案
第一章回归分析概述1.1变量间统计关系和函数关系的区别是什么,答:
变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系,而变量间的函数关系是指由一个变量唯一确定另外一个变量的确定关系。
1.2回归分析与相关分析的联系与区别是什么,答:
联系有回归分析和相关分析都是研究变量间关系的统计学课题。
区别有a.在回归分析中,变量y称为因变量,处在被解释的特殊地位。
在相关分析中,变量x和变量y处于平等的地位,即研究变量y与变量x的密切程度与研究变量x与变量y的密切程度是一回事。
b.相关分析中所涉及的变量y与变量x全是随机变量。
而在回归分析中,因变量y是随机变量,自变量x可以是随机变量也可以是非随机的确定变量。
C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。
而回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。
1.3回归模型中随机误差项ε的意义是什么,答:
ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y与x1,x2„..xp的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。
1.4线性回归模型的基本假设是什么,
答:
线性回归模型的基本假设有:
1.解释变量x1.x2„.xp是非随机的,观测值xi1.xi2„..xip是常数。
2.等方差及不相关的假定条件为{E(εi)=0i=1,2„.Cov(εi,εj)=,σ^2
3.正态分布的假定条件为相互独立。
4.样本容量的个数要多于解释变量的个数,即n>p.
1.5回归变量的设置理论根据是什么,在回归变量设置时应注意哪些问题,
答:
理论判断某个变量应该作为解释变量,即便是不显著的,如果理论上无法判断那么可以采用统计方法来判断,解释变量和被解释变量存在统计关系。
应注意的问题有:
在选择变量时要注意与一些专门领域的专家合作,不要认为一个回归模型所涉及的变量越多越好,回归变量的确定工作并不能一次完成,需要反复试算,最终找出最合适的一些变量。
1.6收集,整理数据包括哪些内容,
答;常用的样本数据分为时间序列数据和横截面数据,因而数据收集的方法主要有按时间顺序统计数据和在同一时间截面上统计数据,在数据的收集中,样本容量的多少一般要与设置的解释变量数目相配套。
而数据的整理不仅要把一些变量数据进行折算差分甚至把数据对数化,标准化等有时还需注意剔除个别特别大或特别小的“野值”。
1.7构造回归理论模型的基本依据是什么,
答:
选择模型的数学形式的主要依据是经济行为理论,根据变量的样本数据作出解释变量与被解释变量之间关系的散点图,并将由散点图显示的变量间的函数关系作为理论模型的数学形式。
对同一问题我们可以采用不同的形式进行计算机模拟,对不同的模拟结果,选择较好的一个作为理论模型。
1.8为什么要对回归模型进行检验,
答:
我们建立回归模型的目的是为了应用它来研究经济问题,但如果马上就用这个模型去预测,控制,分析,显然是不够慎重的,所以我们必须通过检验才能确定这个模型是否真正揭示了被解释变量和解释变量之间的关系。
1.9回归模型有那几个方面的应用,
答:
回归模型的应用方面主要有:
经济变量的因素分析和进行经济预测。
1.10为什么强调运用回归分析研究经济问题要定性分析和定量分析相结合,
答:
在回归模型的运用中,我们还强调定性分析和定量分析相结合。
这是因为数理统计方法只是从事物外在的数量表面上去研究问题,不涉及事物质的规定性,单纯的表面上的数量关系是否反映事物的本质,这本质究竟如何,必须依靠专门的学科研究才能下定论,所以,在经济问题的研究中,我们不能仅凭样本数据估计的结果就不加分析地说长道短,必须把参数估计的结果和具体经济问题以及现实情况紧密结合,这样才能保证回归模型在经济问题研究中的正确应用。
第二章一元线性回归
2.14解答:
(1)散点图为:
(2)x与y之间大致呈线性关系。
,,
yx,,,,(3)设回归方程为01
n,,
xynxy,,ii,1i,7,,=1n,22()xnx,,i1i,
,,
,,,,,,,,yx2073101
?
,,可得回归方程为yx17
22n,,1(4),,,yy(),iin-2i=1
2n,,1,,,yx,,(()),i01n-2i=1
222,,(10-(-1+71,,,,,))(10-(-1+72))(20-(-1+73))1=,,223,,,,(20-(-1+74))(40-(-1+75)),,
1,,,,,16904936,,3
110/3,1,,,3306.13
2,,(5)由于N(,),,11Lxx
,(),,,L,,,1xx11t,,,2/L,xx,
服从自由度为n-2的t分布。
因而
,,(),,L,1xx,,Ptn||
(2)1,,,,,,/2,,,,,,
,,,,,1,,也即:
=ptt(),,,,,,,1/211/2,,LLxxxx
11,的置信度为的置信区间为(7-2.353,,,7+2.353)可得95%3333133
即为:
(2.49,11.5)
2,1()x2,,,,N(,())00nLxx
,
,,,,,0000t,,,,222,,1()1()xx(),,,,nLnLxxxx
服从自由度为n-2的t分布。
因而,,
,,,,,,,00Ptn||
(2)1,,,,,,,,/2,2,,,1()x,,,,nL,,xx,,
,22,,,,1()1()xx即,,,,,,,,,,,,,,ptt()1,,0/200/2nLnLxxxx
可得,的置信度为的置信区间为()95%7.77,5.77,1
n,,2()yy,,i2i,1(6)x与y的决定系数r,,,490/6000.817n,2()yy,,ii,1
(7)
ANOVA
x
平方和均方显著性dfF组间(组合)9.00024.5009.000.100
线性项加权的8.16718.16716.333.056
偏差.8331.8331.667.326
组内1.0002.500
总数10.0004
由于,拒绝,说明回归方程显著,x与y有显著的线性关系。
FF,(1,3)H,0
,22nn,,,L,111xx21(8)其中,,t,,,,eyy(),,iii,2,nn,,22ii,,11,/L,xx
71021,,,,3.661333303
t,2.353,/2
tt,,3.66,/2
H:
0,,,,接受原假设认为显著不为0,因变量y对自变量x的一元线性回归成立。
?
011
n,,
()()xxyy,,,iiLxy1i,(9)相关系数r,,nn,,LLxxyy2()()xxyy,,,,ii11ii,,
707=,,0.904
1060060,
,1%,,5%小于表中的相应值同时大于表中的相应值,x与y有显著的线性关系.r?
(10)
yxe序号,y
111064221013-33320200442027-75540346残差图为:
从图上看,残差是围绕e=0随机波动,从而模型的基本假定是满足的。
置信度为的95%置信区间xy,28.4万元,(11)当广告费=4.2万元时,销售收入00
,
近似为y2,,,即(17.1,39.7)
2.15解答:
(1)散点图为:
(2)x
与y之间大致呈线性关系。
,,
(3)设回归方程为yx,,,,01
n,,
xynxy,,ii,(2637021717),i,1,,0.0036=,1n,(71043005806440),22()xnx,,ii,1
,,
,,,,,,,yx2.850.00367620.106801
?
,可得回归方程为yx0.10680.0036
22n,,1(4),,,yy(),iin-2i=1
2n,,1,,,yx,,(()),i01n-2i=1
=0.2305
,0.4801
2,,N(,)(5)由于,,11Lxx
,(),,,L,,,1xx11t,,,2/L,xx,
服从自由度为n-2的t分布。
因而
,,(),,L,1xx,,Ptn||
(2)1,,,,,,/2,,,,,,
,,,,,1,,也即:
=ptt(),,,,,,,1/211/2,,LLxxxx
可得,的置信度为的置信区间为95%1
(0.0036-1.860,,0.4801/12978600.4801/1297860,0.0036+1.860)
即为:
(0.0028,0.0044)
2,1()x2,,,,N(,())00nLxx
,
,,,,,0000t,,,,222,,1()1()xx(),,,,nLnLxxxx
服从自由度为n-2的t分布。
因而
,,
,,,,,,,00Ptn||
(2)1,,,,,,,,/2,2,,,1()x,,,,nL,,xx,,
,22,,,,1()1()xx,,,,,,,,,,,,,,即ptt()1,,0/200/2nLnLxxxx
的置信度为的置信区间为()95%0.3567,0.5703,可得1
n,,2()yy,,i16.820272i,1r,,(6)x与y的决定系数=0.908n,18.5252()yy,,ii,1
(7)
ANOVAx
平方和均方显著性dfF组间(组合)1231497.5007175928.2145.302.168
线性项加权的1168713.03611168713.03635.222.027
偏差62784.464610464.077.315.885
组内66362.500233181.250总数1297860.0009
由于,拒绝,说明回归方程显著,x与y有显著的线性关系。
FF,(1,9)H,0
,22nn,,,L,111xx21(8)其中,,t,,,,eyy(),,iii,2,nn,,22,,ii11,/L,xx
0.00361297860,,,8.5420.04801
t,1.895,/2
tt,,8.542,/2
接受原假设认为显著不为0,因变量y对自变量x的一元线性回归成立。
H:
0,,,,?
011
n,,
()()xxyy,,,iiLxy1i,(9)相关系数r,,nn,,LL2xxyy()()xxyy,,,,ii11ii,,
4653=,0.9489
129786018.525,
,1%,,5%小于表中的相应值同时大于表中的相应值,x与y有显著的线性关系.r?
(10)
yxe序号,y
3(50.423218253.0768
0.1192221510.8808
0.04123107043.9588
-0.0868455022.0868
-0.8348548011.8348
-0.4188692033.4188
-0.4668713504.54.9688
0.223283251.51.2768
0.4812967032.5188
0.519210121554.4808
从图上看,残差是围绕e=0随机波动,从而模型的基本假定是满足的。
(11)新保单时,需要加班的时间为x,,10003.7y小时。
00
,
ytnh的置信概率为1-,,的置信区间精确为y
(2)1,,,(12),00/200,
即为(2.7,4.7)
,
近似置信区间为:
y,2,,即(2.74,4.66)0
,
1-,的置信区间ytnh,,
(2),(13)可得置信水平为为,即为(3.33,4.07).0/200,
2.16
(1)散点图为:
可以用直线回归描述y与x之间的关系.
(2)回归方程为:
yx,,12112.6293.314(3)
从图上可看出,检验误差项服从正态分布。
第三章多元线性回归
3.11解:
(1)用SPSS算出y,x1,x2,x3相关系数矩阵:
相关性
yx1x2x3
Pearson相关性y1.000.556.731.724
x1.5561.000.113.398
x2.731.1131.000.547
x3.724.398.5471.000
y..048.008.009
x1.048..378.127
x2.008.378..051
x3.009.127.051.
Ny10101010
x110101010
x210101010
x310101010
~r所以=
a系数
模型标准系
非标准化系数数B的95.0%置信区间相关性共线性统计量
B标准误差试用版tSig.下限上限零阶偏部分容差VIF1(常量)-348.2176.459-1.974.096-780.083.5008060
x13.7541.933.3851.942.100-.9778.485.556.621.350.8251.211x27.1012.880.5352.465.049.05314.149.731.709.444.6871.455x312.44710.569.2771.178.284-13.4138.310.724.433.212.5861.708
5
a.因变量:
y
(2)
ˆ所以三元线性回归方程为y,,348.28,3.754x1,7.101x2,12.447x3
模型汇总
模型更改统计量标准估计的
RR方调整R方误差R方更改F更改df1df2Sig.F更改
a1.898.806.70823.44188.8068.28336.015a.预测变量:
(常量),x3,x1,x2。
(3)
由于决定系数R方=0.708R=0.898较大所以认为拟合度较高
(4)
bAnova
模型平方和df均方FSig.
a1回归13655.37034551.7908.283.015
残差3297.1306549.522
总计16952.5009
a.预测变量:
(常量),x3,x1,x2。
b.因变量:
y
因为F=8.283P=0.015<0.05所以认为回归方程在整体上拟合的好
(5)
a系数
模型B的95.0%置信区
非标准化系数标准系数间相关性共线性统计量
B标准误差试用版tSig.下限上限零阶偏部分容差VIF
1(-348.280176.459-1.974.096-780.06083.500
常量
)
x13.7541.933.3851.942.100-.9778.485.556.621.350.8251.211x27.1012.880.5352.465.049.05314.149.731.709.444.6871.455x312.44710.569.2771.178.284-13.41538.310.724.433.212.5861.708
a.因变量:
y
(6)可以看到P值最大的是x3为0.284,所以x3的回归系数没有通过显著检验,应去除。
去除x3后作F检验,得:
bAnova
模型平方和df均方FSig.
a1回归12893.19926446.60011.117.007
残差4059.3017579.900
总计16952.5009
a.预测变量:
(常量),x2,x1。
b.因变量:
y
由表知通过F检验
继续做回归系数检验
a系数
模型共线性统计非标准化系数标准系数B的95.0%置信区间相关性量B标准误差试用版tSig.下限上限零阶偏部分容差VIF
1(常量)-459.624153.058-3.003.020-821.547-97.700
x14.6761.816.4792.575.037.3818.970.556.697.476.9871.013
x28.9712.468.6763.634.0083.13414.808.731.808.672.9871.013
a.因变量:
y
此时,我们发现x1,x2的显著性大大提高。
(7)x1:
(-0.997,8.485)x2:
(0.053,14.149)x3:
(-13.415,38.310)
****ˆ(8)y,0.385x1,0.535x2,0.277x3
(9)
a残差统计量
极小值极大值均值标准偏差N预测值175.4748292.5545231.500038.9520610标准预测值-1.4381.567.0001.00010预测值的标准误差10.46620.19114.5263.12710调整的预测值188.3515318.1067240.183549.8391410残差-25.1975933.22549.0000019.1402210标准残差-1.0751.417.000.81610Student化残差-2.1161.754-.1231.18810已删除的残差-97.6152350.88274-8.6834843.4322010Student化已删除的残差-3.8322.294-.2551.65810Mahal。
距离.8945.7772.7001.55510Cook的距离.0003.216.486.97610居中杠杆值.099.642.300.17310a.因变量:
y
所以置信区间为(175.4748,292.5545)
(10)由于x3的回归系数显著性检验未通过,所以居民非商品支出对货运总量影响不大,但是回归方程整体对数据拟合较好
3.12解:
在固定第二产业增加值,考虑第三产业增加值影响的情况下,第一产业每增加一个单位,GDP就增加0.607个单位。
在固定第一产业增加值,考虑第三产业增加值影响的情况下,第二产业每
增加一个单位,GDP就增加1.709个单位。
第四章违背基本假设的情况
4.8
加权变化残差图上点的散步较之前的残差图,没有明显的趋势,点的散步较随机,因此加权最小二乘估计的效果较最小二乘估计好。
4.9解:
a系数
模型非标准化系数标准系数
B标准误差试用版tSig.
1(常量)-.831.442-1.882.065
x.004.000.83911.030.000a.因变量:
y
ˆ由SPSS计算得:
=-0.831+0.004xy
残差散点图为:
(2)由残差散点图可知存在异方差性
再用等级相关系数分析:
相关系数
xt
*Spearman的rhoX相关系数1.000.318
Sig.:
双侧:
..021
N5353
*T相关系数.3181.000
Sig.:
双侧:
.021.
N5353*.在置信度:
双测:
为0.05时,相关性是显著的。
P=0.021所以方差与自变量的相关性是显著的。
(3)
模型描述
因变量y
自变量1x
权重源x
幂值1.500
模型:
MOD_1.
M=1.5时可以建立最优权函数,此时得到:
ANOVA
平方和df均方FSig.
回归.0061.00698.604.000残差.00351.000
总计.00952
系数
未标准化系数标准化系数B标准误试用版标准误tSig.
:
常数:
-.683.298-2.296.026x.004.000.812.0829.930.000
ˆ所以:
-0.683+0.004xy,
(4)
a系数
模型非标准化系数标准系数
B标准误差试用版tSig.
1(常量).582.1304.481.000
x.001.000.8059.699.000a.因变量:
yy
4.10经济变量的滞后性会给序列带来自相关性。
如前期消费额对后期消费额一般会有明显的影响,有时,经济变量的这种滞后性表现出一种不规则的循环运动,
当经济情况处于衰退的低谷时,经济扩张期随之开始,这时,大多数经济时间序列上升的快一些。
在经济扩张时期,经济时间数列内部有一种内在的动力,受此影响,时间序列一直上升到循环的顶点,在顶点时刻,经济收缩随之开始。
因此,在这样的时间序列数据中,顺序观察值之间的相关现象是恨自然的。
4.11当一个线性回归模型的随机误差项存在序列相关时,就违背了线性回归方程的基本假设,如果仍然直接用普通最小二乘估计未知参数,将会产生严重后果,一般情况下序列相关性会带来下列问题:
(1)参数的估计值不再具有最小方差线性无偏性。
(2)均方误差MSE可能严重低估误差项的方差。
(3)容易导致对t值评价过高,常用的F检验和t检验失效。
如果忽视这一点,可能导致得出回归参数统计检验为显著,但实际上并不显著的严重错误结论。
(4)当存在序列相关时,最小二乘估计量对抽样波动变得非常敏感。
(5)如果不加处理地运用普通最小二乘法估计模型参数,用此模型进行预测和进行结构分析将会带来较大的方差甚至错误的解释。
4.12优点:
DW检验有着广泛的应用,对很多模型能简单方便的判断该模型有无序列相关性,当DW的值在2左右时,则无需查表,即可放心的认为模型不存在序列的自相关性。
缺点:
DW检验有两个不能确定的区域,一旦DW值落在这两个区域,就无法判断,这时,只有增大样本容量或选取其他方法;DW统计量的上、下界表要求n>15,这是因为如果样本再小,利用残差就很难对自相关的存在性作出比较正确的判断;DW检验不适合随机项具有高阶序列相关的检验。
4.13解:
(1)
a系数
模型非标准化系数标准系数
B标准误差试用版tSig.
1(常量)-1.435.242-5.930.000
x