多元线性回归模型Word格式.docx
《多元线性回归模型Word格式.docx》由会员分享,可在线阅读,更多相关《多元线性回归模型Word格式.docx(23页珍藏版)》请在冰豆网上搜索。
概念性2、BD:
概念性3、BCD:
总体显著,则至少一个参数不为0
4、BC:
参考可决系数和F统计量的公式
5、AD:
考虑极端情况,ESS=0,可发现CE错
四、判断题、
1、"
2、"
3、X4、X:
调整的可决系数5、"
五、简答题
1、答:
多元线性回归模型与一元线性回归模型的区别表现在如下几个方面:
一是解释变量的个数不同;
二是模型的经典假设不同,多元线性回归模型比一元线性回归模型多了个“解释变量之间不存在线性相关关系”的假定;
三是多元线性回归模型的参数估计式的表达更为复杂。
2、答:
在满足经典假设的条件下,参数的最小二乘估计量具有线性性、无偏性以及最小性方差,所以被
称为最优线性无偏估计量(BLUE)
对于多元线性回归最小二乘估计的正规方程组,能解出唯一的参数估计量的条件是(XX)-1存
在,或者说各解释变量间不完全线性相关。
六、计算分析题
1、解:
(1)预期sibs对劳动者受教育的年数有影响。
因此在收入及支出预算约束一定的条件下,子女越多的家庭,每个孩子接受教育的时间会越短。
根据多元回归模型偏回归系数的含义,sibs前的参数估计值-0.094表明,在其他条件不变的情况下,每
增加1个兄弟姐妹,受教育年数会减少0.094年,因此,要减少1年受教育的时间,兄弟姐妹需增加
1/0.094=10.6个。
(2)medu的系数表示当兄弟姐妹数与父亲受教育的年数保持不变时,母亲每增加1年受教育的时间,
其子女作为劳动者就会预期增加0.131年的教育时间。
(3)首先计算两人受教育的年数分别为
10.36+0.13112+0.21012=14.452
10.36+0.13116+0.21016=15.816
因此,两人的受教育年限的差别为15.816-14.452=1.364
2、解:
(1)在给定5%显著性水平的情况下,进行t检验。
0.364
R参数的t值:
4.55
0.080
R」参数的t值:
0004=0.056
0.072
Ut参数的t值:
一--3.89
0.658
在5%显著性水平下,自由度为19-3-1=15的t分布的临界值为t0.025(15)=2.131,R、Ut的参数
显著不为0,但不能拒绝R4的参数为0的假设。
(2)回归式表明:
①影响工资水平的主要原因是当期的物价水平、失业率,前期的物价水平对他的影响不是很大,②当期的物价水平与工资水平呈正向变动、失业率与工资水平呈相反变动,符合经济理
论,模型正确。
③可以将R)从模型删除.
3、解:
(1)ln(X1)的系数含义是在其他条件不变时,Y的绝对变化量与X的相对变动量之间的关系系数,即:
Y的绝对变化量等于X的相对变动量乘以该系数,这里,厶丫=0.32打n(X1)、0.32(AX1/X1)。
由此,如果
X1增加10%,Y会增加0.032个单位。
【在进行Ln变换的时候,这种解释很重要】
(2)①原假设H。
:
=0;
备择假设H1:
^^0,
2经计算,t统计量的值为t=0.32/0.22=1.455。
3在5%的显著性水平下,自由度为32-3=29的t分布的临界值为2.045,计算出的t值小于该临
界值,所以不拒绝原假设。
意味着销售额对R&
D强度的影响不显著。
4在10%的显著性水平下,t分布的临界值为1.699,计算的t值小于该值,不拒绝原假设,意味着销售额对R&
(3)对X2,参数估计值的t统计值为0.05/0.46=1.087,它比10%显著性水平下的临界值还小,因此可以认为它对Y在统计上没有显著的影响。
4、解:
(1)首先从经济理论上判断各解释变量与被解释变量之间的关系:
1盒饭价格:
负向关系,较显著影响;
2气温:
正向或负向不确定,略微显著的影响;
3附近餐厅的盒饭价格:
正向影响,显著影响;
4学生数量:
正向影响,非常显著;
故猜测为:
X1为学生数量,X2为附近餐厅的盒饭价格,X3为气温,X4为校园内食堂的盒饭价格;
5、解:
(1)样本容量为
n=14.+1=15
RSS=TSS-ESS=66042-65965=77
ESS的自由度为:
d.f.=2
RSS的自由度为:
d.f.=n-2-1=12
(2)R=ESS/TSS=65965/66042=0.9988
_2
R=1-(1-R)(n-1)/(n-k-1)=1-0.0012*14/12=0.9986
(3)应该采用方程显著性检验,即F检验,理由是只有这样才能判断X"
X2一起是否对Y有影响。
(4)不能。
因为通过上述信息,仅可初步判断X1、X2联合起来对Y有线性影响,两者的变化解释了
Y变化的99.8%。
但由于无法知道X1,X2前参数的具体估计值,因此还无法判断它们各自对Y的影响
有多大。
6、解:
(1)
Var(弭-2周2)=Var(弭)-4Cov(固遐)+4Var(f?
2)
(2)
t=护_2%)T,其中Yvar((?
!
-2眄)为f?
—2码的样本标准差。
pvar(?
_2(?
(3)由1-2j「V知S22,代入原模型得
丫一°
(—22)X12X23X3」
「°
如:
2(2X「X2)3X3」
这就是所需的模型,其中二估计值彳及其样本标准差都能通过对该模型进行估计得到。
7、解:
(1)方程B更合理些。
原因是:
方程B中的参数估计值的符号与现实更接近些,如与日照的小时数同
向变化,天长则慢跑的人会多些;
与第二天需交学期论文的班级数成反向变化。
(2)解释变量的系数表明在其他解释变量不变的前提下,该解释变量引起解释变量平均水平的单位变
化。
由于在方程A和方程B中选择了不同的解释变量,方程A选择的是“该天的最高温度”,而方程
B选择的是“第二天需交学期论文的班级数”,造成了X2与这两个变量之间关系的不同,所以用相同
的数据估计相同的变量得到了不同的符号。
8解:
(1)在降雨量不变时,每亩增加1千克肥料将使当年的玉米产量增加0.1吨/亩;
在每亩施肥量不变的情
况下,每增加1毫米的降雨量将使当年的玉米产量增加5.33吨/亩。
(2)在种地的一年中不施肥也不下雨的现象同时发生的可能性很小,所以玉米的负产量不可能存在•事
实上,这里的截距无实际意义。
(3)如果下的真实值为0.40,则存在一定偏误,但不能说估计值'
-f是有偏估计。
理由是0.1是'
-f的
一个估计值,而所谓估计的有偏性是针对估计的期望来说的,即如果取遍所有可能的样本,这些参数估计
值的平均值与0.4有偏误的话,才能说估计是有偏的。
所谓有偏估计或无偏估计,仅与估计方法和模型假设有关。
(4)不一定。
即便该方程并不满足所有的经典模型假设,不是最佳线性无偏估计量,Irs的真实值
也有等于5.33的可能性。
因为有偏估计意味着参数估计的期望不等于参数本身,并不排除参数的某一
估计值恰好等于参数的真实值的可能性。
9、解:
(?
2—t:
.S?
2)=(-0.4一2.7561)
~2
■2的99%的置倍区间为(-3.156,2.356)
10、解:
(1)直接给出了P值,所以没有必要计算t统计值以及查t分布表。
根据题意,如果P-值<0.10,则我们拒绝参数为零的原假设。
由于表中所有参数的P值都超过了10%,所以没有系数是显著不为零的。
但由此去掉所有解释变量,
则会得到非常奇怪的结果。
其实正如我们所知道的,在多元回去归中省略变量时一定要谨慎,要有所
选择。
本例中,value、income、popchang的p值仅比0.1稍大一点,在略掉unemp、localtax、statetax
的模型C中,及进一步略掉Density的模型D中,这些变量的系数都是显著的。
(2)针对联合假设Ho:
■:
i=0(i=1,5,6,7)的备择假设为Hi:
和(i=1,5,6,7)中
至少有一个不为零。
检验假设Ho,实际上就是对参数的约束的检验,无约束回归为模型A,受约束回
归为模型D,检验统计值为
f_(RSSr-RSSU)/(ku-kJ_(5.038e+7—4.763e+7)/(7—3)_0462
一RSSj/(n-kU-1)_(4.763e7)/(40-8)一.
显然,在Ho假设下,上述统计量服从F分布,在5%的显著性水平下,自由度为(4,32)的F分布的临界值为2.67。
显然,计算的F值小于临界值,我们不能拒绝Ho,所以3i(i=1,5,6,7)是联合不显著的。
(3)模型D中的3个解释变量全部通过了10%水平下的显著性检验。
尽管R2较小,残差平方和较大,
但相对来说其AIC值最低,所以我们选择该模型为最优的模型。
(4)预期飞・0,-40,'
-2:
0,因为随着收入的增加;
随着人口的增加,住房需求也会随之增
加;
随着房屋价格的上升,住房需求减少。
回归结果与直觉相符,最优模型中参数估计值的符号为正确符号。
六、上机练习题
1解:
(1)
(2)使用Eviews软件的计算结果如表所示
DependentVariable:
Y
Variable
Coefficient
Std.Error
t-Statistic
Prob.
X1
104.3146
6.409136
16.27592
X2
0.40219
0.116348
3.456776
0.0035
C
-0.975568
30.32236
-0.032173
0.9748
R-squared
0.979727
Meandependentvar
755.15
AdjustedR-squared
0.977023
S.D.dependentvar
258.6859
S.E.ofregression
39.21162
Akaikeinfocriterion
10.32684
Sumsquaredresid
23063.27
Schwarzcriterion
10.47523
Loglikelihood
-89.94152
F-statistic
362.443
Durbin-Watsonstat
2.561395
Prob(F-statistic)
可见学生购买课外书籍与其受教育年限及家庭收入水平有如下具体关系:
Y--0.9756104.315X10.402X2
(-0.032)
R=0.9797,
(16.276)(3.457)
R=0.9770,F=362.44
⑶将X1=10,
X2=480代入回归方程,可得
Y=-0.9756104.315X100.402x480=1235.13(元)
由于
【这个可用excel进行运算,详见excel文件本章数据(2011.5.9-ZP更新版)】
觅=阴%7疋X尸XT=
23063.270.2661=.^09^=20.23
.18-2-1
在5%的显著性水平下,自由度为18-2-1=15的t分布的临界值为t0.025(15)=2.131,于是Y均值
的95%的预测区间为
1235.13_2.131X20.23或(1192.02,1278.24)
同样容易得到Y个值得预测的标准差为
S?
’『护口X°
(X'
X)‘X。
'
]巳23°
6;
27!
.266!
=1946.69=44.12
于是,Y个值的95%的预测区间为
1235.13_2.131X44.12或(1141.11,1329.14)
2、解:
(1)Eviews软件回归结果如表所示。
LOG(Y)
LOG(P1)
-0.502122
0.109891
-4.569294
0.0002
LOG(P2)
0.146868
0.099006
1.48342
0.1553
LOG(P3)
0.087185
0.099852
0.873137
0.3941
LOG(X)
0.345257
0.082565
4.181649
0.0006
-0.73152
0.296947
-2.463467
0.0241
0.982474
1.361301
0.978579
0.187659
0.027465
Akaikeinfocriterion
-4.162123
0.013578
Schwarzcriterion
-3.915276
52.86441
252.2633
1.82482
InY?
二-0.73150.3453nX-0.5021InP10.1469InP20.0872InP3
(-2.463)(4.182)(-4.569)(1.483)(0.873)
R=0.9786,F=252.26,RSS=0.0135
容易验证,家庭收入水平与鸡肉的价格对鸡肉的消费需求有显著的影响,而猪肉价格及牛肉价格对鸡肉的消费影响不显著,尤其是牛肉价格的影响很小。
但方程总体的线性关系是显著的。
(2)那么是否猪肉价格与牛肉价格真的对鸡肉的消费需求没有影响呢?
可检验如下原假设:
H0:
对丫关于X,R做回归得到下表所示的结果。
0.451547
0.024554
18.38966
-0.372735
0.063104
-5.906668
-1.125797
0.08842
-12.73237
0.980287
0.978316
0.027634
-4.218445
0.015273
-4.070337
51.51212
497.2843
1.877706
lnW=-1.12580.45151nX-0.37271nR
(-12.73)(18.39)(-5.91)
R2=0.9783,F=497.28,RSS=0.0153
为了检验原假设,求如下的F统计量:
l(RSS^-RSSU)/2
F=
RSSU/(23-4-1)
(0.0153-0.0135)/2
-0.0135/18
=1.2
在5%的显著性水平下,自由度为(2,18)的F分布的临界值为F0.05(2,18)=3.55,因此,没有理由拒
绝原假设,即该地区猪肉与牛肉价格确实对家庭的鸡肉消费需求不产生显著影响。
第四章随机解释变量问题
一、名词解释
1、随机解释变量:
指在现实经济现象中,解释变量不是可控的,即解释变量的观测值具有随机性,并且与模型的随机干扰项可能有相关关系,这样的解释变量称为随机解释变量
2、工具变量:
顾名思义是在模型估计过程中被作为工具使用的变量,用以替代与随机干扰项相关的随机解释变量。
二、单项选择题
书P126
2、D:
书上P126
3、D:
书上P124
4、D:
P187DW检验的5个条件
5、D:
书上P126-127的三个条件
三、判断题
1、X:
不一定,分三种情况
2、X:
书上P129三点特别注意
3」
四、简答题
估计的一致性是指,随着样本容量的增加,即使当n—时,参数估计量依概率收敛于参数的真值,
AA
即有:
Plim(Tn)=v
【P129有简单证明过程】对于一元线性回归模型:
Y=0。
+BiXt+片
1在第二章曾得如下最小二乘估计量:
屛=二學=优F人\
Ex2ZXt2
2如果Xt和7同期相关,则估计量有偏且不一致,这时需要用一个与Xt高度相关而与人同期无关
的工具变量乙来代替Xt进行OLS估计,这就是所谓的工具变量法。
④两边取概率极限得:
五、计算分析题
(1)由于地方政府往往是根据过去的经验、当前的经济状况以及期望的经济发展前景来定制地区最低
限度工资水平的,而这些因素没有反映在上述模型中,而是被归结到了模型的随机扰动项中,因此MINi
与」不仅异期相关,而且往往是同期相关的,这将引起OLS估计量的偏误,甚至当样本容量增大时也
不具有一致性。
(2)全国最低限度的制定主要根据全国国整体的情况而定,因此MIN基本与上述模型的随机扰动项无关。
(3)由于地方政府在制定本地区最低工资水平时往往考虑全国的最低工资水平的要求,因此MIN1与MIN具有较强的相关性。
结合
(2)知MIN可以作为MIN1的工具变量使用。
2、能消除。
在基本假设下,X1t,X2t与Jt应是不相关的,由此知,由X1t与X2t估计出的Y?
应与讥不
相关。
【原模型存在同期相关问题,因为Yj与气相关。
但X1t,X2t与随机干扰项之间没有相关性。
所以,
可以用X1t,X2t作为Yt的工具变量,由X1t,X2t估计得到Y?
,可以消除Yt与随机干扰项之间的同期相关问题。
】六、上机练习题
1、解:
用EViews软件得如下结果:
T
Method:
Two-StageLeastSquares
Date:
05/16/08Time:
21:
58
Sample:
19
Ineludedobservations:
9
Instrumentlist:
Z
Coeffieient
t-Statistie
0.905199
0.546501
1.656354
0.1416
GDP
0.669725
0.074876
8.944499
0.0000
0.938650
5.444444
0.929885
S.D.dependentvar
2.297341
0.608318
2.590354
F-statistie
80.00407
1.605439
Prob(F-statistie)
0.000044
由此可知税收函数的估计结果为:
T=0.9052+0.6697GDP
(1.65)(8.94)
R=0.9387F=80.00D.W.=1.605
【操作过程】
(1)创建workfile
(2)选择第一个选项,并输入observation为9,再点击0K
(3)打开工作小窗口后,点击QUICK,EMPTYGROUP(…),打开数据录入
界面
(4)在新的group小窗口中,将数据黏贴至此。
点击samp+/-可更改变量名
■Group:
UHTITLEDVorkfile:
UBTITLEDXUntitled□回区
View|ProcObjectPrint]N日m亡|Fne亡绘DefaultSortTranspose引it4/-|Smpl4y-|DisDt
obs
SER01
SER02
SER03
1
3000000
4.000000
5.000000
2.000000
1.000000
3
5000000
7.000000
6000000
4
6.000000
8.000000