多元线性回归模型.docx

资源描述

多元线性回归模型.docx

《多元线性回归模型.docx》由会员分享，可在线阅读，更多相关《多元线性回归模型.docx（25页珍藏版）》请在冰豆网上搜索。

多元线性回归模型.docx

多元线性回归模型

第三章多元线性回归模型

一、名词解释

1、多元线性回归模型：

在现实经济活动中往往存在一个变量受到其他多个变量影响的现象，表现在线性回归模型中有多个解释变量，这样的模型被称做多元线性回归模型，多元是指多个解释变量

2、调整的可决系数R2:

又叫调整的决定系数，是一个用于描述多个解释变量对被解释变量的联合影响程

22-22门

度的统计量‘克服了R随解释变量的增加而增大的缺陷，与R的矢系为R2=1-（1-R2）-

n—k—1

3、偏回归系数：

在多元回归模型中，每一个解释变量前的参数即为偏回归系数，它测度了当其他解释变

量保持不变时，该变量增加1单位对被解释变量带来的平均影响程度。

4、正规方程组：

采用OLS方法估计线性回归模型时，对残差平方和矢于各参数求偏导，并令偏导数为0

后得到的方程组，其矩阵形式为XXAXYo

5、方程显著1•生检验：

是针对所有解释变量对被解释变量的联合影响是否显著所作的检验，旨在对模型中被解释变量与解释变量之间的线性矢系在总体上是否显著成立作岀判断。

、单项选择题

1、C：

F统计量的意义

2、A：

F统计量的定义

2Zei

3、B：

随机误差项方差的估计值:

・

n_k_1

4、A:

书上P92和P93公式

5、C：

A参看导论部分内容；B在判断多重共线等问题的时候，很有必要；D在相同解释变量情况下可以衡量

6、C：

书上P99,比较F统计量和可决系数的公式即可

7、A：

书P81

8、D：

A截距项可以不管它；B不考虑betaO；C相矢矢系与因果矢系的辨析

9、B：

注意！

只是在服从基本假设的前提下，统计量才服从相应的分布

10、D:

AB不能简单通过可决系数判断模型好坏，还要考虑样本量、异方差等问题；

三、多项选择题

1、ACDE：

概念性2、BD:

概念性3、BCD:

总体显著，则至少一个参数不为0

4、BC:

参考可决系数和F统计量的公式

5、AD:

考虑极端情况，ESS=O,可发现CE错

四、判断题、

1'"2、”3>X4>X：

调整的可决系数5、”

五、简答题

1、答：

多元线性回归模型与一元线性回归模型的区别表现在如下几个方面：

一是解释变量的个数不同；二是模型的经典假设不同，多元线性回归模型比一元线性回归模型多了个“解释变量之间不存在线性相矢尖系”的假定：

三是多元线性回归模型的参数估计式的表达更为复杂。

2、答:

在满足经典假设的条件下，参数的最小二乘估计量具有线性性、无偏性以及最小性方差，所以被

称为最优线性无偏估计量（BLUE）

对于多元线性回归最小二乘估计的正规方程组，能解出唯一的参数估计量的条件是（XX）-存

在，或者说各解释变量间不完全线性相矢。

六、计算分析题

1、解：

（1）预期sibs对劳动者受教育的年数有影响。

因此在收入及支出预算约束一定的条件下，子女越多的家庭，每个孩子接受教育的时间会越短。

根据多元回归模型偏回归系数的含义，sibs前的参数估计fi-0.094表明，在其他条件不变的情况下，每

增加1个兄弟姐妹，受教育年数会减少0.094年，因此，要减少1年受教育的时间，兄弟姐妹需增加

1/0.094=10.6个。

（2）medu的系数表示当兄弟姐妹数与父亲受教育的年数保持不变时，母亲每增加1年受教育的时间，

其子女作为劳动者就会预期增加0.131年的教育时间。

（3）首先计算两人受教育的年数分别为

10.36+0.13112+0.21012=14.452

10.36+0.13116+0.21016=15.816

因此，两人的受教育年限的差别为15.816・14.452=1.364

2、解：

（1）在给定5%显著性水平的情况下，进行t检验。

0.364

R参数的t值：

4.55

0.080

R」参数的t值：

0004=0.056

0.072

Ut参数的t值：

——3.89

0.658

在5%显著性水平下，自由度为19-3-1=15的t分布的临界值为to.O25（15）=2.131，R、Ut的参数

显著不为0，但不能拒绝R4的参数为0的假设。

（2）回归式表明：

①影响工资水平的主要原因是当期的物价水平、失业率，前期的物价水平对他的影响不是很大，②当期的物价水平与工资水平呈正向变动、失业率与工资水平呈相反变动，符合经济理

论，模型正确。

③可以将R）从模型删除.

3、解：

（1）In（Xi）的系数含义是在其他条件不变时，丫的绝对变化量与X的相对变动量之间的尖系系数，即：

Y的绝对变化量等于X的相对变动量乘以该系数，这里，厶丫=0.32打n（XJ、0.32（AXi/Xi）。

由此，

如果

X1增加10%，Y会增加0.032个单位。

【在进行Ln变换的时候，这种解释很重要】

（2）①原假设H。

：

=0；备择假设"0,

2经计算't统计量的值为1=0.32/0.22=1.455。

3在5%的显著性水平下，自由度为32-3=29的t分布的临界值为2.045,计算出的t值小于该临

界值，所以不拒绝原假设。

意味着销售额对R&D强度的影响不显著。

4在10%的显著性水平下，上分布的临界值为1.699,计算的t值小于该值，不拒绝原假设，意味着销售额对R&D强度的影响不显著。

（3）对X2,参数估计值的t统计值为0.05/0.46=1.087，它比10%显著性水平下的临界值还小，因此可以认为它对丫在统计上没有显著的影响。

4、解：

（D首先从经济理论上判断各解释变量与被解释变量之间的矢系：

1盒饭价格：

负向尖系，较显著影响；

2气温：

正向或负向不确定，略微显著的影响；

3附近餐厅的盒饭价格：

正向影响，显著影响；

4学生数量：

正向影响，非常显著；

故猜测X1为学生数量，X2为附近餐厅的盒饭价格，X3为气温，X4为校园内食堂的盒饭价格；

5、解：

（1）样本容量为

n=14.+1=15

RSS=TSS-ESS=66042-65965=77

ESS的自由度为：

d.f.=2

RSS的自由度为：

d.f.=n-2-1=12

（2）R=ESS/TSS=65965/66042=0.9988

R=1-（1-R）（n-1）/（n-k-1）=1-0.0012*14/12=0.9986

（3）应该采用方程显著性检验，即F检验，理由是只有这样才能判断X“X2一起是否对丫有影响。

（4）不能。

因为通过上述信息，仅可初步判断Xi、X2联合起来对丫有线性影响，两者的变化解释了

丫变化的99.8%。

但由于无法知道Xi,X2前参数的具体估计值，因此还无法判断它们各自对丫的影响

有多大。

6、解：

（1）

Var（弭周2）=Var（弭）-4Cov（固遐）+4Var（f?

2）

（2）

t=：

~吕冲，其中Yvar（（?

-2眄）为f?

—2码的样本标准差。

pvar（?

_2（?

2）

（3）由1・2j「V知S22，代入原模型得

丫一°（—22）Xi2X23X3j

~女口：

2（2X「X2）3X3一

7、解：

（1）方程B更合理些。

原因是：

方程B中的参数估计值的符号与现实更接近些，如与日照的小时数同

向变化，天长则慢跑的人会多些；与第二天需交学期论文的班级数成反向变化。

（2）解释变量的系数表明在其他解释变量不变的前提下，该解释变量引起解释变量平均水平的单位变

化。

由于在方程A和方程B中选择了不同的解释变量，方程A选择的是“该天的最高温度”，而方程

B选择的是“第二天需交学期论文的班级数”，造成了X?

与这两个变量之间矢系的不同，所以用相同

的数据估计相同的变量得到了不同的符号。

8解：

（1）在降雨量不变时，每亩增加1千克肥料将使当年的玉米产量增加0.1吨/亩；在每亩施肥量不变的情

况下，每增加1毫米的降雨量将使当年的玉米产量增加5.33吨/亩。

（2）在种地的一年中不施肥也不下雨的现象同时发生的可能性很小，所以玉米的负产量不可能存在•事

实上，这里的截距无实际意义。

（3）如果下的真实值为0.40，则存在一定偏误，但不能说估计值+是有偏估计。

理由是0.1是+的

一个估计值，而所谓估计的有偏性是针对估计的期望来说的，即如果取遍所有可能的样本，这些参数估计值的平均值与0.4有偏误的话，才能说估计是有偏的。

所谓有偏估计或无偏估计，仅与估计方法和模型假设有矣°

（4）不一定。

即便该方程并不满足所有的经典模型假设，不是最佳线性无偏估计量，IRS的真实值

也有等于5.33的可能性。

因为有偏估计意味着参数估计的期望不等于参数本身，并不排除参数的某一估计值恰好等于参数的真实值的可能性。

9、解:

■2-5

-1.3

■2•平〕

[

-31

（1）B=（XX）_XY=-1.3

4.4

-0.8

・2.2

-0.8

5.0

■

ESS/k~RSS/（

20.2

250.5>Fo.o5（2,29）=3.33

5.8

⑶S?

>Q33

通过方程显著性检验。

\29

（?

2—t：

.S?

2）=（-0.4-2.7561）

■2的99%的置倍区间为（・3.156,2.356）

10、解：

（1）直接给出了P值，所以没有必要计算t统计值以及查t分布表。

根据题意，如果P•值＜0.10,则我们拒绝参数为零的原假设。

由于表中所有参数的P值都超过了10%，所以没有系数是显著不为零的。

但由此去掉所有解释变量，

则会得到非常奇怪的结果。

其实正如我们所知道的，在多元回去归中省略变量时一定要谨慎，要有所

选择。

本例中‘value、income、popchang的p值仅比0.1稍大一点，在略掉unemp'localtax、statetax

的模型c中，及进一步略掉Density的模型D中，这些变量的系数都是显著的。

⑵针对联合假设Ho：

.：

i=0（i=1,5,67）的备择假设为Hi：

ft（i=1,5,6,7）

至少有一个不为零。

检验假设Ho，实际上就是对参数的约束的检验，无约束回归为模型A，受约束回

归为模型D，检验统计值为

f（RSSr・RSSu）/（k「kJ（5.038e+7—4.763e+7）/（7—3）_o462

一RSSJ/（n-ku-1）-（4.763e7）/（40-8）一-

显然，在H。

假设下，上述统计量服从F分布，在5%的显著性水平下，自由度为（4,32）的F分布的临界值为2.67o显然，计算的F值小于临界值，我们不能拒绝H。

所以3i（i=1,5,6,7）是联合不显著的。

（3）模型D中的3个解释变量全部通过了10%水平下的显著性检

验。

尽管R2较小，残差平方和较大，

但相对来说其AIC值最低，所以我们选择该模型为最优的模型。

（4）预期飞・0,-40,:

0,因为随着收入的增加；随着人口的增加，住房需求也会随之增

加；随着房屋价格的上升，住房需求减少。

回归结果与直觉相符，最优模型中参数估计值的符号为正确符号。

六、上机练习题

1解：

⑴⑵使用Eviews软件的计算结果如表所示

DependentVariable:

Variable

Coefficient

Std.Error

t-Statistic

Prob.

104.3146

6.409136

16.27592

0.40219

0.116348

3.456776

0.0035

-0.975568

30.32236

-0.032173

0.9748

R-squared

0.979727

Meandependentvar

755.15

AdjustedR-squared

0.977023

S.D.dependentvar

258.6859

S.E.ofregression

39.21162

Akaikeinfocriterion

10.32684

Sumsquaredresid

23063.27

Schwarzcriterion

10.47523

Loglikelihood

・89.94152

F-statistic

362.443

Durbin-Watsonstat

2.561395

Prob（F-statistic）

可见学生购买课外书籍与其受教育年限及家庭收入水平有如下具体矢系:

⑶将Xi=10,X2=480代入回归方程'可得

Y=-0.9756104.315X100.402x480=1235.13（元）

由于

*0.5979935

-0.0484161

-0.0007780

（XX厂1=-0.0484161

0.0267159

-0.0003455

<-0.0007780

-0.0003455

0.0000088

【这个可用excel进行运算，详见excel文件本章数据（2011.5.9-ZP更新版）】

因此，取Xo=（110480）,丫均值的预测的标准差为

在5%的显著性水平下，自由度为

18-2-1=15的t分布的临界值为to.o25（15）=2.131，于是丫均值

的95%的预测区间为

1235.13_2.131X20.23

同样容易得到丫个值得预测的标准差为

'『护口X°（X*X）CX。

'］巳23°6；27!

.266!

=1946.69=44.12

或f1141.11,1329.14）

于是，丫个值的95%的预测区间为

1235.132.131X44.12

2、解：

（1）Eviews软件回归结果如表所示。

DependentVariable:

LOG（Y）

Variable

Coefficient

Std.Error

t-Statistic

Prob.

L0G（P1）

-0.502122

0.109891

-4.569294

0.0002

LOG（P2）

0.146868

0.099006

1.48342

0.1553

LOG（P3）

0.087185

0.099852

0.873137

0.3941

LOG（X）

0.345257

0.082565

4.181649

0.0006

-0.73152

0.296947

-2.463467

0.0241

R-squared

0.982474

Meandependentvar

1.361301

AdjustedR-squared

0.978579

S.D.dependentvar

0.187659

S.E.ofregression

0.027465

Akaikeinfocriterion

・4.162123

Sumsquaredresid

0.013578

Schwarzcriterion

-3.915276

Loglikelihood

52.86441

F-statistic

252.2633

Durbin-Watsonstat

1.82482

Prob（F-statistic）

InY?

二073150.3453nX-0.5021InPi0.1469lnP20.0872lnP3

（-2.463）（4.182）（-4.569）（1.483）（0.873）

2R=0.9786,F=252.26,RSS=0.0135

容易验证，家庭收入水平与鸡肉的价格对鸡肉的消费需求有显著的影响，而猪肉价格及牛肉价格对鸡肉的消费影响不显著，尤其是牛肉价格的影响很小。

但方程总体的线性矢系是显著的。

（2）那么是否猪肉价格与牛肉价格真的对鸡肉的消费需求没有影响呢？

可检验如下原假设：

Ho：

对丫矢于X,R做回归得到下表所示的结果。

DependentVariable:

LOG（Y）

Variable

Coefficient

Std.Error

t-Statistic

Prob.

LOG（X）

0.451547

0.024554

18.38966

LOG（P1）

-0.372735

0.063104

-5.906668

-1.125797

0.08842

-12.73237

R-squared

0.980287

Meandependentvar

1.361301

AdjustedR-squared

0.978316

S.D.dependentvar

0.187659

S.E.ofregression

0.027634

Akaikeinfocriterion

-4.218445

Sumsquaredresid

0.015273

Schwarzcriterion

-4.070337

Loglikelihood

51.51212

F-statistic

497.2843

Durbin-Watsonstat

1.877706

Prob（F-statistic）

lnW=-1.12580.45151nX-0.37271nR

（-12.73）（18.39）（-5.91）

R2=0.9783,F=497.28,RSS=0.0153

为了检验原假设，求如下的F统计量：

I（RSSA・RSSu）/2F=

RSSu/（23-4-1）

（0.015300135）/2

-0.0135/18

=1.2

在5%的显著性水平下，自由度为（2,18）的F分布的临界值为Fo.O5（2,18）=3.55,0此，没有理由拒

绝原假设，即该地区猪肉与牛肉价格确实对家庭的鸡肉消费需求不产生显著影响。

第四章随机解释变量问题

一、名词解释

1、随机解释变量：

指在现实经济现象中，解释变量不是可控的，即解释变量的观测值具有随机性，并且与模型的随机干扰项可能有相矢矢系，这样的解释变量称为随机解释变量

2、工具变量：

顾名思义是在模型估计过程中被作为工具使用的变量，用以替代与随机干扰项相尖的随机解释变量。

二、单项选择题

1、C：

书P126

2、D：

书上P126

3、D：

书上P124

4、D：

P187DW检验的5个条件

5、D：

书上P126-127的三个条件

三、判断题

1、X：

不一定，分三种情况

书上P129三点特别注意

四、简答题

估计的一致性是指，随着样本容量的增加，即使当门一时，参数估计量依概率收敛于参数的真值，

即有：

Plim（Tn）=v

【P129有简单证明过程】对于一元线性回归模型：

丫=0。

+BiXt+片

Xt高度相尖而与人同期无尖

.Cov（乙,7）

1Cov（Zt,Xt）

2如果Xt和7同期相矢，则估计量有偏且不一致，这时需要用一个与

的工具变量乙来代替Xt进行OLS估计，这就是所谓的工具变量法。

3这时正规方程组易得：

；；1_'

4两边取概率极限得：

Plim」，乙叫

Plim（1；1）二“〔门一

PlimZiXi

五、计算分析题

1解：

（1）由于地方政府往往是根据过去的经验、当前的经济状况以及期望的经济发展前景来定制地区最低

限度工资水平的，而这些因素没有反映在上述模型中，而是被归结到了模型的随机扰动项中，因此坐i

与」不仅异期相矢，而且往往是同期相尖的，这将引起OLS估计量的偏误，甚至当样本容量增大时也

不具有一致性。

（2）全国最低限度的制定主要根据全国国整体的情况而定，因此MIN基本与上述模型的随机扰动项无

矢。

（3）由于地方政府在制定本地区最低工资水平时往往考虑全国的最低工资水平的要求，因此MN与

MIN具有较强的相尖性。

结合

（2）知MIN可以作为MIN1的工具变量使用。

2、能消除。

在基本假设下，XifX戲与U应是不相尖的，由此知，由Xit与X2t估计出的Y?

应与讥不

相尖。

【原模型存在同期相尖问题，因为丫J与气相尖。

但Xit，X2t与随机干扰项之间没有相矢性。

所以，

可以用Xit，X"作为Yt的工具变量，由）G，X"估计得到Y?

，可以消除Yt与随机干扰项之间的同期相矢问题。

】六、上机练习题

1、解：

用EViews软件得如下结果:

DependentVariable:

Method:

Two-StageLeastSquares

Date:

05/16/08Time:

21:

Sample:

Ineludedobservations:

Instrumentlist:

Variable

Coeffieient

Std.Error

t-Statistie

Prob.

0.905199

0.546501

1.656354

0.1416

GDP

0.669725

0.074876

8.944499

0.0000

R-squared

0.938650

Meandependentvar

5.444444

AdjustedR-squared

0.929885

S.D.dependentvar

2.297341

S.E.ofregression

0.608318

Sumsquaredresid

2.590354

F-statistie

80.00407

Durbin-Watsonstat

1.605439

Prob（F-statistie）

0.000044

由此可知稅收函数的估计结果为：

T=0.9052+0.6697GDP

（1.65）（8.94）

R=0.9387F=80.00D.W.=1.605

【操作过程】

（1）创建workfile

（2）选择第一个选项，并输入observation为9，再点击0K

（3）打开工作小窗口后，点击QUICK,EMPTYGROUP（・・・），打开数据录入

界面

Nmm

（4）在新的group小窗口中，将数据黏贴至此。

点击samp+/-可更改变量名

View|ProcObjectPrint]Nhm亡iFne亡绘DefaultSortTransposeiit4/・|Smpl4y・|DisDt

obsSER01SER02SER03

4.00000

5.00000

2.00000

1.00000

2.000000

7.00000

6000000

6.0000

展开阅读全文