第七章虚拟变量回归.docx

资源描述

第七章虚拟变量回归.docx

《第七章虚拟变量回归.docx》由会员分享，可在线阅读，更多相关《第七章虚拟变量回归.docx（30页珍藏版）》请在冰豆网上搜索。

第七章虚拟变量回归.docx

第七章虚拟变量回归

第一节虚拟变量的性质

在实际建模过程中，被解释变量不但受定量变量影响，同时还受定性变量影响。

例如需要考虑性别、民族、不同历史时期、季节差异、政府的更迭（工党-保守党）、经济体制的改革、固定汇率变为浮动汇率、从战时经济转为和平时期经济等。

这些因素也应该包括在模型中。

一、基本概念

由于定性变量通常表示的是某种特征的有和无，所以量化方法可采用取值为1或0。

这种变量称作虚拟变量（dummyvariable）。

虚拟变量也称：

哑元变量、定性变量等等。

通常用字母D或DUM加以表示（英文中虚拟或者哑元Dummy的缩写）。

用1表示具有某一“品质”或属性，用0表示不具有该“品质”或属性。

虚拟变量使得我们可以将那些无法定量化的变量引入回归模型中。

虚拟变量应用于模型中，对其回归系数的估计与检验方法和定量变量相同。

虚拟变量表示两分性质，即“是”或“否”，“男”或“女”等。

下面给出几个可以引入虚拟变量的例子。

例1：

你在研究学历和收入之间的关系，在你的样本中，既有女性又有男性，你打算研究在此关系中，性别是否会导致差别。

例2：

你在研究某省家庭收入和支出的关系，采集的样本中既包括农村家庭，又包括城镇家庭，你打算研究二者的差别。

例3：

你在研究通货膨胀的决定因素，在你的观测期中，有些年份政府实行了一项收入政策。

你想检验该政策是否对通货膨胀产生影响。

上述各例都可以用两种方法来解决，一种解决方法是分别进行两类情况的回归，然后看参数是否不同。

另一种方法是用全部观测值作单一回归，将定性因素的影响用虚拟变量引入模型。

二、虚拟变量设置规则

虚拟变量的设置规则涉及三个方面:

1.“0”和“1”选取原则

虚拟变量取“1”或“0”的原则，应从分析问题的目的出发予以界定。

从理论上讲，虚拟变量取“0”值通常代表比较的基础类型；而虚拟变量取“1”值通常代表被比较的类型。

“0”代表基期（比较的基础，参照物）；“1”代表报告期（被比较的效应）。

例如，比较收入时考察性别的作用。

当研究男性收入是否高于女性时，是将女性作为比较的基础（参照物），故有男性为“1”，女性为“0”。

2.属性（状态、水平）因素与设置虚拟变量数量的关系

定性因素的属性既可能为两种状态，也可能为多种状态。

例如，性别（男、女两种）、季节（4种状态），地理位置（东、中、西部），行业归属，所有制，收入的分组等。

虚拟变量数量的设置规则

1.若定性因素具有m（m≥2）个相互排斥属性（或几个水平），当回归模型有截距项时，只能引入m个虚拟变量；

2.当回归模型无截距项时，则可引入m个虚拟变量；否则，就会陷入“虚拟变量陷阱”。

例（虚拟变量陷阱）

研究居民住房消费支出和居民可支配收入xi之间的数量关系。

回归模型的设定为：

现在要考虑城镇居民和农村居民之间的差异，如何办？

为了对“城镇居民”、“农村居民”进行区分，分析各自在住房消费支出上的差异，设为城镇;为农村。

则模型为

（模型有截距，“居民属性”定性变量只有两个相互排斥的属性状态（m=2），故只设定一个虚拟变量。

）

若对两个相互排斥的“居民属性”，引入m=2个虚拟变量，则有

则模型

（1）为

则对任一家庭都有：

D1+D2=1

即产生完全共线，陷入了“虚拟变量陷阱”。

“虚拟变量陷阱”的实质是：

完全多重共线性。

第二节虚拟解释变量的回归

在计量经济学中，通常引入虚拟变量的方式分为加法方式和乘法方式两种：

即

原模型

实质:

加法方式引入虚拟变量改变的是截距；乘法方式引入虚拟变量改变的是斜率。

一、加法类型

（1）一个两种属性定性解释变量而无定量变量的情形

例：

按性别划分的教授薪金

序号

起薪，Y

（千美元）

性别

（男=1，女=0）

21.7

18.5

20.5

17.5

21.2

DependentVariable:

Method:

LeastSquares

Date:

11/23/11Time:

22:

Sample:

110

Includedobservations:

Variable

Coefficient

Std.Error

t-Statistic

Prob.

18.00000

0.311769

57.73503

0.0000

3.280000

0.440908

7.439191

0.0001

R-squared

0.873701

Meandependentvar

19.64000

AdjustedR-squared

0.857913

S.D.dependentvar

1.849444

S.E.ofregression

0.697137

Akaikeinfocriterion

2.293187

Sumsquaredresid

3.888000

Schwarzcriterion

2.353704

Loglikelihood

-9.465934

F-statistic

55.34156

Durbin-Watsonstat

0.667284

Prob（F-statistic）

0.000073

Yi=18+3.28Di

（2）包含一个定量变量，一个定性变量模型

设有模型，

yt=0+1xt+2D+ut,

其中yt，xt为定量变量；D为定性变量。

当D=0或1时，上述模型可表达为，

0+1xt+ut,（D=0）

yt=（0+2）+1xt+ut,（D=1）

D=1或0表示某种特征的有无。

反映在数学上是截距不同的两个函数。

若2显著不为零，说明截距不同；若2为零，说明这种分类无显著性差异。

例：

中国成年人体重y（kg）与身高x（cm）的回归关系如下：

–105+xD=1（男）

y=-100+x-5D=

–100+xD=0（女）

注意：

1关于定性变量中的哪个类别取0，哪个类别取1，是任意的，不影响检验结果。

但解释模型时一定注意1，0是怎样分配的。

②定性变量中取值为0所对应的类别称作基础类别（basecategory）。

③对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。

如：

1（大学）

D=0（中学）

-1（小学）。

（3）一个定性解释变量（两种以上属性）和一个定量解释变量的情形

（4）两个定性解释变量（均为两种属性）和一个定量解释变量的情形

例：

研究大学教师的年薪是否受到性别、学历的影响。

性别和学历是两个不同的标准。

按性别标准教师可以分成男、女两类，应该引入一个虚拟变量；按学历标准大学教师可以分为大学本科学历、硕士学历、博士学历三类，应该引入两个虚拟变量，共引入三个虚拟变量：

令Y代表年薪，X代表教龄，建立模型：

可以看出基准类是本科女教师，B0为刚参加工作的本科女教师的工资；B1为参加工作时间对工资的影响；B2是性别差异系数;B3和B4为学历差异系数，B3是硕士学历与本科学历的收入差异，B4是博士学历与本科学历的收入差异；通过上述分析，我们可以确定Bi的符号。

在这个问题中，一共有六个类别，但是我们只引入了三个虚拟变量，而不是五个。

在就多个标准引入虚拟变量时，应该注意每一标准下引入虚拟变量个数应该是这一标准下类别数目减一，所以我们在本例中只引入三个虚拟变量而不是五个。

如果引入五个虚拟变量就会陷入虚拟变量陷阱。

运用OLS得到回归结果，再用t检验讨论因素是否对模型有影响。

加法方式引入虚拟变量的主要作用为：

1.在有定量解释变量的情形下，主要改变方程截距；2.在没有定量解释变量的情形下，主要用于方差分析。

二、乘法类型

基本思想

以乘法方式引入虚拟变量时，是在所设立的模型中，将虚拟解释变量与其它解释变量的乘积，作为新的解释变量出现在模型中，以达到其调整设定模型斜率系数的目的。

或者将模

型斜率系数表示为虚拟变量的函数，以达到相同的目的。

乘法引入方式:

（1）截距不变；

（2）截距和斜率均发生变化；

分析手段：

仍然是条件期望。

以上只考虑定性变量影响截距，未考虑影响斜率，即回归系数的变化。

当需要考虑时，可建立如下模型：

yt=0+1xt+2D+3xtD+ut,

其中xt为定量变量；D为定性变量。

当D=0或1时，上述模型可表达为，

（0+2）+（1+3）xt+ut,（D=1）

yt=

0+1xt+ut,（D=0）

通过检验3是否为零，可判断模型斜率是否发生变化。

情形1（不同类别数据的截距和斜率不同）情形2（不同类别数据的截距和斜率不同）

例:

用虚拟变量区别不同历史时期（file:

dummy2）

中国进出口贸易总额数据（1950-1984）见下表。

试检验改革前后该时间序列的斜率是否发生变化。

定义虚拟变量D如下

0（1950-1977）

1（1978-1984）

中国进出口贸易总额数据（1950-1984）（单位：

百亿元人民币）

年

trade

time

timeD

年

trade

time

timeD

1950

0.415

1968

1.085

1951

0.595

1969

1.069

1952

0.646

1970

1.129

1953

0.809

1971

1.209

1954

0.847

1972

1.469

1955

1.098

1973

2.205

1956

1.087

1974

2.923

1957

1.045

1975

2.904

1958

1.287

1976

2.641

1959

1.493

1977

2.725

1960

1.284

1978

3.550

1961

0.908

1979

4.546

1962

0.809

1980

5.638

1963

0.857

1981

7.353

1964

0.975

1982

7.713

1965

1.184

1983

8.601

1966

1.271

1984

12.010

1967

1.122

以时间time为解释变量，进出口贸易总额用trade表示，估计结果如下：

trade=0.37+0.066time-33.96D+1.20timeD

（1.86）（5.53）（-10.98）（12.42）

0.37+0.066time（D=0,1950-1977）

-33.59+1.27time（D=1,1978-1984）

上式说明，改革前后无论截距和斜率都发生了变化。

进出口贸易总额的年平均增长量扩大了18倍。

三、虚拟解释变量综合应用

（1）结构变化分析

结构变化的实质是检验所设定的模型在样本期内是否为同一模型。

显然，平行回归、共点回归、不同的回归三个模型均不是同一模型。

平行回归模型的假定是斜率保持不变（加法类型，包括方差分析）；

共点回归模型的假定是截距保持不变（乘法类型，又被称为协方差分析）；

不同的回归的模型的假定是截距、斜率均为变动的（加法、乘法类型的组合）。

例：

比较改革开放前、后我国居民（平均）“储蓄—收入”总量关系是否发生了变化？

模型的设定形式为：

回归方程：

显然，只要、不同时为零，上述模型就能刻画改革开放前后我国居民储蓄收入模型结构是否发生变化。

（2）交互效应分析

交互作用

一个解释变量的边际效应有时可能要依赖于另一个解释变量。

为此，Klein和Morgen（1951）提出了有关收入和财产在决定消费模式上相互作用的假设。

他们认为消费的边际倾向不仅依赖于收入，而且也依赖于财产的多少——较富有的人可能会有不同的消费倾向。

由于YZ捕获了收入和财产之间的相互作用而被称为交互作用项。

显然，刻画交互作用的方法，在变量为数量（定量）变量时，是以乘法方式引入虚拟变量的。

例:

是否发展油菜籽生产与是否发展养蜂生产的差异对农副产品总收益的影响研究。

模型设定为:

（1）式中,以加法形式引入虚拟变量暗含何假设?

（1）式以加法形式引入，暗含的假设为：

菜籽生产和养蜂生产是分别独立地影响农副品生产总收益。

但是，在发展油菜籽生产时，同时也发展养蜂生产，所取得的农副产品生产总收益，可能会高于不发展养蜂生产的情况。

即在是否发展油菜籽生产与养蜂生产的虚拟变量和间，很可能存在着一定的交互作用，且这种交互影响对被解释

变量农副产品生产收益会有影响。

问题：

如何刻画同时发展油菜籽生产和养蜂生产的交互作用？

基本思想:

在模型中引入相关的两个变量的乘积。

区别之处在于，上页定义中的交互效应是针对数量变量，而现在是定性变量,又应当如何处理?

（3）分段回归分析

作用:

提高模型的描述精度。

虚拟变量也可以用来代表数量因素的不同阶段。

分段线性回归就是类似情形中常见的一种。

一个例子:

研究不同时段我国居民的消费行为。

实际数据表明，1979年以前，我国居民的消费支出呈缓慢上升的趋势；从1979年开始，居民消费支出为快速上升趋势。

如何刻画我国居民在不同时段的消费行为？

基本思路：

采用乘法方式引入虚拟变量的手段。

显然，1979年是一个转折点，可考虑在这个转折点作为虚拟变量设定的依据。

若设X*＝1979，当t＜X*时可引入虚拟变量。

（为什么选择1979作为转折点？

）

依据上述思路，有如下描述我国居民在不同时段消费行为模型：

分析：

第九章设定误差

采用OLS法估计模型时，实际上有一个隐含的假设，即模型是正确设定的。

这包括两方面的含义：

函数形式设定正确和解释变量选择正确。

但在实践中这个假设却不一定能实现。

可能犯下列三个方面的错误：

l选择错误的函数形式

l遗漏有关的解释变量

l包括无关的解释变量

从而造成所谓的“误设定”问题。

一、选择错误的函数形式

这类错误中比较常见的是将非线性关系作为线性关系处理。

函数形式选择错误，所建立的模型便无法反映所研究现象的实际情况，会产生很严重的后果。

因此，应当根据实际问题，选择正确的函数形式。

在前面各章的介绍中采用的函数形式以线性函数为主，下面再介绍几种比较常见的函数形式的模型。

这几种模型是：

双对数模型，半对数模型，双曲函数模型和多项式回归模型。

1．双对数线性模型

如我们经常研究的生产函数模型：

著名的生产函数柯布—道格拉斯生产函数：

（9.1.1）

对于模型（9.1.1）通过两边同时取对数，可以得到：

（9.1.2）

令

代入模型（9.1.2）

（9.1.3）

在实际经济活动分析中，双对数模型的应用是非常广泛的，其原因在于，它有一个很吸引人的特点，也就是斜率

度量了产出对资本投入和劳动力投入的弹性。

证明：

而上式参数的经济意义就表示弹性。

例题1：

下列表中给出的1978-1998年间总产出（用国内生产总值GDP度量），劳动投入（用从业人员度量，单位万人），以及资本投入（用固定资产度量），运用OLS法建立我国的生产函数模型为：

（9.1.4）

年份

国内生产总值Y

从业人员L

固定资本投入K

1978

1980

1985

1987

1988

1989

1990

1991

1992

1993

1994

1995

1996

1997

1998

3605.6

4551.3

8792.1

11784.0

14704.0

16466.0

18319.5

21280.4

25863.6

34500.6

46690.7

58510.5

68330.4

74894.3

79853.3

40152

42361

49873

52783

54334

55329

63909

64799

65554

66373

67199

67947

68850

69600

69957

1073.9

1318.0

2641.0

3742.0

4624.0

4339.0

4732.0

5940.0

8317.0

12980.0

16856.3

20300.5

23336.1

25154.2

28180.8

从上式可以看出：

偏斜率系数0.5616表示产出对劳动投入的弹性，也就是说其表示在资本投入保持不变的情况下，劳动投入每增加一个百分点，平均产出增加0.56%。

如果将两个弹性系数相加，我么那将得到一个重要的经济参数—规模报酬参数，它反映了产出对投入的比例变动。

如果两个弹性系数之和为1，则称为规模报酬不变；如果两个弹性系数之和大于1，则称规模报酬递增。

在本例中，弹性系数之和是1.3846，表明中国经济是规模报酬递增的。

2.半对数模型

半对数模型指的是因变量和解释变量中一个为对数形式而另一个为线性的模型。

应变量为对数形式的称为对数-线性模型（log-linmodel）。

解释变量为对数形式的称为线性-对数模型（lin-logmodel）。

我们先介绍前者，其形式如下:

对数-线性模型中,斜率的含义是Y的百分比变动,即解释变量X变动一个单位引起的因变量Y的百分比变动。

这是因为,利用微分可以得出:

这表明，斜率度量的是解释变量X的单位变动所引起的因变量Y的相对变动。

将此相对变动乘以100，就得到Y的百分比变动，或者说得到Y的增长率。

由于对数-线性模型中斜率系数的这一含义，因而也叫增长模型（growthmodel）。

增长模型通常用于测度所关心的经济变量（如GDP）的增长率。

例如，可以通过估计下面的半对数模型

得到一国GDP的年增长率的估计值，这里t为时间趋势变量。

例2：

1973-1987年间美国未偿付消费者信贷的增长

下表给出了1973-1987年间美国未偿付消费者信贷的数据，Y单位为百万美元表示未偿付消费者信贷额，t表示年份数，试估计未偿付消费者信贷的年增长率并进行分析。

年份

1973

190601

1981

366597

1974

199365

1982

381115

1975

204963

1983

430382

1976

228162

1984

511768

1977

263808

1985

592409

1978

308272

1986

646055

1979

347507

1987

685545

1980

349386

要估计未偿付消费者信贷的年增长率，即估计以下模型：

lnYt=1+2t+ut

根据以上数据得到回归结果如下：

回归系数均是统计显著的，回归方程显著成立。

对回归结果解释如下：

回归系数0.0946表示未偿付消费者信贷Y的年增长率为9.46%.

对截距12.007解释如下，

当t=0时，lnY0=12.007，

即当t=0时，Y0≈163911.7，即1973年初未偿付消费者信贷量为163911.7百万美元。

线性-对数模型的形式如下：

与前面类似，可用微分得到

因此

这表明

上式表明，Y的绝对变动量等于

乘以X的相对变动量。

因此,线性-对数模型通常用于研究解释变量每变动1%引起的因变量的绝对变动量是多少这类问题。

例3：

1973-1987年美国GNP与货币供给间的关系

下表给出了1973-1987年间美国GNP与货币供给的数据，Y表示GNP，X表示货币供给用M2度量单位均为亿美元。

试估计货币供给每增加一个百分点，GNP的绝对变动量。

年份

1973

1359.3

861.0

1981

3052.6

1795.5

1974

1472.8

908.5

1982

3166.0

1954.0

1975

1598.4

1023.2

1983

3405.7

2185.2

1976

1782.8

1163.7

1984

3772.2

2363.6

1977

1990.5

1286.7

1985

4014.9

2562.6

1978

2249.7

1389.0

1986

4240.3

2807.7

1979

2508.2

1500.2

1987

4526.7

2901.0

1980

2723.0

1633.1

根据以上数据估计以下模型：

Yt=1+2lnXt+ut

得到回归结果如下：

回归系数均是统计显著的，回归方程显著成立。

对回归结果解释如下：

回归系数2584.8表示货币供给每增加一个百分点，GNP的绝对变化量为25.848亿美元。

3.双曲函数模型

双曲函数模型的形式为：

不难看出，这是一个仅存在变量非线性的模型，很容易用重新定义的方法将其线性化。

双曲函数模型的特点是，当X趋向无穷时，Y趋向0，反映到图上，就是当X趋向无穷时，Y将无限靠近其渐近线（Y=0）。

双曲函数模型通常用于描述著名的恩格尔曲线和菲利普斯曲线。

4.多项式回归模型

多项式回归模型通常用于描述生

展开阅读全文

第七章 虚拟变量回归.docx

第七章虚拟变量回归.docx