虚拟变量案例.docx

上传人:b****8 文档编号:27987026 上传时间:2023-07-07 格式:DOCX 页数:15 大小:182.10KB
下载 相关 举报
虚拟变量案例.docx_第1页
第1页 / 共15页
虚拟变量案例.docx_第2页
第2页 / 共15页
虚拟变量案例.docx_第3页
第3页 / 共15页
虚拟变量案例.docx_第4页
第4页 / 共15页
虚拟变量案例.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

虚拟变量案例.docx

《虚拟变量案例.docx》由会员分享,可在线阅读,更多相关《虚拟变量案例.docx(15页珍藏版)》请在冰豆网上搜索。

虚拟变量案例.docx

虚拟变量案例

虚拟变量(dummyvariable)

在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。

例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。

这些因素也应该包括在模型中。

由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。

这种变量称作虚拟变量,用D表示。

虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。

1.截距移动

设有模型,

yt=0+1xt+2D+ut,

其中yt,xt为定量变量;D为定性变量。

当D=0或1时,上述模型可表达为,

0+1xt+ut,(D=0)

yt=

(0+2)+1xt+ut,(D=1)

D=0

D=1

图8.1测量截距不同

D=1或0表示某种特征的有无。

反映在数学上是截距不同的两个函数。

若2显著不为零,说明截距不同;若2为零,说明这种分类无显著性差异。

例:

中国成年人体重y(kg)与身高x(cm)的回归关系如下:

–105+xD=1(男)

y=-100+x-5D=

–100+xD=0(女)

注意:

①若定性变量含有m个类别,应引入m-1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummyvariabletrap)。

②关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。

③定性变量中取值为0所对应的类别称作基础类别(basecategory)。

④对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。

如:

1(大学)

D=0(中学)

-1(小学)。

【案例1】中国季节GDP数据的拟合(虚拟变量应用,file:

case1及case1-solve)

GDP序列图不用虚拟变量的情形

若不采用虚拟变量,得回归结果如下,

GDP=1.5427+0.0405T

(11.0)(3.5)R2=0.3991,DW=2.6,s.e.=0.3

定义

1(1季度)1(2季度)1(3季度)

D1=D2=D3=

0(2,3,4季度)0(1,3,4季度)0(1,2,4季度)

第4季度为基础类别。

GDP=2.0922+0.0315T–0.8013D1–0.5137D2–0.5014D3

(64.2)(15.9)(-24.9)(-16.1)(-15.8)

R2=0.9863,DW=1.96,s.e.=0.05

附数据如下:

GDP

t

D1

D2

D3

1996:

1

1.3156

1

1

0

0

1996:

2

1.6600

2

0

1

0

1996:

3

1.5919

3

0

0

1

1996:

4

2.22096

4

0

0

0

1997:

1

1.46856

5

1

0

0

1997:

2

1.84948

6

0

1

0

1997:

3

1.7972

7

0

0

1

1997:

4

2.3620

8

0

0

0

1998:

1

1.58994

9

1

0

0

1998:

2

1.88316

10

0

1

0

1998:

3

1.97044

11

0

0

1

1998:

4

2.51176

12

0

0

0

1999:

1

1.6784

13

1

0

0

1999:

2

1.9405

14

0

1

0

1999:

3

2.0611

15

0

0

1

1999:

4

2.5254

16

0

0

0

2000:

1

1.8173

17

1

0

0

2000:

2

2.1318

18

0

1

0

2000:

3

2.2633

19

0

0

1

2000:

4

2.7280

20

0

0

0

数据来源:

《中国统计年鉴》1998-2001

2.斜率变化

以上只考虑定性变量影响截距,未考虑影响斜率,即回归系数的变化。

当需要考虑时,可建立如下模型:

yt=0+1xt+2D+3xtD+ut,

其中xt为定量变量;D为定性变量。

当D=0或1时,上述模型可表达为,

(0+2)+(1+3)xt+ut,(D=1)

yt=

0+1xt+ut,(D=0)

通过检验3是否为零,可判断模型斜率是否发生变化。

图8.5情形1(不同类别数据的截距和斜率不同)图8.6情形2(不同类别数据的截距和斜率不同)

例2:

用虚拟变量区别不同历史时期(file:

case2及case2-solve)

中国进出口贸易总额数据(1950-1984)见上表。

试检验改革前后该时间序列的斜率是否发生变化。

定义虚拟变量D如下

0(1950-1977)

D=

1(1978-1984)

中国进出口贸易总额数据(1950-1984)(单位:

百亿元人民币)

trade

T

D

T*D

trade

T

D

T*D

1950

0.415

1

0

0

1968

1.085

19

0

0

1951

0.595

2

0

0

1969

1.069

20

0

0

1952

0.646

3

0

0

1970

1.129

21

0

0

1953

0.809

4

0

0

1971

1.209

22

0

0

1954

0.847

5

0

0

1972

1.469

23

0

0

1955

1.098

6

0

0

1973

2.205

24

0

0

1956

1.087

7

0

0

1974

2.923

25

0

0

1957

1.045

8

0

0

1975

2.904

26

0

0

1958

1.287

9

0

0

1976

2.641

27

0

0

1959

1.493

10

0

0

1977

2.725

28

0

0

1960

1.284

11

0

0

1978

3.550

29

1

29

1961

0.908

12

0

0

1979

4.546

30

1

30

1962

0.809

13

0

0

1980

5.638

31

1

31

1963

0.857

14

0

0

1981

7.353

32

1

32

1964

0.975

15

0

0

1982

7.713

33

1

33

1965

1.184

16

0

0

1983

8.601

34

1

34

1966

1.271

17

0

0

1984

12.010

35

1

35

1967

1.122

18

0

0

以时间T=time为解释变量,进出口贸易总额用trade表示,估计结果如下:

trade=0.37+0.066time-33.96D+1.20timeD

(1.86)(5.53)(-10.98)(12.42)

0.37+0.066time(D=0,1950-1977)

=

-33.59+1.27time(D=1,1978-1984)

上式说明,改革前后无论截距和斜率都发生了变化。

进出口贸易总额的年平均增长量扩大了18倍。

【案例3】香港季节GDP数据(单位:

千亿港元)的拟合(file:

case3及case3-solve)

1990~1997年香港季度GDP呈线性增长。

1997年由于遭受东南亚金融危机的影响,经济发展处于停滞状态,1998~2002年底GDP总量几乎没有增长(见上图)。

对这样一种先增长后停滞,且含有季节性周期变化的过程简单地用一条直线去拟合显然是不恰当的。

为区别不同季节,和不同时期,定义季节虚拟变量D2、D3、D4和区别不同时期的虚拟变量DT如下(数据见附录):

1(第2季度)

D2=

0(其他季度)

1(第3季度)

D3=

0(其他季度)

1(第4季度)

D4=

0(其他季度)

1(1998:

1~2002:

4)

DT=

0(1990:

1~1997:

4)

得估计结果如下:

GDPt=1.1573+0.0668t+0.0775D2+0.2098D3+0.2349D4+1.8338DT-0.0654DTt

(50.8)(64.6)(3.7)(9.9)(11.0)(19.9)(-28.0)

R2=0.99,DW=0.9,s.e.=0.05,F=1198.4,T=52,t0.05(52-7)=2.01

对于1990:

1~1997:

4

GDPt=1.1573+0.0668t+0.0775D2+0.2098D3+0.2349D4

对于1998:

1~2002:

4

GDPt=2.9911+0.0014t+0.0775D2+0.2098D3+0.2349D4

如果不采用虚拟变量拟合效果将很差:

GDPt=1.6952+0.0377t

(20.6)(13.9)

R2=0.80,DW=0.3,T=52,t0.05(52-2)=2.01

【案例4】天津市粮食市场小麦批发价与面粉零售价的关系研究(file:

xiezhiyong)

首先看天津市粮食市场小麦批发价格的变化情况(图1)。

1995年初,天津市粮食市场的小麦批发价格首先放开。

在经历5个月的上扬之后,进入平稳波动期。

从1996年8月份开始小麦批发价格一路走低。

至2002年12月份,小麦批发价格降至是1160元/吨。

其次看面粉零售价的变化情况。

因为面粉零售价格直接关系到居民的日常生活,所以开始时没有与小麦批发价格一起放开。

当小麦批发价格一路看涨时,1995年1月至1996年6月面粉零售价格一直处于2.14元/千克的水平上。

1996年7月起,面粉零售价格也开始在市场上放开。

受小麦批发价格上涨的影响,一个月内面粉零售价格从2.14元/千克涨到2.74元/千克。

在这个价位上坚持了11个月之后,面粉零售价格开始下降。

与小麦批发价格的下降相一致,在经历了5年零7个月的变化之后,面粉零售价格又恢复到接近开放前2.14元/千克的水平上(2.17元)。

散点图如图2。

按时间分析这些观测点的变化情况(见图3,逆时针方向运动)。

见图4,直接拟合这些数据效果将很差(R2=0.027,r=0.17)。

图1图2

图3图4

利用虚拟变量技术,在模型中加入虚拟变量。

定义

D=0,(1995:

1~1996:

6,面粉零售价格放开之前),

D=1,(1996:

7~2002:

12,面粉零售价格放开之后)。

取对数关系建立模型。

Lnsale的系数没有显著性(对于面粉零售价格放开之前的散点来说回归直线是一条水平线)。

剔出Lnsale变量,得估计结果

PRICE=2.140+1.1215LnsaleD–7.7458D

(131.5)(23.9)(-23.0)R2=0.9054,

PRICE=2.140,D=0

PRICE=–5.6058+1.1215Lnsale,D=1

一条回归直线的斜率为零,一条回归直线的斜率为1.12。

可决系数从不加虚拟变量模型的0.046增加到0.905(输出结果见下)。

本例也可以建立倒数模型:

PRICE=2.140+1.5141D–1565.9(1/sale)D

(145.9)(32.1)(-27.0)R2=0.9231,

PRICE=2.140,D=0

PRICE=3.6541–1565.9(1/sale),D=1

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 其它模板

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1