虚拟变量案例.docx
《虚拟变量案例.docx》由会员分享,可在线阅读,更多相关《虚拟变量案例.docx(14页珍藏版)》请在冰豆网上搜索。
虚拟变量案例
虚拟变量(dummyvariable)
在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。
例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。
这些因素也应该包括在模型中。
由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。
这种变量称作虚拟变量,用D表示。
虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。
1.截距移动
设有模型,
yt=0+1xt+2D+ut,
其中yt,xt为定量变量;D为定性变量。
当D=0或1时,上述模型可表达为,
0+1xt+ut,(D=0)
yt=
(0+2)+1xt+ut,(D=1)
D=0
D=1
图测量截距不同
D=1或0表示某种特征的有无。
反映在数学上是截距不同的两个函数。
若2显著不为零,说明截距不同;若2为零,说明这种分类无显著性差异。
例:
中国成年人体重y(kg)与身高x(cm)的回归关系如下:
–105+xD=1(男)
y=-100+x-5D=
–100+xD=0(女)
注意:
①若定性变量含有m个类别,应引入m-1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummyvariabletrap)。
②关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。
③定性变量中取值为0所对应的类别称作基础类别(basecategory)。
④对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。
如:
1(大学)
D=0(中学)
-1(小学)。
【案例1】中国季节GDP数据的拟合(虚拟变量应用,file:
case1及case1-solve)
GDP序列图不用虚拟变量的情形
若不采用虚拟变量,得回归结果如下,
GDP=+T
R2=,DW=,.=
定义
1(1季度)1(2季度)1(3季度)
D1=D2=D3=
0(2,3,4季度)0(1,3,4季度)0(1,2,4季度)
第4季度为基础类别。
GDP=+T–D1–D2–D3
R2=,DW=,.=
附数据如下:
年
GDP
t
D1
D2
D3
1996:
1
1
1
0
0
1996:
2
2
0
1
0
1996:
3
3
0
0
1
1996:
4
4
0
0
0
1997:
1
5
1
0
0
1997:
2
6
0
1
0
1997:
3
7
0
0
1
1997:
4
8
0
0
0
1998:
1
9
1
0
0
1998:
2
10
0
1
0
1998:
3
11
0
0
1
1998:
4
12
0
0
0
1999:
1
13
1
0
0
1999:
2
14
0
1
0
1999:
3
15
0
0
1
1999:
4
16
0
0
0
2000:
1
17
1
0
0
2000:
2
18
0
1
0
2000:
3
19
0
0
1
2000:
4
20
0
0
0
数据来源:
《中国统计年鉴》1998-2001
2.斜率变化
以上只考虑定性变量影响截距,未考虑影响斜率,即回归系数的变化。
当需要考虑时,可建立如下模型:
yt=0+1xt+2D+3xtD+ut,
其中xt为定量变量;D为定性变量。
当D=0或1时,上述模型可表达为,
(0+2)+(1+3)xt+ut,(D=1)
yt=
0+1xt+ut,(D=0)
通过检验3是否为零,可判断模型斜率是否发生变化。
图情形1(不同类别数据的截距和斜率不同)图情形2(不同类别数据的截距和斜率不同)
例2:
用虚拟变量区别不同历史时期(file:
case2及case2-solve)
中国进出口贸易总额数据(1950-1984)见上表。
试检验改革前后该时间序列的斜率是否发生变化。
定义虚拟变量D如下
0(1950-1977)
D=
1(1978-1984)
中国进出口贸易总额数据(1950-1984)(单位:
百亿元人民币)
年
trade
T
D
T*D
年
trade
T
D
T*D
1950
1
0
0
1968
19
0
0
1951
2
0
0
1969
20
0
0
1952
3
0
0
1970
21
0
0
1953
4
0
0
1971
22
0
0
1954
5
0
0
1972
23
0
0
1955
6
0
0
1973
24
0
0
1956
7
0
0
1974
25
0
0
1957
8
0
0
1975
26
0
0
1958
9
0
0
1976
27
0
0
1959
10
0
0
1977
28
0
0
1960
11
0
0
1978
29
1
29
1961
12
0
0
1979
30
1
30
1962
13
0
0
1980
31
1
31
1963
14
0
0
1981
32
1
32
1964
15
0
0
1982
33
1
33
1965
16
0
0
1983
34
1
34
1966
17
0
0
1984
35
1
35
1967
18
0
0
以时间T=time为解释变量,进出口贸易总额用trade表示,估计结果如下:
trade=+time-+timeD
+time(D=0,1950-1977)
=
-+time(D=1,1978-1984)
上式说明,改革前后无论截距和斜率都发生了变化。
进出口贸易总额的年平均增长量扩大了18倍。
【案例3】香港季节GDP数据(单位:
千亿港元)的拟合(file:
case3及case3-solve)
1990~1997年香港季度GDP呈线性增长。
1997年由于遭受东南亚金融危机的影响,经济发展处于停滞状态,1998~2002年底GDP总量几乎没有增长(见上图)。
对这样一种先增长后停滞,且含有季节性周期变化的过程简单地用一条直线去拟合显然是不恰当的。
为区别不同季节,和不同时期,定义季节虚拟变量D2、D3、D4和区别不同时期的虚拟变量DT如下(数据见附录):
1(第2季度)
D2=
0(其他季度)
1(第3季度)
D3=
0(其他季度)
1(第4季度)
D4=
0(其他季度)
1(1998:
1~2002:
4)
DT=
0(1990:
1~1997:
4)
得估计结果如下:
GDPt=+t+D2+D3+D4+DT-DTt
R2=,DW=,.=,F=,T=52,(52-7)=
对于1990:
1~1997:
4
GDPt=+t+D2+D3+D4
对于1998:
1~2002:
4
GDPt=+t+D2+D3+D4
如果不采用虚拟变量拟合效果将很差:
GDPt=+t
R2=,DW=,T=52,(52-2)=
【案例4】天津市粮食市场小麦批发价与面粉零售价的关系研究(file:
xiezhiyong)
首先看天津市粮食市场小麦批发价格的变化情况(图1)。
1995年初,天津市粮食市场的小麦批发价格首先放开。
在经历5个月的上扬之后,进入平稳波动期。
从1996年8月份开始小麦批发价格一路走低。
至2002年12月份,小麦批发价格降至是1160元/吨。
其次看面粉零售价的变化情况。
因为面粉零售价格直接关系到居民的日常生活,所以开始时没有与小麦批发价格一起放开。
当小麦批发价格一路看涨时,1995年1月至1996年6月面粉零售价格一直处于元/千克的水平上。
1996年7月起,面粉零售价格也开始在市场上放开。
受小麦批发价格上涨的影响,一个月内面粉零售价格从元/千克涨到元/千克。
在这个价位上坚持了11个月之后,面粉零售价格开始下降。
与小麦批发价格的下降相一致,在经历了5年零7个月的变化之后,面粉零售价格又恢复到接近开放前元/千克的水平上(元)。
散点图如图2。
按时间分析这些观测点的变化情况(见图3,逆时针方向运动)。
见图4,直接拟合这些数据效果将很差(R2=,r=)。
图1图2
图3图4
利用虚拟变量技术,在模型中加入虚拟变量。
定义
D=0,(1995:
1~1996:
6,面粉零售价格放开之前),
D=1,(1996:
7~2002:
12,面粉零售价格放开之后)。
取对数关系建立模型。
Lnsale的系数没有显著性(对于面粉零售价格放开之前的散点来说回归直线是一条水平线)。
剔出Lnsale变量,得估计结果
PRICE=+LnsaleD–D
R2=,
PRICE=,D=0
PRICE=–+Lnsale,D=1
一条回归直线的斜率为零,一条回归直线的斜率为。
可决系数从不加虚拟变量模型的增加到(输出结果见下)。
本例也可以建立倒数模型:
PRICE=+D–(1/sale)D
R2=,
PRICE=,D=0
PRICE=–(1/sale),D=1