计量经济学10.docx
《计量经济学10.docx》由会员分享,可在线阅读,更多相关《计量经济学10.docx(10页珍藏版)》请在冰豆网上搜索。
计量经济学10
经济计量学
Chp10虚拟变量回归模型
主要内容
虚拟变量的性质
ANCOVA模型
包含一个定量变量、一个多分定性变量的回归
包含一个定量变量和多个定性变量的回归
回归的比较
虚拟变量在季节分析中的应用
应变量也是虚拟变量的情形:
LPM
小结
一、虚拟变量的性质
许多经济变量是可以定量度量的,如:
商品需求量、价格、收入、产量等――称之为定量变量,quantitative(numerical)explanatoryvariables。
但也有一些影响经济变量的因素无法定量度量,如:
职业、性别对收入的影响等――称之为定性变量,qualitativeexplanatoryvariables。
为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”。
定性变量通常表示为具备或不具备某种性质,如男性或女性;白人或非白人;党员或非党员等。
把定性因素“定量化”的一个方法是建立人工变量(也称为虚拟变量,Dummyvariable),并赋值0和1:
0:
不具备某种性质;
1:
具备某种性质。
虚拟变量常用变量D表示。
例如,反映文化程度的虚拟变量可取为:
1,本科学历
D=
0,非本科学历
一般地,在虚拟变量的设置中:
研究类型、肯定类型取值为1;
基准类型,否定类型取值为0。
称虚拟变量也为二元变量binaryvariable
方差分析模型(Analysisofvariancemodels,ANOVA):
仅包含定性变量或虚拟变量的回归模型,其形式如下:
Yi=B0+B1Di+ui
假定Y:
每年食品支出(美元);Di=1表示女性;Di=0表示男性,则:
男性食品支出的期望:
E(Yi|Di=0)=B0
女性食品支出的期望:
E(Yi|Di=0)=B0+B1
上述模型的含义:
截距B0表示男性平均食品支出,斜率系数B1表示女性平均食品支出与男性的差异,B0+B1表示女性平均食品支出。
对这类模型,零假设为:
H0:
B1=0
表示男女平均食品支出没有差异。
我们可根据t检验判定是否统计显著。
例10-1(P213):
性别差异对食品消费支出的影响
公式:
10-4or10-5
几个问题:
1.基准类(benchmarkgroup)(基础类basegroup,参照类或比较类):
取值为0的那类变量
基准类的选择根据研究目的而定
来自于社会学、心理学等研究的需要
2.虚拟变量D的系数称为差别截距系数(differentialinterceptcoefficient),
表明了取值为1的类的截距值与基准类截距值的差距。
几个问题:
3.虚拟变量陷阱(完全共线性)或多重共线性
在解释变量存在完全共线性的情形下,不可能得到参数的惟一估计值。
例如前例:
Yi=B1+B2D2i+B3D3i+ui
其中,D2=0,D3=1;D2=1,D3=0
避免“陷阱”的一般原则:
如果模型有共同的截距项,且定性变量有m种分类,则需引入m-1个虚拟变量。
例10-2(P215):
工会化程度与工作权利法
本例研究工作权利法(是否通过)对私营部分的工会化程度的影响
二、协方差分析模型(ANCOVA)――:
包含一个定量变量和一个两分定性变量的回归
例:
考虑可支配收入(定量变量)与性别食品消费支出对的回归模型
回归模型如公式10-8,10-9
对模型的解释:
虚拟变量的统计显著;
常数统计显著;
对定量变量回归统计的解释。
对比没有虚拟变量的模型
例:
一个以性别虚拟变量考察企业职工薪水的模型:
Yi=B1+B2Xi+B3Di+ui
其中:
Yi为企业职工的薪金,Xi为工龄,
Di=1,若是男性,Di=0,若是女性。
三、包含一个定量变量、一个多分定性变量的回归
例:
考查学生支出和地区差异(三个地区,分别是东北和中北部(21)、南部(17)和西部(13))对教师薪水的影响
先考虑地区差异模型如下:
AASi=B1+B2D2i+B3D3i+ui
其中,AAS为公立学校老师平均年薪水;Di为虚拟变量,且
D2=1表东北和中北部地区,D2=0为其它地区;
D3=1表南部地区,D3=0为其它地区
这是将西部地区看成是基准类。
再考虑政府机构用于每个学生的花费和地区对教师平均年薪水的影响:
AASi=B1+B2D2i+B3D3i+B4PPSi
对模型的解释:
D2显著,而D3不显著,表明原模型存在设定误差;
PPS的系数的含义
四、包含一个定量变量和多个定性变量的回归
例:
考虑如下回归模型:
Yi=B1+B2D2i+B3D3i+B4Xi+ui
其中:
Y=小时工资(美元)
X=教育(受教育年限)
D2=1(女性),0(男性)
D3=1(非白种人和非西班牙人),0(其他)
结果:
P221
对模型的解释:
本例的基准类是白种或西班牙男性;
两个虚拟变量回归系数的含义;
不考虑性别和种族的影响,则受教育年限每增加一年,平均小时工资提高约80美元。
交互影响:
即不同虚拟变量之间存在的交互影响
对于上例而言,我们可以考虑如下模型:
Yi=B1+B2D2i+B3D3i+B4(D2iD3i)+B5Xi+ui
其中,
B2:
女性的差别效应;
B3:
非白种/非西班牙人的差别效应;
B4:
非白种/非西班牙女性的差别效应
B2+B3+B4:
非白种/非西班牙女性的平均小时工资函数。
模型的一般化:
可以将模型扩展到包括多个定量变量和多个定性变量的情形。
但对于每个定性变量,虚拟变量的个数要比该变量的分类数少一。
例10-3:
政党对竞选活动的资助
应变量:
PARTY(政党对当地候选人的资助);
自变量:
定量变量:
GAP(资助),VGAP(以往获胜次数),PU(政党忠诚度)
定性变量:
OPEN(公开竞争否),DEMOCRAT(民主党),COMM(共和党)
回归的比较
对于模型:
Yi=B1+B2Di+B3Xi+B4(DiXi)+ui
给定Di=0,并对上式两端取均值,得男性平均食品支出函数:
E(Yi|D=0,Xi)=B1+B3Xi
给定Di=1,并对上式两端取均值,得女性平均食品支出函数:
E(Yi|D=1,Xi)=(B1+B2)+(B3+B4)Xi
我们称B2为差别截距系数,B4为差别斜率系数
根据差别截距系数和差别斜率系数的统计显著性,可以辨别出女性和男性食品支出函数是截距为同还是斜率不同,或是都不同:
b)平行回归
X
Y
c)并发回归
X
Y
d)相异回归
X
Y
a)一致回归
X
Y
模型的选择:
对于模型10-1;10-8;10-23
实践中,应考虑最全面的模型,再经过适当的诊断检验后,简化成较小的模型。
例10-4:
美国1970~1995储蓄-收入关系。
由于1982年以来的经济衰退,有两种方法可考查衰退对储蓄的影响。
法一:
分两个时期来作回归;
法二:
引入虚拟变量,将两个回归模型统一成一个。
模型的比较
六、虚拟变量在季节分析中的应用
例:
冰箱的销售量与季节性
Yt=B1+B2D2t+B3D3t+B4D4t+ut
其中,
Yt:
冰箱销售量(千台)
D2,D3,D4分别表示每年的第二、第三和第四季度取值为1,第一季度值为0,即第一季度作为基准季度。
关于公式10-30的回归模型的说明:
第二季度和第三季度存在季节效应(D2,D3的系数显著不为0),第四季度则没有
利用该模型获得经季节调整后冰箱销售量的时间序列:
用实际的Y减去从方程估计得到的Y,即回归式的残差,再把这个残差加上Y的均值,得到的序列就是经季节调整后的序列,该序列表现出时间序列的其他成分(周期、趋势和随机等)
七、应变量也是虚拟变量的情形:
线性概率模型(LPM)――略
LPM:
应变量Y的取值只有两种情形,0或1.
这样的Y称为两分变量
这种以情形下,不宜用OLS估计方法:
虽然Y的值为1或0,但无法保证Y的估计值介于0~1之间,实际上,?
可能为负或大于1;
由于Y是一个二分变量,u也是一个二分变量,它不再服从正态分布,而是二项概率分布;
误差项将是异方差的;
由于Y仅取值0和1,惯用的R2没有实际意义了
对上述问题的解决:
随着样本容量的扩大,二项分布收敛于正态分布;
异方差有其处理方法;
估计的Y可能在0~1区间之外:
实践中有一个简单的处理方法(在0~1区间之外的Y值不太多时)
?
为负则取0;?
大于1,则取1.
Logitmodel&Probitmodel
例:
考虑食品支出与税后收入、性别和年龄的关系(数据见表10-10)
Yi=B1+B2Xi+u
其中:
Y=1表示申请到了房贷,否则为0;X表示年家庭收入
估计结果:
?
i=-0.9456+0.0255Xi(相应的t值和R2见P232)
对模型的解释:
收入每增加1美元,获得房贷的概率大约增加0.03
实际中:
房贷的概率随收入水平以固定增速线性增加,与实际不符
例:
借贷市场上的歧视
应变量Y为二分变量,通过贷款申请赋值为1,否则为0;
研究目的是为了判断是否由于性别、种族和其他一些定性因素导致了贷款市场上的歧视行为。
回归的结果:
*:
p值等于或低于5[%];**:
p值大于5[%]
总结
虚拟变量的作用:
“数据分类器”
应用虚拟变量应注意的地方:
如果回归模型包含了一个常数项,则虚拟变量的个数必须比每个定性变量的分类数少一;
虚拟变量系数的解释与基准类有关;
若模型包含多个定性变量,且每个定性变量有多种分类,则引入模型的虚拟变量将消耗大量的自由度,故应权衡进入模型中虚拟变量的个数以免超过样本观察值的个数。
例:
考察1990年前后的中国居民的总储蓄-收入关系是否已发生变化。
下表给出了中国1979~2001年以城乡储蓄存款余额代表的居民储蓄以及以GNP代表的居民收入的数据。
表:
1979~2001中国储蓄与GDP,单位:
亿元
以Y为储蓄,X为收入,可令:
1990年前:
Yi=?
1+?
2Xi+?
1ii=1,2…,n1
1990年后:
Yi=?
1+?
2Xi+?
2ii=1,2…,n2
则有可能出现下述四种情况中的一种:
(1)?
1=?
1,且?
2=?
2,即两个回归相同,称为一致回归(CoincidentRegressions);
(2)?
1?
?
1,但?
2=?
2,即两个回归的差异仅在其截距,称为平行回归(ParallelRegressions);
(3)?
1=?
1,但?
2?
?
2,即两个回归的差异仅在其斜率,称为并发回归(ConcurrentRegressions);
(4)?
1?
?
1,且?
2?
?
2,即两个回归完全不同,称为相异回归(DissimilarRegressions)。
这一问题也可通过引入乘法形式的虚拟变量来解决。
将n1与n2次观察值合并,并用以估计以下回归:
Di为引入的虚拟变量:
于是有:
可分别表示1990年后期与前期的储蓄函数。
在统计检验中,如果?
4=0的假设被拒绝,则说明两个时期中储蓄函数的斜率不同。
具体的回归结果为:
(-6.11)(22.89)(4.33)(-2.55)
由?
3与?
4的t检验可知:
参数显著地不等于0,强烈示出两个时期的回归是相异的,储蓄函数分别为:
1990年前:
1990年后:
R-Square=0.9836
例:
澳大利亚支出-消费关系,1977.I~1980.IV
表给出了澳大利亚从1977.I到1980.IV的Y[[]衣服、硬件、电器、家具的零售价,称为个人消费支出(PCE)]和X[[]个人可支配收入(PDI)]的季度数据。
Yt=B1+B2D2t+B3D3t+B4D4t+ut
其中,Y和X的定义与前面相同,D的定义如下:
上面的模型设定暗含地假定了季节因素仅仅影响截距,而不影响斜率,可以通过差别截距和差别斜率法来验证