二元选择模型.docx
《二元选择模型.docx》由会员分享,可在线阅读,更多相关《二元选择模型.docx(15页珍藏版)》请在冰豆网上搜索。
二元选择模型
二元选择摸型
如果回归模型的解释变量中含有定性变量,则可以用虚拟变量处理之。
在实际经济问题中,被解释变量也可能是定性变量。
如通过一系列解释变量的观测值观察人们对某项动议的态度,某件事情的成功和失败等。
当被解释变量为定性变量时怎样建立模型呢?
这就是要介绍的二元选择模型或多元选择模型,统称离散选择模型。
这里主要介绍Tobit(线性概率)模型,Probit(概率单位)模型和Logit模型。
1.Tobit(线性概率)模型
Tobit模型的形式如下,
yi=α+βxi+ui
(1)
其中ui为随机误差项,xi为定量解释变量。
yi为二元选择变量。
此模型由JamesTobin1958年提出,因此得名。
如利息税、机动车的费改税问题等。
设
1(若是第一种选择)
yi=
0(若是第二种选择)
对yi取期望,
E(yi)=α+βxi
(2)
下面研究yi的分布。
因为yi只能取两个值,0和1,所以yi服从两点分布。
把yi的分布记为,
P(yi=1)=pi
P(yi=0)=1-pi
则
E(yi)=1(pi)+0(1-pi)=pi(3)
由
(2)和(3)式有
pi=α+βxi(yi的样本值是0或1,而预测值是概率。
)(4)
以pi=-0.2+0.05xi为例,说明xi每增加一个单位,则采用第一种选择的概率增加0.05。
现在分析Tobit模型误差的分布。
由Tobit模型
(1)有,
ui=yi-α-βxi=
E(ui)=(1-α-βxi)pi+(-α-βxi)(1-pi)=pi-α-βxi
由(4)式,有
E(ui)=pi-α-βxi=0
因为yi只能取0,1两个值,所以,
E(ui2)=(1-α-βxi)2pi+(-α-βxi)2(1-pi)
=(1-α-βxi)2(α+βxi)+(α+βxi)2(1-α-βxi),(依据(4)式)
=(1-α-βxi)(α+βxi)=pi(1-pi),(依据(4)式)
=E(yi)[1-E(yi)]
上两式说明,误差项的期望为零,方差具有异方差。
当pi接近0或1时,ui具有较小的方差,当pi接近1/2时,ui具有较大的方差。
所以Tobit模型
(1)回归系数的OLS估计量具有无偏性和一致性,但不具有有效性。
假设用模型(4)进行预测,当预测值落在[0,1]区间之内(即xi取值在[4,24]之内)时,则没有什么问题;但当预测值落在[0,1]区间之外时,则会暴露出该模型的严重缺点。
因为概率的取值范围是[0,1],所以此时必须强令预测值(概率值)相应等于0或1(见图1)。
线性概率模型常写成如下形式,
图1
1,α+βxi≥1
pi=α+βxi,0<α+βxi<1(5)
0,α+βxi≤0
然而这样做是有问题的。
假设预测某个事件发生的概率等于1,但是实际中该事件可能根本不会发生。
反之,预测某个事件发生的概率等于0,但是实际中该事件却可能发生了。
虽然估计过程是无偏的,但是由估计过程得出的预测结果却是有偏的。
由于线性概率模型的上述缺点,希望能找到一种变换方法,
(1)使解释变量xi所对应的所有预测值(概率值)都落在(0,1)之间。
(2)同时对于所有的xi,当xi增加时,希望yi也单调增加或单调减少。
显然累积概率分布函数F(zi)能满足这样的要求。
采用累积正态概率分布函数的模型称作Probit模型。
用正态分布的累积概率作为Probit模型的预测概率。
另外logistic函数也能满足这样的要求。
采用logistic函数的模型称作logit模型。
累积正态概率分布曲线logistic曲线
2.Probit(概率单位)模型,仍假定
yi=α+βxi,
而pi=F(yi)=
(6)
累积概率分布函数曲线在pi=0.5附近的斜率最大。
对应yi在实轴上的值,相应概率值永远大于0、小于1。
显然Probit模型比Tobit模型更合理。
Probit模型需要假定yi服从正态分布。
3.logit模型
该模型是McFadden于1973年首次提出。
其采用的是logistic概率分布函数。
其形式是
pi=F(yi)=F(α+βxi)=
=
(7)
对于给定的xi,pi表示相应个体做出某种选择的概率。
Probit曲线和logit曲线很相似。
两条曲线都是在pi=0.5处有拐点,但logit曲线在两个尾部要比Probit曲线厚。
利用(6)和(7)式得到的概率值见表1。
表1Probit模型和logit模型概率值
yi
正态分布函数
pi=
逻辑概率分布
pi=
-3.0
0.0013
0.0474
-2.0
0.0228
0.1192
-1.5
0.0668
0.1824
-1.0
0.1587
0.2689
-0.5
0.3085
0.3775
0.0
0.5000
0.5000
0.5
0.6915
0.6225
1.0
0.8413
0.7311
1.5
0.9332
0.8176
2.0
0.9772
0.8808
3.0
0.9987
0.9526
Probit曲线
logit曲线
图2Probit曲线、logit曲线比较示意图
logit曲线计算上也比较方便,所以Logit模型比Probit模型更常用。
对上式作如下变换,
pi(1+
)=1(8)
对上式除以pi,并减1得
e-yi=
-1=
取倒数后,再取对数,
yi=log(
)
所以log(
)=yi=α+βxi(9)
由上式知回归方程的因变量是对数的某个具体选择的机会比。
logit模型的一个重要优点是把在[0,1]区间上预测概率的问题转化为在实数轴上预测一个事件发生的机会比问题。
logit累积概率分布函数的斜率在pi=0.5时最大,在累积分布两个尾端的斜率逐渐减小。
说明相对于pi=0.5附近的解释变量xi的变化对概率的变化影响较大,而相对于pi接近0和1附近的xi值的变化对概率的变化影响较小。
对于Logit模型使用极大似然法估计参数是一个很好的选择。
首先分析含有两个参数(α和β)的随机试验。
假设被估计的模型如下
pi=
=
(10)
在样本中pi是观测不到的。
相对于xi的值,只能得到因变量yi取值为0或1的信息。
极大似然估计的出发点就是寻找样本观测值最有可能发生条件下的α和β的估计值。
从样本看,如果第一种选择发生了n次,第二种选择发生了N-n次。
设采取第一种选择的概率是pi。
采取第二种选择的概率是(1-pi)。
重新将样本数据排列,使前n个观测值为第一种选择,后N-n个观测值为第二种选择(观测值是0,1的,但相应估计的概率却各不相同)。
例1()
南开大学国际经济研究所1999级研究生考试分数及录取情况见数据表(N=95)。
定义变量SCORE:
考生考试分数;Y:
考生录取为1,未录取为0;虚拟变量D1:
应届生为1,非应届生为0。
图1样本观测值()
得Logit模型估计结果如下(EViews命令:
Quick,estimateequation分别选Probit或Logit):
注:
Akaikeinformationcriterion=-2
+2
Schwarzcriterion=-2
+k
Hannan-Quinncriterion=-2
+2k
AverageLoglikelihoodfunction=
其中k为被估参数个数,T为样本容量。
McFaddenR-squared=1-
因为D1的系数没有显著性。
说明“应届生”和“非应届生”不是决定是否录取的重要因素。
剔除D1。
得Logit模型估计结果如下
pi=F(yi)=
拐点坐标(358.7,0.5)
注意:
表达式中指数的写法。
图2Logit模型预测值,拐点坐标(358.7,0.5)
在估计Probit模型过程中,D1的系数也没有显著性。
剔除D1,Probit模型最终估计结果是
pi=F(yi)=F(-144.456+0.4029xi)拐点坐标(358.5,0.5)
图3Probit模型预测值,拐点坐标(358.5,0.5)
两种估计模型的若干预测结果如下表,
Probit模型
Logit模型
score
Y
pi
Y
pi
350
-3.44
0.0003
-5.95
0.0026
355
-1.43
0.0764
-2.55
0.0738
359
0.00
0.5000
0.00
0.5000
360
0.59
0.7224
0.85
0.7032
365
2.60
0.9953
4.24
0.9858
370
4.62
0.9999
7.64
0.9995
表2数据表
obs
Y
SCORE
D1
obs
Y
SCORE
D1
obs
Y
SCORE
D1
1
1
401
1
34
0
332
1
67
0
275
0
2
1
401
0
35
0
332
1
68
0
273
0
3
1
392
1
36
0
332
1
69
0
273
1
4
1
387
0
37
0
331
1
70
0
272
1
5
1
384
1
38
0
330
1
71
0
267
0
6
1
379
0
39
0
328
1
72
0
266
1
7
1
378
0
40
0
328
1
73
0
263
1
8
1
378
0
41
0
328
1
74
0
261
1
9
1
376
1
42
0
321
1
75
0
260
0
10
1
371
0
43
0
321
1
76
0
256
0
11
1
362
0
44
0
318
1
77
0
252
0
12
1
362
1
45
0
318
0
78
0
252
1
13
1
361
1
46
0
316
1
79
0
245
1
14
0
359
1
47
0
308
0
80
0
243
1
15
0
358
1
48
0
308
1
81
0
242
0
16
1
356
1
49
0
304
0
82
0
241
0
17
0
356
1
50
0
303
1
83
0
239
1
18
0
355
1
51
0
303
1
84
0
235
0
19
0
354
1
52
0
299
1
85
0
232
0
20
0
354
0
53
0
297
1
86
0
228
1
21
0
353
1
54
0
294
0
87
0
219
1
22
0
350
0
55
0
293
1
88
0
219
1
23
0
349
0
56
0
293
1
89
0
214
1
24
0
349
0
57
0
292
0
90
0
210
1
25
0
348
1
58
0
291
1
91
0
204
1
26
0
347
1
59
0
291
1
92
0
198
0
27
0
347
1
60
0
287
1
93
0
189
1
28
0
344
1
61
0
286
1
94
0
188
1
29
0
339
1
62
0
286
0
95
0
182
1
30
0
338
0
63
0
282
1
96
0
166
1
31
0
338
1
64
0
282
1
97
0
123
0
32
0
336
1
65
0
282
0
33
0
334
0
66
0
278
0
例3:
农户劳动力的非农业就业模型()。
本例的主要任务之一是要考察影响农村居民家庭劳动力非农业就业的主要因素,尤其重点考察教育程度对非农业就业的影响。
一般而言,在劳动力市场发育相对成熟的条件下,教育可以提高劳动力非农就业的可能性。
劳动力教育程度越高,非农就业的机会越多,非农就业的倾向也就越高。
此外,还有其他许多因素影响农村劳动力的非农就业。
如
(1)农村居民家庭所在地区的区位条件。
在其他条件保持不变的条件下,离中心城市越近,非农产业越发达,提供的非农就业机会就越多。
同时农户进入非农产业就业的成本越低。
这种家庭中的劳动力进入非农业就业的可能性也越大。
(2)被调查对象所在村镇的乡镇企业的发达程度直接影响农村居民的非农就业。
乡镇企业越发达,农村居民非农业就业的概率越高;反之,乡镇企业越不发达,非农就业的概率越小。
(3)农户拥有生产资料情况也是影响其劳动力非农就业的重要因素。
其中,如果其他条件相同,则非农业生产性固定资产越多,则农户中劳动力的非农业就业倾向越大。
而农业生产性固定资产对劳动力非农就业倾向影响比较复杂,如果农户所拥有农业生产性固定资产属于有劳动力替代型的,则它与劳动力非农就业倾向之间的关系是正相关的,反之如果属于劳动力互补型的,则它与非农就业倾向之间存在着负相关关系。
(4)农户所拥有的耕地的数量影响其非农就业的倾向,在我国现有的农业现代化程度比较低的条件下,耕地越多意味着农户必须将更多的劳动力分配到农业生产中,因此农户劳动力的非农就业倾向越小,反之,耕地越少则非农就业的倾向越高。
(5)家庭结构也是影响农户劳动力非农就业的重要因素,家庭负担越轻,劳动力从事非农就业的倾向越大。
(6)劳动力受教育程度。
根据上述分析,我们构建了如下的计量模型:
Y=C+β1X+β2NYGDZC+β3FNYGDZC+β4XZQY+β5RJGD+β6FDXS+α1School1
+α2School2+α3School3+α4School4+α5School5+α6School6+ut
其中:
Y为农户中是否有非农业就业的劳动力,如果有取1,没有则取0;
X为地区代码。
如果被调查对象属于滨海三区和四郊取1,否则取0;
NYGDZC为农户所拥有的人均农业生产性固定资产的价值;
FNYGDZC为农户拥有的人均非农业生产性固定资产的价值;
XZQY为农户所在村镇乡镇企业的个数;
RJGD为农户家庭人均拥有的耕地的数量;
FDINDEX为家庭结构的劳动力负担系数;
school1表示家庭中文盲或识字很少的劳动力的人数;
school2表示农户家庭内中小学文化程度的劳动力人数;
school3表示农户家庭中具有初中文化程度的劳动力的人数;
school4表示高中文化程度的劳动力的人数;
school5表示中专文化程度的劳动力的人数;
school6表示大专以上文化程度的劳动力的人数。
将被调查的样本将数据带入上述计量模型,具体结果见表3.1中的模型Ⅰ。
农村居民家庭非农业就业的Logit估计结果
资料来源:
天津市农村社会经济调查队。
注:
(1)*表示10%的水平下是显著的;**表示5%的水平下是显著的;***表示
1%的水平下是显著的。
(2)模型Ⅰ包含了全部样本在内,模型Ⅱ只包含了五县的样本,模型Ⅲ只
包含了四个近郊和滨海三区的样本
注:
YF是上述logit模型的预测值;Yhat是用上述变量做的线性回归的预测值。
所以散点图正好能看出生长曲线的走势。
估计结果显示,教育程度对劳动力的非农业就业倾向有着非常明显的作用。
除文盲外,随着教育程度的提高,农户中劳动力从事非农就业的倾向越大。
正如前面所分析的那样,宏观变量中,区位因素和当地乡镇企业的发达程度对农户的劳动力从事非农就业产生了明显的促进作用。
微观因素中,农户拥有农业生产固定资产对其非农就业的影响是负的,而非农业生产性固定资产的影响则是正的。
这表明农户的资产存量对其非农就业的影响是双向的,具体的情况主要取决于资产的种类。
同时,农户拥有的耕地数量对其非农业就业的影响是负的,这表明我国农业生产的产业化程度还比较低,农业生产方式还具有劳动密集型的特点。
劳动力负担系数对非农业就业未产生显著的影响。
所以如此的主要原因在于,在农村老人往往更多地承担起了照顾孩子的责任。
劳动力的负担并未成为制约农户劳动力非农就业的主要因素。
这一点与其他学者的研究结论类似。
离散选择模型还有其他几种形式:
删改模型或删截模型(censoredregressionmodel)。
把小于或大于某一点的数值用该点数值替代的模型。
Tobit模型就是一种删截模型,被解释变量在删改点1之上或0之下的值分别被赋值1或0。
截尾模型或截断模型(truncatedregressionmodel)。
应用于某个截断点之上或之下的观测值数据得不到或故意舍弃的一种回归模型。
例如某种产品,见到的只是分等级的合格品,不合格品已经看不到,被舍弃。
计数模型(countmodel)。
当被解释变量表示次数时,离散模型就变成了计数模型。
例如每年华北地区发生沙尘暴次数的模型,公司申请专利数模型。
因变量服从泊松分布。
有序响应模型(orderedresponsemodel)。
当相互排斥的定性分类有一个正常的顺序时,可用有序响应模型描述。
例如描述某人的受教育程度时,建立的模型。
有序响应模型与计数模型有些类似,但又不同。
有序响应数据没有自然的数值。
多元离散选择模型(multiplechoicemodel)。
被解释变量的选择不是二元的,而是多元的。