二元选择模型Word文档格式.docx
《二元选择模型Word文档格式.docx》由会员分享,可在线阅读,更多相关《二元选择模型Word文档格式.docx(17页珍藏版)》请在冰豆网上搜索。
■Xi<
1(5)
0,:
-+'
■Xi-0
然而这样做是有问题的。
假设预测某个事件发生的概率等于1,但是实际中该事件可能
根本不会发生。
反之,预测某个事件发生的概率等于0,但是实际中该事件却可能发生了。
虽然估计过程是无偏的,但是由估计过程得出的预测结果却是有偏的。
由于线性概率模型的上述缺点,希望能找到一种变换方法,
(1)使解释变量Xi所对应的
所有预测值(概率值)都落在(0,1)之间。
(2)同时对于所有的Xi,当Xi增加时,希望yi也单调增加或单调减少。
显然累积概率分布函数F(z)能满足这样的要求。
采用累积正态
概率分布函数的模型称作Probit模型。
用正态分布的累积概率作为Probit模型的预测概率。
另外logistic
函数也能满足这样的要求。
采用logistic函数的模型称作logit模型。
2.Probit(概率单位)模型,仍假定
t2
Pi=F(yi)=
累积概率分布函数曲线在Pi=0.5附近的斜率最大。
对应yi在实轴上的值,相应概率值
永远大于0、小于1。
显然Probit模型比Tobit模型更合理。
Probit模型需要假定比服从正态分布。
3.logit模型
该模型是McFadden于1973年首次提出。
其采用的是logistic概率分布函数。
其形式是
Pi=F(yi)=F(:
+-Xi)=
1e"
菇
对于给定的xi,pi表示相应个体做出某种选择的概率。
Probit曲线和logit曲线很相似。
两条曲线都是在pi=0.5处有拐点,但logit曲线在两个尾部要比Probit曲线厚。
利用(6)和(7)式得到的概率值见表1。
表1Probit模型和logit模型概率值
yi
正态分布函数
17i飞
Pi=痂以吐
逻辑概率分布
1
Pi=卄
-3.0
0.0013
0.0474
-2.0
0.0228
0.1192
-1.5
0.0668
0.1824
-1.0
0.1587
0.2689
-0.5
0.3085
0.3775
0.0
0.5000
0.5
0.6915
0.6225
1.0
0.8413
0.7311
1.5
0.9332
0.8176
2.0
0.9772
0.8808
3.0
0.9987
0.9526
图2Probit曲线、logit曲线比较示意图
logit曲线计算上也比较方便,所以Logit模型比Probit模型更常用。
对上式作如下变换,
pi(1+e』i)=1
所以log(Pi)=yi=:
-+Xi(9)
1-Pi
由上式知回归方程的因变量是对数的某个具体选择的机会比。
logit模型的一个重要优
点是把在[0,1]区间上预测概率的问题转化为在实数轴上预测一个事件发生的机会比问题。
logit累积概率分布函数的斜率在pi=0.5时最大,在累积分布两个尾端的斜率逐渐减小。
说
明相对于Pi=0.5附近的解释变量Xi的变化对概率的变化影响较大,而相对于Pi接近0和1
附近的Xi值的变化对概率的变化影响较小。
对于Logit模型使用极大似然法估计参数是一个很好的选择。
首先分析含有两个参数(:
-
和1)的随机试验。
假设被估计的模型如下
11
Pi=(C-T=7-(10)
任宓申)1+e"
在样本中口是观测不到的。
相对于Xi的值,只能得到因变量yi取值为0或1的信息。
极大似然估计的出发点就是寻找样本观测值最有可能发生条件下的「和一:
的估计值。
从样本
看,如果第一种选择发生了n次,第二种选择发生了N-n次。
设采取第一种选择的概率是
Pi。
采取第二种选择的概率是(1-口)。
重新将样本数据排列,使前n个观测值为第一种选择,后N-n个观测值为第二种选择(观测值是0,1的,但相应估计的概率却各不相同)。
例1(file:
case5)
南开大学国际经济研究所1999级研究生考试分数及录取情况见数据表(N=95)。
定义变量SCORE:
考生考试分数;
Y:
考生录取为1,未录取为0;
虚拟变量D1:
应届生为1,非应届生为0。
图1样本观测值(file:
logit1)
得Logit模型估计结果如下(EViews命令:
Quick,estimateequation分别选Probit或Logit):
Convergenceachievedalter12iterations
Covariancematrixcomputedusingsecondderivatives
Variable
Coofficient
St!
Errorz-Statistic
Prob.
C
-242.4576
124.5164-1.947194
0.0515
SCORE
0.677061
034B0301..945409
0.0517
D1
-0.476605
2.984542-0169691
0.8731
Meandependentvar
0.144330
SD.dependentvar
0.353250
S.Eofregression
0115377
Akaikeinfocriterion
0.143907
Sunsquaredresid
1.251316
Schwarzcriterion
0.223537
Loglikelihood
-3.979482
Hannan-Quinncriter
0.176105
Restrloglikelihood
-40.03639
Avg.loglikelihood
^.041026
LRstatistic(2df)
7211382
McFaddenR-squared
0.900603
Probability(LRstat)
2.22E-16
□bswithDep=O
83
Totalobs
97
ObswithDep=1
14
注:
Akaikeinformationcriterion=-2logL+2—
TT
logLLn(T)
Schwarzcriterion=-2+k—
logLLn(LnT)
Hannan-Quinncriterion=-2+2k
logL
AverageLoglikelihoodfunction=
其中k为被估参数个数,T为样本容量。
logL(~)
McFaddenR-squared=1-
logL(P)
因为D1的系数没有显著性。
说明“应届生”和“非应届生”不是决定是否录取的重要因素。
剔除D1。
得Logit模型估计结果如下
注意:
表达式中指数的写法。
Convergenceachievedafter12iterations
Caefficient
Std.Errorz-Statistic
-2437362
1256485-1.941371
0.0622
0.679441
03504701.938658
0.0525
0144330
SO.dependentvar
SE.ofregression
0,115440
0.123553
Sumsquaredresid
1.266017
0176640
-3.992330
Hannan-Quinncriter.
0.145019
Restr.loiglikelihood
Avg.laglikelihood
-0.041158
LRstatistic(1df)
72.08012
0900202
DODODOO
ObswithDep=0
Tci怡Iobs
在估计Probit模型过程中,
1.2
YFLOGI
*
0.8
0.6-
■-
0.4_
■
0.2■
0.0-
-0.2-
SCORE
100200300400
图2Logit模型预测值,拐点坐标(358.7,0.5)
拐点坐标(358.5,0.5)
100
Pi=F(yJ=F(-144.456+0.4029Xi)
YFPROB
9
4
«
■■■・・■■■■■a-w■libjw・wrw
0.6
0.4
0.2
-0.2
200
300
400
图3Probit模型预测值,拐点坐标(358.5,0.5)
Coefficient
StlErrorz-Statistic
-1444560
70.19773-2.D57844
0.0396
0.402868
01961352.053514
00400
0116277
0.122406
1.284441
0.175493
-3.936702
Hannari'
Quinnenter.
0.143872
Restr.loglikelihood
-0.040585
LRstatistic(1dfl
72.19938
0.901672
0.000000
ObswithDep=O
□bswithDep=1
两种估计模型的若干预测结果如下表,
score
Probit模型
Logit模型
Y
Pi
350
-3.44
0.0003
-5.95
0.0026
355
-1.43
0.0764
-2.55
0.0738
359
0.00
360
0.59
0.7224
0.85
0.7032
365
2.60
0.9953
4.24
0.9858
370
4.62
0.9999
7.64
0.9995
表2数据表
obs
401
34
332
67
275
2
35
68
273
3
392
36
69
387
37
331
70
272
5
384
38
330
71
267
6
379
39
328
72
266
7
378
40
73
263
8
41
74
261
376
42
321
75
260
10
371
43
76
256
11
362
44
318
77
252
12
45
78
13
361
46
316
79
245
47
308
80
243
15
358
48
81
242
16
356
49
304
82
241
17
50
303
239
18
51
84
235
19
354
52
299
85
232
20
53
297
86
228
21
353
54
294
87
219
22
55
293
88
23
349
56
89
214
24
57
292
90
210
25
348
58
291
91
204
26
347
59
92
198
27
60
287
93
189
28
344
61
286
94
188
29
339
62
95
182
30
338
63
282
96
166
31
64
123
32
336
65
33
334
66
278
例3:
农户劳动力的非农业就业模型(file:
logitzhou)。
本例的主要任务之一是要考察影响农村居民家庭劳动力非农业就业的主要因素,尤其重
点考察教育程度对非农业就业的影响。
一般而言,在劳动力市场发育相对成熟的条件下,教育可以提高劳动力非农就业的可能
性。
劳动力教育程度越高,非农就业的机会越多,非农就业的倾向也就越高。
此外,还有其他许多因素影响农村劳动力的非农就业。
如
(1)农村居民家庭所在地区的区位条件。
在其他条件保持不变的条件下,离中心城市
越近,非农产业越发达,提供的非农就业机会就越多。
同时农户进入非农产业就业的成本越
低。
这种家庭中的劳动力进入非农业就业的可能性也越大。
(2)被调查对象所在村镇的乡镇企业的发达程度直接影响农村居民的非农就业。
乡镇
企业越发达,农村居民非农业就业的概率越高;
反之,乡镇企业越不发达,非农就业的概率
越小。
(3)农户拥有生产资料情况也是影响其劳动力非农就业的重要因素。
其中,如果其他
条件相同,则非农业生产性固定资产越多,则农户中劳动力的非农业就业倾向越大。
而农业
生产性固定资产对劳动力非农就业倾向影响比较复杂,如果农户所拥有农业生产性固定资产
属于有劳动力替代型的,则它与劳动力非农就业倾向之间的关系是正相关的,反之如果属于
劳动力互补型的,则它与非农就业倾向之间存在着负相关关系。
(4)农户所拥有的耕地的数量影响其非农就业的倾向,在我国现有的农业现代化程度
比较低的条件下,耕地越多意味着农户必须将更多的劳动力分配到农业生产中,因此农户劳
动力的非农就业倾向越小,反之,耕地越少则非农就业的倾向越高。
(5)家庭结构也是影响农户劳动力非农就业的重要因素,家庭负担越轻,劳动力从事非农就业的倾向越大。
(6)劳动力受教育程度。
根据上述分析,我们构建了如下的计量模型:
Y=C+1iX+b2NYGDZC+XFNYGDZC+-4XZQY+-5RJGD+-6FDXS+:
iSchooll
+、£
2School2+、£
3School3+、"
School4+、^5School5+、*6School6+ut
其中:
Y为农户中是否有非农业就业的劳动力,如果有取1,没有则取0;
X为地区代码。
如果被调查对象属于滨海三区和四郊取1,否则取0;
NYGDZC为农户所拥有的人均农业生产性固定资产的价值;
FNYGDZC为农户拥有的人均非农业生产性固定资产的价值;
XZQY为农户所在村镇乡镇企业的个数;
RJGD为农户家庭人均拥有的耕地的数量;
FDINDEX为家庭结构的劳动力负担系数;
school1表示家庭中文盲或识字很少的劳动力的人数;
school2表示农户家庭内中小学文化程度的劳动力人数;
school3表示农户家庭中具有初中文化程度的劳动力的人数;
school4表示高中文化程度的劳动力的人数;
school5表示中专文化程度的劳动力的人数;
school6表示大专以上文化程度的劳动力的人数。
将被调查的样本将数据带入上述计量模型,具体结果见表3.1中的模型I。
DependentVariable:
Y
Method:
ML-BinaryLogit
Dgte:
05/26/04Time:
13:
Sample:
1750
Includedcbservatiors:
750
Convergenceachievedafter9iterations
Coelficient
Std.Error
z-Statistic
-1.041623
0299582
-3.476922
00005
X
0.612932
0.238627
2.568581
0.0102
NYGDZC
-2.09E-O5
141E-05
2CM6248
0.0407
FNYGDZC
443E-05
175E-05
2.532024
00113
XZQY
0.16409E
0.035315
4.646675
0.0000
RJGD
^0139878
0027584
^5070953
OODOD
SCHOCH
0751010
0377106
1.991507
00464
SCHOCL2
0.632891
0.130147
4.094536
SCHOOL3
0665983
0119983
5550633
SCHOOL4
0.947448
0.213264
4.442612
SCHOOLS
2.121638
0.515023
4.119499
SCH00LJ6
2.708487
1.064140
2545236
00109
0.613333
S.Dtdependentvar
0487311
S.E.o