二元选择模型.docx

资源描述

二元选择模型.docx

《二元选择模型.docx》由会员分享，可在线阅读，更多相关《二元选择模型.docx（17页珍藏版）》请在冰豆网上搜索。

二元选择模型.docx

二元选择模型

二元选择摸型

如果回归模型的解释变量中含有定性变量，则可以用虚拟变量处理之。

在实际经济问题

中，被解释变量也可能是定性变量。

如通过一系列解释变量的观测值观察人们对某项动议的态度，某件事情的成功和失败等。

当被解释变量为定性变量时怎样建立模型呢？

这就是要介绍的二元选择模型或多元选择模型，统称离散选择模型。

这里主要介绍Tobit（线性概率）

模型，Probit（概率单位）模型和Logit模型。

1.Tobit（线性概率）模型

Tobit模型的形式如下，

JamesTobin1958

其中Ui为随机误差项，Xi为定量解释变量。

yi为二元选择变量。

此模型由

年提出，因此得名。

如利息税、机动车的费改税问题等。

设

对yi取期望，

E（yi）=:

-+Xi

（2）

F面研究yi的分布。

因为yi只能取两个值，0和1，所以yi服从两点分布。

把yi的分布记为,

E（Ui）=（1-:

Xi）Pi+（-:

Xi）（1-Pi）=Pi-:

-：

Xi由（4）式，有

E（Ui）=pi-圧-!

：

iXi=0

因为yi只能取0,1两个值，所以，

E（ui2）=（1-:

--Xi）2pi+（-:

--Xi）2（1-p）

=（1-:

--Xi）2（:

+1：

Xi）+（:

-+1「Xi）2（1-:

■-!

：

;Xi）,（依据⑷式）

=（1-:

Xi）（:

-+:

Xi）=pi（1-pi）,（依据⑷式）

=E（yi）[1-E（yi）]

上两式说明，误差项的期望为零，方差具有异方差。

当口接近0或1时，5具有较小的

方差，当口接近1/2时，q具有较大的方差。

所以Tobit模型

（1）回归系数的OLS估计量具有无偏性和一致性，但不具有有效性。

假设用模型（4）进行预测，当预测值落在[0，1]区间之内（即Xi取值在[4,24]之内）

时，则没有什么问题；但当预测值落在[0,1]区间之外时，则会暴露出该模型的严重缺点。

因为概率的取值范围是[0，1]，所以此时必须强令预测值（概率值）相应等于0或1（见图

1）。

线性概率模型常写成如下形式，

{

1,:

-+1Xi-1

+“Xi,0<+!

：

■'■Xi<1（5）

0,:

-+'■Xi-0

然而这样做是有问题的。

假设预测某个事件发生的概率等于1,但是实际中该事件可能

根本不会发生。

反之，预测某个事件发生的概率等于0，但是实际中该事件却可能发生了。

虽然估计过程是无偏的，但是由估计过程得出的预测结果却是有偏的。

由于线性概率模型的上述缺点，希望能找到一种变换方法，

（1）使解释变量Xi所对应的

所有预测值（概率值）都落在（0，1）之间。

（2）同时对于所有的Xi，当Xi增加时，希望yi也单调增加或单调减少。

显然累积概率分布函数F（z）能满足这样的要求。

采用累积正态

概率分布函数的模型称作Probit模型。

用正态分布的累积概率作为Probit模型的预测概率。

另外logistic

函数也能满足这样的要求。

采用logistic函数的模型称作logit模型。

2.Probit（概率单位）模型，仍假定

Pi=F（yi）=

累积概率分布函数曲线在Pi=0.5附近的斜率最大。

对应yi在实轴上的值，相应概率值

永远大于0、小于1。

显然Probit模型比Tobit模型更合理。

Probit模型需要假定比服从正态分布。

3.logit模型

该模型是McFadden于1973年首次提出。

其采用的是logistic概率分布函数。

其形式是

Pi=F（yi）=F（:

+-Xi）=

1e"菇

对于给定的xi,pi表示相应个体做出某种选择的概率。

Probit曲线和logit曲线很相似。

两条曲线都是在pi=0.5处有拐点，但logit曲线在两个尾部要比Probit曲线厚。

利用（6）和（7）式得到的概率值见表1。

表1Probit模型和logit模型概率值

正态分布函数

17i飞

Pi=痂以吐

逻辑概率分布

Pi=卄

-3.0

0.0013

0.0474

-2.0

0.0228

0.1192

-1.5

0.0668

0.1824

-1.0

0.1587

0.2689

-0.5

0.3085

0.3775

0.0

0.5000

0.5

0.6915

0.6225

1.0

0.8413

0.7311

1.5

0.9332

0.8176

2.0

0.9772

0.8808

3.0

0.9987

0.9526

图2Probit曲线、logit曲线比较示意图

logit曲线计算上也比较方便，所以Logit模型比Probit模型更常用。

对上式作如下变换，

pi（1+e』i）=1

所以log（Pi）=yi=:

-+Xi（9）

1-Pi

由上式知回归方程的因变量是对数的某个具体选择的机会比。

logit模型的一个重要优

点是把在［0,1］区间上预测概率的问题转化为在实数轴上预测一个事件发生的机会比问题。

logit累积概率分布函数的斜率在pi=0.5时最大，在累积分布两个尾端的斜率逐渐减小。

说

明相对于Pi=0.5附近的解释变量Xi的变化对概率的变化影响较大，而相对于Pi接近0和1

附近的Xi值的变化对概率的变化影响较小。

对于Logit模型使用极大似然法估计参数是一个很好的选择。

首先分析含有两个参数（:

和1）的随机试验。

假设被估计的模型如下

Pi=（C-T=7-（10）

任宓申）1+e"

在样本中口是观测不到的。

相对于Xi的值，只能得到因变量yi取值为0或1的信息。

极大似然估计的出发点就是寻找样本观测值最有可能发生条件下的「和一：

的估计值。

从样本

看，如果第一种选择发生了n次，第二种选择发生了N-n次。

设采取第一种选择的概率是

Pi。

采取第二种选择的概率是（1-口）。

重新将样本数据排列，使前n个观测值为第一种选择，后N-n个观测值为第二种选择（观测值是0，1的，但相应估计的概率却各不相同）。

例1（file:

case5）

南开大学国际经济研究所1999级研究生考试分数及录取情况见数据表（N=95）。

定义变量SCORE:

考生考试分数；Y:

考生录取为1，未录取为0;虚拟变量D1:

应届生为1,非应届生为0。

图1样本观测值（file:

logit1）

得Logit模型估计结果如下（EViews命令：

Quick,estimateequation分别选Probit或Logit）:

Convergenceachievedalter12iterations

Covariancematrixcomputedusingsecondderivatives

Variable

Coofficient

St!

Errorz-Statistic

Prob.

-242.4576

124.5164-1.947194

0.0515

SCORE

0.677061

034B0301..945409

0.0517

-0.476605

2.984542-0169691

0.8731

Meandependentvar

0.144330

SD.dependentvar

0.353250

S.Eofregression

0115377

Akaikeinfocriterion

0.143907

Sunsquaredresid

1.251316

Schwarzcriterion

0.223537

Loglikelihood

-3.979482

Hannan-Quinncriter

0.176105

Restrloglikelihood

-40.03639

Avg.loglikelihood

^.041026

LRstatistic（2df）

7211382

McFaddenR-squared

0.900603

Probability（LRstat）

2.22E-16

□bswithDep=O

Totalobs

ObswithDep=1

注：

Akaikeinformationcriterion=-2logL+2—

logLLn（T）

Schwarzcriterion=-2+k—

logLLn（LnT）

Hannan-Quinncriterion=-2+2k

logL

AverageLoglikelihoodfunction=

其中k为被估参数个数，T为样本容量。

logL（~）

McFaddenR-squared=1-

logL（P）

因为D1的系数没有显著性。

说明“应届生”和“非应届生”不是决定是否录取的重要因素。

剔除D1。

得Logit模型估计结果如下

注意：

表达式中指数的写法。

Convergenceachievedafter12iterations

Covariancematrixcomputedusingsecondderivatives

Variable

Caefficient

Std.Errorz-Statistic

Prob.

-2437362

1256485-1.941371

0.0622

SCORE

0.679441

03504701.938658

0.0525

Meandependentvar

0144330

SO.dependentvar

0.353250

SE.ofregression

0,115440

Akaikeinfocriterion

0.123553

Sumsquaredresid

1.266017

Schwarzcriterion

0176640

Loglikelihood

-3.992330

Hannan-Quinncriter.

0.145019

Restr.loiglikelihood

-40.03639

Avg.laglikelihood

-0.041158

LRstatistic（1df）

72.08012

McFaddenR-squared

0900202

Probability（LRstat）

DODODOO

ObswithDep=0

Tci怡Iobs

ObswithDep=1

在估计Probit模型过程中,

1.2

YFLOGI

1.0

0.8

0.6-

■-

0.4_

■

0.2■

0.0-

-0.2-

SCORE

100200300400

图2Logit模型预测值，拐点坐标（358.7,0.5）

拐点坐标（358.5,0.5）

100

Pi=F（yJ=F（-144.456+0.4029Xi）

YFPROB

■■■・・■■■■■a-w■libjw・wrw

SCORE

1.2

1.0

0.8

0.6

0.4

0.2

0.0

-0.2

200

300

400

图3Probit模型预测值，拐点坐标（358.5,0.5）

Convergenceachievedafter12iterations

Covariancematrixcomputedusingsecondderivatives

Variable

Coefficient

StlErrorz-Statistic

Prob.

-1444560

70.19773-2.D57844

0.0396

SCORE

0.402868

01961352.053514

00400

Meandependentvar

0144330

SD.dependentvar

0.353250

SE.ofregression

0116277

Akaikeinfocriterion

0.122406

Sumsquaredresid

1.284441

Schwarzcriterion

0.175493

Loglikelihood

-3.936702

Hannari'Quinnenter.

0.143872

Restr.loglikelihood

-40.03639

Avg.loglikelihood

-0.040585

LRstatistic（1dfl

72.19938

McFaddenR-squared

0.901672

Probability（LRstat）

0.000000

ObswithDep=O

Totalobs

□bswithDep=1

两种估计模型的若干预测结果如下表,

score

Probit模型

Logit模型

350

-3.44

0.0003

-5.95

0.0026

355

-1.43

0.0764

-2.55

0.0738

359

0.00

0.5000

0.00

0.5000

360

0.59

0.7224

0.85

0.7032

365

2.60

0.9953

4.24

0.9858

370

4.62

0.9999

7.64

0.9995

表2数据表

obs

SCORE

obs

SCORE

obs

SCORE

401

332

275

401

332

273

392

332

273

387

331

272

384

330

267

379

328

266

378

328

263

378

328

261

376

321

260

371

321

256

362

318

252

362

318

252

361

316

245

359

308

243

358

308

242

356

304

241

356

303

239

355

303

235

354

299

232

354

297

228

353

294

219

350

293

219

349

293

214

349

292

210

348

291

204

347

291

198

347

287

189

344

286

188

339

286

182

338

282

166

338

282

123

336

282

334

278

例3:

农户劳动力的非农业就业模型（file:

logitzhou）。

本例的主要任务之一是要考察影响农村居民家庭劳动力非农业就业的主要因素，尤其重

点考察教育程度对非农业就业的影响。

一般而言，在劳动力市场发育相对成熟的条件下，教育可以提高劳动力非农就业的可能

性。

劳动力教育程度越高，非农就业的机会越多，非农就业的倾向也就越高。

此外，还有其他许多因素影响农村劳动力的非农就业。

如

（1）农村居民家庭所在地区的区位条件。

在其他条件保持不变的条件下，离中心城市

越近，非农产业越发达，提供的非农就业机会就越多。

同时农户进入非农产业就业的成本越

低。

这种家庭中的劳动力进入非农业就业的可能性也越大。

（2）被调查对象所在村镇的乡镇企业的发达程度直接影响农村居民的非农就业。

乡镇

企业越发达，农村居民非农业就业的概率越高；反之，乡镇企业越不发达，非农就业的概率

越小。

（3）农户拥有生产资料情况也是影响其劳动力非农就业的重要因素。

其中，如果其他

条件相同，则非农业生产性固定资产越多，则农户中劳动力的非农业就业倾向越大。

而农业

生产性固定资产对劳动力非农就业倾向影响比较复杂，如果农户所拥有农业生产性固定资产

属于有劳动力替代型的，则它与劳动力非农就业倾向之间的关系是正相关的，反之如果属于

劳动力互补型的，则它与非农就业倾向之间存在着负相关关系。

（4）农户所拥有的耕地的数量影响其非农就业的倾向，在我国现有的农业现代化程度

比较低的条件下，耕地越多意味着农户必须将更多的劳动力分配到农业生产中，因此农户劳

动力的非农就业倾向越小，反之，耕地越少则非农就业的倾向越高。

（5）家庭结构也是影响农户劳动力非农就业的重要因素，家庭负担越轻，劳动力从事非农就业的倾向越大。

（6）劳动力受教育程度。

根据上述分析，我们构建了如下的计量模型：

Y=C+1iX+b2NYGDZC+XFNYGDZC+-4XZQY+-5RJGD+-6FDXS+:

iSchooll

+、£2School2+、£3School3+、"School4+、^5School5+、*6School6+ut

其中：

Y为农户中是否有非农业就业的劳动力，如果有取1，没有则取0；

X为地区代码。

如果被调查对象属于滨海三区和四郊取1,否则取0；

NYGDZC为农户所拥有的人均农业生产性固定资产的价值；

FNYGDZC为农户拥有的人均非农业生产性固定资产的价值；

XZQY为农户所在村镇乡镇企业的个数；

RJGD为农户家庭人均拥有的耕地的数量；

FDINDEX为家庭结构的劳动力负担系数；

school1表示家庭中文盲或识字很少的劳动力的人数；

school2表示农户家庭内中小学文化程度的劳动力人数；

school3表示农户家庭中具有初中文化程度的劳动力的人数；

school4表示高中文化程度的劳动力的人数；

school5表示中专文化程度的劳动力的人数；

school6表示大专以上文化程度的劳动力的人数。

将被调查的样本将数据带入上述计量模型，具体结果见表3.1中的模型I。

DependentVariable:

Method:

ML-BinaryLogit

Dgte:

05/26/04Time:

13:

Sample:

1750

Includedcbservatiors:

750

Convergenceachievedafter9iterations

Covariancematrixcomputedusingsecondderivatives

Variable

Coelficient

Std.Error

z-Statistic

Prob.

-1.041623

0299582

-3.476922

00005

0.612932

0.238627

2.568581

0.0102

NYGDZC

-2.09E-O5

141E-05

2CM6248

0.0407

FNYGDZC

443E-05

175E-05

2.532024

00113

XZQY

0.16409E

0.035315

4.646675

0.0000

RJGD

^0139878

0027584

^5070953

OODOD

SCHOCH

0751010

0377106

1.991507

00464

SCHOCL2

0.632891

0.130147

4.094536

0.0000

SCHOOL3

0665983

0119983

5550633

OODOD

SCHOOL4

0.947448

0.213264

4.442612

0.0000

SCHOOLS

2.121638

0.515023

4.119499

0.0000

SCH00LJ6

2.708487

1.064140

2545236

00109

Meandependentvar

0.613333

S.Dtdependentvar

0487311

S.E.o

展开阅读全文