离散选择模型完整版.docx
《离散选择模型完整版.docx》由会员分享,可在线阅读,更多相关《离散选择模型完整版.docx(17页珍藏版)》请在冰豆网上搜索。
离散选择模型完整版
HENsystemofficeroom[HEN16H-HENS2AHENS8Q8-HENH1688]
第五章离散选择模型
TO
在初级计量经济学里,我们已经学习了解释变量是虚拟变量的惜况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。
我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的佔计与应用。
本章主要介绍以下内容:
1、为什么会有离散选择模型。
2、二元离散选择模型的表示。
3、线性概率模型佔计的缺陷。
4、Logit模型和Probit模型的建立与应用。
一、问题的提出
在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。
1、被解释变量是定性的选择与决策问题,可表示,即取值是不连续的。
例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。
山离散数据建立的模型
2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。
例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。
这种类型的数据成为审査数据:
再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据.这两种数据所建立的模型称为受限被解释变量模型。
有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。
下面是儿个离散数据的例子。
例研究家庭是否购买住房。
曲于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住
房的心理价位很难观测到,但我们可以观察到是否购买了住房,即我们希望研究买房的可能性,即概率P(Y=1)的大小。
例分析公司员工的跳槽行为。
员工是否愿意跳槽到另一家公司,取决于薪资、发展潜力等诸多因素的权衡。
员工跳槽的成本与收益是多少,我们无法知道,但我们可以观察到员工是否跳槽,即
例对某项建议进行投票。
建议对投票者的利益影响是无法知道的,但可以观察到投票者的行为只有三种,即
研究投票者投什么票的可能性,即p(y=/),7=i,2,3o
从上述被解释变量所取的离散数据看,如果变量只有两个选择,则建立的模型为乂称二元型响应模型;如果变量有多于二个的选择,则为本章主要介绍二元离散选择模型。
离散选择模型起源于Fechner于1860年进行的动物条件二元反射研究。
1962年,Warner首次将它应用于经济研究领域,用于研究公共交通工具和私人交通工具的选择问题。
70-80年代,离散选择模型被普遍应用于经济布局、企业选点、交通问题、就业问题、购买行为等经济决策领域的研究。
模型的估计方法主要发展于20世纪80年代初期。
(参见李子奈,高等计量经济学,清华大学出版社,2000年,第155页-第156页)
二、线性概率模型
对于二元选择问题,可以建立如下计量经济模型。
1、
设家庭购买住房的选择主要受到家庭的收入水平,则用如下模型表示
其中,xr•为家庭的收入水平,X为家庭购买住房的选择,即
由于F是取值为0和1的随机变量,并定义取丫值为1的概率是0则丫的分布为即随机变量丫服从两点分布。
根据两点分布,可得丫的数学期望为上述数学模型的经济学解释是,因为选择购买住房变量取值是1,其概率是Q,并且这时对应P的表示是一线性关系,因此,丫在给定X,下的条件期望E(Y\XJ可解释为在给定&下,事件(家庭购买住房)将发生的条件概率为P(E=1|XJ,亦即家庭选
(5-1)
E(Y\Xi}=p^piXi=p
择购买住房的概率是家庭收入的一个线性函数。
我们称这一关系
曲于,Y服从两点分布,所以,丫的方差为
2、线性概率函数的估计及存在的问题
布。
(2)©的异方差性。
事实上,根据%服从两点分布则妁的方差为Var(uf)=Pi(l-Pj)o表明口随着i的变动是一个变量,则心的方差不是一个固定常数。
(3)利用加权最小二乘法修正异方差
取权数为
可以证明半具有同方差。
在具体估计线性概率模型时,用£作为q的估计来计算权数H'的估计©o
3、可决系数F的非真实性。
曲于,被解释变量Y只取值1或0,不可能有估计的线性概率模型能很好地拟合这些点,所以,这时计算的疋会比1小许多,在大多数例子中,F介于与之间。
4、0WE7|XJW1不成立。
克服这一问题可直接从对线性概率模型的估计,求出用人工的方法定义当£>1时,取廉二1;当时,取£二0。
但要比较好地解决这类问题,只能考虑采用新的估计方法,这就是将要介绍的
Logit模型和Probit模型。
第二节Logit模型
一、Logit模型的产生
1、产生Logit模型的背最
由上述介绍可知,对于线性概率模型来说,存在一些问题,有的问题尽管可以用适当的方法加以弥补,但并不完善和理想。
(1)古典假定不再成立’如存在异方差性,可用加权0LS方法加以弥补。
(2)在线性概率模型中,对于不满足0的情况,用人工的方法处理,B|J
当£〉1时,取£二1
当时,取
虽然能够弥补不足,但仍然具有较强的主观因素。
(3)经济意义也不能很好地得到体现。
在线性概率模型E(Y\X)=卩严伙X严p中,概率P(y=l)会随着X,的变化而线性变化,但这与实际悄况通常不符。
例如购买住房,通常收入很高或很低,对于购买住房的可能性都不会有太大的影响,而当收入增加很快时,对购买住房的影响将会很大。
所以,购买住房的可能性与收入之间并不有可能是一种
2、Logit模型的含义
综合上述讨论,我们所需要的是具有如下二分性质的模型。
(1)随着&的减小,必趋近0的速度会越来越慢;反过来随着&的增大,门接近1的速度也越来越慢,而当X,增加很快时,门的变化会比较快。
故必与X,之间应呈非线性关系。
(2)并且山概率的属性,门的变化应始终在0和1之间。
因此,一个很自然的想法是采用随机变量的分布函数来表示几与乙的这种非线性关系。
从儿何图形看,所需要的模型有点像图那样,概率位于0与1之间,并随着非线性地变化。
图一个累积分布函数的图形
形如图所示的S型曲线,就是随机变量的一个累积分布函数(CDF)。
因此,当回归中的被解释变量是取0和1的二分变量时,并且概率值的变化与解释变量X,之间有上述变化特征,则可用CDF去建立回归模型。
在二分被解释变量的研究中可使用多种分布函数(Cox,1970)来表示。
但最常用的是Logistic分布函数和标准止态分布函数,前者导出Logit模型,后者导出Probit模型。
(3)Logistic分布函数
设
卩"忆*岛=1+人曲(I>
式中,z,=p严卩丛严并且在该表达式中,有如下变动规律,
当Zj—>+°o时,p.—>1;
当Z,T-O0时,PiT0;
当乙=0时,Pl=-o
2
称(5-2)式为Logistic分布函数,它具有明显的S型分布特征。
(4)Logit模型
以下是由Logistic分布函数导出Logit模型。
其中,亠为机会概率比(简称机会比,下同),即事件发生与不发生所对应的概
1-门
率之比。
称(5-3)式为
3、Logit模型的特点
(1)随着P从0变到1,In(丄)从Y0变到00(亦即乙从Y0变到x)O可以看
1-〃
出,在LPM中概率必须在0与1之间,但对Logit模型并不受此约束。
(2)In(丄)对X,为线性函数。
1-〃
(3)当ln(-^)为正的时候,意味着随着X,的增加,选择1的可能性也增大
1-〃
To当In(丄)为负的时候,随着X,的增加,选择1的可能性将减小。
换言之,当机
1一〃
会比由1变到0时,ln(_L)会变负并且在幅度上越来越大;当机会比由1变到无穷
1-〃
时,h】(_L)为正,并且也会越来越大。
4、Logit模型与线性回归模型的区别
(1)Logit模型为非线性模型,尽管等式右端看上去是线性形式,而普通回归模型是线性模型。
(2)线性回归模型研究被解释变量丫的均值E(Y\Xt)与解释变量X,之间的依存关系,而Logistic分布函数研究的是事件发生的概率P(Y=\\X)与解释变量X,的依存关系。
(3)线性回归模型中包含随机误差项©,对%的要求是要满足基本假定,而Logistic分布函数没有出现随机误差项,对模型没有这样的要求。
(4)在佔ITLogit模型时,要求数据必须来自于随机样本,即各观测值相互独立,或者说要求样本分布与总体分布具有同一性,而对线性回归模型一般悄况下并无这样严格的要求。
此外,Logit模型与线性回归模型的一个相同的要求是,解释变量之间要无多重共线性,否则,会导致参数估计的方差变大和不稳定。
二、Logit模型的估计
为了估itLogit模型,除了X:
外,我们还应有In(丄)的数值。
由于必只取值为
1和0(即事件发生或不发生,如买房或不买房),使得In(丄)无意义,通常情况
1一"
下,几没有具体的数据,所以直接对Logit模型进行估计有困难。
这时,可有以下估计方法。
1、根据数据类型选用0LS方法
可通过市场调査获得分组或重复数据资料,用相对频数几=土作为必的佔汁。
以叫
购买住房为例,将购买住房的惜况分组,假设第i组共有叫个家庭,收入为x「,其中有,;个家庭已购买住房,其余未购买。
则收入为X,的家庭,购买住房的频率为将其作为卩的估计,并代入对数机会比,有于是,样本回归函数为
对上式可直接运用OLS法估汁未知参数了。
具体应用可参见DamodarN.Gujarati《计量经济学基础》(第四版)下册,中国人民大学出版社,2005年。
第559页-第560页。
2、最大似然估计方法
在线性回归中佔计总体未知参数时主要采用OLS方法,这一方法的原理是根据线性回归模型选择参数佔汁,使被解释变量的观测值与模型佔汁值之间的离差平方值为最小。
而最大似然佔计方法则是统讣分析中常用的经典方法之一,它是建立在山联合密度函数所导出的似然函数,并对其求极值而得到参数佔计的一种方法。
在线性回归分析中最大似然估计法可以得到与最小二乘法一致的结果。
但是,与最小二乘法相比,最大似然估计法既可以用于线性模型,乂可以用于非线性模型,由于Logit回归模型是非线性模型,因此,最大似然佔汁法是ITLogit回归模型最常用的方法。
下面,以单变量为例,说明该方法的运用。
假设有n个样本观测数据(X,<),i=l,2,…由于样本是随机抽取,所以,在给定X「条件下得到的力=1和乙=0的概率分别是门和1-门。
于是,一个观测值的概率为其中,齐=1或匕=0。
因为,各项观察相互独立,则n次观察所得的样本数据的联合分布可表示为各边际分布的连乘积
称上式为n次观察的似然函数。
山最大似然佔汁法的原理知,最大似然佔汁就是求解出具有最大可能取所给定的样本观测数据的参数佔讣。
于是,最大似然佔计的关键是佔计出人和B,使得上述表达式取得最大值。
将上式两端取对数得
称上式为对数似然函数。
为了佔计能使ln[U0「02)]有最大的总体参数佔计诊和A,
先分别对0,02求偏导数,然后令其为0,得
在线性回归中,似然函数是通过把偏离差平方和分别对肉,02求偏导数得到,它对于未知参数都是线性的,因此,很容易求解。
但是对于Logit回归中的上述两个方程是关于的非线性函数,求解十分困难。
随着现代计算机技术的发展,许多计量经济学和统计学的软件包均有Logit回归的参数最大似然佔汁值,常用的EViews软件就含有该估计方法。
3、Logit回归最大似然估计的统计性质
(1)参数佔讣具有一致性,即当样本观测增大时,模型的参数佔计值将比较接近参数的真值。
(2)参数估汁为渐近有效,即当样本观测增大时,参数佔汁的标准误相应减小。
(3)即随着样本观测的增大,估计的分布近似于正态分布。
这意味着,可以利用这一性质对未知参数进行假设检验和区间佔计了。
有关证明可参见Aldrich,John&ForrestD.Nelson.1984.Linear
Probability,Logit,andProbitModels.NewburyPark,SagePublications.
三、Logit回归模型的评价和参数的统计检验
与一般线性回归模型一样,在得到Logit回归模型的参数估计后,还应对模型进行评价和相应的统汁检验。
1、模型的拟合优度检验
模型佔汁完成以后,需要对模型是否有效地描述了模型与观测数据的匹配程度进行评价。
如果模型的预测值(拟合值)能够与对应的观测值有较高的一致性,就认为该模型能拟合数据,否则,将不接受这一模型。
对Logit回归模型的评价有多种方法,不同的计算软件给出的评价结果也有差异。
这里,我们将根据EViews软件,介绍模型拟合优度的检验方法。
(1)McFaddenR2
在前面的介绍中,已经提到对于离散选择模型,通常的拟合优度用没有多大意义。
在EViews软件里,有一种方法即McFaddenR2,简记为其计算公式为式中,UF”为模型中包含所有解释变量的无约束对数似然函数值,口巴为模型中仅含有截距项的有约束的对数似然函数值。
从概念上讲,UF”和口人分别等价于普通线性回归模型中的RSS和TSS。
与F—样,也在0到1之间变动。
(2)期望-预测表检验
该方法的原理是,在模型参数佔汁后,选取适当的截断值/7(07<1),将观测数据分成两组,一组为1/(1+严)W”,另一组为1/(1+严)>0,其中,ZlB\+BZ如果样本中的一个观测数据丫的数值为0,并且该样本属于第1组,同时另一个观测数据Y的数值为1,并且属于第2组,就称这个观测数据是分组恰当的,否则就称这个观测数据是分组不恰当的。
该方法的思想是利用分组恰当与否,得到观测数据占总样本的比重来检验模型的拟合优度。
如果模型佔汁与实际观测数据比较一致,则大多数的观测数据应该是分组恰'勺的,反之,如果分组不恰、“1的观测数据所占的比重很大,说明模型佔汁与实际观测数据的拟合程度较差,模型就需要调整。
利用软件EViews进行期望-预测表检验的步骤如下:
第一步,在佔计•好模型的窗口中按此路径选择View/ExpectationPredictionTableo
第二步,出现一个对话框,在对话框里输入一个截断值“(Ovpvl),系统默认的截断值是。
通常情况下,可取X为1的次数在总观测次数中所占的比例作为截断值的估计值。
第三步,点击0K后可生成对应的期望-预测表。
这时便可利用该表进行拟合优度的判断。
有关Logit回归模型的拟合优度其它检验方法,如皮尔逊才检验、偏差检验、从⑸“仟-厶,〃疋Mow拟合优度指标和信息测量指标等。
可参见相关文献,如王济川、郭志刚,Logistic回归模型——方法与应用,高等教育出版社,2001年,第58页一一第89页。
2、参数的显着性检验
对模型中参数的显着性检验,就是决策判断某个解释变量对事件的发生(即选取r=i)是否有显着性影响。
如果检验结果表明该解释变量对选取丫=1的发生有显着性影响,则认为将该解释变量放入Logit回归模型中是恰当的。
否则,需要对模型进行适当的调整。
(1)Z检验
以一元Logit回归模型为例,设模型为
对该模型中的参数02的显着性检验的原假设为日。
:
02=0,即解释变量X.对事件
丫=1发生的概率没有显着性影响。
根据参数的最大似然估计性质可知,在大样本条件下,介渐近服从正态分布,于是,在日。
:
02=0成立的前提下,检验统计量为渐近服从标准正态分布。
式中,影(広)为最大似然估il仏的标准误差。
因此,可按常规查标准正态分布表,对原假设进行判断,从而检验模型中参数的显着性。
(2)Wald检验
对模型中参数显着性检验还可使用Wald检验,其检验统计•量为
在/70:
A=0下,W渐近服从自由度为1的才分布。
因此,可根据才分布表,在给定的显着性水平&下,得到相应的临界值,从而判断参数的显着性。
可参阅Hauck,W.W.&A.testsasappliedtohypothesesinlogitanalysis.JournaloftheAmericanStatisticalAssociation,:
851-853.
(3)似然比检验
统计•学上已经证明,在大样本情况下,两个模型之间如果具有嵌套关系,则两个模型之间的对数似然值乘以-2的结果之差近似服从才分布。
这一统计量就是似然比统计量。
该检验的思想是,假设一个模型记为中有解释变量X」,另一个模型记为包含了M%/1中所有其它解释变量,而没有包含Xj,则称嵌套于Model\,亦即Model[包含了Model!
<>通过这一模型之间嵌套关系,我们实际上需要判断的是X,出现在模型Modt71中是否合适。
Hanushek&Jackson,1977;Aldrich&Nelso,1984;Greene,1990;Long,1997分别证实了似然比统计量为
其中,山(4汶川)为所设定的原模型(即包含了所有解释变量——“有约束”)的最大似然函数的对数值,】n(厶嗣池)为省略模型(即省略了解释变量X/——“无约束”)的最大似然函数的对数值,两者之间的差乘以-2近似地服从才分布,其自山度为省略了的解释变量的个数。
接下来,可根据才分布表,在给定的显着性水平Q下,得到临界值,从而判断参数的显着性。
例分析某种教学方法对成绩影响的有效性,被解释变量GRADE为接受新教学方法后成绩是否改善,如果改善取1,否则取0;GPA为平均分数;TUCE为测验得分;PSI为是否接受新教学方法,如果接受取1,否则取0。
运用EViews软件中Logit模型佔计方法得到如下结果
I£Vxe一EQU1Voxlcfile:
GKEI£NF2U4l\Gx
I—IEilcE,4i*Qbject乂iewQuickOntionsWindow
Viwvv|Eoc|Object|口亦"Nmme||Estimate|SwcQSt|Stats|Resids[
DependentVariableGRADE
MethodML-曰inmryLogit(Quadratichillclimbing)Date:
06/04/06Time:
22:
11
Sample132
Includedobservations32
Convergenceachievedafter5iterations
Covariancematrixcomputedusingsecondderivatives
Variable
Coefficient
StdError
z-Statistic
Prob
CGPATUCEPSI
・13.02135
282G1130.095158
2378688
4.931317
1.2S29400.1415541064563
-2.G40541
223772G
0.672235
2234426
00083002520.5014
00255
MeandependentvarSEofregressionSumsqu合「EdresidLoglikelihoodRestr.loglikelihoodLRstatistic(3df)Probability(LRstat)
0343750
038471G
4144171
・12889G3-2059173
1S.40419
0001502
SDdependentvarAkaikeinfocriterionSchwarzcriterionHannan-Quinncriter.AvgloglikelihoodMcFaddenR-squared
0482559
1055602
1238819
1116333・0.402801
0.374038
ObswithDep=0
ObswithDep=1
21
11
Totalobs
32
1、由表格写出估计表达式
2、参数的显着性检验
包括截距项在内的4个参数佔计的标准差分别为
它们的z统计量分别是
给定a=0.05,表明除了变量TUCE外,其它两个变量对机会比均有显着性的正影响。
3、模型的显着性检验
(1)由计算表格知,拟合优度指标略=0.3743,表明模型有一定的拟合优度。
(2)期望-预测表检验。
因为,接受新方法成绩有所改善的比例为%,所以选取截断值为。
在建好模型的窗口按前述的路径得到如下结果
由上表可知,左边给出的是对观测数值分组的结果,归入第1组的观测数值共为19个,其中,分组恰当的为17个,分组不恰当的为2个,即对被解释变量Y=0的观测
17
数值(总共21个)来讲,模型分组恰当的比率为%(乂);归入第2组的观测数值
21
为13个,其中,分组恰当的为9个,分组不恰当的为4个,即对被解释变量丫=1的
9
观测数值(总共11个)来讲,模型分组的恰当比率为%(-);111此得到模型所有观11
测数值总的分组恰当比率为%(―),说明佔计的模型有较好的拟合优度。
32
四、Logit模型回归系数的解释
(5-3)
山前面的推导可知,将事件发生的条件概率定义为p(y=iixr)=/7,则我们可得到如下模型
P(Y一11XJ—]+严0曲-i+exp(—肉一0丸)
进一步,在发生比的基础上,我们还可得到如下模型
(5-4)
对模型(5-4),具体来讲,Logit模型的系数如果是正的并且统计显着,则在控制其它变量的情况下,对数发生比随对应的解释变量值增加而增加,相反,一个显着的负系数代表对数发生比随对应解释变量的增加而减少。
如果系数的统讣性质不显着,说明对应解释变量的作用在统计上与0无差异。
1、按发生比率来解释Logit模型的系数
对Logit模型的回归系数进行解释时,很难具体把握以对数单位测量的作用幅度,所以通常是将Logit作用转换成对应的发生比来解释。
设模型为
(5-5)
转换成发生比的形式(还原成以e为底的指数函数)
1-Pi
式中,截距A可以作为基准发生比的对数。
基准的意思是指当Logit模型中没有任何
解释变量时所产生的发生比。
或者,除了常量外,所有解释变量都取0值时所产生的发生比。
对于解释变量的作用的解释,由(5-5)式看出,各项作用之间已经山加法的关系转变为乘法关系。
因此,系数伙的作用可解释为,当02为正值时,/将大于
1,则在其它条件不变的情况下,/每增加一个单位值时发生比会相应增加;当伙为负值时,"将小于1,说明X,每增加一个单位值时发生比会相应