第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx
《第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx》由会员分享,可在线阅读,更多相关《第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx(84页珍藏版)》请在冰豆网上搜索。
高级计量经济学及Stata应用第五讲多值、排序与计数模型,陈强山东大学经济学院,多值选择模型,个体面临的多值选择:
交通工具;职业;手机消费品牌。
假设可供个体选择的方案为,J为正整数,即共有J种互相排斥的选择。
如果J=2,则为二值选择模型。
2019-06-19,陈强计量及Stata应用(c)2014,2,随机效用法,假设个体i选择方案j的随机效用为,解释变量xi只随个体i而变,不随方案j而变。
比如,个体的性别、年龄、收入等特征。
这种解释变量称为“只随个体而变”(case-specific)或“不随方案而变”(alternative-invariant)。
系数表明,xi对随机效用Uij的作用取决于方案j。
2019-06-19,陈强计量及Stata应用(c)2014,3,随机效用法(续),个体i选择方案j,当且仅当方案j的效用高于所有其他方案,故个体i选择方案j的概率可写为,假设为iid且服从I型极值分布(typeIextremevaluedistribution),可证明:
2019-06-19,陈强计量及Stata应用(c)2014,4,随机效用法(续2),选择各项方案的概率之和为1。
这是二值选择Logit模型向多值选择模型的推广。
但无法同时识别所有系数。
如果将变为,不影响模型的拟合。
常将某方案(比如方案1)作为“参照方案”(basecategory),令其系数为0。
2019-06-19,陈强计量及Stata应用(c)2014,5,多项logit,个体i选择方案j的概率为,此模型为“多项logit”(multinomiallogit),可用MLE进行估计。
2019-06-19,陈强计量及Stata应用(c)2014,6,多项Probit,如果假设服从J维正态分布,可得“多项probit”(multinomialprobit)模型但多项Probit的计算涉及高维积分,不易计算,较少使用。
2019-06-19,陈强计量及Stata应用(c)2014,7,2019-06-19,陈强计量及Stata应用(c)2014,8,随方案而变的解释变量,多项Logit仅考虑不随方案而变的解释变量(比如,个体收入),但有些解释变量既随个体,也随方案而变。
比如,在选择交通工具时,乘车时间既因个体而异,也因交通工具而异。
这种解释变量称为“随方案而变”(alternative-specific),既包括同时随方案与个体而变的变量,也包括随方案而变但不随个体而变的变量。
条件Logit,个体i选择方案j的随机效用为,解释变量xij,既随个体i而变,也随方案j而变。
系数表明,xij对随机效用Uij的作用不依赖于方案j。
比如,乘车时间依个体与方案而变,但乘车时间太长所带来的负效用是一致的。
2019-06-19,陈强计量及Stata应用(c)2014,9,条件Logit(续),根据与多项Logit类似的推导,,此模型称为“条件logit”(conditionallogit)(McFadden,1974)。
在条件Logit模型中,系数不依赖于方案,故无需选择参照方案。
2019-06-19,陈强计量及Stata应用(c)2014,10,混合Logit,前面分别考虑了解释变量不随方案而变的“多项Logit”,以及解释变量随方案而变的“条件Logit”。
考虑这两种情况同时发生的混合情形。
个体i选择方案j的随机效用为,个体i选择方案j的概率为,2019-06-19,陈强计量及Stata应用(c)2014,11,混合Logit(续),此模型在文献中称为“混合Logit”(mixedlogit),但Stata仍称为“条件Logit”。
为了识别该模型,也需要选择一个参照方案(比如方案1),然后令。
2019-06-19,陈强计量及Stata应用(c)2014,12,2019-06-19,陈强计量及Stata应用(c)2014,13,标准误,在多值选择模型中,由于被解释变量的分布必然为“多项分布”(multinomialdistribution),故一般不必使用稳健标准误,使用普通标准误即可;这一点类似于二值选择模型。
如果数据为聚类样本,则仍应使用聚类稳健的标准误,即Stata选择项vce(clusterclustvar)。
多值模型的系数解释,在多项Logit与混合Logit模型中,对系数的解释依参照方案(basecategory)为转移的(可根据理论或方便来选择参照方案)。
以多项Logit为例,假设“方案1”或“方案j”必然发生(必居其一),则方案j发生的条件概率为,2019-06-19,陈强计量及Stata应用(c)2014,14,IndependenceofIrrelevantAlternatives,此条件概率并不依赖于任何其他方案,而且在形式上与二值选择的Logit模型完全相同。
如果将多值选择模型中的任何两个方案单独挑出来,都是二值logit模型。
此假定称为“无关方案的独立性”(IIA)。
对IIA假定的检验尚不完善。
几率比(oddsratio)为:
2019-06-19,陈强计量及Stata应用(c)2014,15,2019-06-19,陈强计量及Stata应用(c)2014,16,多项选择模型的数据格式,在Stata中,多项选择模型的数据格式依赖于变量类型。
对于所有解释变量都只随个体而变(case-specific)的多项logit或多项probit模型,应使用“宽形格式”(wideform),即同一个体的所有数据均出现在数据表格的同一行。
在条件logit模型与混合logit模型中,由于存在随方案而变(alternative-specific)的解释变量,故应使用“长形格式”(longform),即同一个体的数据出现在数据表格的几行,对应于备选的几个方案(一个方案占一行)。
可通过命令reshape在宽形与长形格式之间转换。
多项Logit与多项Probit的Stata命令,mlogityx1x2x3,rrrbase(#)(多项Logit)其中,选择项“base(#)”用于指定参照组(basecategory);如果不指定,则默认使用观测值最多的方案为参照方案。
选择项“rrr”表示汇报“相对风险比率”(RelativeRiskRatio,简记RRR),即汇报,而非。
mprobityx1x2x3,base(#)(多项Probit),2019-06-19,陈强计量及Stata应用(c)2014,17,2019-06-19,陈强计量及Stata应用(c)2014,18,条件Logit的Stata命令,clogityx1x2x3,group(varname)or必选项“group(varname)”用来指定由归属同一个体的观测值所构成的组(因为数据按长形排列)选择项“or”表示汇报“几率比”(oddsratio)。
命令clogit不能直接处理只随个体而变(case-specific)的解释变量。
2019-06-19,陈强计量及Stata应用(c)2014,19,混合logit的Stata命令,asclogityx1x2x3,case(varname)alternatives(varname)casevars(varname)base(#)or“asclogit”表示“alternative-specificconditionallogit”必选项“case(varname)”指定个体(case),必选项“alternatives(varname)”指定方案(数据按长形排列),选择项“casevars(varname)”表示只随个体而变的解释变量;选择项“base(#)”用来指定参照方案;选择项“or”表示汇报“几率比”(oddsratio)。
2019-06-19,陈强计量及Stata应用(c)2014,20,例:
美国GeneralSocialSurvey的职业选择,以数据集nomocc2.dta为例。
被解释变量:
受访者职业分为五类(occ),即服务人员(menial),蓝领(bluecollar),工匠(craft),白领(whitecollar)及专业人士(professional)。
解释变量:
是否白人(white),受教育年限(ed),工龄(exper)。
这些解释变量都只依赖于个体,而不依赖于方案,故应使用多项logit或多项probit回归。
数据特征,usenomocc2.dta,clearsum,2019-06-19,陈强计量及Stata应用(c)2014,21,数据格式,通过前6个数据来看数据格式。
listin1/6,数据按职业排序,故前6名都从事服务业。
其中,5名为白人,受教育年限从11-14年不等,而工龄从3-44年不等。
由于数据表中每行对应于一名个体,故数据格式为宽形(wideform)。
2019-06-19,陈强计量及Stata应用(c)2014,22,初步考察,通过列表考察受教育年限(ed)与职业(occ)的关系tableocc,contents(Nedmeanedsded)命令“table”将变量的统计特征列表,选择项“contents()”用来指定最多5个统计量,“Nedmeanedsded”表示罗列变量ed的样本容量、均值与标准差(按变量occ分为5个子样本)。
2019-06-19,陈强计量及Stata应用(c)2014,23,2019-06-19,陈强计量及Stata应用(c)2014,24,多项Logit回归,mlogitoccwhiteedexper,nolog结果见下页:
由于没有指定参照方案(baseoutcome),故自动选择观测值最多的方案(即专业人士)为参照方案。
在5%的显著性水平上,给定其他变量,白人(white)更不可能选择服务业或工匠;但对选择蓝领或白领无显著影响受教育程度(ed)越高,越不可能选择除专业人士以外的职业。
工龄越长(exper),越不可能选择服务业或蓝领;工龄对于选择工匠或白领无显著影响。
mlogitoccwhiteedexper,rrr(汇报相对风险),2019-06-19,陈强计量及Stata应用(c)2014,25,2019-06-19,陈强计量及Stata应用(c)2014,26,职业选择的可能性,预测个体选择各种职业的可能性,分别记为occ1,occ2,occ3,occ4,occ5,并显示对前5个观测值的预测结果。
predictocc1occ2occ3occ4occ5listocc1-occ5in1/5,2019-06-19,陈强计量及Stata应用(c)2014,27,2019-06-19,陈强计量及Stata应用(c)2014,28,多项Probit回归,mprobitoccwhiteedexper,nolog多项probit的系数与多项logit的系数不具可比性;具有可比性的是两个模型的预测概率。
为此,计算多项probit模型所预测的各种职业的选择概率,分别记为occ1p,occ2p,occ3p,occ4p,occ5p。
predictocc1pocc2pocc3pocc4pocc5p,2019-06-19,陈强计量及Stata应用(c)2014,29,两模型预测的相关性,corrocc1occ1pcorrocc2occ2pcorrocc3occ3pcorrocc4occ4pcorrocc5occ5p,2019-06-19,陈强计量及Stata应用(c)2014,30,2019-06-19,陈强计量及Stata应用(c)2014,31,多项Logitvs.多项Probit,两个模型所预测的职业选择概率高度一致,相关系数均在99%