第五讲多值、排序与计数模型高级计量经济学及Stata应用课件.pptx

资源描述

第五讲多值、排序与计数模型高级计量经济学及Stata应用课件.pptx

《第五讲多值、排序与计数模型高级计量经济学及Stata应用课件.pptx》由会员分享，可在线阅读，更多相关《第五讲多值、排序与计数模型高级计量经济学及Stata应用课件.pptx（84页珍藏版）》请在冰豆网上搜索。

第五讲多值、排序与计数模型高级计量经济学及Stata应用课件.pptx

高级计量经济学及Stata应用第五讲多值、排序与计数模型,陈强山东大学经济学院,多值选择模型,个体面临的多值选择：

交通工具；职业；手机消费品牌。

假设可供个体选择的方案为，J为正整数，即共有J种互相排斥的选择。

如果J=2，则为二值选择模型。

2019-06-19,陈强计量及Stata应用（c）2014,2,随机效用法,假设个体i选择方案j的随机效用为,解释变量xi只随个体i而变，不随方案j而变。

比如，个体的性别、年龄、收入等特征。

这种解释变量称为“只随个体而变”（case-specific）或“不随方案而变”（alternative-invariant）。

系数表明，xi对随机效用Uij的作用取决于方案j。

2019-06-19,陈强计量及Stata应用（c）2014,3,随机效用法（续）,个体i选择方案j，当且仅当方案j的效用高于所有其他方案，故个体i选择方案j的概率可写为,假设为iid且服从I型极值分布（typeIextremevaluedistribution），可证明：

2019-06-19,陈强计量及Stata应用（c）2014,4,随机效用法（续2）,选择各项方案的概率之和为1。

这是二值选择Logit模型向多值选择模型的推广。

但无法同时识别所有系数。

如果将变为，不影响模型的拟合。

常将某方案（比如方案1）作为“参照方案”（basecategory），令其系数为0。

2019-06-19,陈强计量及Stata应用（c）2014,5,多项logit,个体i选择方案j的概率为,此模型为“多项logit”（multinomiallogit），可用MLE进行估计。

2019-06-19,陈强计量及Stata应用（c）2014,6,多项Probit,如果假设服从J维正态分布，可得“多项probit”（multinomialprobit）模型但多项Probit的计算涉及高维积分，不易计算，较少使用。

2019-06-19,陈强计量及Stata应用（c）2014,7,2019-06-19,陈强计量及Stata应用（c）2014,8,随方案而变的解释变量,多项Logit仅考虑不随方案而变的解释变量（比如，个体收入），但有些解释变量既随个体，也随方案而变。

比如，在选择交通工具时，乘车时间既因个体而异，也因交通工具而异。

这种解释变量称为“随方案而变”（alternative-specific），既包括同时随方案与个体而变的变量，也包括随方案而变但不随个体而变的变量。

条件Logit,个体i选择方案j的随机效用为,解释变量xij，既随个体i而变，也随方案j而变。

系数表明，xij对随机效用Uij的作用不依赖于方案j。

比如，乘车时间依个体与方案而变，但乘车时间太长所带来的负效用是一致的。

2019-06-19,陈强计量及Stata应用（c）2014,9,条件Logit（续）,根据与多项Logit类似的推导，,此模型称为“条件logit”（conditionallogit）（McFadden,1974）。

在条件Logit模型中，系数不依赖于方案，故无需选择参照方案。

2019-06-19,陈强计量及Stata应用（c）2014,10,混合Logit,前面分别考虑了解释变量不随方案而变的“多项Logit”，以及解释变量随方案而变的“条件Logit”。

考虑这两种情况同时发生的混合情形。

个体i选择方案j的随机效用为,个体i选择方案j的概率为,2019-06-19,陈强计量及Stata应用（c）2014,11,混合Logit（续）,此模型在文献中称为“混合Logit”（mixedlogit），但Stata仍称为“条件Logit”。

为了识别该模型，也需要选择一个参照方案（比如方案1），然后令。

2019-06-19,陈强计量及Stata应用（c）2014,12,2019-06-19,陈强计量及Stata应用（c）2014,13,标准误,在多值选择模型中，由于被解释变量的分布必然为“多项分布”（multinomialdistribution），故一般不必使用稳健标准误，使用普通标准误即可；这一点类似于二值选择模型。

如果数据为聚类样本，则仍应使用聚类稳健的标准误，即Stata选择项vce（clusterclustvar）。

多值模型的系数解释,在多项Logit与混合Logit模型中，对系数的解释依参照方案（basecategory）为转移的（可根据理论或方便来选择参照方案）。

以多项Logit为例，假设“方案1”或“方案j”必然发生（必居其一），则方案j发生的条件概率为,2019-06-19,陈强计量及Stata应用（c）2014,14,IndependenceofIrrelevantAlternatives,此条件概率并不依赖于任何其他方案，而且在形式上与二值选择的Logit模型完全相同。

如果将多值选择模型中的任何两个方案单独挑出来，都是二值logit模型。

此假定称为“无关方案的独立性”（IIA）。

对IIA假定的检验尚不完善。

几率比（oddsratio）为：

2019-06-19,陈强计量及Stata应用（c）2014,15,2019-06-19,陈强计量及Stata应用（c）2014,16,多项选择模型的数据格式,在Stata中，多项选择模型的数据格式依赖于变量类型。

对于所有解释变量都只随个体而变（case-specific）的多项logit或多项probit模型，应使用“宽形格式”（wideform），即同一个体的所有数据均出现在数据表格的同一行。

在条件logit模型与混合logit模型中，由于存在随方案而变（alternative-specific）的解释变量，故应使用“长形格式”（longform），即同一个体的数据出现在数据表格的几行，对应于备选的几个方案（一个方案占一行）。

可通过命令reshape在宽形与长形格式之间转换。

多项Logit与多项Probit的Stata命令,mlogityx1x2x3,rrrbase（#）（多项Logit）其中，选择项“base（#）”用于指定参照组（basecategory）；如果不指定，则默认使用观测值最多的方案为参照方案。

选择项“rrr”表示汇报“相对风险比率”（RelativeRiskRatio，简记RRR），即汇报，而非。

mprobityx1x2x3,base（#）（多项Probit）,2019-06-19,陈强计量及Stata应用（c）2014,17,2019-06-19,陈强计量及Stata应用（c）2014,18,条件Logit的Stata命令,clogityx1x2x3,group（varname）or必选项“group（varname）”用来指定由归属同一个体的观测值所构成的组（因为数据按长形排列）选择项“or”表示汇报“几率比”（oddsratio）。

命令clogit不能直接处理只随个体而变（case-specific）的解释变量。

2019-06-19,陈强计量及Stata应用（c）2014,19,混合logit的Stata命令,asclogityx1x2x3,case（varname）alternatives（varname）casevars（varname）base（#）or“asclogit”表示“alternative-specificconditionallogit”必选项“case（varname）”指定个体（case），必选项“alternatives（varname）”指定方案（数据按长形排列），选择项“casevars（varname）”表示只随个体而变的解释变量；选择项“base（#）”用来指定参照方案；选择项“or”表示汇报“几率比”（oddsratio）。

2019-06-19,陈强计量及Stata应用（c）2014,20,例：

美国GeneralSocialSurvey的职业选择,以数据集nomocc2.dta为例。

被解释变量：

受访者职业分为五类（occ），即服务人员（menial），蓝领（bluecollar），工匠（craft），白领（whitecollar）及专业人士（professional）。

解释变量：

是否白人（white），受教育年限（ed），工龄（exper）。

这些解释变量都只依赖于个体，而不依赖于方案，故应使用多项logit或多项probit回归。

数据特征,usenomocc2.dta,clearsum,2019-06-19,陈强计量及Stata应用（c）2014,21,数据格式,通过前6个数据来看数据格式。

listin1/6,数据按职业排序，故前6名都从事服务业。

其中，5名为白人，受教育年限从11-14年不等，而工龄从3-44年不等。

由于数据表中每行对应于一名个体，故数据格式为宽形（wideform）。

2019-06-19,陈强计量及Stata应用（c）2014,22,初步考察,通过列表考察受教育年限（ed）与职业（occ）的关系tableocc,contents（Nedmeanedsded）命令“table”将变量的统计特征列表，选择项“contents（）”用来指定最多5个统计量，“Nedmeanedsded”表示罗列变量ed的样本容量、均值与标准差（按变量occ分为5个子样本）。

2019-06-19,陈强计量及Stata应用（c）2014,23,2019-06-19,陈强计量及Stata应用（c）2014,24,多项Logit回归,mlogitoccwhiteedexper,nolog结果见下页：

由于没有指定参照方案（baseoutcome），故自动选择观测值最多的方案（即专业人士）为参照方案。

在5%的显著性水平上，给定其他变量，白人（white）更不可能选择服务业或工匠；但对选择蓝领或白领无显著影响受教育程度（ed）越高，越不可能选择除专业人士以外的职业。

工龄越长（exper），越不可能选择服务业或蓝领；工龄对于选择工匠或白领无显著影响。

mlogitoccwhiteedexper,rrr（汇报相对风险）,2019-06-19,陈强计量及Stata应用（c）2014,25,2019-06-19,陈强计量及Stata应用（c）2014,26,职业选择的可能性,预测个体选择各种职业的可能性，分别记为occ1,occ2,occ3,occ4,occ5，并显示对前5个观测值的预测结果。

predictocc1occ2occ3occ4occ5listocc1-occ5in1/5,2019-06-19,陈强计量及Stata应用（c）2014,27,2019-06-19,陈强计量及Stata应用（c）2014,28,多项Probit回归,mprobitoccwhiteedexper,nolog多项probit的系数与多项logit的系数不具可比性；具有可比性的是两个模型的预测概率。

为此，计算多项probit模型所预测的各种职业的选择概率，分别记为occ1p,occ2p,occ3p,occ4p,occ5p。

predictocc1pocc2pocc3pocc4pocc5p,2019-06-19,陈强计量及Stata应用（c）2014,29,两模型预测的相关性,corrocc1occ1pcorrocc2occ2pcorrocc3occ3pcorrocc4occ4pcorrocc5occ5p,2019-06-19,陈强计量及Stata应用（c）2014,30,2019-06-19,陈强计量及Stata应用（c）2014,31,多项Logitvs.多项Probit,两个模型所预测的职业选择概率高度一致，相关系数均在99%

展开阅读全文

第五讲 多值、排序与计数模型 高级计量经济学及Stata应用课件.pptx

第五讲多值、排序与计数模型高级计量经济学及Stata应用课件.pptx