第四讲 二值选择模型 高级计量经济学及Stata应用课件PPT格式课件下载.pptx
《第四讲 二值选择模型 高级计量经济学及Stata应用课件PPT格式课件下载.pptx》由会员分享,可在线阅读,更多相关《第四讲 二值选择模型 高级计量经济学及Stata应用课件PPT格式课件下载.pptx(71页珍藏版)》请在冰豆网上搜索。
贷款申请被批准或拒绝;
出国或不出国;
回国或不回国;
战争或和平;
生或死。
Hamletschoice:
Tobeornottobe?
2019-05-31,陈强计量及Stata应用(c)2014,4,二值选择模型的设定,假设个体只有两种选择,比如y=1(考研)或y=0(不考研)。
是否考研,取决于研究生毕业后的预期收入、个人兴趣、本科毕业后直接就业的收入前景等。
假设这些解释变量都包括在向量x中。
线性概率模型,最简单的模型为“线性概率模型”(LinearProbabilityModel,简记LPM):
缺点:
线性概率模型的预测值可能大于1或小于0。
2019-05-31,陈强计量及Stata应用(c)2014,5,线性概率模型的缺点,2019-05-31,陈强计量及Stata应用(c)2014,6,两点分布,在给定x的情况下,考虑y的两点分布概率:
选择连接函数为某随机变量的累积分布函数(cdf),可保证y的预测值介于0,1,2019-05-31,陈强计量及Stata应用(c)2014,7,y的预测值,可将y的预测值理解为事件“y=1”的发生概率:
2019-05-31,陈强计量及Stata应用(c)2014,8,Probit,如果连接函数布函数,则,为标准正态的累积分,此模型称为“Probit”。
2019-05-31,陈强计量及Stata应用(c)2014,9,Logit,如果连接函数为“逻辑分布”(logisticdistribution)的累积分布函数,则,此模型称为“Logit”。
2019-05-31,陈强计量及Stata应用(c)2014,10,Probitvs.Logit,逻辑分布的密度函数关于原点对称,期望为0,方差为(大于标准正态的方差)。
与标准正态相比,逻辑分布具有厚尾(fattails),更接近于自由度为7的t分布。
逻辑分布的cdf有解析表达式(而标准正态分布没有),故计算Logit通常比Probit更方便。
Logit模型的系数估计值更易从经济上解释。
2019-05-31,陈强计量及Stata应用(c)2014,11,最大似然估计,对于非线性模型,可使用最大似然法(MLE)进行估计。
以Logit模型为例。
第i个观测数据的概率密度为,2019-05-31,陈强计量及Stata应用(c)2014,12,最大似然估计(续),将第i个观测值的密度函数紧凑地写为:
取对数加总可得整个样本的对数似然函数数值求解此非线性最大化问题。
2019-05-31,陈强计量及Stata应用(c)2014,13,数值计算(牛顿法),2019-05-31,陈强计量及Stata应用(c)2014,14,边际效应,非线性模型的系数估计值一般不是边际效应。
以Probit模型为例:
Probit与Logit的系数估计值也不直接可比。
2019-05-31,陈强计量及Stata应用(c)2014,15,非线性模型的边际效应概念,平均边际效应(averagemarginaleffect):
分别计算每个样本观测值上的边际效应,然后进行简单算术平均。
样本均值处的边际效应(marginaleffectatmean),即在处的边际效应。
在某代表值处的边际效应(marginaleffectatarepresentativevalue),即在处的边际效应,2019-05-31,陈强计量及Stata应用(c)2014,16,几率比,对于Logit模型,记“y=1”的概率为p,则几率比(oddsratio)或相对风险(relativerisk)为:
在检验药物疗效的随机实验中,“y=1”表示“生”,“y=0”表示“死”。
如几率比为2,则存活概率是死亡概率的两倍。
2019-05-31,陈强计量及Stata应用(c)2014,17,对数几率比,将上页方程两边取对数,可得“对数几率比”(logoddsratio):
表示解释变量增加一个微小量引起“对数几率比”(log-oddsratio)的边际变化。
或把视为半弹性,即增加一单位引起几率比的变化百分比。
比如,意味着增加一单位引起几率比增加12%。
2019-05-31,陈强计量及Stata应用(c)2014,18,另一解释方法(不连续变化),假设增加一单位,变为+1,记p的新值为p*,则新几率比与原先几率比的比率为,故表示解释变量几率比的变化倍数。
增加一单位引起,2019-05-31,陈强计量及Stata应用(c)2014,19,几率比(again),比如,则,故当增加一单位时,新几率比是原先几率比的1.13倍,或增加13%。
Stata称为几率比(oddsratio)。
如果解释变量至少须变化一个单位(比如性别、婚否、年龄、子女个数),则应使用,2019-05-31,陈强计量及Stata应用(c)2014,20,非线性模型的拟合优度,对于非线性模型,平方和分解公式不成立,无法定义通常的拟合优度R2。
但可定义“准R2”(pseudoR2):
LnL1为原模型的对数似然函数最大值,LnL0为以常数项为唯一解释变量的对数似然函数最大值。
2019-05-31,陈强计量及Stata应用(c)2014,21,准R2示意图,2019-05-31,陈强计量及Stata应用(c)2014,22,2019-05-31,陈强计量及Stata应用(c)2014,23,正确预测的百分比,判断拟合优度的另一方法是计算“正确预测的百分比”(percentcorrectlypredicted)如果发生概率的预测值0.5,则认为其预测y=1;
反之,则认为其预测y=0。
将预测值与实际值(样本数据)进行比较,就能计算正确预测的百分比。
准最大似然估计,对于Probit与Logit模型,如果分布函数设定不正确,则为“准最大似然估计”(QuasiMLE,简记QMLE)。
由于二值选择模型的分布必然为两点分布,故只要条件期望函数正确,MLE就是一致的。
2019-05-31,陈强计量及Stata应用(c)2014,24,普通标准误vs.稳健标准误,由于两点分布的特殊性,在iid的情况下,只要成立,稳健标准误就等于普通标准误。
如果模型设定正确,就没有必要使用稳健标准误(但使用稳健标准误也没有错)。
如果模型设定不正确(即),则Probit与Logit模型并不能得到对系数的一致估计,使用稳健标准误也就没有太大意义(只是更精确地估计了错误参数的标准误)。
2019-05-31,陈强计量及Stata应用(c)2014,25,2019-05-31,陈强计量及Stata应用(c)2014,26,二值模型的Stata命令,probityx1x2x3,r(probit模型)logityx1x2x3,or(logit模型)选择项“r”表示使用稳健标准误,选择项“or”表示显示几率比(oddsratio),而不显示系数。
2019-05-31,陈强计量及Stata应用(c)2014,27,预测,完成估计后,可用以下命令进行预测,并计算准确预测的百分比:
predictyhat(计算发生概率的预测值,并记为“yhat”)estatclas(计算预测准确的百分比,clas表示classification),2019-05-31,陈强计量及Stata应用(c)2014,28,计算边际效应,margins,dydx(*)(计算所有解释变量的平均边际效应)margins,dydx(*)atmeans(计算所有解释变量在样本均值处的边际效应)margins,dydx(*)at(x1=0)(计算所有解释变量在“x1=0”处的边际效应)其中,“*”代表所有解释变量。
2019-05-31,陈强计量及Stata应用(c)2014,29,计算边际效应(续),margins,dydx(x1)(计算解释变量x1的平均边际效应)margins,eyex(*)(计算平均弹性,两个“e”均指elasticity)margins,eydx(*)(计算平均半弹性,x变化1单位引起y变化百分之几)margins,dyex(*)(计算平均半弹性,x变化1%引起y变化几个单位),实例:
美国妇女就业与否,数据集womenwk.dta包括以下变量:
work(是否就业),age(年龄),married(婚否),children(子女数),education(教育年限)。
考虑以下二值选择模型:
2019-05-31,陈强计量及Stata应用(c)2014,30,线性概率模型,usewomenwk.dta,clearregworkagemarriedchildreneducation,r,2019-05-31,陈强计量及Stata应用(c)2014,31,Logit(普通标准误),logitworkagemarriedchildreneducation,nolog,2019-05-31,陈强计量及Stata应用(c)2014,32,Logit(稳健标准误),logitworkagemarriedchildreneducation,rnolog,稳健标准误与普通标准误很接近。
2019-05-31,陈强计量及Stata应用(c)2014,33,2019-05-31,陈强计量及Stata应用(c)2014,34,汇报几率比,各解释变量(age,married,children,education)的最小变化量至少为一单位。
为便于解释回归结果,让Stata汇报几率比,而非系数。
logitworkagemarriedchildreneducation,ornolog,经济解释,给定其他变量,已婚妇女参加工作的几率比是未婚妇女的2.10倍(即高出110%);
年龄每增加一岁,参加工作的几率比就增加6%;
以此类推。
2019-05-31,陈强计量及Stata应用(c)2014,35,计算平均边际效应,margins,dydx(*),Logit模型的平均边际效应与OLS回归系数相似。
2019-05-31,陈强计量及Stata应用(c)2014,36,计算样本均值处的边际效应,margins,dydx(*)atmeans,2019-05-31,陈强计量及Stata应用(c)2014,37,变量age在“age=30”处的边际效应,margins,dydx(age)at(age=30),2019-05-31,陈强计量及Stata应用(c)2014,38,准确预测的比率,estatclas,2019-05-31,陈强计量及Stata应用(c)2014,39,聚类稳健的标准误,为了演示目的,假设年龄相同的个体存在组内相关logitworkagemarriedchildreneducation,nologvce(clusterage),2019-05-31,陈强计量及Stata应用(c)2014,40,Probit,probitworkagemarriedchildreneducation,nolog,Probit