1、贷款申请被 批准或拒绝;出国或不出国;回国或不回 国;战争或和平;生或死。Hamlets choice:To be or not to be?,2019-05-31,陈强 计量及Stata应用(c)2014,4,二值选择模型的设定,假设个体只有两种选择,比如 y=1(考研)或y=0(不考研)。是否考研,取决于研究生毕业后的预期收 入、个人兴趣、本科毕业后直接就业的收 入前景等。假设这些解释变量都包括在向量 x 中。,线性概率模型,最简单的模型为“线性概率模型”(Linear Probability Model,简记LPM):,缺点:线性概率模型的预测值可能大于1 或 小于0。,2019-05-
2、31,陈强 计量及Stata应用(c)2014,5,线性概率模型的缺点,2019-05-31,陈强 计量及Stata应用(c)2014,6,两点分布,在给定x的情况下,考虑y的两点分布概率:,选择连接函数为某随机变量的累积 分布函数(cdf),可保证y的预测值介于 0,1,2019-05-31,陈强 计量及Stata应用(c)2014,7,y的预测值,可将y的预测值理解为事件“y=1”的发生 概率:,2019-05-31,陈强 计量及Stata应用(c)2014,8,Probit,如果连接函数 布函数,则,为标准正态的累积分,此模型称为“Probit”。,2019-05-31,陈强 计量及St
3、ata应用(c)2014,9,Logit,如果连接函数为“逻辑分布”(logistic distribution)的累积分布函数,则,此模型称为“Logit”。,2019-05-31,陈强 计量及Stata应用(c)2014,10,Probit vs.Logit,逻辑分布的密度函数关于原点对称,期望为0,方 差为(大于标准正态的方差)。与标准正态相 比,逻辑分布具有厚尾(fat tails),更接近于自由 度为7的t分布。逻辑分布的cdf有解析表达式(而标准正态分布没 有),故计算Logit通常比Probit更方便。Logit模型的系数估计值更易从经济上解释。,2019-05-31,陈强 计量
4、及Stata应用(c)2014,11,最大似然估计,对于非线性模型,可使用最大似然法(MLE)进行估计。以Logit模型为例。第i个观测数据的概率密 度为,2019-05-31,陈强 计量及Stata应用(c)2014,12,最大似然估计(续),将第i个观测值的密度函数紧凑地写为:取对数加总可得整个样本的对数似然函数数值求解此非线性最大化问题。,2019-05-31,陈强 计量及Stata应用(c)2014,13,数值计算(牛顿法),2019-05-31,陈强 计量及Stata应用(c)2014,14,边际效应,非线性模型的系数估计值一般不是边际效 应。以Probit模型为例:,Probit与
5、Logit的系数估计值也不直接可比。,2019-05-31,陈强 计量及Stata应用(c)2014,15,非线性模型的边际效应概念,平均边际效应(average marginal effect):分别计 算每个样本观测值上的边际效应,然后进行简单 算术平均。样本均值处的边际效应(marginal effect at mean),即在处的边际效应。在某代表值处的边际效应(marginal effect at a representative value),即在处的边际效应,2019-05-31,陈强 计量及Stata应用(c)2014,16,几率比,对于Logit模型,记“y=1”的概率为p,
6、则 几率比(odds ratio)或相对风险(relative risk)为:,在检验药物疗效的随机实验中,“y=1”表 示“生”,“y=0”表示“死”。如几率 比为2,则存活概率是死亡概率的两倍。,2019-05-31,陈强 计量及Stata应用(c)2014,17,对数几率比,将上页方程两边取对数,可得“对数几率比”(log odds ratio):,表示解释变量 增加一个微小量引起“对数几率 比”(log-odds ratio)的边际变化。或把 视为半弹性,即 增加一单位引起几率比 的变化百分比。比如,意味着 增加一 单位引起几率比增加12%。,2019-05-31,陈强 计量及Stat
7、a应用(c)2014,18,另一解释方法(不连续变化),假设增加一单位,变为+1,记p的新值 为 p*,则新几率比与原先几率比的比率为,故表示解释变量 几率比的变化倍数。,增加一单位引起,2019-05-31,陈强 计量及Stata应用(c)2014,19,几率比(again),比如,则,故当 增加一单位时,新几率比是原先几率比的 1.13倍,或增加13%。Stata 称 为几率比(odds ratio)。如果 解释变量至少须变化一个单位(比如性别、婚否、年龄、子女个数),则应使用,2019-05-31,陈强 计量及Stata应用(c)2014,20,非线性模型的拟合优度,对于非线性模型,平方
8、和分解公式不成立,无法 定义通常的拟合优度R2。但可定义“准R2”(pseudo R2):,LnL1为原模型的对数似然函数最大值,LnL0为以 常数项为唯一解释变量的对数似然函数最大值。,2019-05-31,陈强 计量及Stata应用(c)2014,21,准R2示意图,2019-05-31,陈强 计量及Stata应用(c)2014,22,2019-05-31,陈强 计量及Stata应用(c)2014,23,正确预测的百分比,判断拟合优度的另一方法是计算“正确预 测的百分比”(percent correctly predicted)如果发生概率的预测值 0.5,则认为其预 测y=1;反之,则认
9、为其预测 y=0。将预测值与实际值(样本数据)进行比较,就 能计算正确预测的百分比。,准最大似然估计,对于Probit与Logit模型,如果分布函数设定 不正确,则为“准最大似然估计”(Quasi MLE,简记QMLE)。由于二值选择模型的分布必然为两点分布,故只要条件期望函数 正确,MLE就是一致的。,2019-05-31,陈强 计量及Stata应用(c)2014,24,普通标准误 vs.稳健标准误,由于两点分布的特殊性,在iid的情况下,只要成立,稳健标准误就等于普通 标准误。如果模型设定正确,就没有必要使用稳 健标准误(但使用稳健标准误也没有错)。如果模型设定不正确(即),则 Probi
10、t与Logit模型并不能得到对系数 的一致估计,使用稳健标准误也就没有太大意义(只是更精确 地估计了错误参数的标准误)。,2019-05-31,陈强 计量及Stata应用(c)2014,25,2019-05-31,陈强 计量及Stata应用(c)2014,26,二值模型的Stata命令,probit y x1 x2 x3,r(probit模型)logit y x1 x2 x3,or(logit模型)选择项“r”表示使用稳健标准误,选择项“or”表示显示几率比(odds ratio),而不 显示系数。,2019-05-31,陈强 计量及Stata应用(c)2014,27,预测,完成估计后,可用以
11、下命令进行预测,并 计算准确预测的百分比:predict yhat(计算发生概率的预测 值,并记为“yhat”)estat clas(计算预测准确的百分比,clas表示classification),2019-05-31,陈强 计量及Stata应用(c)2014,28,计算边际效应,margins,dydx(*)(计算所有解释变量的 平均边际效应)margins,dydx(*)atmeans(计算所有解 释变量在样本均值处的边际效应)margins,dydx(*)at(x1=0)(计算所有解释 变量在“x1=0”处的边际效应)其中,“*”代表所有解释变量。,2019-05-31,陈强 计量及S
12、tata应用(c)2014,29,计算边际效应(续),margins,dydx(x1)(计算解释变量x1的 平均边际效应)margins,eyex(*)(计算平均弹性,两 个“e”均指elasticity)margins,eydx(*)(计算平均半弹性,x变化1单位引起y变化百分之几)margins,dyex(*)(计算平均半弹性,x变化1%引起y变化几个单位),实例:美国妇女就业与否,数据集womenwk.dta包括以下变量:work(是否就业),age(年龄),married(婚否),children(子女数),education(教育年限)。考虑以下二值选择模型:,2019-05-31,
13、陈强 计量及Stata应用(c)2014,30,线性概率模型,use womenwk.dta,clearreg work age married children education,r,2019-05-31,陈强 计量及Stata应用(c)2014,31,Logit(普通标准误),logit work age married children education,nolog,2019-05-31,陈强 计量及Stata应用(c)2014,32,Logit(稳健标准误),logit work age married children education,r nolog,稳健标准误与普通标准误很
14、接近。,2019-05-31,陈强 计量及Stata应用(c)2014,33,2019-05-31,陈强 计量及Stata应用(c)2014,34,汇报几率比,各解释变量(age,married,children,education)的 最小变化量至少为一单位。为便于解释回归结果,让Stata汇报几率比,而非 系数。logit work age married children education,or nolog,经济解释,给定其他变量,已婚妇女参加工作的几率比是未 婚妇女的2.10倍(即高出110%);年龄每增加一岁,参加工作的几率比就增加6%;以此类推。,2019-05-31,陈强 计量
15、及Stata应用(c)2014,35,计算平均边际效应,margins,dydx(*),Logit模型的平均边际效应与OLS回归系数相似。,2019-05-31,陈强 计量及Stata应用(c)2014,36,计算样本均值处的边际效应,margins,dydx(*)atmeans,2019-05-31,陈强 计量及Stata应用(c)2014,37,变量age在“age=30”处的边际效应,margins,dydx(age)at(age=30),2019-05-31,陈强 计量及Stata应用(c)2014,38,准确预测的比率,estat clas,2019-05-31,陈强 计量及Stata应用(c)2014,39,聚类稳健的标准误,为了演示目的,假设年龄相同的个体存在组内相关logit work age married children education,nolog vce(cluster age),2019-05-31,陈强 计量及Stata应用(c)2014,40,Probit,probit work age married children education,nolog,Probit
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1