第八章内生性及其来源Word下载.docx

资源描述

第八章内生性及其来源Word下载.docx

《第八章内生性及其来源Word下载.docx》由会员分享，可在线阅读，更多相关《第八章内生性及其来源Word下载.docx（14页珍藏版）》请在冰豆网上搜索。

第八章内生性及其来源Word下载.docx

这意味着，也许上不上学本无所谓，或者说教育可能没有发挥真正的作用，即使发挥作用也许没有将所有收入差异归因于教育所导致的那么大的作用。

有一个笑话甚至说，办一所名校的唯一要求是，招最优异的学生，然后让老师们远离他们。

以上的逻辑，可以用数学思维表述如下，其中y可以被假想为收入，x为教育，而z为能力。

*===========================begin==============================

*遗漏变量：

被遗漏的变量与其他解释变量相关

captprogdrop_all

progbb

drop_all

drawnormx1x2x3x4,n（100）means（m）cov（sd）

gu=3*invnorm（uniform（））

gy=12+5*x1+10*x2+3*x3+x4+u

quietlyregyx2x3x4//能力x1被遗漏

end

simulate_b,reps（200）

sum//当存在遗漏变量时，OLS估计量是有偏的

被遗漏的变量与所有的其他解释变量均不相关

gu=invnorm（uniform（））

quietlyregyx1x2x3//相貌x4被遗漏

simulate_b,reps（200）:

sum//当被遗漏变量与其他自变量均不相关时，OLS估计量是无偏的

*===========================end===============================

二、函数形式误设

因为

和

的总体联合分布是客观存在的，所以

的取值就是客观决定的，不是我们可以左右的。

因此，要使

最小，就要使

至此，我们得到一个非常重要的结论：

我们所寻找的最佳的函数形式是

关于

的条件期望

。

因为这一结论来自对总体的直接回归，所以

又叫作总体回归函数，即PRF。

在

两边取关于

的条件期望，得到

即“零条件均值假设”可以保证

g（x）的形式确实就是

然而，

的具体形式到底是怎样的呢？

上面说过，

的具体形式也就是确定的。

如果我们非常幸运地知道

的总体联合分布的信息，我们也就可以确定地写出

的确切形式，我们的任务也就彻底完成了。

不幸的是，我们很难知道两者的确切函数形式。

为了直观地看到模型误设会导致什么后果，我们来看下面的模拟案例。

当模型正确设定假设不成立时，即使其他假设均成立，且样本很大，OLS估计量也是有偏的，不一致的。

*===========================begin====================================

*函数形式误设

gy=12+5*x1+10*x2+5*x2^2+3*x3+x4+u

quietlyregyx1x2x3x4//误将平方项遗漏

sum_b_z//当函数形式误设时，OLS估计量是有偏的，不一致的

*设定检验

ovtest//设定检验

ovtest,rhs

gz=x2^2

regyx1x2zx3x4//正确的形式

*===========================end=====================================

三、测量误差

因变量的测量误差如果与自变量不相关，则OLS估计具有良好的性质，是无偏和一致的，否则将是有偏的，不一致的。

仍然以教育与收入的关系为例，对收入的调查通常是非常困难的，真实的收入可能永远是个迷，我们能收集到的只能是受访者自报收入，自报收入与真实收入之间存在测量误差，而且这个测量误差往往与教育水平相关，如教育水平越低，越可能算不清楚他的收入。

还可能因为收入越高的人，他回忆的误差越大（比如收入来源太多），而收入越高的人，通常更可能是教育水平较高的人。

上述两种相关都会导致无法得到一致估计。

自变量的测量误差分两种情形，一种涉及到测量误差与观测值之间的相关性，另一种涉及到测量误差与真实值之间的相关性。

第一种情形：

测量值与测量误差不相关。

例如，y为学习成绩，x为旷课次数，当一个人很少旷课时，他所报告的旷课次数更准确，相反，随着旷课次数的增多，他能够准确回忆并报告其次数的可能性也下降，因此测量误差与报告结果存在正相关。

第二种情形，如果测量误差与观测不到的变量无关，则测量误差必然与测量值相关。

四、联立因果

联立因果关系普遍存在，尤其是在经济学的经典供求关系中。

实际上，经济学中的供给方程和需求方程都只是我们的一个理论抽象，真实世界中是不存在的，我们能从真实世界中观察到的价格和供需量都只有一个，即均衡价格和均衡供需量。

利用这样的均衡供需量对均衡价格进行估计，试问，我们究竟估计的是需求方程呢还是供给方程呢？

估计系数是正还是负呢？

因为供给方程和需求方程的系数正好是一正一负，那么是否意味着，我们可以根据估计结果来判断是供给方程还是需求方程？

实际上，这种估计即非供给方程也非需求方程，我们可以证明，采用均衡数据对单一供给方程或需求方程进行估计，都无法得到一致的估计结果。

五、样本选择偏误

样本选择的例子

假设有个行为古怪且无聊的大享，拿出1亿元和你玩左轮枪，可装6发子弹的弹夹装有1发，然后对准你头扣动扳机，每次扣动扳机称为一段历史，共有6段历史，每段的概率相同，其中有5段历史会使你成为亿万富翁，另一段则是一则讣告。

问题是你只能观察到一段历史，而且会有一些白痴记者对1000万美元的赢家赞誉有加。

转盘的赢家，被家人、朋友和邻居当做模范对象。

如果一个从25岁开始赌转盘的傻瓜一直玩下去，他活到50岁的机会十分渺茫。

但是如果有很多人，比如1万人都在玩这个游戏，将会有少数人能够活到50岁并且极其富有，其他人则已成为一堆黄土。

现实生活比左轮手枪邪恶多了，它不仅常常射出要命的子弹，而且其弹夹可以装成百上千发，试过几十次后，我位便忘记了里面还有一颗要命的子弹，误以为自己很安全。

赌徒、投资人和决策者总是觉得，发生在别人身上的事情，不见得会发生在他们身上。

借助蒙特卡罗发生器，虚构一万个投资经理人，假设他们每个人的赚赔概率恰好各半，年底时每个人都有50%的概率赚到1万美元，50%的概率赔掉1万美元。

赔掉的则被从样本中剔除，这样到第5年的时候还有313位留下来。

这纯粹是靠运气得来的。

如果这些经理能力在平均水平以下，即有55%的概率赔掉，则第5年时仍有184人会成为众所瞩目的焦点，有响亮的头衔，这些存活下来的经理人只点原始群体的2%，没有人会提另外的98%。

在某个市场中，绩效记录杰出的经理人的多寡，主要取决于当初选择这一行的人数目，至于他们个别人的获利能力，影响则没有那么大。

为什么使用极大值期望值的概念？

因为我根本不关心平均绩效记录，我能看到的只会是表现最好的经理人，不是所有的经理人。

每个人都认为自己的成功全凭实力，毫无侥幸，只有失败时才会认为是机运使然。

存活着偏差取决于原始群体的大小，一个人过去赚到钱这个信息，本身既无意义而且也不重要。

当随机抽样假设不成立时，即使其他假设均成立，且样本很大，OLS估计量也是有偏的，不一致的。

v非随机抽样

*===========================样本选择＝============================

drop_all

drawnormx2x3x4,n（1000）means（m）cov（sd）

gu=3*invnorm（uniform（））

gy=5*x1+10*x2+3*x3+x4+u/*正确的函数形式*/

sorty

keepin1/50/*样本是非随机抽取的，随机抽样假设不满足*/

regyx1x2x3x4/*真实值10是否在95%置信区间内*/

*===========================end====================================

v异常值的影响

*================异常值===========begin==================

drawnormx2,n（1000）

gu=9*invnorm（uniform（））

gy=-5+10*x2+u/*正确的函数形式*/

replacey=-10000in100

regyx2/*真实值10是否在95%置信区间内*/

rregyx2

v断尾

本来服从正态分布的随机变量y,由于小于零的数据不可获取，则其经验分布不再是正态分布。

clear

drawnormx,n（1000）//生成服从正态分布的随机变量x

gz=x//得到与X相等的随机变量z

replacez=.ifz<

0//假设只能观察到大于零的z值。

tw（kdensityx）（kdensityz）,xline（0）

gf=normalden（z）/（1-normal（0））//纠正后的分布

tw（kdensityx）（kdensityz）（linefx,sort）,xline（0）///

legend（label（1标准分布）label（2样本分布）label（3纠正后分布）row

（1））

条件分布情形

显然用观察到的y*对自变量X做OLS回归，所得到的估计量将是有偏的，因为除了线性项，还有一个

的非线性项，只有同时考虑这两项，才能得到

的一致估计。

matrixm=（1,2,3,4）

drawnormx1-x4,n（1000）m（m）//条件分布

gn=_n

reshapelongx,i（n）j（m）

gy=x

replacey=.ify<

2.5//大于4的样本被断尾

gf=normalden（y,m,1）/（1-normal（2.5-m））//纠正办法

tw（kdensityx）（linefx,sort）（kdensityy）,by（m）xline（2.5）///

断尾

*================truncatedmodel===========begin==================

dropify<

truncregyx2,ll（0）

截取

如果小于特定值的因变量完全观察不到，称为断尾。

另一种情形是，小于特定值的因变量虽然观察不到，但是可以用一个值（比如0）来替代，而相应的自变量是可观察到的。

比如对于哪些没有工作的人来说，其工资收入为零，但是其教育水平、年龄等这些数据是可以获取的。

这种数据看上去好象被裁剪过一样，因此又就截取数据。

drawnormx,n（1000）

replacey=0ify<

gf=normalden（y）ify>

0//纠正办法

tw（kdensityx）（kdensityy）（linefx,sort）,xline（0）///

*================sensoredmodel===========begin==================

六、如何处理内生性偏误概述

（一）多元回归控制

（二）代理变量

（一）面板数据

设想y为体重，x为减肥药，

（四）工具变量估计

（五）随机化试验和准试验

通过试验控制使得E（xu）=0

展开阅读全文