chapter受限因变量模型.docx

资源描述

chapter受限因变量模型.docx

《chapter受限因变量模型.docx》由会员分享，可在线阅读，更多相关《chapter受限因变量模型.docx（20页珍藏版）》请在冰豆网上搜索。

chapter受限因变量模型.docx

chapter受限因变量模型

第1章受限因变量模型

这一章讨论响应变量仅仅被部分观测到的情况。

引入被部分观测到的潜在随机变量y*，y*的实际观测变量为yi。

引入二元指示变量Di，如果ai

即Di表示变量y*是否可以被观测得到。

（ai,bi）称为观测区间。

如果对于Di=1和Di=0都有实际观测数据，当Di=1时，潜在变量与实际观测变量相等，当Di=0时，实际观测变量同样有取值，但不等于潜在变量，这时称数据被归并（censored），即小于ai的数据被归并为ai，而大于bi的数据被归并为bi。

用数学符号表示为：

。

（1）

如果只有当Di=1时实际观测变量yi才有观测数据，即：

当Di=1时，潜在变量与实际观测变量相等，而当Di=0时，yi没有观测值，这时称数据被截断（truncated），即小于ai的数据和大于ai的数据被截断了。

因此截断数据与归并数据的区别在于，对于观测区间外的数据，归并数据将将其都归并为一点，而截断数据没有观测值。

将潜在随机变量y*的基本模型设定为：

。

（2）

其中?

i为位置参数，?

为刻度参数；vi为独立于xi的连续随机扰动项，均值为0，方差为1，其分布函数、密度函数分别为F、f。

在这些假定条件下，yi*的均值为?

i，方差为?

2，分布函数为，概率密度函数为（证明请参见附录1）。

（3）

下面对截断数据模型和归并数据模型分别进行介绍

1.1截断数据模型

如果样本数据是从总体的一部分抽取得到，我们把这类数据称为截断数据。

比如，研究高收入阶层（月收入x?

10000）的消费与收入的关系，所采集的数据只是位于收入总体分布的一个区间里。

假设所有居民的收入服从正态分布，那么高收入阶层的收入只是在x?

10000的区间里观测得到的。

下面介绍截断数据的分布特征和模型估计。

1.1.1截断数据的分布特征

如前面所述，截断数据只包括Di=1情况下的数据。

截断分布是指变量高于（低于）某个设定值的未截断部分的分布。

如果变量只有在高于某一门限值a时才被观测到（x>a），称之为从下面截断（truncationfrombelow）或者是从左边截断（truncationfromleft）；如果变量只有在低于某一门限值b时才被观测到（x

如图所示。

图一截断分布图（上面截断（左图）、下面截断（右图））

下面分析截断数据的分布函数、密度函数、均值和方差。

1．截断变量的分布函数和密度函数

给定模型

（1）及相应的观测概率

（2），那么第i个观测变量yi的条件分布函数为（证明请参见附录2）：

（4）

（注：

此处及后面的的定义均与前面相同）

密度函数为：

（5）

从截断数据的密度函数（4）式我们可以推出从下面截断或从上面截断的各种不同分布的变量的密度函数。

读者可以参阅下面介绍的几个例子。

例1截断均匀分布的密度函数和分布函数

如果x*在区间[a，b]上服从均匀分布（uniformdistribution），那么

，（6）

如果在x*=c处截断，即实际观测值x=x*，如果x*?

c；x=c，如果x*

这是左截断的例子，即右截断点=b。

根据（5）式，在x=c处截断的随机变量x的截断分布的密度函数为：

（7）

分布函数为：

（8）

例2截断正态分布的密度函数

模型设定为：

，

yi=yi*，如果（9）

yi=ai，如果

yi=bi，如果

其中vi~N（0,1）。

即yi*~N（?

i,?

2），其中?

i、?

分布表示yi的均值和标准差。

以?

、?

分别表示标准正态分布密度函数和分布函数。

那么：

（10）

其中，。

根据截断正态分布的密度函数公式：

可直接得到时yi的密度函数：

（11）

根据截断正态分布的分布函数公式：

可直接得到时yi的分布函数：

（12）

图二截断正态分布变量的累积分布函数图

（设潜变量y*~N（0,1），图中虚线表示标准正态分布函数，实线表示截断正态分布函数，截断点为-1、1）

2．截断变量的均值和方差

截断随机变量的均值和方差称之为截断均值（truncatedmean）和截断方差（truncatedvariance），由下面的（5）、（6）式可以推出各种不同截断分布的均值和方差。

给定模型（9），

yi的均值为：

（13）

其中，

yi的方差为：

（14）

其中，。

（证明请参见附录3）。

例3：

均匀分布的截断均值和截断方差

给定模型（6），截断变量x的均值和方差分别为：

（15）

例4：

正态分布的截断均值和截断方差

给定模型（9），那么yi的均值和方差分别为：

（16）

其中，

yi的方差为：

（17）

其中，。

其中，?

、?

分别表示正态分布的密度函数和分布函数。

（1）如果ci?

，即数据只是在右边截断，这时?

（ci）=0、?

（ci）=0，因此：

<0（17a）

（17b）

（2）如果di?

，即数据只是在左边截断，这时?

（di）=0、?

（di）=1，因此：

>0（18a）

（18b）

（17a）式中称之为InverseMillsRatio，将（18a）式中称之为风险函数（HazardFunction）。

结论1。

即，如果变量为从上面截断，则截断变量的均值小于初始变量的均值；如果变量为从下面截断，则截断变量的均值大于初始变量的均值。

结论2截断变量的方差低于初始变量的方差。

图三截断分布的均值（左图）、方差（右图）（假定潜在变量y*~N（2,2））

1.1.2截断回归模型估计

下面以左截断模型为例说明截断回归模型的估计。

设回归模型为：

（19）

其中，vi~N（0,1）。

那么，。

根据例4，我们可以得到截断随机变量yi的均值和方差。

（20）

其中，，

（21）

其中，

由（20）式可以看出，截断均值为?

和xi的非线性函数。

同一般的非线性模型一样，变量xk对y的边际影响不等于其系数：

（22）

因为，所以变量xk对y的边际影响要小于其系数。

yi的方差也存在类似的缩减（attenuation）：

（23）

注：

对于yi

下面分析截断模型中参数的最小二乘估计和极大似然估计。

1．OLS估计

根据，截断模型可以写为：

（24）

其中，ui=?

vi为yi减去其条件期望，E（ui）=0。

如果以最小二乘法估计（19）式，就忽略了非线性项?

i，因此OLS估计量是有偏的。

另外，yi|yi>a的方差与ui的方差相同，由可知，yi存在异方差，为：

（25）

它是xi的函数。

2．ML估计

对于模型（19），由截断随机变量的概率密度函数可得yi的密度函数为，

，（26）

可以得到yi的对数似然函数：

（27）

对于N个观测值（y1,…,yN），其联合对数似然函数为：

（28）

通过最优化方法可以解得上式的参数?

和?

的值。

1.2归并数据模型

计量经济学当中经常能碰到数据的归并问题，简单地说，归并数据即是被解释变量在某个区间的观测值都转化为同一个值。

比如，研究电影院的座位需求情况，电影院总的座位是20000个。

如果实际的需求量少于20000，那么观测到的需求量就等于实际需求量；但如果实际需求量大于（等于）20000，那么实际可观测到的需求数量只能为20000。

这时我们说需求量数据被归并，即所有大于20000的数据都被归并为20000。

格林（Greene，2000）列举了经验文献中归并数据的应用。

其中包括：

1，家庭耐用品消费支出[Tobin（1958）]

2，婚外情次数[Fair（1977,1978）]

3，劳动力市场中妇女工作的小时数[QuesterandGreene（1982）]

4，罪犯重新入狱的次数[White（1980）]等。

下面分别介绍归并数据的分布特征和模型估计。

1.2.1归并数据的分布特征

如前所述，归并数据与截断数据的区别在于，归并变量包含Di=1和Di=0两种情况下的数据。

（29）

或者写作：

。

即当时，所有值被归并为ai；当时，所有值被归并为bi。

归并数据按照归并点ai,bi是随机的还是确定的分为固定归并（fixedcensoring）和随机归并（randomcensoring）两种。

如果ai,bi是确定性的，我们称之为固定归并；如果ai,bi是随机的，我们称之为随机归并。

本章只介绍固定归并的情况。

归并数据按照归并点与观测区间的关系还可以分为左边归并和右边归并。

如果：

称潜在变量y*被从下面归并（censoredbelow）或者从左边归并（censoredfromleft）；

如果：

称潜在变量y*被从上面归并（censoredabove）或者从左边归并（censoredfromright）。

图归并变量示意图

1．归并变量的分布函数和密度函数

给定基本模型

（1）的假定，yi的分布函数为：

（30）

归并变量的分布函数为一种混合分布（连续型和离散型综合在一起）。

在yi=ai和yi=bi两点的概率分别为和，因此对于同一个潜在变量，其归并变量和截断变量的分布函数不相同，在观测区间内，归并分布同潜在变量的分布重叠在一起。

图四归并正态分布变量的分布函数图

密度函数（概率分布）为：

（31）

例5：

正态分布归并变量的密度函数。

假定潜在变量（latentvariable）yi*服从均值为?

i、方差为?

2的正态分布，，vi~N（0,1）。

yi为实际观测变量：

yi=a，如果yi*?

a；yi=b，如果yi*?

b；yi=yi*，如果ai

的概率密度函数为：

当yi*?

ai时，yi=ai。

其概率为，

当ai

当yi*?

bi时，yi=bi。

其概率为，

（1）当仅从左边归并时，即：

yi=ai，如果yi*?

ai；yi=yi*，如果yi*>ai。

当yi*?

ai时，yi=ai。

其概率为，

当yi*>ai时，yi与yi*的概率密度函数相同，

因此，可以将yi的密度函数综合写成：

，当yi*>ai时，Di=1；否则，Di=0。

（2）当仅从右边归并时，即：

yi=bi，如果yi*?

bi；yi=yi*，如果yi*

当yi*?

bi时，yi=bi。

其概率为，

当yi*

因此，可以将yi的密度函数综合写成：

，当yi*>ai时，Di=1；否则，Di=0。

2．归并变量的均值和方差

归并随机变量的均值和方差，我们称之为归并均值（censoredmean）和归并方差（censoredvariance）

归并均值为：

（32）

其中，

（33）

归并方差为：

（34）

其中，Di服从0-1分布，，。

（证明请参见附录4）。

设潜在变量y*~N（0,1），下图显示了标准正态分布和归并正态分布的分布函数间的差异，虚线表示正态分布函数，实线表示归并正态变量分布函数，归并点为-1、1，在区间[-1，1]上实线和虚线重合。

例6：

正态分布归并变量的均值和方差

如

展开阅读全文