这是左截断的例子,即右截断点=b。
根据(5)式,在x=c处截断的随机变量x的截断分布的密度函数为:
(7)
分布函数为:
(8)
例2截断正态分布的密度函数
模型设定为:
,
yi=yi*,如果(9)
yi=ai,如果
yi=bi,如果
其中vi~N(0,1)。
即yi*~N(?
i,?
2),其中?
i、?
分布表示yi的均值和标准差。
以?
、?
分别表示标准正态分布密度函数和分布函数。
那么:
(10)
其中,。
根据截断正态分布的密度函数公式:
可直接得到时yi的密度函数:
(11)
根据截断正态分布的分布函数公式:
可直接得到时yi的分布函数:
(12)
图二截断正态分布变量的累积分布函数图
(设潜变量y*~N(0,1),图中虚线表示标准正态分布函数,实线表示截断正态分布函数,截断点为-1、1)
2.截断变量的均值和方差
截断随机变量的均值和方差称之为截断均值(truncatedmean)和截断方差(truncatedvariance),由下面的(5)、(6)式可以推出各种不同截断分布的均值和方差。
给定模型(9),
yi的均值为:
(13)
其中,
yi的方差为:
(14)
其中,。
(证明请参见附录3)。
例3:
均匀分布的截断均值和截断方差
给定模型(6),截断变量x的均值和方差分别为:
(15)
例4:
正态分布的截断均值和截断方差
给定模型(9),那么yi的均值和方差分别为:
(16)
其中,
yi的方差为:
(17)
其中,。
其中,?
、?
分别表示正态分布的密度函数和分布函数。
(1)如果ci?
-?
,即数据只是在右边截断,这时?
(ci)=0、?
(ci)=0,因此:
<0(17a)
(17b)
(2)如果di?
+?
,即数据只是在左边截断,这时?
(di)=0、?
(di)=1,因此:
>0(18a)
(18b)
(17a)式中称之为InverseMillsRatio,将(18a)式中称之为风险函数(HazardFunction)。
结论1。
即,如果变量为从上面截断,则截断变量的均值小于初始变量的均值;如果变量为从下面截断,则截断变量的均值大于初始变量的均值。
结论2截断变量的方差低于初始变量的方差。
图三截断分布的均值(左图)、方差(右图)(假定潜在变量y*~N(2,2))
1.1.2截断回归模型估计
下面以左截断模型为例说明截断回归模型的估计。
设回归模型为:
(19)
其中,vi~N(0,1)。
那么,。
根据例4,我们可以得到截断随机变量yi的均值和方差。
(20)
其中,,
(21)
其中,
由(20)式可以看出,截断均值为?
和xi的非线性函数。
同一般的非线性模型一样,变量xk对y的边际影响不等于其系数:
(22)
因为,所以变量xk对y的边际影响要小于其系数。
yi的方差也存在类似的缩减(attenuation):
(23)
注:
对于yi
下面分析截断模型中参数的最小二乘估计和极大似然估计。
1.OLS估计
根据,截断模型可以写为:
(24)
其中,ui=?
vi为yi减去其条件期望,E(ui)=0。
如果以最小二乘法估计(19)式,就忽略了非线性项?
i,因此OLS估计量是有偏的。
另外,yi|yi>a的方差与ui的方差相同,由可知,yi存在异方差,为:
(25)
它是xi的函数。
2.ML估计
对于模型(19),由截断随机变量的概率密度函数可得yi的密度函数为,
,(26)
可以得到yi的对数似然函数:
(27)
对于N个观测值(y1,…,yN),其联合对数似然函数为:
(28)
通过最优化方法可以解得上式的参数?
和?
的值。
1.2归并数据模型
计量经济学当中经常能碰到数据的归并问题,简单地说,归并数据即是被解释变量在某个区间的观测值都转化为同一个值。
比如,研究电影院的座位需求情况,电影院总的座位是20000个。
如果实际的需求量少于20000,那么观测到的需求量就等于实际需求量;但如果实际需求量大于(等于)20000,那么实际可观测到的需求数量只能为20000。
这时我们说需求量数据被归并,即所有大于20000的数据都被归并为20000。
格林(Greene,2000)列举了经验文献中归并数据的应用。
其中包括:
1,家庭耐用品消费支出[Tobin(1958)]
2,婚外情次数[Fair(1977,1978)]
3,劳动力市场中妇女工作的小时数[QuesterandGreene(1982)]
4,罪犯重新入狱的次数[White(1980)]等。
下面分别介绍归并数据的分布特征和模型估计。
1.2.1归并数据的分布特征
如前所述,归并数据与截断数据的区别在于,归并变量包含Di=1和Di=0两种情况下的数据。
(29)
或者写作:
。
即当时,所有值被归并为ai;当时,所有值被归并为bi。
归并数据按照归并点ai,bi是随机的还是确定的分为固定归并(fixedcensoring)和随机归并(randomcensoring)两种。
如果ai,bi是确定性的,我们称之为固定归并;如果ai,bi是随机的,我们称之为随机归并。
本章只介绍固定归并的情况。
归并数据按照归并点与观测区间的关系还可以分为左边归并和右边归并。
如果:
称潜在变量y*被从下面归并(censoredbelow)或者从左边归并(censoredfromleft);
如果:
称潜在变量y*被从上面归并(censoredabove)或者从左边归并(censoredfromright)。
图归并变量示意图
1.归并变量的分布函数和密度函数
给定基本模型
(1)的假定,yi的分布函数为:
(30)
归并变量的分布函数为一种混合分布(连续型和离散型综合在一起)。
在yi=ai和yi=bi两点的概率分别为和,因此对于同一个潜在变量,其归并变量和截断变量的分布函数不相同,在观测区间内,归并分布同潜在变量的分布重叠在一起。
图四归并正态分布变量的分布函数图
密度函数(概率分布)为:
(31)
例5:
正态分布归并变量的密度函数。
假定潜在变量(latentvariable)yi*服从均值为?
i、方差为?
2的正态分布,,vi~N(0,1)。
yi为实际观测变量:
yi=a,如果yi*?
a;yi=b,如果yi*?
b;yi=yi*,如果ai的概率密度函数为:
当yi*?
ai时,yi=ai。
其概率为,
当ai当yi*?
bi时,yi=bi。
其概率为,
(1)当仅从左边归并时,即:
yi=ai,如果yi*?
ai;yi=yi*,如果yi*>ai。
当yi*?
ai时,yi=ai。
其概率为,
当yi*>ai时,yi与yi*的概率密度函数相同,
因此,可以将yi的密度函数综合写成:
,当yi*>ai时,Di=1;否则,Di=0。
(2)当仅从右边归并时,即:
yi=bi,如果yi*?
bi;yi=yi*,如果yi*当yi*?
bi时,yi=bi。
其概率为,
当yi*因此,可以将yi的密度函数综合写成:
,当yi*>ai时,Di=1;否则,Di=0。
2.归并变量的均值和方差
归并随机变量的均值和方差,我们称之为归并均值(censoredmean)和归并方差(censoredvariance)
归并均值为:
(32)
其中,
(33)
归并方差为:
(34)
其中,Di服从0-1分布,,。
(证明请参见附录4)。
设潜在变量y*~N(0,1),下图显示了标准正态分布和归并正态分布的分布函数间的差异,虚线表示正态分布函数,实线表示归并正态变量分布函数,归并点为-1、1,在区间[-1,1]上实线和虚线重合。
例6:
正态分布归并变量的均值和方差
如