2计数模型的理论与应用.docx

上传人:b****0 文档编号:25910162 上传时间:2023-06-16 格式:DOCX 页数:22 大小:325.31KB
下载 相关 举报
2计数模型的理论与应用.docx_第1页
第1页 / 共22页
2计数模型的理论与应用.docx_第2页
第2页 / 共22页
2计数模型的理论与应用.docx_第3页
第3页 / 共22页
2计数模型的理论与应用.docx_第4页
第4页 / 共22页
2计数模型的理论与应用.docx_第5页
第5页 / 共22页
点击查看更多>>
下载资源
资源描述

2计数模型的理论与应用.docx

《2计数模型的理论与应用.docx》由会员分享,可在线阅读,更多相关《2计数模型的理论与应用.docx(22页珍藏版)》请在冰豆网上搜索。

2计数模型的理论与应用.docx

2计数模型的理论与应用

专题2:

计数模型的理论与应用

张晓峒

 

(2011-11-19)

南开大学数量经济研究所所长、博士生导师

中国数量经济学会常务理事

天津市数量经济学会理事长

nkeviews@

以观测值服从poisson分布为假定条件,介绍计数模型。

首先介绍poisson分布。

若随机变量Yi的概率函数是

P{Yi=yi}=P{yi}=

yi=0,1,...

其中0,则称Yi服从poisson分布。

观察由=3的poisson分布随机数生成的200个值的序列图与频数分布图。

EViews操作:

在generatereries窗口键入:

y_possion=@rpoisson(3)。

观察200个poisson分布值的序列图和频数分布图。

 

seriesy1=@rpoisson(3)

seriesy2=@rpoisson(5)

seriesy3=@rpoisson(9)

用级数公式

推导服从poisson分布随机变量全部取值结果的概率和等于1。

poisson分布随机变量Yi的期望是

E(Yi)=

 

求poisson分布随机变量Yi的方差。

分成两步。

先求(Yi2)的期望。

E(Yi2)=E[Yi(Yi-1)+Yi]=E[Yi(Yi-1)]+E(Yi)

=

则(Yi)的方差是

Var(Yi)=E(Yi2)–[E(Yi)]2=2+-2=

服从poisson分布随机变量的期望与方差相同。

 

在计数模型中假定Yi=yi服从poisson分布。

而Yi的值与解释变量Xi和回归系数有关系。

E(Yi)=的最常见表达式是对数线性的。

Ln=Xi,或者E(Yi)==

所以E(Yi∣Xi)=Var(Yi∣Xi)==

当Yi已知,未知时,似然函数为

=

其中N表示观测值个数。

 

对数似然函数是

LnL()=

似然方程是

=

=0

海塞矩阵是

=

海塞矩阵对所有Xi和都是负定的,所以有极大值存在。

 

检验Xi是否有解释作用的LR检验统计量定义是

LR=

其中

表示非约束模型极大似然函数值(解释变量Xi存在时的极大似然函数值,即对不加约束的极大似然函数值。

概率取对数的和的极大值)。

表示约束模型极大似然函数值(解释变量Xi不存在时的极大似然函数值,即对约束为零的极大似然函数值)。

如果条件均值函数定义正确,Yi的分布属于poisson分布,那么的极大似然估计量具有一致性、有效性和渐近正态性。

假定服从泊松分布的Yi的均值与方差是相等的,称数据是等离散的,但实际计数数据的方差通常远大于均值,称这一特征为过离散(over-dispersion)。

数据的过离散是由于截面数据的异质性决定的。

 

为了更好的描述数据的过离散特征,即数据的异质性,在假定随机计数yi服从poisson分布

P{yi}=

yi=0,1,...

(其中0)的同时,还假定参数不再是一个常数,不再是一个仅由Xi决定的量,而是一个随机变量。

比如用=ivi表示。

其中i=

,而vi0,是一个以g(vi)为密度函数的独立同分布随机变量,为未知参数。

如果E(vi)=1,则E()=i,退化为原来(等离散)的poisson分布。

 

若=ivi,则yi基于i和vi的分布是以ivi为均值和方差的poisson分布。

f(yiXi,vi)=

则对于vi为无条件分布,对于Xi,为有条件分布的f(yiXi)是有条件分布f(yiXi,vi)在vi上的期望,

f(yiXi)=

其中g(vi)称为混合分布,表示观测不到的异质性。

即不同的观测值yi,有可能来自不同的poisson分布,这种不同部分来自于随机变量vi。

为未知参数。

上式表示了平均分布(因有条件vi0。

期望E(X)=

)。

g(vi)相当于求期望公式中的概率密度函数。

 

在积分式中,若把g(vi)定义为伽玛(Gamma)分布密度函数((,)),

g(vi)=

其中0,β0。

称为形状参数(shapeparameter),β称为尺度参数(scaleparameter)。

()=(-1)!

=1。

E(vi)=/β,Var(vi)=/β2。

伽玛分布密度函数gamma(1,1)分布随机数

 

令E(vi)=1,(则=β),Var(vi)=1/=1/β。

则得到yi的负二项(NegativeBinomial)分布的混合概率密度函数表达式

f(yiXi)=

=

=

=

=

=

=

服从负二项分布的yi的期望和方差分别是

E(yii,)=i,Var(yii,)=

,其中0,i0。

 

因为0,i0,服从负二项分布的yi的方差一定大于期望。

所以,可以用来描述yi分布的异质性。

由Var(yii,)=

知,yi分布的方差是期望i的2次函数。

有时也可以把yi分布的方差设定为i的1次(线性)函数。

Var(yii,)=(1+)i

通常把服从负二项分布的yi,并有i的二次函数方差的模型称作NB2(NegativeBinomial2)模型。

把服从负二项分布的yi,并有i的线性函数方差的模型称作NB1模型。

实际中NB2模型的用途更广些。

数据等离散的计数模型采用极大似然估计法估计模型参数。

数据过离散的服从负二项分布(NB)计数模型采用模拟极大似然估计法估计模型参数。

 

下面以NB2模型为例介绍模拟极大似然估计法(MSL,maximumsimulatedlikelihood)原理。

yi的负二项分布的混合概率密度函数

f(yiXi)=

可以近似表示为

vj,(j=1,...,K)是按g(vi)的分布生成的伪随机数。

比如g(vi)代表均值为1,方差为1/的伽玛分布。

K表示模拟次数。

令uj表示均匀分布的随机变量,并令vj=-Lnuj,则模拟算子表示为

则模拟极大似然函数是

其中i=

当K,N,

0,模拟极大似然估计量与极大似然估计量渐近相等。

 

注意:

由于poisson分布能够很好地用来描述计数模型,所以混合poisson分布也常用来描述计数模型。

g(vi)设定为负二项分布只是选择之一。

有时也可以选择对数正态分布或者逆高斯分布。

观察由=3的指数分布随机数生成的200个值的序列图与频数分布图。

EViews操作:

在generatereries窗口键入:

y_exp=@rexp(3)。

观察200个指数分布值的序列图和频数分布图。

观察由参数(1,.2)的负二项分布随机数生成的200个值的序列图与频数分布图。

EViews操作:

在generatereries窗口键入:

y_negbin=@rnegbin(1,.2)。

观察200个负二项分布值的序列图和频数分布图。

计数模型案例:

(count-model01)个人特征、健康状态、医疗保险状态如何影响看医生次数。

数据取自RAND公司19741982年数据。

本研究的目的评价患者使用医疗服务如何受随机签署的健康保险(包括免费服务、健康维护组织)影响。

数据取自覆盖整个国家的6个地点的2823个家庭的8000个入会者。

每个家庭都签署了14个35年的健康保险之一。

保险的范围是从免费到95%共保。

关键的问题是保单是随机签的,不是自由挑选的。

所以不存在内生处理效应问题。

本研究的数据只取自“免费服务计划”。

数据由利用、花费、人口统计特征、健康状况、健康保险状况等变量组成。

样本共包括20186组数据。

每组数据都是一个给定年的数据。

MDU表示看医生次数。

看医生次数以及相应频率如下表:

看医生次数

相应频率(%)

看医生次数

相应频率(%)

看医生次数

相应频率(%)

0

31.2

7

2.6

14

0.4

1

18.9

8

2.0

15

0.3

2

13.8

9

1.4

16

0.3

3

9.3

10

1.0

4

6.7

11

0.9

2277

1.0

5

4.8

12

0.6

6

3.4

13

0.5

看病次数(MDU)的频率分布如下:

输入命令“mdu.freq”(按回车键)得

在序列窗口,点击View,选onewaytabulation。

点击OK。

TabulationofMDU

Date:

10/06/09Time:

18:

35

Sample:

120186

Includedobservations:

20186

Numberofcategories:

59

Cumulative

Cumulative

Value

Count

Percent

Count

Percent

0

6308

31.25

6308

31.25

1

3815

18.90

10123

50.15

2

2795

13.85

12918

63.99

3

1884

9.33

14802

73.33

4

1345

6.66

16147

79.99

5

968

4.80

17115

84.79

6

689

3.41

17804

88.20

7

531

2.63

18335

90.83

8

408

2.02

18743

92.85

9

287

1.42

19030

94.27

10

206

1.02

19236

95.29

11

190

0.94

19426

96.24

12

118

0.58

19544

96.82

13

109

0.54

19653

97.36

14

82

0.41

19735

97.77

15

59

0.29

19794

98.06

16

56

0.28

19850

98.34

17

33

0.16

19883

98.50

18

37

0.18

19920

98.68

19

35

0.17

19955

98.86

20

26

0.13

19981

98.98

21

22

0.11

20003

99.09

22

19

0.09

20022

99.19

23

19

0.09

20041

99.28

24

13

0.06

20054

99.35

25

8

0.04

20062

99.39

26

10

0.05

20072

99.44

27

6

0.03

20078

99.46

28

12

0.06

20090

99.52

29

6

0.03

20096

99.55

30

8

0.04

20104

99.59

31

8

0.04

20112

99.63

32

4

0.02

20116

99.65

33

5

0.02

20121

99.68

34

9

0.04

20130

99.72

35

5

0.02

20135

99.75

37

5

0.02

20140

99.77

38

9

0.04

20149

99.82

39

1

0.00

20150

99.82

40

3

0.01

20153

99.84

41

5

0.02

20158

99.86

44

6

0.03

20164

99.89

45

2

0.01

20166

99.90

46

2

0.01

20168

99.91

48

2

0.01

20170

99.92

51

1

0.00

20171

99.93

52

3

0.01

20174

99.94

55

1

0.00

20175

99.95

56

1

0.00

20176

99.95

57

1

0.00

20177

99.96

58

1

0.00

20178

99.96

62

1

0.00

20179

99.97

63

1

0.00

20180

99.97

65

1

0.00

20181

99.98

69

1

0.00

20182

99.98

72

1

0.00

20183

99.99

74

1

0.00

20184

99.99

76

1

0.00

20185

100.00

77

1

0.00

20186

100.00

Total

20186

100.00

20186

100.00

看医生次数(MDU)的频数分布见上图。

呈右偏态。

数据的均值=2.86。

数据的方差是4.52=20.25远远大于均值2.86。

属于过分散数据。

分别建立Poisson和NB2模型,并用PoissonML、PoissonQML、NB2QML的方法进行参数估计,PoissonML和PoissonQML估计的参数值是一样的,但PoissonQML可以大大降低z统计量的值。

因变量和解释变量定义如下:

因变量:

MDU:

看医生次数。

解释变量:

LC=ln(coinsurance+1),其中coinsurance表示共保率(%),取值范围是[0,100]。

IDP:

如果属于“个人减免计划”则为1,否则为0。

LPI=ln(max(1,参与者每年刺激性消费))。

FMDE:

如果IDP=1则值为0;否则为ln(max(1,医疗保险赔付额/0.01coinsurance))。

LINC:

对数的家庭收入。

LFAM:

对数的家庭大小。

AGE:

年龄。

FEMALE:

女性为1,否则为0。

CHILD:

年龄小于18岁为1,否则为0。

FEMCHILD=FEMALE*CHILD:

女孩儿为1,否则为0。

BLACK:

如果一家之主是黑人则取值为1,否则为0。

EDUCDEC:

一家之主受教育年限。

PHYSLIM:

身体有残疾则为1,否则为0。

NDISEASE:

患慢性疾病个数。

HLTHG:

自测健康状态良好为1,否则为0。

HLTHF:

自测健康状态中等为1,否则为0。

HLTHP:

自测健康状态差为1,否则为0。

基础类别是自测健康状态极好。

Poisson和NB2(负二项)模型估计结果如下:

Poisson回归

PoissonQML

NB2-QML

Model

Coefficient

z-Statistic

Coefficient

z-Statistic

Coefficient

z-Statistic

C

-0.189877

-3.9

-0.189877

-1.5

-0.206930

-1.8

LC

-0.042733

-7.0

-0.042733

-2.8

-0.050440

-3.2

IDP

-0.161317

-13.9

-0.161317

-5.8

-0.147598

-4.9

LPI

0.012851

7.0

0.012851

2.9

0.015835

3.6

FMDE

-0.020613

-5.8

-0.020613

-2.3

-0.021335

-2.4

LINC

0.083410

16.1

0.083410

6.0

0.084517

7.4

LFAM

-0.129663

-14.5

-0.129663

-5.7

-0.122677

-5.3

AGE

0.002376

5.5

0.002376

2.1

0.002594

2.3

FEMALE

0.348767

30.7

0.348767

12.3

0.367288

12.9

CHILD

0.336190

18.9

0.336190

8.3

0.306032

7.1

FEMCHILD

-0.362522

-20.2

-0.362522

-8.2

-0.375550

-8.4

BLACK

-0.680052

-43.7

-0.680052

-18.4

-0.710437

-19.8

EDUCDEC

0.017615

10.7

0.017615

4.4

0.016258

4.0

PHYSLIM

0.268405

21.7

0.268405

8.2

0.275172

8.1

NDISEASE

0.023183

38.1

0.023183

13.5

0.025935

15.3

HLTHG

0.039400

4.1

0.039400

1.7

0.006537

0.3

HLTHF

0.253112

15.6

0.253112

5.9

0.236864

5.4

HLTHP

0.521603

19.1

0.521603

7.0

0.425657

6.2

lnx

0.167421

8.9

LnL

-60087.62

-60087.62

-42777.61

E(MDU)=EXP(-0.1899-0.0428LC-0.16139IDP+0.0129LPI-0.02069FMDE

(-3.9)(-7.0)(-13.9)(7.0)(-5.8)

+0.08349LINC-0.1297LFAM+0.0024AGE+0.3488FEMALE+0.3362CHILD

(16.1)(-14.5)(5.5)(30.7)(18.9)

–0.3625FEMCHILD-0.6801BLACK+0.0176EDUCDEC+0.2684PHYSLIM

(-20.2)(-43.7)(10.7)(21.7)

+0.0232NDISEASE+0.0394HLTHG+0.2531HLTHF+0.5216HLTHP)

(38.1)(4.1)(15.6)(19.1)

LC表示对数的共保率(%),共保率可以提供价格影响的信息。

共保率越高,病人承担的部分就越高。

较低表示患者平均看医生次数。

Poisson回归系数是-0.0428,t=-7.0有显著性,说明共保率对看病次数的影响是负的(于理论一致)。

-0.0428表示看病次数对对数共保率的边际系数。

共保率越高,则病人平均看医生次数越低。

Poisson回归系数0.08349表明,对数的家庭收入越高,病人平均看医生的次数就越高。

Poisson回归系数-0.1297表明,对数的家庭规模越大,平均看医生的次数就越少。

Poisson回归系数0.0024表明,病人的年龄越大,平均看医生的次数就越多。

Poisson回归系数0.3488表明,女性病人平均看医生的次数多于男性病人。

Poisson回归系数0.3362表明,少年和儿童平均看医生的次数多于成年人。

Poisson回归系数–0.3625表明,女童平均看病的次数少于男童。

Poisson回归系数-0.6801表明,黑人家长家庭的成员平均看病的次数少于其他家庭。

Poisson回归系数0.0176表明,受教育高的人平均看病的次数多于受教育低的人。

Poisson回归系数0.2684表明,身体有残疾的人平均看病的次数多于无残疾的人。

Poisson回归系数0.0232表明,患慢性疾病的人平均看病的次数多于无患慢性疾病的人。

HLTHG、HLTHF、HLTHP三变量的回归系数表明,自测健康状态越好的人看医生的次数就越少。

 

怎样评价Poisson回归对数据拟合得好?

一个简单的方法就是看不同看医生次数条件下,实际值与模型拟合值之间差异是否很大。

把模拟出的MDUf值代入

P{yi}=

yi=0,1,...

并分别计算yi=0,1,2,…,9时对应的频率。

P{yi=0}=

,yi=0

P{yi=1}=

,yi=1

P{yi=9}=

,yi=9

的表如下:

看医生次数

0

1

2

3

4

5

6

7

8

9

样本频率(%)

31.2

18.9

13.8

9.3

6.7

4.8

3.4

2.6

2.0

1.4

泊松模型拟合频率(%)

10.6

19.2

20.9

17.6

12.6

7.99

4.69

2.64

1.46

0.8

NB2模型拟合频率(%)

30.9

19.6

13.6

9.67

6.97

5.07

3.70

2.72

2.0

1.47

注:

样本频率见频率分布表。

比较发现泊松模型低估了0值发生的频率,实际中0值发生的次数远多于模型估计出的0值个数。

模型高估了看医生1至7次发生的概率。

说明原计数数据是过离散的,Poisson模型忽略过离散特征导致低估0次看医生发生的概率。

类似的方法求出NB2(负二项)模型的拟合频率,发现与原序列的频率非常近似,所以考虑了过离散特征的NB2模型更合适!

模型预测值MDUF指的是每个个体的平均看大夫次数。

隐变量若用Y表示,则Y=Xi。

预测值MDUF与隐变量Y的关系是

MDUF=exp(Y)=exp(Xi),或Ln(MDUF)=Y=Xi。

Poisson模型估计结果

指数模型估计结果

负二项分布模型估计结果

EViews操作:

Poisson分布,负二项分布(NegativeBinomial),指数分布(Exponential)条件下ML估计的操作步骤:

准极大似然估计(QML)的操作:

激活Option模块,在Covariance中选中RobustCovariance。

有两种方法可用。

Huber/White和GLM。

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 教育学心理学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1