zhoulecture2discrete event history for screen.docx

资源描述

zhoulecture2discrete event history for screen.docx

《zhoulecture2discrete event history for screen.docx》由会员分享，可在线阅读，更多相关《zhoulecture2discrete event history for screen.docx（11页珍藏版）》请在冰豆网上搜索。

zhoulecture2discrete event history for screen.docx

zhoulecture2discreteeventhistoryforscreen

第二讲离散时间的事件史分析模型

提要

1．离散时间事件史统计模型的概念

2．资料结构

3．统计分析

4．统计结果的解释

5．其他推广

阅读材料

PaulAllison:

SociologicalMethodology1982

1．离散时间事件史模式的概念

基本特点

▪事件是离散型的：

是/否，存在/不存在

▪时间是离散型的：

o风险率在一个时间区间内是常量：

每年第四季度的职务提升；

o风险率可能随时变化，但是我们只能在一个固定的时间点上测量：

一年的平均收入

o风险率可能随时变化，但是解释变量的更新只是在一个固定时间点上测量；

为什么使用“离散时间”的事件史统计模型?

▪参数模型的困难：

o删截的资料处理；

o随时间变化的变量的资料处理；

▪许多资料信息的更新都是在离散性时间区间的：

每年、每季度，等等。

使用离散性时间的模型不会浪费信息。

▪离散性时间模型的优点:

o容易处理删截情况

o容易更新随时间变化的变量

o容易处理资料结构

o容易解释统计结果

统计模型：

Logistic模型

（0）起点：

一个基本的统计模型:

h（t）=’x

（1）定义离散时间的风险率：

Pit=Pr[Ti=t|Tit,xit]

上式的表述与风险率函数有类似之处，即我们关心的是在某一风险集（Tit）中，事件（Ti=t）发生的概率。

（2）下一步，建立风险率与时间和解释变量之间的关系。

最为常用的统计模式是thelogisticregressionfunction

∙Logistic模型:

binaryoutcome（0/1）

interestedinprobability

复习：

关于概率的模型化odds,log-odds.

odds

log-odds

probability

在这里，t=1,2,3,…即事件（y=1）和自变量（xit）都是离散时间性的。

这个模型在事件通常在一个离散时间段里（非连续性时间）发生的情形下最为适用。

Logistic模型与事件史分析方法之间关系

引入随时间变化的变量

▪建立person-year资料记录

▪在一定的时间点（或时间段：

年）更新信息：

工作单位、年龄

▪考虑使用（t-1）点上的因变量

考虑风险集

确定风险集的成员—入党事件：

解释统计结果

2．资料结构：

入党事件

资料结构

▪人-年（季度，天，小时）资料记录栏（person-yearrecord）

▪在这里，“年”（或季度、天、小时）是离散性时间区间的单位

应该考虑的事项

1．假设：

可以看做是一个“年度”事件—某一年xxx入党了；

2．我们关心的解释变量（如果随时间变化）是按年度测量的；

a.工作单位

b.教育水平

3．如何将随时间变化的变量结合进资料结构：

增加记录；

4．风险集：

十八岁以后

5．解释变量应该使用（t-1）时间；

6．如何处理删截的情况：

一旦删截，退出风险集，停止记录；

7．一旦经历了事件，退出风险集，停止记录；

例子：

sample600_eha资料结构

3．模型估测

logistic模型使用最大似然值法估测参数：

δi–“event”=1；“noevent”=0。

如果一个样本经历了事件，那么它对似然估算的贡献是T的密度函数；如果没有经历事件，或ti被删截，那么它的贡献是1-累积分布函数。

这个最大似然值法公式与我们以前讨论的风险率估测的最大似然值法的道理是一样的。

4．统计结果的解释

以下我们用“入党”作为一个“生活历程”的重要事件为例来说明上面讨论的这些课题。

统计分析的结果见附录的表1。

统计结果的讨论一般包括以下内容

▪统计模型的检验：

modelsignificance，nestedmodels，modelspecification

▪实证假设的检验：

testofhypotheses

▪统计结果的表述：

统计显著性，作用的方向，作用的大小

统计结果的解释

▪模型的检验—与logistic模型一样

likelihoodratiotest:

-2log-likelihoodstatistics:

restrictedvs.Unrestricted

2distribution,df:

thenumberofrestrictedvariables

whatisthebaseline?

▪参数：

log-oddslog（rate）

oddsrate

▪风险率的特点：

o或上升、下降、不变，但不能是负数

o参数是正值：

风险率上升

o参数是负值：

风险率下降

解释变量的参数估测:

▪连续性变量/非连续性变量

▪统计显著性

▪正负号

▪数值大小

▪参数可以在不同层次上表达

ocoefficient：

paramtersareforlog-odds—log-rate:

▪log{p（Y=1）/[1-p（Y=1）]}=’x

oodds-rate：

hazardratio（hr）

o连续变量：

自变量每一单位的变化导致的风险率变化

o定类变量：

与参考群体相比，风险率的变化

hazardratios:

β=0exp（β=0）=1100%nochange,noeffect

>0exp（）>1increasingtherateby[1-exp（）]%

β<0exp（β）<1decreaseby[1-exp（β）]%

Model3—fullmodel:

Exp（female）=.429theoddsforfemaleisonly.429ofthoseformale.Or,therate

forafemaleisonly.429ofthatforamale.Or,beingafemaledecreasestherateby57%，relativetoamale.

Exp（educyr）=1.164Eachadditionalyearofschoolingincreasestherateby16.4%.

Exp（age）,exp（age2）

对实证假设的检验

1．单个变量：

参数的统计显著性

2．单个变量：

参数是否为某一数值？

3．变量之间的比较：

两个变量的影响是否一样？

4．一组变量的影响：

几个变量的影响是否为零？

STATAoutput

.testgovt=public;

（1）govt-public=0

chi2

（1）=7.02

Prob>chi2=0.0081

/*testofcoefficientequality*/

>testfparty=2;

（1）fparty=2

chi2

（1）=37.07

Prob>chi2=0.0000

/*test:

aneffect=aconstant*/

>testfedmidl=fedhigh=fedcolg=fedothr=0;

（1）fedmidl-fedhigh=0

（2）fedmidl-fedcolg=0

（3）fedmidl-fedothr=0

（4）fedmidl=0

chi2（4）=3.95

Prob>chi2=0.4133

/*asetofvarshavenoeffects*/

5。

离散时间事件史模型的进一步推广

A.分段离散时间的模型（Piecewisediscretemodel）

▪不同的持续期（生育：

婚后0-2，2-5，5+）

▪不同年龄段〔提升：

20-30，30-40。

。

〕

▪不同历史时期（改革前，改革后）

B.Nestedmodels

testingtheoreticalarguments

C.complementarylog-logmodel

连续时间的COX模型在离散型时间模型中的应用

如果我们假设观察到的资料是由连续性时间的过程所产生的，那么，相应的离散性时间风险函数是thecomplementarylog-logmodelforcontinuous-timeprocesses

Log[-log（1-Pit）]=+1X1t1+2X2t2+...+kxitk

▪thecomplementarylog-logfunction.

D．关于离散性时间模型中，时间的处理：

风险率“时间”关于的模型化。

=0+1t

=0+1logt

解释变量和时间之间的交互作用；

作业2:

离散时间的事件史统计模型

▪使用你在作业1中选择的“生命事件”作为分析的对象；（你也可以对我们已经讨论的“入党事件”改进已有的模型，做进一步的分析）

▪在资料中选择几个“解释变量”，其中包括分类变量和连续变量

▪应用“logistic”模型加以分析

▪写一个简要的报告

→说明应用“logistic”模型在这项研究中的可行性

→说明资料的结构

⏹因变量的处理

⏹随时间变化的变量的处理

⏹风险率的考虑〔结合上一次作业的结果〕

→报告并讨论主要的统计结果

⏹变量的参数及意义

⏹检验实证假设

⏹模型的解释能力

→讨论：

如何进一步改进这个分析？

Table1．Parameterestimatesoflogisticregressionmodelsfordiscrete-timeeventHistoryAnalysis

year2003Model1Model2Model3cloglog

female0.425**0.421**0.423**0.429**-0.837**

（0.124）（0.097）（0.098）（0.101）（0.233）

educyr1.239**1.196**1.162**1.164**0.148**

（0.070）（0.049）（0.050）（0.052）（0.044）

age1.0711.203*1.196*1.187*0.170*

（0.086）（0.099）（0.100）（0.099）（0.083）

age20.9930.749*0.757*0.770*-0.258*

（0.087）0.092）（0.094）（0.095）（0.122）

govt13.259**6.746**6.415**1.793**

（8.946）（2.864）（2.824）（0.424）

public3.380**1.5261.752+0.556+

（1.440）（0.449）（0.525）（0.297）

firmcl2.2250.8390.849-0.166

（1.826）（0.397）（0.403）（0.472）

firmpr1.4510.6100.623-0.473

（0.633）（0.365）（0.373）（0.597）

firmfo1.2071.1121.6580.511

（1.491）（1.149）（1.725）（1.031）

firmoth4.042+2.2542.4460.890

（3.000）（1.646）（1.792）（0.727）

fedmidl0.9690.984-0.011

（0.365）（0.290）（0.290）

fedhigh0.9170.935-0.062

（0.410）（0.333）（0.352）

fedcolg0.187*0.343*-1.056+

（0.134）（0.187）（0.540）

fedothr0.4790.933-0.061

（0.274）（0.366）（0.388）

fparty2.258*1.670*0.503*

（0.724）（0.408）（0.242）

Constant-8.913**

（1.414）

LR（279.7741.1058.3767.24---

Df1541015

Obs48010476104761047610476

Standarderrorsinparentheses

+significantat10%;*significantat5%;**significantat1%

展开阅读全文