生存分析概念.docx

上传人:b****6 文档编号:4433607 上传时间:2022-12-01 格式:DOCX 页数:25 大小:71.01KB
下载 相关 举报
生存分析概念.docx_第1页
第1页 / 共25页
生存分析概念.docx_第2页
第2页 / 共25页
生存分析概念.docx_第3页
第3页 / 共25页
生存分析概念.docx_第4页
第4页 / 共25页
生存分析概念.docx_第5页
第5页 / 共25页
点击查看更多>>
下载资源
资源描述

生存分析概念.docx

《生存分析概念.docx》由会员分享,可在线阅读,更多相关《生存分析概念.docx(25页珍藏版)》请在冰豆网上搜索。

生存分析概念.docx

生存分析概念

 

一、生存分析的概念:

将事件的结果和出现此结果所经历的时间结合起来分析的统计分析方法。

研究生存现象和响应时间数据及其统计规律的一门学科。

对一个或多个非负随机变量(生存时间)进行统计分析研究。

对生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度的统计

分析方法。

在综合考虑相关因素(内因和外因)的基础上,对涉及生物学、医学(临床、流行病)、工

程(可靠性)、保险精算学、公共卫生学、社会学和人口学(老龄问题、犯罪、婚姻)、经

济学(市场学)等领域中,与事件(死亡,疾病发生、发展和缓解,失效,状态持续)发

生的时间(也叫寿命、存活时间或失效时间,统称生存时间)有关的问题提供相关的统计

规律的分析与推断方法的学科。

二、生存时间”(Survival Time)的概念

生存时间也叫寿命、存活时间、失效时间等等。

医学:

疾病发生时间、治疗后疾病复发时间

可靠性工程系:

元件或系统失效时间

犯罪学:

重罪犯人的假释时间

社会学:

首次婚姻持续时间

人口学:

母乳喂养新生儿断奶时间

经济学:

经济危机爆发时间、发行债券的违约时间

保险精算学:

保险人的索赔时间、保险公司某一索赔中所付保费

汽车工业:

汽车车轮转数

市场学中:

报纸和杂志的篇幅和订阅费

三、生存分析的应用领域:

社会学,保险学,医学,生物学,人口学,医学,经济学,可

靠性工程学等

六、生存分析研究的目的

1、描述生存过程:

估计不同时间的总体生存率,计算中位生存期,绘制生存函数曲线。

计方法包括 Kaplan-Meier(K-M)法、寿命表法。

2、比较:

比较不同处理组的生存率,如比较不同疗法治疗脑瘤的生存率,以了解哪种治疗

生存分析课程总结

 

方案较优。

统计方法 log-rank 检验等。

3、影响因素分析:

研究某个或某些因素对生存率或生存时间的影响作用。

如为改善脑瘤病

人的预后,应了解影响病人预后的主要因素,包括病人的年龄、性别、病程、肿瘤分期、

治疗方案等。

统计方法 Cox 比例风险回归模型等。

4、预测:

建立 Cox 回归预测模型。

主要研究内容

描述生存过程:

研究人群生存状态的规律,研究生存率曲线的变动趋势,是人寿保险业的

基础。

生存过程影响因素分析及结局预测:

识别与反应、生存及疾病等相关风险因素,预测生存

结局,在临床中应用的非常广泛。

七、主要分析方法

1、参数法方法:

首先要求观察的生存时间 t 服从某一特定的分布,采用估计分布中参数的

方法获得生存率的估计值。

生存时间的分布可能为指数分布、Weibull 分布、对数正态分布

等,这些分布曲线都有相应的生存率函数形式。

只需求得相应参数的估计值,即可获得生

存率的估计值和生存曲线。

2、非参数方法:

实际工作中,多数生存时间的分布不符合上述所指的分布,就不宜用参数

法进行分析,应当用非参数法。

这类方法的检验假设与以往所学的非参数法一样,假设两

组或多组的总体生存率曲线分布相同,而不论总体的分布形式和参数如何。

非参数法是随

访资料的常用分析方法。

3、半参数方法:

只规定了影响因素和生存状况间的关系,但是没有对时间(和风险函数)

的分布情况加以限定。

这种方法主要用于分析生存率的影响因素,属多因素分析方法,其

典型方法是 Cox 比例风险模型。

4、几种常用的统计软件:

SAS,SPSS,Stata,Excel,R

 

第二章 数据类型

一、完全数据(Complete data)

每个个体确切的生产时间都是知道的。

这样的数据称为完全数据(Complete data)。

但在实

际的生存分析中,数据在很多情况下是很难完全观察到的。

二、删失(Censoring )

 

09 统计学【经济分析】2 班 吕嘉琦 320091213041

生存分析课程总结

 

生存数据一个重要的特点是:

在研究结束时,无法获得某些个体确切的生存时间。

例如:

失去联系(病人搬走,电话号码改变),无法观察到结局(死于其他原因),研究截止,个

体仍然存活……在这些情况下获得的数据就是删失数据(Censored data)。

对存在删失的个

体,只知道删失时间(Censoring time)。

删失分为右删失(Rightcensoring)、左删失(Leftcensoring)和区间删失(Interval

censoring)

1、右删失(Right censoring)。

在进行观察或调查时,一个个体的确切生存时间不知道,而只知道其生存时间大于时间

L,则称该个体的生存时间在 L 上是右删失的,并称 L 为右删失数据(Right-censored data)。

 

右删失有三种类型(按结束时间差别):

I 型删失(TypeIcensoring)、II 型删失(TypeII

censoring)和 III 型删失(Type III censoring)。

(1)I 型删失(Type I censoring):

对所有个体的观察停止在一个固定的时间,这种删失

即为 I 型删失(或定时删失)。

例如:

动物研究通常是以有固定数目的动物接受一种或多种

处理开始,由于时间和费用的限制,研究者常常不能等到所有动物死亡。

一种选择就是在

一个固定时间周期内观察,在截止时间之后仍可能有些动物活着,但不继续观察了。

这些

动物的生存时间是不知道的,只知其不小于研究周期时间。

I 型删失的删失时间是固定的。

 

图表 1 I 型删失示例

 

(2)II 型删失(Type II censoring):

同时对 n 个个体进行观察,一直到有一固定数目(r

< n)的个体死亡(失效)为止,这种删失即为 II 型删失。

II 型删失的删失时间是随机的。

09 统计学【经济分析】2 班 吕嘉琦 320091213042

生存分析课程总结

 

图表 2 II 型删失示例

 

(3)III 型删失(Type III censoring):

所有个体在不同时间进入研究,某些个体在研究结

束之前死亡,他们的确切生存时间是知道的,其他个体在研究结束之前退出研究而不被跟

踪观察或在研究结束时仍然活着。

进入研究的时间可能不同,删失时间也可能不同,这种

删失叫做 III 型删失,又称为随机删失(Random censoring)。

 

图表 3 III 型删失示例

2、左删失(Left censoring)

研究对象在时刻 Cl 开始接受观察,而在此之前我们感兴趣的时间已经发生,这就是左删失。

 

例如:

“您初次吸食大麻是在什么时候?

”有一种回答:

“我吸食过,但我不记得吸食的具

体时间了。

这些回答的吸食时间数据就是左删失。

通过测试确定儿童学会完成特定任务的年龄,有些儿童在进入研究前就已经可以完成某项

特定任务,这些儿童的事件发生时间也是左删失。

09 统计学【经济分析】2 班 吕嘉琦 320091213043

生存分析课程总结

 

出现左删失同时,也可能出现右删失,称为双删失(Double censoring)。

例如:

对吸食大麻的

问卷还有一种回答:

“我从来没有吸食过”,这样的数据就是右删失。

3、区间删失(Intervalcensoring):

若个体的确切生存时间不知道,只知道其生存时间在

两个观察时间L 和 R 之间(L

实际

工作中,凡是不能或者不愿作连续监测时就会遇到这样的区间删失。

区间删失分两种:

第一类区间删失(Case I Interval censoring)和第二类区间删失(Case II

Interval censoring)。

当对个体只进行一次观察,且个体的确切生存时间不知道,只知道其生存时间是否大于观

察时间(即 L = 0 或 R = ∞ ),这种删失称为第一类区间删失,也称为现实状况数据

(Current data)。

当对个体进行次观察,其观察时间 L 和 R满足 0 < L < R < ∞ 时,这种

删失称为第二类区间删失,也称为一般区间删失。

如果初始时间(如艾滋病感染时间)和发生时间均为区间删失,则称生存时间为双重区间

删失(Double interval censoring)。

三、截断(Truncation)

在研究或者观测中,淘汰了一些对象(样本),使得研究者“意识不到他们的存在”。

对截断

数据的分析构造似然采用条件分布。

截断包括两种:

左截断(Left truncation)和右截断(Right truncation)。

1、左截断(Left Truncation):

只有个体经历某种初始事件以后才能观察到其生存时间,

称为左截断(Left truncation),此时获得的数据称为左截断数据(Left-truncated data)

例如:

暴露于某疾病、发生死亡前的中间事件等。

退休中心老年居民死亡时间(没到年龄

没有进入观测)

左截断与左删失的区别:

在左截断的研究中,根本没有考虑那些在进入研究之前已经经历

了感兴趣时间的个体,而在左删失的研究中,我们能获得这些个体的部分信息。

即有左截断又存在右删失的情况,称为左截断右删失(Left-truncation and right-censoring)

2、右截断(Right Truncation)

只有经历了某种终止事件才能观察到生存时间(将要经历该事件的个体不包含在实验样本

中),称为右截断(Righttruncation),此时获得的数据称为右截断数据(Right-truncated

data)。

例如:

对艾滋病感染和发病时间观测数据,有些个体感染病毒但尚未发病,这样的个体不

在样本范围之内。

09 统计学【经济分析】2 班 吕嘉琦 320091213044

生存分析课程总结

 

3、截断的数学表示

设 Y 是一个非负的表示生存时间的随机变量;T 是另外一个表示截断时间的随机变量。

在左截断下,只有当 Y ≥ T 时,才能观察到 T 和 Y;在左截断下,只有当 Y ≤ T 时,才能

观察到 T 和 Y。

 

第三章 基本函数和模型

一、生存函数(Survival Function)

描述生存时间统计特征的基本函数,也叫生存率(Survival Rate) :

设 T 表示生存时间,F(t)

0

为 T 分布函数,生存函数定义为:

 S (t) = P(T > t) = 1 - F (t),< T < ∞

生存函数性质:

非增函数。

满足

x→0+

S (0+ ) = lim S (x) = 1

S (+∞) = lim S (x) = 0

x→∞

当生存时间为连续型随机变量时:

S (t) = P(T > t) = 1 - F (t) = ⎰ f (u)du

t

f (t) = -S ' (t) = -

dS (t)

dt

生存函数 S (t) 的图像叫做生存曲线(Survival Curve),如下图:

 

陡峭的生存曲线表示较低的生产率或较短的生存时间;平缓的生存曲线表示较高的生存率

或较长的生存时间。

离散生存时间产生于舍入操作将失效(或死亡)时间分组从区间和寿命用整数计量等。

离散时间生存函数是非增的阶梯函数,当 T取值为 a1 < a2 < L ,且

 

09 统计学【经济分析】2 班 吕嘉琦 320091213045

生存分析课程总结

f (ai ) = P(T = ai ),i = 1,2,L , S (t) = ∑ P(T = ai ) = ∑ f (ai ), i = 1,2,L

ai >tai >t

 

离散时间生存函数是非增的阶梯函数

 

二、危险率函数(Hazard Function):

危险率函数:

描述观察个体在某时刻存活条件下,在以后的单位时间内死亡的(条件)概

率:

λ(t) = lim

h→0+

P(T < t + h T ≥ t

h

当 T 连续

λ(t) =

f (t)

S (t)

= -

d ln[S (t)]

dt

当 T离散,取值为 a1 < a2 < L , f (ai ) = P(T = ai ),i = 1,2,L ,则 ai 处的危险率为

λi = P(T = ai T ≥ ai )=

f (ai )

S (ai-1 )

=

S (ai-1 ) - S (ai )

S (ai-1 )

= 1 -

S (ai )

S (ai-1 )

 i = 1,2,L

=∏ (1 -λi )

S (t) = ∏

ai ≤t

S (ai )

S (ai-1 ) ai ≤t

危险率函数在工程上叫做失效率函数或损坏函数,在生存分析和医学统计中又称为风险率

函数

或瞬时死亡率(Simultaneousdeathrate)、或死亡强度(Deathintensity)、或条件死亡率

(Conditional death rate)、或年龄死亡率(Age death rate)等。

常见风险函数曲线

 

09 统计学【经济分析】2 班 吕嘉琦 320091213046

生存分析课程总结

 

三、累积风险函数(Cumulative Hazard Function)

(t )= ⎰λ   (u )du

累积危险率函数:

 Λ

t

当 T 连续,

Λ( )= - ln[S ( )]

⎡ t ⎤

⎣ 0 ⎦

当 T 离散时,危险率函数有两种定义形式:

Λ( )=

∑ λ

i ai ≤t

i

Λ( )=

∑ ln 1 -λi )

i ai ≤t

如果 λi 的值很小,两种定义形式的值接近

 

四、平均剩余寿命函数(Expected residual life)

平均剩余寿命函数定义为:

r( )= E T - t T > t )=

t

r(0)为平均寿命。

 

五、常用的参数模型

生存时间的分布一般不呈正态分布。

常用的分布有:

指数分布、威布尔(Weibull)分布、

伽玛(Gamma)分布、对数罗吉斯蒂(logistic)分布、对数正态分布。

 

09 统计学【经济分析】2 班 吕嘉琦 320091213047

生存函数形式为:

 s( )= exp[ (λ t ) ]λ   > 0,α> 0

危险率函数为:

λ  (t )=λα(λ t )

生存分析课程总结

 

1、指数分布

t,

t

t

生存函数形式为:

 s( )= exp(- λt ) λ > 0, t > 0

密度函数为:

 f ( )= λ exp(- λt )

危险率函数为:

 λ( )= λ

指数分布的一个重要性质:

无记忆性(某事件的发生时间与历史记录无关),即

P T ≥ t + h T ≥ t )= P(T ≥ t )

2、威布尔(Weibull)分布

α

其中 λ 是尺度参数,α 是形状参数,α = 1时为指数分布。

α -1

适用于危险率递增(取α > 1)、递减(取α < 1)和为常数(取α = 1)等各种情形。

3、伽玛(Gamma)分布

生存函数:

 s( )=

⎡λt ⎤

⎣ 0

Γ(β )

其中 Γ(β  )=   u

0

β -1

exp(- u)du 称为伽玛函数。

 

第四章 生存数据基本特征的非参数估计

一、生存函数的估计

假设事件发生在 D 个严格区分的时间点上:

 t < t2 < L < tD

) t

在无删失条件下:

 S ( )=

生存时间 > t的个数

个体总数

二、右删失生存函数的估计:

S ( i )=⋅L⋅ S ( 0 )

S ( i )= P T > ti T ≥ ti )P T > ti-1 T ≥ ti-1 )L P T > t2 T ≥ t2 )P T > t1 T ≥ t1 )

 

09 统计学【经济分析】2 班 吕嘉琦 320091213048

生存分析课程总结

 

存在右删失下:

 P T > ti T ≥ ti =

Yi - di

Yi

 i = 1,2,L , D

Gill(1980)建议最大观察时间点以后的生存函数 S (t )= S (tmax ),即假设最大时间点上的

Yi :

 时刻ti面临危险的个体数;di :

 时刻ti失效个体数

三、乘积限(product-limit)估计

乘积限估计又称 Kaplan-Meier 估计

)⎪

S (ti ) = ⎨di

⎩ tii

阶梯函数,在观察时间点上发生跳跃;

跳跃的高度 ti 与上发生的事件数和 ti 前删失数有关;超出观测上限的时间没有给出很好的

估计。

四、乘积限估计尾部修正

Efron(1967)建议最大观察时间点以后的生存函数等于 0,即等价于假定最大时间点上的

生存者马上就会死亡。

(负偏估计)

))

 

生存者永远不会死。

(正偏估计)

Brown、Hollander 和 Kowar(1974)建议尾部估计为一条指数曲线,即

))

 

五、乘积限估计的方差

2

六、生存函数点估计的置信区间

利用渐进正态性的线性置信区间:

() ( )- Z

1-

α

2

1-

2

其他变换形式的非线性置信区间

对数变换 反正弦平方根

七、累积死亡率的估计

无删失条件下危险率函数的估计:

 

09 统计学【经济分析】2 班 吕嘉琦 320091213049

 

λ  (t )=

生存分析课程总结

 

在时间t开始的区间中死亡的个数

在时间t存活着的个体数 ⨯区间宽度

 

有删失条件下累计死亡率估计:

tt

1.直接利用累积死亡率与生存函数的关系:

 Λ( )= - ln[S ( )]

2.Nelson-Aalen 估计为

⎧ 0,t < t1

t ≥ t1

⎩ tii

2

ti≤t i

di

具有更好的小样本性质

Nelson-Aalen 估计的应用

1)用于选择事件发生时间的参数模型

2)为危险率提供粗估计(对估计进行核平滑后计算斜率)

八、累积死亡力函数的置信区间

线性置信区间:

 Λ( )- Z

1-

α

2

1-

2

平均生存时间:

μ=   S (t )dt

估计式为:

μ ˆτ  =   Sˆ(t )dt

其他变换形式的非线性置信区间

对数变换区间 反正弦平方根变化区间

注:

1、乘积限估计和 Nelson-Aalen 估计都是建立在非信息删失(non-informative censoring)假

设下

2、乘积限估计的尾部估计:

a)取 0;b)取最大观测点的值;c)构造指数曲线

))

 

3、无删失时,乘积限估计即为经验生存函数

九、生命时间均值的估计

0

τ

0

 

09 统计学【经济分析】2 班 吕嘉琦 3200912130410

 

 

i=1 i i i

 

2

 

i

生存分析课程总结

十、左截断右删失数据生存函数的估计

只有生存到某时刻之后才能进入观察

乘积限估计(独立截断下是最大似然估计)

~⎡d ⎤

ti≤t ⎣Yi ⎦

Yi :

 在时刻ti之前进入区研究,且至少被研究到ti的个体数;

di :

 在时刻ti时死亡的个体数。

Lai 和 Ying(1991)修正乘积限估计:

 (当风险集较小时忽略此处的死亡)

~⎧d

ti≤t ⎩Yi

十一、左删失数据生存函数估计

利用“时间倒转法”:

即不是从原点处测量时间,而是从很大的一个时间τ 倒着从相反的方向测量,用时间τ

减去原始时间,得到右删失数据结构,利用乘积限估计式估计

τ

P( - X > t )= P(X < τ - t )

纯粹左删失情况很少见。

十二、同时存在左、右删失情况

设 0 =t1< t2 < L < tm 为观察时间点,

d j 表示 t j 时的死亡数, rj 表示 t j 时的右删失数,

c j 表示 t j 时的左删失数,则生存函数的迭代估计步骤为:

t j

步骤 0:

忽略左删失获得乘积限估计作为 S0 ()的初始估计;

(j ≤ i)

步骤(K+1)1:

使用 S 的当前估计值通过估计 pij = P[]

步骤(K+1)2:

使用上一步骤的结果,估计在 t j 时发生的事件数为 d j = d j +

m

i= j

i

ij

步骤(K+1)3:

使用上一步修正后的右删失数据,仍然忽略左删失计算乘积限估计。

09 统计学【经济分析】2 班 吕嘉琦 3200912130411

生存分析课程总结

tt

果这一估计在所有 t j 处都有 SK+1( )接近 SK ( ),则停止迭代,否则继续步骤 1。

十三、右截断数据生成函数的估计

传染病的研究中比较常见。

设 Ti 代表第 i 个个体被传染的时间, X i 是从感染到发病的时间。

研究样本包含从 0 到τ 期间病人的观测值 (Ti , X i ).(只有在时间τ 之前发病的人才进入研

究)。

利用颠倒时间轴法:

令 Ri = τ - X i 则变为 Ri 左截断的,便可构造

P(R > t R ≥ 0)= P(X < τ - t X ≤ τ )的乘积限估计式。

十四、生命表中生存函数的估计

生命表(也称寿命表,lifetable)方法是测定死亡率和描述群体生存现象的最古老的技术之

一。

主要用于保险精算、人口学、医学等方面。

一组(大规模)个体在整个考察时间上被连续观察,它们的事件发生时间或删失时间被记

a(

k + 1个相邻但不重叠的区间内 [ j-1, a j ) j = 1,L , k + 1)

2.  第二列给出进入第 j 个区间的对象数 Yj ,这些个体还没有经历观察事件的发生。

间在区间上是均匀分布的,则 Yj = Yi - W j / 2

根据生命表方法应用的范围不同,可分为人口生命表和临床生命表,分析方法相似。

生命表方法数据假设

(1)独立删失:

假定删失的事件时间(包括损失和退出)与它们如果一直被观察到事件发

生所得到的死亡时间是独立的。

(2)假定删失时间和死亡时间是均匀分布在每个区间上的。

(3)假定死亡力在区间内是常数。

生命表的构造方法

1. 第一列给出相邻但不重叠的固定区间

a(,

Ii = [ j-1, a j ) j = 1,L , k + 1) a0 = 0, ak+1 = ∞ 事件发生时间和删失时间将落入且只落入其

中的一个区间。

'

3. 第三列给出在第 j 个区间中失去踪迹(死亡)或活着退出观察(迁出)的个体数W j

4. 第四列给出在第 j 个区间中,面临观察事件风险的暴露数 Yj 的一个估计值,假设删失时

'

 

09 统计学【经济分析】2 班 吕嘉琦 3200912130412

生存分析课程总结

 

5. 第五列是在第 j 个区间中发生观察事件(如死亡)的个体数 d j

6.

S (  j )= S (  j-1 [   ]= ∏ ( - d j / Yj )

j

i=1

ˆ a

生命表分析的主要任务就是估计 S ( j ),基本思想:

乘积限方法。

f  a,a j + a j-1  /

7. 第七列给出估计的第 j 个区间中点处的概率密度函数 ˆ ( mj )其中 amj

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育 > 初中教育

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1