生存分析.docx
《生存分析.docx》由会员分享,可在线阅读,更多相关《生存分析.docx(49页珍藏版)》请在冰豆网上搜索。
生存分析
Survival(生存分析)菜单
对于急性病的疗效考核,一般可以用治愈率、病死率等指标来评价,但对于肿瘤、结核及其他慢性疾病,其预后不是短期内所能明确判断的,这时可以对病人进行长期随访,统计一定期限后的生存和死亡情况以判断疗效,这就是生存分析。
生存分析是用于以处理生存时间(survivaltime)为反应变量、含有删失数据一类资料的统计方法。
所谓生存时间,狭义地讲是从某个标准时点起至死亡止,即患者的存活时间。
例如,患有某病的病人从发病到死亡或从确诊到死亡所经历的时间。
广义地说,“死亡”可定义为某研究目的“结果”的发生,如宫内节育器的失落,疾病的痊愈,女孩月经初潮的到来等(生存分析中往往统指各“死亡”为失效)。
此类资料的生存时间变量多不符从正态分布,且常含有删失值,故不适于用传统的数据分析方法如t检验或线性回归进行分析。
所谓删失值,就是因各种原因对随访对象的随访可能失访或终检(censoring),如研究对象由于其他原因死亡、研究者与病人失去了联系及直到对资料作总结时随访对象还活着但尚未发生所规定的事件。
这种数据就叫做删失值,也叫做截尾数据。
能处理截尾数据是生存分析的一个优点。
根据不同的研究目的和资料类型,可采用不同的分析方法,如寿命表、Kaplan-Meier法、Cox回归模型等分析方法进行分析。
Survival菜单包括LifeTables过程、Kaplan-Meier过程、CoxRegression过程、Coxw/Time-DepCov过程。
本节只介绍LifeTables过程和Kaplan-Meier过程。
LifeTables过程
LifeTables过程用于:
1、 估计某生存时间的生存率。
2、绘制各种曲线如生存函数、风险函数曲线等。
3、 对某一研究因素不同水平的生存时间分布进行比较,控制另一因素后对研究因素不同水平的生存时间分布进行比较,包括从总体上比较和不同水平之间进行两两比较。
例10.1某临床试验对20名第Ⅲ或第Ⅳ期黑色素瘤患者进行随访研究,截至研究期结束,记录的生存资料见表1。
试计算100周生存率。
12.815.624.0+26.4 29.2 30.8+ 39.2 42.0 58.4+ 72.0+
77.282.487.2+94.4+97.2+106.0+114.8+117.2+140.0+168.0+
注:
数据后跟符号“+”表示该数据为删失数据。
一、建库
定义两个列变量:
时间变量:
取名“time”,label标上“survivaltime(week)”。
生存状态变量:
取名“status”,并赋值:
0=“删失”,1=“死亡”。
二、操作过程
从菜单选择
1、Analyze==>Survival==>LifeTables
2、Time框:
选入time
3、DisplayTimeIntervals框:
在by前面的框内填入生存时间上限,本例填入200(此区间必须包括生存时间的最大值);在by后面的框内填入生存时间的组距,本例填入20,以保证结果列出“100-”的组段。
4、Status框:
选入status;击defineevents钮,在singlevalue框右边的空格中输入1
5、单击Option按钮,弹出对话框:
●LifeTable(s)输出寿命表,系统默认
● Plots:
选Survival(累积生存函数曲线)
击Continue
6、单击OK钮
附 :
界面说明
图1 寿命表主对话框
【Time】框
选入生存时间变量。
【DisplayTimeIntervals】框
欲输出生存时间范围及组距。
在by前面的框内填入生存时间上限,本例填入200(此区间必须包括生存时间的最大值);在by后面的框内填入生存时间的组距,本例填入20,以保证结果列出“100-”的组段。
【Status】框
选入生存状态变量,并定义终结事件的标记值。
选入变量“Status”后,【DefineEvent】钮被激活变黑,击该按钮,弹出定义终结事件标记值的对话框(图1)。
对二分类变量,一般以死亡、复发、恶化等表示终结事件。
本例以死亡为终结事件,其标记值为1,故在Singlevalue框内填入1。
击Continue钮。
若生存状态变量取值为一连续型变量,如反应变量为收缩压,则在下面的Rangeofvalues框中输入140through400,此处上限输入400是我随便输入的一个上限,目的是为了定义高血压患者,实际上恐怕没有人的血压能达到400,这样才能保证包括所有的高血压病例,具体情况具体分析。
图2 定义终结事件标记值的对话框
【Factor】框
定义第1层因素,即分组因素。
【ByFactor】框
定义第2层因素,即分层因素。
【Options】选项
击Options按钮,弹出选项对话框。
(图3)
图3 寿命表选项对话框
LifeTable(s):
输出寿命表,系统默认。
Plot:
统计图。
Survival:
累积生存函数曲线。
Hazard:
累积风险函数散点图。
Oneminussurvival:
生存函数被1减后的曲线。
Logsurvival:
对数累积生存函数曲线。
Density:
密度函数散点图。
CompareLevelsofFirstFactor:
对第1层因素不同水平的比较,即主对话框(图1)中的factor框中所选入的因素。
None:
不做比较。
系统默认。
Overall:
整体比较。
Pairwise:
两两比较。
本例因没有分组因素,故CompareLevelsofFirstFactor选项均不可选。
3、结果及其解释
寿命表
Thissubfilecontains:
20observations
LifeTable
SurvivalVariable TIME survivaltime(week)
说明:
20例观察单位,生存变量为“Time”,变量标签为“survivaltime(week)”
Number
Number
Number
Number
Cumul
Intrvl
Entrng
Wdrawn
Exposd
Of
Propn
Propn
Propn
Proba-
Start
this
During
to
Termnl
Termi-
Sur-
Surv
bility
Hazard
Time
Intrvl
Intrvl
Risk
Events
nating
viving
atEnd
Densty
Rate
------
------
------
------
------
------
------
------
------
------
.0
20.0
.0
20.0
2.0
.1000
.9000
.9000
.0050
.0053
20.0
18.0
2.0
17.0
3.0
.1765
.8235
.7412
.0079
.0097
40.0
13.0
1.0
12.5
1.0
.0800
.9200
.6819
.0030
.0042
60.0
11.0
1.0
10.5
1.0
.0952
.9048
.6169
.0032
.0050
80.0
9.0
3.0
7.5
1.0
.1333
.8667
.5347
.0041
.0071
100.0
5.0
3.0
3.5
.0
.0000
1.0000
.5347
.0000
.0000
120.0
2.0
.0
2.0
.0
.0000
1.0000
.5347
.0000
.0000
140.0
2.0
1.0
1.5
.0
.0000
1.0000
.5347
.0000
.0000
160.0
1.0
1.0
.5
.0
.0000
1.0000
.5347
.0000
.0000
Themediansurvivaltimeforthesedatais160.00+
SEofSEof
IntrvlCumulProba-SEof
StartSur-bilityHazard
TimevivingDenstyRate
-------------------------
.0.0671.0034.0037
20.0.0999.0042.0056
40.0.1081.0029.0042
60.0.1157.0031.0050
80.0.1261.0039.0071
100.0.1261.0000.0000
120.0.1261.0000.0000
140.0.1261.0000.0000
160.0.1261.0000.0000
IntrvlStartTime:
生存时间的组段下限。
NumberEntrngthisIntrvl:
进入该组段的观察例数。
NumberWdrawnDuringIntrval:
该组段的删失例数。
NumberExposedtoRisk:
暴露于危险因素的例数,即有效观察例数。
NumberofTermnlEvents:
终结事件的例数,即死亡例数。
PropnTerminating:
终结事件比例,即死亡比例。
PropnSurviving:
生存比例。
CumulPropnSurvatEnd:
至本组段上限的累积生存率。
ProbabilityDensty:
概率密度。
HazardRate:
风险率。
SEofCumulSurviving:
累积生存率的标准误。
SEofProbabilityDensty:
概率密度的标准误。
SEofHazardRate:
风险率的标准误。
Themediansurvivaltimeforthesedatais160.00+:
本例的中位生存时间为“160.00+”,从下图的累积生存函数曲线看,曲线与生存率等于0.5的横线不相交,故中位生存时间无法估计。
本例的100周生存率为53.47%。
累积生存函数曲线:
图4。
图4 累积生存函数曲线
Kaplan-Meier过程
Kaplan-Meier法用于:
1、估计某研究因素不同水平的中位生存时间。
2、比较该研究因素不同水平的生存时间有无差异。
3、 控制一分层因素后对研究因素不同水平的生存时间比较(此时将按分层因素的不同水平对研究因素对生存时间的影响分别进行分析)。
例10.23种疗法治疗66例白血病患者的缓解时间(天)
A疗法
4,5,9,10,11,12,13,28,28,28,29,31,32,37,41,41,57,62,74,100,139,20+,258+,269,
B疗法
8,10,10,12,14,20,48,70,75,99,103,162,169,195,220,161+,199+,217+,245+
C疗法
8,10,11,23,25,28,28,31,31,40,48,89,124,143,12+,159+,190+,196+,197+,205+,219+
注:
数据后跟符号“+”表示该数据为删失数据。
一、建库
定义三个列变量:
时间变量:
取名“time”,label标上“remissiontime(days)”。
生存状态变量:
取名“status”,并赋值:
0=“删失”,1=“恶化”。
分组变量:
取名“group”,并赋值:
1=“A疗法”,2=“B疗法”,3=“C疗法”,
二、操作过程:
1. Analyze==>Survival==>Kaplan-Meier
2. Time框:
选入time
3. Status框:
选入status;击defineevents钮,在singlevalue框右边的空格中输入1
4. Factor框:
选入group;
5. Comparefactors列表框:
● TestStatistics:
选择Logrank、Breslow、Tarone-Ware
● Lineartrendforfactorlevels:
选Pooledoverstrata或Pairwiseoverstrata
6. Option列表框:
● Statistics:
选Survivaltable(s)、Meanandmedian、Survival
● Plots:
选Survival
单击OK钮
三、附界面说明
图1 Kaplan-Meier法主对话框
【Time】框
选入生存时间变量。
【Status】框
选入生存状态变量。
【Factor】框
选入分组变量。
【Strata】框
选入分层变量。
【LablesCases】框
给个体标记。
【CompareFactor】选项
击CompareFactor按钮,弹出选项对话框。
(图2)
图2 分组因素水平间比较对话框
● TestStatistics:
检验统计量。
Logrank:
检验生存分布是否相同,各时间点权重一样。
Breslow:
检验生存分布是否相同,以各时间点的观察例数为权重。
Tarone-Ware:
检验生存分布是否相同,以各时间点的观察例数的平方根为权重。
Lineartrendforfactorlevels:
分组因素水平间的线性趋势检验。
Pooledoverstrata:
水平间的整体比较。
系统默认。
Foreachstratum:
按分层变量,对每一层进行分组因素各水平间的整体比较。
Pairwiseoverstrata:
分组因素各水平间的两两比较。
Pairwiseforeachstratum:
按分层变量,对每一层进行分组因素各水平间的两两比较。
【Save】选项
击Save按钮,弹出SaveNewVariables(保存新变量)对话框(图7)。
图3 保存新变量对话框
Survival:
累积生存率估计。
Standarderrorofsurvival:
累积生存率估计的标准误。
Hazard:
累积风险函数估计。
Cumulativeevents:
终结事件的累积频数。
在各水平内,按生存时间和生存状态排序。
【Options】选项
击Options按钮,弹出选项对话框(图8)。
图4 K-M法选项对话框
● Statistics:
统计量。
Survivaltable(s):
生存分析表。
Meanandmediansurvival:
平均生存时间和中位生存时间及其标准误和可信区间。
Quartiles:
生存时间的第25百分位数、中位生存时间、第75百分位数。
● Plot:
统计图。
Survival:
累积生存函数曲线。
Oneminussurvival:
生存函数被1减后的曲线。
Hazard:
累积风险函数散点图。
Logsurvival:
对数累积生存函数曲线。
四、结果及其说明
1、生存分析表
SurvivalAnalysisforTIMEremissiontime(days)
对生存时间变量Time进行分析,其变量标签是remissiontime(days)。
FactorGROUP=A疗法
TimeStatusCumulativeStandardCumulativeNumber
SurvivalErrorEventsRemaining
4恶化.9600.0392124
5恶化.9200.0543223
9恶化.8800.0650322
10恶化.8400.0733421
11恶化.8000.0800520
12恶化.7600.0854619
13恶化.7200.0898718
20删失717
23恶化.6776.0940816
28恶化915
28恶化1014
28恶化.5506.10101113
29恶化.5082.10171212
31恶化.4659.10171311
32恶化.4235.10091410
37恶化.3812.0993159
41恶化168
41恶化.2965.0936177
57恶化.2541.0893186
62恶化.2118.0838195
74恶化.1694.0770204
100恶化.1271.0684213
139恶化.0847.0572222
258删失221
269删失220
NumberofCases:
25Censored:
3(12.00%)Events:
22
SurvivalTimeStandardError95%ConfidenceInterval
Mean:
5715(28,86)
(Limitedto269)
Median:
313(25,37)
说明:
限于篇幅原因,此处仅列出A治疗组的结果。
Time:
观察时间。
Status:
生存状态。
CumulativeSurvival:
累积生存率。
StandardError:
累积生存率的标准差。
CumulativeEvents:
累计死亡数。
Numberremaining:
组中剩余人数,即在时间Time的暴露人数。
2、生存时间估计
SurvivalAnalysisforTIMEremissiontime(days)
FactorGROUP=A疗法
SurvivalTimeStandardError95%ConfidenceInterval
Mean:
5715(28,86)
(Limitedto269)
Median:
313(25,37)
FactorGROUP=B疗法
SurvivalTimeStandardError95%ConfidenceInterval
Mean:
11220(72,152)
(Limitedto245)
Median:
9924(52,146)
FactorGROUP=C疗法
SurvivalTimeStandardError95%ConfidenceInterval
Mean:
9519(58,132)
(Limitedto219)
Median:
4011(18,62)
TotalNumberNumberPercent
EventsCensoredCensored
GROUPA疗法2522312.00
GROUPB疗法1915421.05
GROUPC疗法2215731.82
Overall66521421.21
说明:
Mean是生存时间的算术均数。
“Limitto269”表示A疗法组的最长生存时间为219天。
Median为中位生存时间,即生存率为50%所对应的生存时间。
A、B、C疗法的中位生存时间分别为31、99、40。
A、B、C疗法组中位生存时间的95%可信区间分别为(25,37)、(52,146)、(18,62)。
A、B、C疗法的删失例数分别为3、4、7,删失率分别为12%、21.05%、31.82%。
3、水平间的整体比较
TestStatisticsforEqualityofSurvivalDistributionsforGROUP
StatisticdfSignificance
LogRank4.312.1158
Breslow3.672.1595
Tarone-Ware4.352.1137
说明:
3种疗法的生存时间差异无显著性意义,3个检验统计量的P值均大于0.1。
在实际分析中,当各组的总体水平比较无统计学意义时,不宜再进行两两比较,此处仅是为了演示一下。
4、水平间的两两比较
LogRankStatisticand(Significance)
Factor12
23.65
(.0561)
32.84.03
(.0917)(.8677)
BreslowStatisticand(Significance)
Factor12
23.23
(.0722)
31.77.07
(.1832)(.7967)
Tarone-WareStatisticand(Significance)
Factor12
23.85
(.0498)
32.26.07
(.1324)(.7981)
说明:
3种检验方法两两比较差异均无显著性意义。
括号外数值为检验统计量,括号内数值为P值。
4、 生存曲线
附练习题
一、现有无淋巴结浸润的急性淋巴细胞白血病人26人,其生存时间(月)如下,有“+”代表截尾数据。
试用寿命表法求12月生存率
1
2
3
4
5
6
7
8
9
10
14
16
20+
21+
23+
24
26
27
28
31
37
38
56
76
79
125+
二、用两种疗法治疗某种恶性肿瘤,随访记录存活时间(月),结果如下。
其中“+”代表截尾数据。
试用乘积极限法估计生存分布,并比较两种疗法治疗效果。
中西治疗组:
102+12+13186+19+269+86+943124
对照组:
2+137+11+61113177
第十二章:
SPSS结果窗口用法详解
SPSS实际上提供了两个结果窗口--结果浏览窗口和结果草稿浏览窗口。
前者最为常用,显示美观,但非常消耗系统资源;后者实际上是一个RTF格式文档,显示简单朴素,但节省资源。
我们可以根