用SAS分析膀胱癌手术后生存时间的影响因素.docx
《用SAS分析膀胱癌手术后生存时间的影响因素.docx》由会员分享,可在线阅读,更多相关《用SAS分析膀胱癌手术后生存时间的影响因素.docx(22页珍藏版)》请在冰豆网上搜索。
用SAS分析膀胱癌手术后生存时间的影响因素
摘要
随着世界经济的增长,卫生保健事业的发展,疾病谱的变化和平均寿命的提高,有关肿瘤、慢性病、老年性疾病的临床试验和流行病学方面的随访研究越束越重要,越来越多,这些临床试验和随访研究的资料都可整理为生存资料。
目前对生存资料的多因素分析最常用的方法仍然是Cox比例风险回归模型,简称Cox模型。
该模型是一种多因素的生存分析方法,可以分析带有截尾生存时间的资料,
同时分析众多因素对生存期的影响,且不要求估计资料的生存函数的分布类型。
用SAS分析膀胱癌手术后生存时间的影响因素。
比较Kaplan-Meier估计的生存曲线,用生存资料拟合COX回归方程。
进而得出结论。
[关键词]生存分析,Cox回归,Kaplan-Meier估计,Nalson-Aalen估计,Log-Rank检验
1.理论及程序
1.1Kaplan-Meier估计
乘积极限法适合于离散数据,它用于建立时刻t上的生存函数。
kaplan-meier法是根据t时刻及其之前个时间点上的条件生存率的乘积,来估计t的生存函数S(t)和它的标准误SE(S(t)).设
代表K个观测对象的生存时间,设
为
时刻开始之前生存的个体数目,即危险集的大小(i=1,2...k),再设
表示生存时间的截尾性质,i=1,2...k。
又令
表示观察对象在时刻
的条件生存率,即对于i=1,2,...k,有:
,其中
那么,观察对象在时刻t时的死亡率如下:
对于i=1,2,...k,kaplan-meier法定义时刻t上的生存函数和它的标准误的估计公式如下:
1.2Nalson-Aalen估计
在删失情况下,可以根据累计死亡率与生存函数的关系H(t)=-ln(S(t))来估计累积死亡力函数H(t)。
这时估计式为
。
nalson-aalen估计式比上一个估计式拥有更好的小样本性质。
在最大时间观察范围内定义如下:
;
该估计式的方差可以从下式得到:
以死亡率的nalson-aalen估计式为基础,生存函数的另一个估计式为:
nalson-aalen估计在分析数据时主要有以下两个应用,一是在选择事件发生时间的参数方法的应用。
另一个是死亡力好h(t)提供粗估计,这些估计值是nalson-aalen估计式的斜率,对死亡力的更精确估计,可以通过对nalson-aalen估计式的跳跃进行参数核平滑得到。
所有估计函数都是阶梯函数,在死亡发生处发生跳跃。
1.3Cox模型
Cox比例风险回归模型是一种多因素的生存分析方法,可以分析带有截尾生存时间的资料,同时分析众多因素对生存期的影响,且不要求估计资料的生存函数的分布类型。
基本Cox模型表达式为
式中
为协变量或影响因素,一般包括研究开始时个体的年龄、性别、临床及生化指标等;h(t)为具有协变量
个体在t时刻的风险函数,近似地表示t时刻存活的个体在t时刻之后一个单位时段内的死亡概率;ho(t)为t的未知函数,即
时f时刻的风险函数,称为基准风险函数;
为各协变量所对应的回归系数,需由样本资料做出估计。
任两个个体风险函数之比,即风险比或相对危险度
该比值与h(t)无关,在时间t上为常数,即模型中协变量的效应不随时间而改变,称为比例风险假定,简称PH假定,比例风险模型由此得名。
简单地,对o-l变量COX模型,0组的风险函数为
,1组的风险为
,则
即两组风险函数之比在时间上的常数,或两组风险函数成比例。
1.4Log-Rank检验
这个检验是基于对每个观测值均赋予一定的分值而设计出来的。
这些分值是生存函数的对数的函数。
作为对数生存函数在t(i)估计值。
其中m(j),r(i)都是前面已经定义过的两。
Peto和peto二人按照如下方式对各观测值赋予分值Wi;对非删除数据t(i),
;对删失数据T,
。
在实际运算时,若
是删失数据时,则取
,其中
是满足
的最大非删失数据。
因此删失数据越大,对应的分值就越小。
删失数据对应的分值是负的,两组数据和在一起后各数据对应的Wi值之和等于零。
设一个组中的各个数据对应的分值Wi之和为S。
S的“排列方法”是:
可以改写为:
log-rank检验就是选择
作为检验统计量。
可以证明在假设为真的情况下,L渐进服从标准正态分布。
若S是从第1组得到的和数,则否定域是
;若S是从第2组得到的和数,则否定域是
其中
由等式
决定。
2.实例
2.1数据背景
选择1996-2000年间经手术治疗的膀胱肿瘤患者30例,对可能影响膀胱肿瘤术后生存时间的因素进行了调查,患者的生存结局(死亡与否)通过查阅病历、网上查询的形式获得。
2.2研究目的
研究影响膀胱肿瘤术后生存时间的因素
2.3数据
表1胱肿瘤生存资料变量赋值表
变量
因素
分组赋值
age
年龄(岁)
grade
肿瘤分级
1级=1;11级=2;111级=3
size
肿瘤大小(cm)
>=3.0=1;<3.0=0
relapse
是否复发
是=1;否=0
time
生存时间(月)
status
生存结局
死亡=1;截尾=0
表2膀胱肿瘤生存资科原始记录表
id
age
grade
size
relapse
time
censor
1
62
1
0
0
59
0
2
64
1
0
0
54
1
3
52
2
0
1
44
0
4
60
1
0
0
53
0
5
59
2
1
0
23
1
6
59
1
1
1
37
1
7
63
1
1
0
50
1
8
62
1
0
0
36
1
9
50
1
1
0
30
1
10
26
1
1
1
43
1
11
43
2
1
0
34
1
12
62
1
0
0
45
1
13
67
1
0
0
42
1
14
70
2
0
0
40
1
15
56
1
0
1
32
1
16
85
2
0
1
19
1
17
65
1
0
1
26
1
18
54
3
1
1
13
1
19
62
2
0
0
29
1
20
52
3
0
0
28
1
21
63
2
1
0
27
1
22
50
3
1
1
10
1
23
83
2
1
1
25
1
24
61
3
1
0
20
1
25
57
3
1
1
11
1
26
63
2
0
1
14
1
27
72
3
1
1
12
1
28
56
3
1
1
9
1
29
73
3
1
1
7
1
30
54
3
1
1
6
1
3.sas程序与结果
3.1Kaplan-Meier估计
3.1.1sas程序
datasasa;
inputnagegradesizerelapsetstatus@@;
cards;
162100590
264100541
352201440
460100530
559210231
659111371
763110501
862100361
950110301
1026111431
1143210341
1262100451
1367100421
1470200401
1556101321
1685201191
1765101261
1854311131
1962200291
2052300281
2163210271
2250311101
2383211251
2461310201
2557311111
2663201141
2772311121
285631191
297331171
305431161
;
datasasa1;
setsasa;
ifage>=60thenage=1;
elseage=0;
proclifetestmethod=plplots=(s);
timet*status(0);
strataage;
proclifetestmethod=plplots=(s);
timet*status(0);
stratagrade;
proclifetestmethod=plplots=(s);
timet*status(0);
stratasize;
proclifetestmethod=plplots=(s);
timet*status(0);
stratarelapse;
run;
3.1.2运行结果
Kaplan-Meier估计对年龄生存资料进行统计描述的结果,小与60岁患者的中位生存期数为44个月,平均生存期数为24.5395个月。
大于等于60岁患者的中位生存期数为59个月,平均生存期数为32.5882个月
图1年龄的生存分布曲线
患者关于年龄的生存分布曲线。
由图看出年龄大于等于60的患者生存时间长。
由于检验统计量的p值均大于0.05,则变量age不显著
Kaplan-Meier估计对肿瘤分级生存资料进行统计描述的结果,1级患者的中位生存期数为59个月,平均生存期数为41,9167个月。
2级患者的中位生存期数为44个月,平均生存期数为27.889个月,,3级患者的中位生存期数为28个月,平均生存期数为12.8889个月
图2肿瘤分级的生存分布曲线
患者关于肿瘤分级的生存分布曲线。
由图看出肿瘤1级患者生存时间长。
由于检验统计量的p值均小于0.05,则肿瘤分级对研究对象的生存时间的影响有显著性差异。
Kaplan-Meier估计对肿瘤大小生存资料进行统计描述的结果,大于等于3厘米的中位生存期数为59个月,平均生存期数为37.4821个月。
2级患者的中位生存期数为44个月,平均生存期数为27.889个月,
图3肿瘤大小的生存分布曲线
患者关于肿瘤大小的生存分布曲线。
由图看出肿瘤小的患者生存时间长。
由于检验统计量中,log-rank检验和wilxoxon检验p值均小于0.05,则肿瘤大小对研究对象的生存时间的影响有显著性差异。
Kaplan-Meier估计对是否复发存资料进行统计描述的结果,不复发的中位生存期数为59个月,平均生存期数为37.7333个月。
复发患者的中位生存期数为44个月,平均生存期数为20.4667个月。
图4是否复发的生存分布曲线
患者关于是否复发的生存分布曲线。
由图看出不复发患者生存时间长。
由于检验统计量中,log-rank检验和wilxoxon检验p值均小于0.05,则是否复发对研究对象的生存时间的影响有显著性差异。
3.2Nelson-Aalen估计
3.2.1sas程序
datasasa1;
setsasa;
ifage>=60thenage=1;
elseage=0;
proclifetestmethod=plNelsonplots=(s);
timet*status(0);
strataage;
proclifetestmethod=plNelsonplots=(s);
timet*status(0);
stratagrade;
proclifetestmethod=plNelsonplots=(s);
timet*status(0);
stratasize;
proclifetestmethod=plNelsonplots=(s);
timet*status(0);
stratarelapse;
run;
3.2.2运行结果
变量age
检验t在层之间的生存曲线的齐性
秩统计量
age
对数秩
Wilcoxon
0
0.78444
30.000
1
-0.78444
-30.000
对数秩统计量的协方差矩阵
age
0
1
0
2.26890
-2.26890
1
-2.26890
2.26890
Wilcoxon统计量的协方差矩阵
age
0
1
0
762.536
-762.536
1
-762.536
762.536
层间等效检验
检验
卡方
自由度
Pr>
卡方
对数秩
0.2712
1
0.6025
Wilcoxon
1.1803
1
0.2773
-2Log(LR)
1.1420
1
0.2852
由于检验统计量的p值均大于0.05,则变量age不显著。
变量gread
检验t在层之间的生存曲线的齐性
grade
对数秩
Wilcoxon
grade
对数秩
Wilcoxon
0
0.9911
14
27
-1.015
-22
1
1.5385
-26
30
-0.2555
-14
2
-0.1429
-5
32
-2.8484
-28
3
0.4839
-18
44
-1.8484
-26
8
-0.1429
-5
57
0.5879
14
12
-1.3484
-24
62
1.7143
60
14
-0.1429
-5
63
0.8571
30
20
-0.1429
-5
67
0.8571
30
26
0.8571
30
层间等效检验
检验
卡方
自由度
Pr>
卡方
对数秩
48.8309
16
<.0001
Wilcoxon
40.8944
16
0.0006
-2Log(LR)
.
.
.
由于检验统计量的p值均小于0.05,则肿瘤分级对研究对象的生存时间的影响有显著性差异。
变量size
检验t在层之间的生存曲线的齐性
秩统计量
size
对数秩
Wilcoxon
size
对数秩
Wilcoxon
0
-1.4376
-18
27
0.4699
2
1
-1.2133
8
43
0.2548
-4
2
0.8571
30
52
-0.1429
-5
3
0.1203
1
53
0.4032
0
9
0.1895
-2
62
-0.1429
-5
10
-0.1305
-12
63
0.8571
30
15
-0.4121
-12
64
-0.1429
-5
19
0.0806
-8
70
-0.1429
-5
21
0.5324
5
层间等效检验
检验
卡方
自由度
Pr>
卡方
对数秩
15.7459
16
0.4708
Wilcoxon
13.9185
16
0.6048
-2Log(LR)*
.
.
.
由于检验统计量的p值均小于0.05,则肿瘤大小对研究对象的生存时间的影响有显著性差异。
变量relapse
检验t在层之间的生存曲线的齐性
秩统计量
relapse
对数秩
Wilcoxon
relapse
对数秩
Wilcoxon
0
2.1902
60
25
0.5879
14
1
0.9041
-32
26
0.5879
14
2
0.7143
25
28
-1.3484
-24
3
-0.1429
-5
34
0.5879
14
4
-1.8484
-26
50
0.5879
14
7
0.5879
14
52
-0.4676
-13
10
-0.2555
-14
56
-0.4121
-12
16
-2.8484
-28
63
0.5324
5
22
-1.015
-22
72
0.4699
2
23
0.5879
14
层间等效检验
检验
卡方
自由度
Pr>
卡方
对数秩
25.0375
18
0.1239
Wilcoxon
17.0130
18
0.5222
-2Log(LR)*
.
.
.
由于检验统计量的p值均小于0.05,则肿瘤是否复发对研究对象的生存时间的影响有显著性差异。
3.3COX模型
3.3.1sas程序
procphregdata=sasa;
modelt*status(0)=agegradesizerelapse/ties=breslowselection=sw;
/*ties=‘指定对失效时间中同秩的处理方法’Breslow近似概念法*/
run;
3.2.2运行结果
Grade,size,relapse三个变量依次进去回归方程,经三种检验p<0,001,有较好的拟合效果,具有统计学意义。
可以看出截尾数据和终点数据,截尾数据为3例占10%
由检验结果可以看出,p<0.0001,模型较好的拟合了研究数据,具有统计学意义。
变量group的p<0.0001在统计学上有显著差异。
变量size的p<0.005在统计学上有显著差异。
HR=2.939,认为肿瘤大的死亡率是肿瘤小的死亡率的2,939倍。
变量relapse的p<0.005在统计学上有显著差异。
HR=2.662,认为肿瘤复发的死亡率是肿瘤不复发的死亡率的2.662倍。
根据参数估计值,可以写出cox回归方程:
3.4结论
影响膀胱肿瘤术后生存时间的因素有肿瘤分级,肿瘤大小,肿瘤是否复发。
肿瘤级别越高死亡率越高,肿瘤越大死亡率越大,肿瘤越容易复发死亡率越大。
4.参考文献
[1]《cox回归比例风险假定的考察和影响点的识别及其sas实现》山西医科大学马振中
[2]《生存分析的sas编辑操作》薛福波2006年5月21号
[3]《SAS统计分析与应用从入门到精通》人民邮电出版社
王海波萝莉
[4]《生存分析》中国人民大学出版社彭菲王伟