第二十章生存分析实习指导定要点Word格式文档下载.docx
《第二十章生存分析实习指导定要点Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《第二十章生存分析实习指导定要点Word格式文档下载.docx(28页珍藏版)》请在冰豆网上搜索。
在随访研究中,由于某种原因未能明确地观察到随访对象发生事先定义的终点事件,无法得知随访对象的确切生存时间,这种现象称为删失(censoring)或终检,包含删失的数据称不完全数据(incompletedata)。
本章着重讨论右删失(rightcensoring),即从时间轴上看,终点事件发生在最后一次随访观察时刻的右方。
虽然删失数据的信息可以利用,但过多的删失很可能会带来分析结果的偏倚。
产生右删失的原因:
1.随访对象失访或中途退出(withdraw)。
2.随访结束时对象仍存活。
3.治疗措施改变等。
第二节生存率的估计
估计生存率有两种非参数方法:
用于大样本分组资料的寿命表法(lifetablemethod)和本节介绍的乘积极限法(product-limitmethod),也称K-M法,它既可用于小样本资料,也可用于大样本资料。
一、生存率的点估计
如数据中无删失,生存率可用下式计算:
;
如数据中有删失,则需分时段计算不同单位时间的生存概率(i=1,2,…,t),然后利用概率乘法原理将相乘得到t时刻生存率,即:
。
二、总体生存率的区间估计
总体生存率的1-置信区间为:
,其中生存率的标准误为:
三、生存曲线及中位生存期
生存曲线:
将随访时间作横坐标,不同时点生存率作纵坐标绘制生存曲线(survivalcurve)。
随时间的增加,该曲线一般呈下降趋势,下降速度快在图形上表现为坡度大、曲线陡峭,意味着生存率较低或生存期较短;
下降速度慢在图形上表现为坡度小、曲线平缓,意味着生存率较高或生存期较长。
中位生存期:
中位生存期(mediansurvivaltime)也称半数生存期,表示恰好有50%个体活过此时间。
生存时间通常并不服从正态分布,故常用中位生存期作为某个人群生存过程的概括性描述指标。
中位生存期越长,表示疾病预后越好;
中位生存期越短,表示疾病预后越差。
其数值可借助生存曲线进行图表法估计或用线性内插法求解。
第三节生存曲线的比较
应用条件:
该法不指定生存时间服从特定的某种分布,属于非参数方法。
所比较的是单因素设计不同组间整个生存时间的分布,而不是仅仅比较某个特定时间点的生存率。
对比组的生存曲线不应有明显的交叉。
常用于随机化分组后处理因素的比较,如果有重要的非处理因素在对比组间不均衡或属于未实施随机化的观察性研究,应考虑后述的多因素分析方法。
检验统计量:
,。
第四节Cox回归
模型形式:
,其中表示研究者认为可能影响死亡率的危险因素,也称协变量(covariates),这些变量在随访期间的取值不随时间的变化而变化;
表示生存时间;
称为具有协变量的个体在时刻的风险函数(hazardfunction),表示这些个体在时刻的瞬时危险率或死亡率;
称为基线风险函数(baselinehazardfunction),表示所有都取值为0时的个体在时刻的瞬时危险率或死亡率,不要求特定的形式,具有非参数的特点;
参数为总体回归系数,其估计值可以根据样本计算得出。
回归系数的意义:
回归系数表示每增加一个单位时,相对危险度或风险比(riskratio)的自然对数。
当回归系数大于0时,风险比大于1,相应协变量的增加将增大所研究事件发生的可能性;
当回归系数小于0时,风险比小于1,相应协变量的增加将减小所研究事件发生的可能性;
当回归系数等于0时,风险比等于1,相应协变量与所研究事件的发生无关。
自变量筛选:
按照Cox模型的参数估计原则,当模型中增加自变量时,现有模型的部分似然函数值L将增大,而-2ln(L)将减小;
在自变量个数即模型的自由度一定时,-2ln(L)取值最小的模型较好。
需要强调,逐步方法只是一个计算策略,并不能保证总是得到最好的模型。
必要时可以更换筛选变量的方法并调整检验水准,多数情况下总是出现在方程中的变量可能是有意义的,最终备选的模型一定要结合专业知识来判断。
PH假定条件:
Cox模型中假定风险比的大小与时间无关,称为比例风险(proportionalhazards)假设,简称PH假设。
如果某个协变量不同水平的风险函数曲线有明显交叉,或者协变量与时间的交互作用项在模型中有统计学意义,则不能使用本章介绍的比例风险模型。
[案例讨论参考答案]
案例20-1首先,结果变量的选取应充分考虑专业上的要求。
对于白血病等一些难以完全治愈的较为凶险的疾患,延长患者的生存时间在临床上是有现实意义的,故而结果变量应选取结局(病情是否缓解)以及出现结局的时间(缓解时间)。
这样,仅以病情是否缓解为结果变量的单因素Fisher精确概率结果以及多因素logistic模型结果就不很恰当。
其次,在使用生存分析方法时,应考虑到影响缓解时间的因素,除了研究者所关心的是否存在不良染色体以外,还有其它影响因素无法通过实施随机化达到组间非研究因素的均衡性,那么单因素log-rank检验的结果就无法控制非研究因素的影响,所以应该使用多因素Cox回归分析方法并检查PH假设条件,得出正确研究结论。
[电脑实验及结果解释]
实验20-1生存过程的统计描述
程序20-1生存过程的统计描述实验SAS程序及说明
行号
程序
说明
01
DATAsurvnoce;
建立SAS数据集survnoce;
02
seed=20021109;
设定随机数种子;
03
DOi=1TO100;
设立循环,循环变量i从1增加到100,每次加1;
04
s=UNIFORM(seed);
产生均匀分布的随机数;
05
t=-LOG(s);
产生参数为1的指数分布生存时间t;
06
cen=1;
用指示变量cen表示此数据中无删失;
07
OUTPUT;
将数据写入数据集;
08
END;
结束循环;
09
PROCUNIVARIATEPLOT;
调用UNIVARIATE过程对生存时间进行单变量描述并打印出分布图;
10
VARt;
指定分析变量为t;
11
PROCLIFETESTMETHOD=PL;
调用LIFETEST过程用乘积限法描述生存过程;
12
TIMEt*CEN(0);
指定时间变量为t,cen=0表示删失值;
13
RUN;
运行上述语句;
运行结果:
Output窗口:
对生存时间t的UNIVARIATE过程分析结果:
TheUNIVARIATEProcedure
Variable:
t
Moments
N100SumWeights100
Mean1.03571168SumObservations103.571168
Deviation1.09864257Variance1.2070155
Skewness1.90814932Kurtosis4.02632453
UncorrectedSS226.764403CorrectedSS119.494535
CoeffVariation106.076101StdErrorMean0.10986426
BasicStatisticalMeasures
LocationVariability
Mean1.035712StdDeviation1.09864
Median0.693335Variance1.20702
Mode.Range5.62217
InterquartileRange1.12603
TestsforLocation:
Mu0=0
Test-Statistic------pValue------
Student'
stt9.427194Pr>
|t|<
.0001
SignM50Pr>
=|M|<
SignedRankS2525Pr>
=|S|<
Quantiles(Definition5)
QuantileEstimate
100%Max5.63121347
99%5.09585858
95%3.49681788
90%2.58697652
75%Q31.38466393
50%Median0.69333519
25%Q10.25863772
10%0.09728424
5%0.06338161
1%0.02039616
0%Min0.00904492
ExtremeObservations
-------Lowest------------Highest-----
ValueObsValueObs
0.00904492213.9231738
0.03174740154.1244247
0.05022296864.337883
0.05054521834.5605051
0.06165469895.6312136
StemLeaf#Boxplot
561*
5
4610
41320
3910
3012|
266674|
201114|
16667777779|
1000000112223333416+--+--+
055556666667788888899921*-----*
000111111111111122222222333333333344444439+-----+
NormalProbabilityPlot
5.75+*
|
|*
|**
|*+++
|**+++++
|***+++
|++**+
|++****
|+++*****
|++******
0.25+********************
+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+------+
-2-10+1+2
乘积限法描述生存过程结果:
SummaryStatisticsforTimeVariablet
QuartileEstimates
Point95%ConfidenceInterval
PercentEstimate[LowerUpper)
751.384661.031011.70025
500.693340