医学统计之判别分析与生存分析.docx

资源描述

医学统计之判别分析与生存分析.docx

《医学统计之判别分析与生存分析.docx》由会员分享，可在线阅读，更多相关《医学统计之判别分析与生存分析.docx（16页珍藏版）》请在冰豆网上搜索。

医学统计之判别分析与生存分析.docx

医学统计之判别分析与生存分析

判不分析

判不分析是判不样品所属类型的一种统计方法，如在医疗诊断中，依照某人多种检验指标来判不此人是某病患者依旧非患者。

（一）差不多思想不同在聚类分析中,所有样品或个体所属类不是未知的,分析的依据确实是原始数据,没有任何事先的有关类不的信息可参考。

而判不分析中，是已知个体所属类不，依照有关类不的信息建立判不函数，再利用该判不函数推断未知类不的个体。

在实际分析中,当对样本的分类不清晰时,能够先聚类分析,然后进行判不分析。

（二）分类依据不同聚类分析依据“距离”或“相似系数”分类；判不分析依据判不函数或概率来分类。

（三）数据要求不同聚类分析并不是一种纯粹的统计技术,其方法差不多上与分布理论和显著性检验无关,一般不从样本推断总体。

而在判不分析中,关于分布理论特不关注,它

有一个差不多假设:

每一个类不都应取自一个多元正态总体的样本,而且所有正态总体的协方差矩阵或相关矩阵都假定是相同的。

判不分析应满足的前提条件

（1）样本数量应尽可能大；

（2）对已知分类或分组（即：

因变量）的标准要尽可能客观、准确和可靠,如此建立起来的判不函数才能起到准确的判不效果；

（3）自变量（即：

观看指标）和因变量之间要有重要的阻碍关系,选择自变量时应选择既有区不能力又有重要特性的指标,如此能够用最少的变量达到高判不能力的目标；

（4）各观看指标变量应是连续型变量,推断类不或组不变量应是分类变量；

（5）各观看指标变量尽可能服从正态分布;

（6）所选择的各观看指标变量之间的相关性应较弱,即相关性检验不能达到显著水平,且2个变量之间的相关性在不同的类不或组不中应一致。

判不分析方法包括：

距离判不

Fisher判不（费歇尔判不）

Bayes判不（贝叶斯判不）

最大似然判不

逐步判不2010-10-20

距离判不

一.原理

对已知分类的数据，分不计算各类各指标的均值（即各类的重心），然后依照判不准则来归类，若待判样品与第k类中各均值的距离最近，则它来自于第k类；若它到各类的距离是相等的，则它暂不归类。

因此距离判不法又称为最邻近方法，其中判不准则即为

就近归类。

距离判不法适用于任意分布的资料。

2010-10-20

Fisher判不

一.原理已知A、B两类观看对象，A类9例，B类10例，分不记录X1、X2指标。

Fisher

判不法确实是找出一个线性组合（即：

判不函数）：

Z=a+b1X1+b2X2

Z为综合指标，b1、b2为判不系数使得综合指标Z在两类中的均数`ZA与

`ZB的差异最大，而在两类内部的变异尽可能小。

二.判不规则建立判不函数，计算每个个体的判不函数值Zi，分不求两类均数`ZA与`ZB（设`ZA>`ZB），计算判不界值Zc：

判不规则即为：

判为A类判为B类

暂不归类或判为任一类ï

Bayes判不

一.原理:

利用各类已知的先验概率，分不得到各类的Bayes判不函数：

Yk=a+b1X1+b2X2+…

每类有一个判不函数，Yk为判不函数值；b1、b2为判不系数。

对某个体分不计算它属于各类的后验概率，哪个后验概率最大，就判为哪一类。

2010-10-20

假如各类的先验概率未知，先验概率如何确定：

（1）一般可认为各类的先验概率相等，如有3类，则3类的先验概率均为1/3，即0.333。

（2）另外，可用各类的样本个数所占总个数的比例作为各类先验概率的可能，如3类的样本个数分不为30、30、40，总个数为100，则3类的先验概率分不为0.3、0.3、0.4。

假如抽样存在选择性偏倚，则

（1）方法更妥当。

2010-10-20

Fisher判不与Bayes判不的区不

1.对总体数据的分布要求不同：

Fisher判不对数据分布没有专门的要求；Bayes判不要求数据分布是多元正态分布，但在实际操作过程中，要求并不严格。

2.适用的类不不同：

Fisher判不适用于两组判不分析；Bayes判不适用于多组判不分析。

3.在SPSS中的选项内容不同：

Fisher判不函数系数对应于“Unstandardized”选项；

Bayes判不函数系数对应于“Fisher’slineardiscriminantfunctions”选项。

因为，“按判不函数值最大的一组进行归类”这种思想是Fisher提出来的，因此SPSS用Fisher对Bayes方法进行了命名。

最大似然判不

该法适用于观看指标为分类性质的两类判不或多类判不2010-10-20

判不原理：

用独立事件的概率乘法定理得到某个体属于各类的概率大小，然后概率最大的类不即为该个体的类不。

（类似于Bayes判不原理）2010-10-20

逐步判不

该法适用于观看指标较多的Fisher判不分析或Bayes判不分析，类似于逐步回归的统计思维。

目的是：

选取具有判不效能的指标建立判不函数，使判不函数简洁、判不效果稳定。

2010-10-20安徽医科大学流行病与卫生统计学系王静

原理及差不多步骤：

依照Wilks统计量Λ值（也可转换成F值）

筛选判不指标，边引入边剔除，直至稳定态；再

依照Fisher或Bayes判不准则对这些筛选后的指

标建立判不函数。

在判不预测问题上,我们不能讲哪一种判不方法最

好，不管用哪种判不方法,均可不能作出100%正确推断。

因

为任何一种判不方法,所采纳的训练样本总是有局限性的,

不能完全准确地反映总体信息,因此依据训练样本得出的

判不规则有缺陷是难以幸免的。

因此,判不效能的提高是

一个综合的过程。

2010-10-20

安徽医科大学流行病与卫生统计学系

王静

首先要保证训练样本的代表性,训练样本应最大限度的代

表总体情况,才能保证判不的效果;

其次是指标的选择,应通过筛选挑出较好的指标来建立方

程,增加判不函数的稳定性,从而提高判不效果;

最后是依照资料的类型选择合适的判不方法，假如方法

选择不对,则会大大降低判不的准确率。

生存分析

生存分析方法特点：

（1）能将研究对象的随访结局和生存时刻两个因素同时结合起来考虑的一种统计方法；

（2）能处理失访等不完全数据，充分利用所获得的信息，对生存时刻的分布特征进行描述、比较，对阻碍生存时刻的要紧因素进行分析，达到全面评价和比较随访资料的目的。

生存分析方法的用途：

用于随访研究（即：

观看结果并非在短期内能够确定，而需做长期随访观看，如对一些慢性病或恶性肿瘤的预后及远期疗效观看等）。

医学随访研究：

1、队列研究——所有被观看对象同时进入研究；

2、临床随访研究（一般称“临床试验”）——被观看对象

逐个进入研究。

在大多数研究中，由于受经费和时刻的限制，最终观看时点是固定的，而不是无限制延长的，因此容易产生截尾值。

截尾值:

假设一组肺癌病人手术后，随访记录他们的存活情况，死于肺癌是终点。

当观看到规定的时点，除了死于肺癌，还有：

死于其他病、尚活着、因迁移等缘故失去联系（即失访），

后三者的观看值都未达到终点，不能提供完全的信息，这种不完全数据称为截尾值（censoring）。

基本概念

1、生存时刻（survivaltime）:

（狭义）从发病到死亡所经历的时刻；

（广义）从某种起始事件到某种终点事件所经历的时刻，又称失效时刻（failuretime），表示为t。

2、起点事件和终点事件（endpointevent）终点事件也称为观看结果（outcome），是指研

究者关怀的研究对象的特定结局，当被观看对象出现终点事件通常记为1，出现截尾记为0。

起点事件是反映研究对象生存过程的起始特征的事件。

生存时刻的起点和终点要有严格、统一的定义，

以便于计算生存时刻。

2010-11-17安徽医科大学流统系王静制作17

3、暴露因素及混杂因素除了要研究的危险因素（暴露因素）外，还要操纵混杂因素的阻碍。

必须分清暴露因素和混杂因素。

随访资料的特点

1、生存时刻的分布呈偏态。

2、数据中常含有截尾值。

要紧内容研究方法

1、生存过程的描述乘积-极限法（Kaplan-Meier）寿命表法（LifeTables）

2、生存过程的比较对数秩检验（log-rank）

3、阻碍因素的分析Cox比例风险模型

生存分析对资料中应变量的要求：

1、达到终点的例数所占的比例不能太少，即完全数据占大部分，截尾值所占的比例要＜10%；

2、截尾缘故无偏性；

3、生存时刻尽可能精确。

常用的研究指标

1、生存函数（survivalfunction）又称累积生存概率（cumulativesurvivalprobability）、生存率，表示个体生存时刻T≥t的概率。

生存概率：

在单位时段开始存活的个体到该时段结束时仍存活的可能性，用p表示；

生存率：

观看个体活过t个单位时刻的概率，用S（t）表示。

如数据中无截尾值，则生存率计算公式为：

S（t）=生存时刻≥t的病人数/随访病人总数如有截尾值，则分时段计算不同单位时段的生存概率p1、p2、…pt，S（t）=p1×p2×…×pt，即累积生存概率。

可采纳SPSS软件中生存分析方法计算出生存率大小，并画出生存函数图（或生存率曲线）直接观看。

2、半数生存时刻（mediansurvivaltime）又称中位生存时刻，表示累积生存概率（生存

率）为50%的时候所对应的生存时刻；为中位数指标，因为生存时刻的分布是偏态的。

在分析结果中给出中位生存时刻；

3、风险函数（hazardfunction）又称危险率函数等，一般用h（t）表示，表示生存时刻已达t的个体在t时刻的瞬时风险率；在Cox比例风险模型中风险函数常用λ（t）表示。

h（t）=死于区间（t，t+⊿t）的病人数在t时刻尚存的病人数×⊿t⊿t为微小时刻段。

4、风险比（hazardratio）

是指同一时点两组的风险函数之比，即相对危险度RR。

风险比=第一组个体的h1（t）

第二组个体的h2（t）

（1）比例风险：

风险比与时刻无关，即任何时刻，两组的风险比值是相等的；

（2）非比例风险或时刻依靠型：

风险比与时刻有关。

乘积—极限法（Kaplan-Meier）

寿命表法（Lifetable）

Analyze→Survival→Lifetable、Kaplan-Meier

用途：

1、做出生存表、可能生存率，并绘出两组的生存曲线图和风险函数图；

2、进行两组生存资料的比较。

2010-11-17安徽医科大学流统系王静制作40

LifetableKaplan-Meier

共同点：

非参数分析方法、一般用于单因素分析

适用条件大样本资料大样本、小样本资料

生存表人为划分各时刻段每个时刻值为一段

多组间的生存率比较方法

（方法选择途径）

“Options”对话框“CompareFactors”对话框见下例word文档中的数据及对应的SPSS数据文件

KM1.sav，采纳乘积极限法进行分析。

注意：

1）SPSS数据文件格式；

2）SPSS中乘积极限法的操作过程；

3）乘积极限法的具体结果解释。

注意事项：

组间的生存率比较时，要求各组的生存曲线不能交叉，若出现交叉，提示可能存在混杂因

素，应采纳多因素方法来校正混杂因素或分层做统计分析。

解决措施：

采纳生存分析中的多因素回归。

生存分析中的多因素回归同时以生存时刻、结局为反应变量，有效利用不完全数据提供的信息，从而探究生存的阻碍因素。

生存分析中的多因素回归包括：

半参数方法：

cox比例风险模型、非比例风险模型

参数方法：

指数分布模型、Weibull分布模型、Gompertz分布模型、对数正态分布模型、对数logistic分布模型，等。

参数方法中均假设生存时刻服从某分布，而半参数方法中不需指定生存时刻的分布情况。

Cox比例风险模型适用情况：

用于分析带有伴随变量的生存时刻资料，如：

肿瘤和其它慢性病的预后分析，临床疗效评价

和队列研究的病因探究。

优点：

适用条件宽，便于作多因素分析。

2010-11-17安徽医科大学流统系王静制作63

一、cox回归模型简介2010-11-17安徽医科大学流统系王静制作64

1、模型结构

即Cox回归，它的一般形式是：

λ（t）=[λ0（t）]•e（β1*x1+β2*x2+….+βm*xm）

=[λ0（t）]•exp（β1*x1+β2*x2+….+βm*xm）

λ（t）表示t时刻暴露于各危险因素（x1，x2，….xm）状态下的风险函数。

λ0（t）为基线风险函数，表示所有的危险因素状态都为0情况下的风险函数。

λ（t）/λ0（t）=exp（β1*x1+β2*x2+….+βm*xm）即：

ln[λ（t）/λ0（t）]=β1*x1+β2*x2+….+βm*xm

将cox回归与线性回归、logistic回归做一比较。

λ0（t）的形式不限，使模型的适用范围如同非参数法那么广；模型中含有参数β，又使得其统计效率接近参数模型。

（但参数β就不能用传统的方法进行可能和检验）

∴模型中含有参数β，但基线风险函数λ0（t）不要求服从特定分布形式，具有非参数的特点,故Cox回归又称为半参数模型。

2、参数的统计学意义假设只有一个X危险因素，0为“不暴露”，1为“暴露”，模型形式为：

λ（t）=λ0（t）•exp（β*x）

X=1时的风险函数为：

λ1（t）=λ0（t）•exp（β*1）

X=0时的风险函数为：

λ2（t）=λ0（t）•exp（β*0）

λ1（t）、λ2（t）分不表示暴露于危险因素的两种不

同状态下发病的风险函数。

暴露于危险因素的两种不同状态下发病的风险比即为相对

危险度RR。

RR=λ1（t）/λ2（t）

=[λ0（t）•exp（β*1）]/[λ0（t）•exp（β*0）]

=exp（β*1）/exp（β*0）=exp（β）

RR表示暴露组与非暴露组的风险函数之比，即：

暴露组发

病的风险是非暴露组的RR倍。

回归系数β的流行病学含义是0、1协变量X的相对危险度的

自然对数。

2010-11-17安徽医科大学流统系王静制作70

假如X为连续性变量——年龄（岁），则λ1（t）、λ2（t）分

不表示k岁、k+1岁的两种不同状态下发病的风险函数。

RR=λ1（t）/λ2（t）

=[λ0（t）•exp（β*（k+1））]/[λ0（t）•exp（β*k）]

=exp（β*（k+1）/exp（β*k）=exp（β）

β：

X每增加一个单位时其相对危险度的自然对数值。

RR表示某危险因素（或协变量）改变一个测量单位时风险函

数改变多少倍。

2010-11-17安徽医科大学流统系王静制作71

当β＞0，讲明相应协变量值的增加将增大所研究

事件发生的可能性；

当β＜0，相应协变量值的增加将减少所研究事件

发生的可能性；

当β=0，相应协变量与所研究事件的发生无关。

2010-11-17安徽医科大学流统系王静制作72

3、模型假设满足比例风险（proportionalhazards）假定，简称PH假定。

即：

相对危险度RR或风险比保持一个恒定的比例，与时刻t无关。

Cox回归无须对λ0（t）的形式作任何限制，因为不阻碍各危险因素相对危险度的可能，而相对危险度正是多因素分析时最关注的问题。

∴cox模型巧妙地将非参数[λ0（t）]部分与参数（回归系数β）的概念结合起来，这种灵活性使得它在生存分析的应用中备受青睐。

95.0%CIforExp（B）

比值比OR能够作为相对危险度RR的可能值。

2010-11-17安徽医科大学流统系王静制作75

比例风险假设的检验：

可分组（若为0、1两组）做二次对数生存率图（LogminusLog，LML），进行目测推断，若两条曲线有交叉或间距变动大，则提示风险比随时刻而改变，不具备cox比例风险模型的适用性；反之，则资料适宜用cox比例风险模型。

4、协变量的筛选策略

与其他回归模型类似，假如协变量个数较多，则通常采纳逐步法。

二、cox回归模型的分析步骤及

group、kidney的OR值分不为3.466、60.670，均大于1，讲明同意B治疗方案的病人死亡的风险是同意A治疗方案者的3.466倍、肾功能不正常的病人死亡的风险是肾功能正常者的60.670倍。

第二步、由模型可求出不同状态下的相对危险度RR值

三、应用cox回归模型的注意事项

1.对应变量的要求（前已阐述）；

2.自变量的编码；

3.Cox回归必须满足PH假设；

4.建模策略。

2010-11-17安徽医科大学流统系王静制作101

cox非比例风险模型2010-11-17安徽医科大学流统系王静制作102

即为含时依协变量的模型。

时依协变量：

效应大小随时刻而变化的协变量。

模型为：

λ（t）=[λ0（t）]•exp[β*x+gx（t）]

若g无统计学意义，则该协变量不是时依协变量，转

做前面的比例风险cox模型；反之，则必须引入该时

依协变量。

（提示：

此模型可用来考察实际资料是否

满足比例风险模型）2010-11-17安徽医科大学流统系王静制作103

生存分析中的参数法:

分不指定风险函数的形式。

2010-11-17安徽医科大学流统系王静制作104

指数回归模型中的风险函数h（t）分布形式：

h（t）与时刻t无关2010-11-17安徽医科大学流统系王静制作105

Weibull回归模型中的风险函数h（t）分布形式2010-11-17安徽医科大学流统系王静制作106

对数正态分布回归模型中的风险函数h（t）分布形式2010-11-17安徽医科大学流统系王静制作107

Log-logistic分布回归模型中的风险函数h（t）分布形式2010-11-17安徽医科大学流统系王静制作108

Gompertz分布回归模型中的风险函数h（t）分布形式

因子分析

因子分析FactorAnalysis:

因子分析也是从分析多个原始指标的相关关系入手，找出起支配作用的潜在变量——公因子（Commonfactor，简称因子Factor），各因子间是独立的，然后用它们解释原始指标之间的相关性。

流

差不多思想：

依照相关性的大小把变量分组，使得同组内的变量之间相关性较高，不同组的变量之间相关性较低。

即，每组代表一个方面（因子）。

将m个原始变量的标化值（Z1~Zm）分不表达为：

1、因子载荷:

即aij，实际上aij确实是Xi与fj之间的相关系数。

它作为相关系数，反映了Xi与fj之间相互联系的紧密程度；作为因子模型中公因子的系数，又体现了原始指标Xi的信息在公因子fj上的反映，因此称aij为原始指标Xi在公因子fj上的因子载荷。

2、公共度又称共性方差（communality），记为hi其大小反映了全体公因子f1～fj对原始指标Xi的阻碍力度，或反映了原始指标Xi对所有公因子的依靠程度。

0≤hi2≤1。

3、因子贡献及因子贡献率因子贡献记为gj其大小反映了第j个公因子fj对所有原始指标X1～Xi的阻碍程度。

gj2=λj数据标准化后，全部原始指标的总方差为指标个数m，则gj

2/m反映了公因子fj对原始指标方差贡献程度的大小，称为fj的因子贡献率。

常用的因子提取方法：

主成分法、主因子法、

极大似然法、迭代主因子法。

公因子保留个数如何确定？

（原则：

1、保留的公因子个数要远小于原始指标个数；

2、保留的公因子的因子贡献gj

2最好都大于1；

3、各原始指标的公共度hi

2应接近于1；

4、所有原始指标在同一个公因子fj上的︱aij︱之间的差不应尽可能大，使得公因子fj的意义要紧由1个或几个︱aij︱值大的原始指标所表达。

流行病与卫生统计学系王静制作

以FA1.sav为例：

收集某医院3年里9项指标数据，X1～X9分不代表

门诊人次、出院人数、病床利用率、病床周转

次数、平均住院天数、治愈好转率、病死率、

诊断符合率、抢救成功率，以评价该院各月的

医疗工作质量。

试进行因子分析。

流行病与卫生统计学系王静制作

采纳主成分法：

尽管前3个公因子的特征根值（即因子贡献）大

于1，但它们的累积贡献率不足70%，因此提取

前4个公因子。

结果如下：

流行病与卫生统计学系王静制作

特征根值情况：

从上述主成分法的因子分析中看出：

各指标的公共度均超过50%，讲明前4个公因子

差不多能够较好反映各指标所包含的大部分信息；而且前4个公因子的累积贡献率接近80%。

然而，在提取的4个公因子中，除因子1可初步认定为医疗工作质量的综合因子外，其它3个因子的专业意义不明显。

制作而查找公因子的要紧目的是：

弄清各公因子的专

业意义，以便对实际问题分析。

当求得的公因子的专业意义不明显时，可通过因

子旋转的方法来解决。

因子旋转的方法一般采纳正交旋转，要紧包括：

方差最大法（varimax）、四次方最大法（

quartimax）和均方最大法（equamax）。

正交旋转的作用：

旋转后使每个公因子上的︱aij︱向0、1两极分化，以使各公因子尽可能支配不同的原始指标，

从而具有较为清晰的专业意义。

在旋转时需注意以下原则：

既保证旋转后所得的公因子能从专业意义上有较好的解释（因子载荷两极分化），又

能充分反映各原始指标的信息量（公共度接近1）。

流行病与卫生统计学系王静制作

在因子分析中，不但要比较在同一种因子提取方法下不同旋转方法旋转后的因子载荷的差

不，还要比较在不同因子提取方法下同种旋转方法旋转后的因子载荷及公共度的差不。

其分析的大致过程为：

1）采纳主成分法，先得到初始因子或预因子（initialfactor）及预因子载荷；

2）然后对预因子进行某种方式的旋转（Rotation），使所有旋转后的因子载荷的绝对值

向0、1分化；

3）得到容易被解释的因子及因子载荷。

流行病与卫生统计学系王静制作

第二步：

假如预因子载荷不能专门好地反映原始变量

与因子的相依程度，因子难以解释时，对

预因子进行方差最大旋转，得到一个理想

的因子载荷结构，便于解释。

流行病与卫生统计学系王静制作

主成分分析与因子分析的区不和联系

联系：

两者的方法学原理没有本质差不，差不多上从分析多个原始变量之间的相关关系入手，

查找各变量之间的共性因素。

区不：

主成分分析重点在综合原始变量的信息；而因子分析重在解释原始变量之间的关系。

小结

1、因子分析的差不多思想；

2、公共度、因子贡献及因子贡献率、因子载荷的概念；

3、因子分析中因子旋转的目的；

4、如何在SPSS软件中进行因子分析的操作；

5、因子分析和主成分分析的比较。

主成分分析

主成分分析、因子分析

两者的适用条件是一致的，特不类似，而且后者为前者的进一步分析。

因此，两种方法在SPSS中均采纳同一个Factor过程。

PrincipalComponentAnalysis定义：

从多个数值变量（指标）之间的相互关系入手，利用降维的思想，将多个变量（指标）化为少数几个互不相关的综合变量（指标）的统计方法。

措施：

我们能够依照这些随机变量，计算少数几个综合指标，来反映多个原始变量所提供的信息，而且各综合指标能够互相独立地代表某一方面的性质。

依照这些相互之间存在相关性的随机变量，计算少数几个综合指标以取代原始变量，反映多个原始变量所提供的信息——这种多元分析方法即为主成分分析。

展开阅读全文