logistic回归分析资料下载.pdf

资源描述

logistic回归分析资料下载.pdf

《logistic回归分析资料下载.pdf》由会员分享，可在线阅读，更多相关《logistic回归分析资料下载.pdf（53页珍藏版）》请在冰豆网上搜索。

logistic回归分析资料下载.pdf

不仅适用于病因学分析，也可用于其他方面的研究，研究某个二分类（或无序及有序多分类）目标变量与有关因素的关系。

logistic回归的分类：

（1）二分类资料logistic回归：

因变量为两分类变量的资料，可用非条件logistic回归和条件logistic回归进行分析。

非条件logistic回归多用于非配比病例-对照研究或队列研究资料，条件logistic回归多用于配对或配比资料。

（2）多分类资料logistic回归：

因变量为多项分类的资料，可用多项分类logistic回归模型或有序分类logistic回归模型进行分析。

队列研究（cohortstudy）：

也称前瞻性研究、随访研究等。

是一种由因及果的研究，在研究开始时，根据以往有无暴露经历，将研究人群分为暴露人群和非暴露人群，在一定时期内，随访观察和比较两组人群的发病率或死亡率。

如果两组人群发病率或死亡率差别有统计学意义，则认为暴露和疾病间存在联系。

队列研究验证的暴露因素在研究开始前已存在，研究者知道每个研究对象的暴露情况。

研究人群研究人群+-+-调查方向：

追踪收集资料调查方向：

追踪收集资料比较比较疾病疾病人数人数暴露暴露abcda/（a+b）c/（c+d）队列研究原理示意图队列研究原理示意图病例非病例合计发病率暴露组abn1=a+ba/n1非暴露组cdn0=c+dc/n0相对危险度（relativerisk，RR）也称危险比（riskratio）或率比（rateratio）。

010/ncnaIIRRe、1/naIe、20/ncIRR（相对危险度（相对危险度relativerisk）：

）：

表示暴露组与非暴露组发病率（或死亡率）的比值。

也称为危险比（riskratio）。

反映了暴露与疾病发生的关联强度。

RR表明暴露组发病或死亡的危险是非暴露组的多少倍。

病例对照研究（case-controlstudies）：

一种由果及因的回顾性研究，先按疾病状态确定调查对象，分为病例（case）和对照（control）两组，然后利用已有的记录、或采用询问、填写调查表等方式，了解其发病前的暴露情况，并进行比较，推测疾病与暴露间的关系。

+-病例病例+-对照对照调查方向：

收集回顾性资料调查方向：

收集回顾性资料abcda/（a+b）c/（c+d）比较比较人数人数暴露暴露疾病疾病病例对照原理示意图病例对照原理示意图是否暴露病例对照合计暴露组aba+b（n1）未暴露组cdc+d（n2）合计a+cb+dn比数比（oddsratio、OR）：

病例对照研究中表示疾病与暴露间联系强度的指标，也称比值比。

比值（odds）：

某事物发生的可能性与不发生的可能性之比。

病例组暴露的比值）/（）/（babbaa、对照组暴露的比值）/（）/（dcddcc该暴露因素的优势比：

该暴露因素的优势比：

OR=/（）/（）/（）/（）aabccdbabdcdadbc相对危险度相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率的本质是暴露组与非暴露组发病率之比或发病概率之比。

但病例对照研究不能计算发病率，只能计算比值比之比。

但病例对照研究不能计算发病率，只能计算比值比OR值。

值。

OR与与RR的含义是相同的，也是指暴露组的疾病危险性为非暴露组的含义是相同的，也是指暴露组的疾病危险性为非暴露组的多少倍。

当疾病发病率小于的多少倍。

当疾病发病率小于5%时，时，OR是是RR的极好近似值。

的极好近似值。

OR1,说明说明该因素是疾病的危险性增加，为危险因素；

该因素是疾病的危险性增加，为危险因素；

OR0时，jOR1，表示jX是一个危险因素；

j0时，jOR1，表示jX是一个保护因素。

由于jOR值与模型中的常数项0无关，因此0在危险因素分析中常常被视为无效参数。

对于发病率很低对于发病率很低的慢性疾病如心脑血管病、恶性肿瘤等，优势比可作的慢性疾病如心脑血管病、恶性肿瘤等，优势比可作为相对危险度（为相对危险度（relativerisk,RR）的近似估计。

）的近似估计。

即111000

（1）

（1）PPPORRRPPP二、二、logistic回归模型的参数估计回归模型的参数估计logistic回归模型的参数估计常采用最大似然估计。

其基本思想是先建立似然函数与对数似然函数，求使对数似然函数最大时的参数值，其估计值即为最大似然估计值。

建立样本似然函数：

（1）iinYYiiiLPP（1,2,in）（15.6）其中，iP表示第i例观察对象处于暴露条件下时阳性结果发生的概率。

阳性结果时，1iY；

阴性结果时，0iY。

根据最大似然原理，似然函数L应取最大值。

对似然函数取对数形式：

1lnln

（1）ln

（1）niiiiiLYPYP（15.7）式中为对数似然函数，对其取一阶导数求解参数。

对于参数j（1,2,jm），令lnL的一阶导数为0，即ln0jL，用Newton-Raphson迭代方法解方程组，得出参数j的估计值jb和jb的渐进标准误jbS。

优势比估计优势比估计自变量jX不同水平1c和0c优势比的估计值：

10exp（）jjORbcc当样本含量n较大时，jb的抽样分布近似服从正态分布，若jX只有暴露和非暴露2个水平，则优势比jOR的100

（1）%可信区间为：

2exp（）jjbbuS表15-1为吸烟、饮酒与食管癌关系的病例-对照研究调查资料，试进行logistic回归分析。

表15-1吸烟、饮酒与食管癌关系的病例-对照研究资料分层g吸烟1X饮酒2X总例数gn阳性数gd阴性数ggnd10019963136201170631073101014457411416265151首先确定变量的赋值或编码：

吸烟饮酒病例110X不吸烟210X不饮酒10Y对照logistic回归分析过程可通过SAS统计软件包中logistic过程步实现例例15-1在logistic过程步中加“descending”选项的目的是使SAS过程按阳性率（y=1）拟合模型，得到阳性病例对应于阴性病例的优势比。

观观察察例例数数OR值OR的95%CI对偏回归系数的假设检验吸烟与不吸烟的优势比：

11expexp0.88562.42ORb，其1OR的95%可信区间：

110.052expexp（0.88561.960.1500）（1.81,3.25）bbuS饮酒与不饮酒的优势比：

22expexp0.52611.69ORb，其2OR的95%可信区间：

220.052expexp（0.52611.960.1572）（1.24,2.30）bbuS由结果可看出，吸烟和饮酒均为食管癌发病的危险因素，吸烟人群发生食管癌的可能性是不吸烟人群的2.42倍，饮酒人群发生食管癌的可能性是不饮酒人群的1.69倍。

三、三、logistic回归模型的假设检验回归模型的假设检验常用的检验方法有似然比检验（likelihoodratiotest）和Wald检验。

1.似然比检验似然比检验基本思想是比较2种不同假设条件下的对数似然函数值差别的大小。

具体方法是：

先拟合不包含待检验因素的logistic模型，求对数似然函数值0lnL；

再拟合包含待检验因素的logistic模型，求另一个对数似然函数值1lnL；

比较两个对数似然函数值差别的大小若2个模型分别包含l个自变量和p个自变量，似然比统计量G的计算公式为：

2（lnln）plGLL当样本含量n较大时，在0H成立的条件下，G统计量近似服从自由度dpl的2分布。

如果只对一个回归系数（或一个自变量）进行检验，则1。

2.Wald检验用u检验或2检验来检验各参数j是否为0。

jjbubS22jjbbSjbS为偏回归系数的标准误。

概率概率p值均小值均小于于0.05，说明，说明方程有意义。

方程有意义。

对所拟合模型的假设检验：

四、变量筛选四、变量筛选Logistic逐步回归变量筛选的过程与线性逐步回归变量筛选的过程极为相似，但其中所用的检验统计量不再是F统计量，而是似然比统计量、Wald统计量等。

例如使用似然比统计量，即利用（）（）102lnlnllGLL，在进行到第l步时，通过比较含有jX和不含jX的模型，决定jX是否引入模型。

与多元线性回归类似，标准化偏回归系数可以比较各因素作用的相对重要性。

例例某工作者在探讨肾细胞癌转移的有关临床病理因素研究中，收集了一批行根治性肾切除术患者的肾癌标本资料，现从中抽取26例。

试用logistic回归分析筛选出于癌细胞转移有关的危险因素（变量选入和剔除水平均为0.10）。

表15-4与肾细胞癌转移有关的因素及说明符号说明1X确诊时患者年龄确诊时患者年龄（岁岁）2X肾细胞癌血管内皮生长因子肾细胞癌血管内皮生长因子（VEGFVEGF），阳性表述由低到高共，阳性表述由低到高共3级级3X肾细胞癌组织内微血管数肾细胞癌组织内微血管数（MVCMVC）4X肾癌细胞核组织学分级，肾癌细胞核组织学分级，由低到高共由低到高共4级级5X肾细胞癌分期，由低到肾细胞癌分期，由低到高共高共4期期Y肾细胞癌转移情况肾细胞癌转移情况（有转移有转移Y=1;

=1;

无转移无转移Y=0）=0）用逐步回用逐步回归法拟合归法拟合模型模型,变量变量选入和剔选入和剔除水平均除水平均为为0.10指定选项“des”是为了按照y=1（有转移）的概率拟合模型。

如果不加此选择项，则软件会按照y=0（无转移）的概率拟合模型，此时，应变量的排序水平发生颠倒，且所有参数估计的符号相反，OR值为原来的倒数。

logistic逐步回归分析筛选出两个有统计学意义的变量为x2和x4，回归系数分别为2.4134和2.0963，比数比分别为11.172和8.136。

结果中还给出了标准化偏回归系数，肾癌细胞核组织学分级（x4）在引起癌细胞转移中的危险性大于肾细胞癌血管内皮生长因子（x2）。

第二节第二节条件条件logistic回归回归一、条件一、条件logistic回归的基本原理回归的基本原理在流行病学病例-对照研究中，为正确分析危险因素与疾病间的关系，需要在设计阶段对可能构成混杂的因素进行控制，形成多个匹配组（每一匹配组可视为一个层）。

常用的是每组中有一个病例和若干个对照（通常为14个），即1:

M配比研究。

在配比研究中

展开阅读全文