11Logistic回归分析精讲.docx-资源下载

11Logistic回归分析精讲.docx

1、11Logistic回归分析精讲11 Logistic 回归分析在中医药科研中，经常遇到因变量是分类变量（包括二分类和多分类）的资料，如治愈与未治愈，生存与死亡，发病与未发病，疗效评价分显效、好转、无效等级等。这类资料，由于因变量是分类变量不具有连续性和正态性，直接用一般多元线性回归分析是不妥的，需用Logistic回归分析。Logistic回归分析是一种适用于因变量为分类变量的回归分析，近年来在许多研究领域得到了广泛的应用。Logistic回归属于概率型非线性回归，它分为非条件Logistic回归和条件Logistic回归（又称配比Logistic回归），二者根本的差别在于构造

2、Logistic模型时是前者未使用条件概率，后者使用了条件概率。11.1 二分类资料的Logistic回归分析如果因变量Y是二分类变量，其取值只有两种，如阳性（编码为1）和阴性（编码为0）, 这时要说明的问题是阳性率 p二P（Y =1）与自变量X间的关系，可进行因变量为二分类资料的Logistic回归。二分类Logistic回归对自变量没有特殊要求，自变量可以是分类变量和连续变量。11.1.1 一个两分类自变量的二分类 Logistic回归1操作步骤（1）指定频数变量：选择菜单Data t Weight cases,在弹出的 Weight cases对话框中，将频数变量 f送入Frequ

3、ency框中；单击 OK。（2）进行二分类 Logistic 回归分析。选择菜单 Analyze tRegression tBinary Logistic （二分类 Logistic ），弹出 Logistic Regression 对话框，如图 11-2;将因变量 lx 送入 Dependent （因变量）框内，将自变量 fz送入Covariates （协变量）框内；单击 Options （选项）按钮，2 输出结果（1）图11-3是因变量赋值表。这是一个特别要留意的表，表中因变量原码值（OriginalOriginal ValueInternal ValueT11Dependent Va

4、riable Encoding图11-3因变量赋值Value）是按升序排列后转换为内码值（Internal Value）0 和1，Binary Logistic过程默认以内码值 1所对应的因变量取值的概率建立模型，本例以P（lx=1）即有效的概率建立模型。如果本例用1表示有效，2表示无效，则无效2 对应的内码值为1，将以P（lx=2）即无效的概率建立模型，尽管所有统计检验结果仍然相同，但是回归系数的符号全将反过来，所计算的 Exp（B）就完全不同了。搞清实际分析资料因变量的赋值情况，对分析结果的正确解释很重要。（2）初步模型拟合（输出结果中Block 0: Beginning Bloc

5、k部分，此处略去了输出图表）。给出模型不含任何自变量，只有常数项的一些分析结果，包括 Classification Table表，给出模型不含任何自变量时，对所有观察对象的疗效情况进行预测，正确预测的百分率为 58.0% ；Variables in the Equation 表，给出只有常数项的参数检验结果； Variables not in the Equation表，给出若将现有模型外的各个变量纳入模型，对整个模型的拟合优度改变是否有统计学意义。（3）引入自变量后的模型分析结果（输出结果中Block 1: Method = Enter部分）。SPSS提供了 7种建立Logistic

6、回归模型的方法，可通过 Logistic Regression对话框（见图11-2）中Method下拉列表框来选择，默认 Enter法，即强迫所有的自变量同时进入模型，本例为Enter法（全变量模型）。结果如下：1模型系数总检验（见图 11-4）。给出了三个结果：Step统计量为每一步与前一步相比的似然比检验结果；Block统计量是指若将block1与block。相比的似然比检验结果；Model 统计量则是上一个模型与当前模型的似然比检验结果。本例由于选择了默认的 Enter法，三个统计量及其假设检验结果是一样的。 X=59.969, Pv 0.01 （ Sig.为0.000）,表明自变量

7、fz引入模型有统计学意义。若是两个或两个以上自变量引入模型，模型系数总检验得到 P ： :，拒绝H。，接受H“（Ho : ：；2=二“ ，即除常数项外所有的总体回归系数全为 0），表明至少有一个自变量的作用有统计学意义。图11-4 模型系数总检验图11-5 模型的贡献2模型的贡献（见图11-5）。给出-2倍的似然对数值为 221.711，结合中提及的似然比检验结果，可认为模型成立。 Cox and Snell R2和Nagelkerke R2分别为0.252和0.338,其含义与多元回归中的决定系数意义相同，表示回归模型对因变量变异贡献的百分比。3分类表（见输出结果中 Classifica

8、tion Table，此处略）。给出现在模型对因变量的分类预测情况。模型中已经引入了一个自变量，由这个自变量获得的预测概率 0.5，则这个观测被预测分类为1; v 0.5则预测为0,由此得到正确预测的百分率为 77.3% ,比没有自变量只有常数项的 58.0%提高了 19.3 %。4进入回归方程的变量分析结果（见图 11-6）。这是Logistic回归分析结果最重要的一部分。包括最终引入模型的自变量及常数项的系数值（B）、标准误（SE）、Wald卡方值（Wald ）、自由度（df）、P值（Sig.）、OR值（Exp（B）、及其95%的可信区间。Variables in the Equatio

9、nBS.E.WalddfSig.Exp(B)95.0% C.I.for EXP(B)LowerUpperStepfz2.428.34250.3401.00011.3335.79622.1621Constant-1.170.27018.8071.000.310a. Variable(s) entered on step 1: fz.图11-6例11-1参数估计及检验本例变量fz的系数为b1=2.428 , Wald卡方值为50.340, P 0.01，有统计学意义。自变量fz的比数比为OR = eb1 =e2.428 -1 1.333,即治疗组有效例数与无效例数之比，为对照组有效例数与无效例数

10、之比的 11.333倍，可认为治疗组的疗效高于对照组。常数项 b= 1.170。本例Logistic回归方程为:logit(p)=ln() - -1.170 2.428 fz。1-P值得注意的是 OR值在不同的设计中意义不同：病例 -对照研究（回顾性研究）， OR值为比数比，要注意病例与对照两组人数的比例是人为规定的，不代表自然人群中真实的病人与正常人的比值，因此，根据病例 -对照研究资料建立的 Logistic回归方程中，常数项意义不大，主要针对结果中自变量的回归系数及其相应的比数比 OR值的意义作解释，不适宜直接用于所研究事件发生概率的预测和判别。队列研究（即前瞻性研究），当队列研究的事

11、件发生的阳性率很低（接近于 0）时，可把OR近似看作相对危险度（RR），另外可用建立的Logistic回归方程对所研究的事件发生概率进行预测和判别。疗效评价中的设计类似队列研究，但 OR不能当作RR，还是作为比数比且结合具体问题加以解释为好。11.1.2 两个两分类自变量的二分类 Logistic回归要拟合的Logistic回归方程为:log it( p) = ln( = bo b1X1 b2X21-PSPSS实现两个两分类自变量的二分类资料 Logistic回归分析与实现一个两分类自变量的二分类资料Logistic回归分析在步骤方法上是相同的。不同之处在于在建立 SPSS数据集时两个自变量

12、各占一列，因变量一列，频数一列，共四列。操作时，需将两个自变量都移到Covariates框内；结果给出常数项及两个自变量对应的参数估计及其检验统计量值，有两个比数比值。11.1.3无序多分类自变量的二分类 Logistic回归自变量中一个或多个为无序多分类变量，其Logistic回归，在方法上同上述二分类资料的Logistic回归，只是要对自变量的不同水平构造哑变。某一多分类无序自变量可构造的哑变量数等于该自变量的分类数减 1。将哑变量引入模型，其结果无论有无统计学意义，都是相对事先确定该自变量某一类为对照而言的。 SPSS对字符型多分类无序自变量，以（ Cat）标示在该自变量后的括

13、号内，系统默认相互比较的方法为 Indicator，且以最后的那个分类为对照。11.1.4有序多分类自变量的二分类 Logistic回归有时，Logistic回归中自变量为有序多分类变量，即等级变量，如文化程度可分为文盲、小学、中学、大学及以上。这种资料的 Logistic回归可分两种情况处理，如果自变量的等级分组与logitP呈线性关系，即等级效应等比例增加或减少，则该自变量可以作为一个数值型自变量引入模型，否则，将等级变量当作无序多分类自变量，以哑变量的形式引入模型进行分析。11.1.5引入数值型自变量的二分类 Logistic回归数值变量直接引入模型，得到相应的比数比OR是指自变量

14、增加一个单位（如年龄增加 1岁）比数自然对数值的变化量。若将数值自变量分成几个组段，如自变量年龄按 10岁间隔分组引入模型时，其OR值是指年龄每增加10岁比数自然对数值的变化量。特殊情况下，数值变量（或分组后的变量）与 logitP不呈线性关系，例如，研究年龄与冠心病的关系，从理论上讲，年轻时年龄增加 10岁，与年老时年龄增加 10岁，患病风险变化不同，即 OR的意义不等同，这种情况应将数值变量分组转变为分类变量，用哑变量进行分析。例11-2为了探索胃癌的有关危险因素和保护因素，对 33例胃癌病人和35例对照者进行病例对照研究，考察的危险因素作为自变量，分别为 X1 （年龄）、X2 （蛋白

15、质摄入量，由低到高分别为 0、1、2、3、4）、x3 （新鲜蔬菜及水果食用情况，良好、一般、不足、严重不足分别为0、1、2、3）、X4 （吃盐渍食物及嗜重盐饮食，由轻到重分别为 0、1、2、3、4）、 X5 （饮食习惯，良好、一般、不良、严重不良分别为 0、1、2、3）、 X6 （精神心理因素，乐观、较乐观、一般、不良分别为0、1、2、3）。是否患胃癌为因变量 y （未患胃癌者为y=0，患胃癌者为y=1），结果资料见表11-2。试进行Logistic回归分析，且用逐步回归分析方法筛选上述因素。表11-2胃癌危险因素成组设计的结果资料序号X1X2X3X4X5X6y序号X1X2X3X4X5X6y16021000036622131012402211003756132221354111220386142322147112

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？