Logistic回归的实际应用.docx

资源描述

Logistic回归的实际应用.docx

《Logistic回归的实际应用.docx》由会员分享，可在线阅读，更多相关《Logistic回归的实际应用.docx（10页珍藏版）》请在冰豆网上搜索。

Logistic回归的实际应用.docx

Logistic回归的实际应用

Logistic回归的介绍与实际应用

摘要

本文通过对logistic回归的介绍，对logistic回归模型建立的分析，以及其在实际生活中的运用，我们可以得出所建立的模型对实际例子的数据拟合结果不错。

关键词：

logistic回归；模型建立；拟合；

1、logistic回归的简要介绍

1、Logistic回归的应用范围：

① 适用于流行病学资料的危险因素分析

② 实验室中药物的剂量-反应关系

③ 临床试验评价

④ 疾病的预后因素分析

2、 Logistic回归的分类：

① 按因变量的资料类型分：

二分类、多分类；其中二分较为常用

② 按研究方法分：

条件Logistic回归、非条件Logistic回归

两者针对的资料类型不一样，后者针对成组研究，前者针对配对或配伍研究。

3、Logistic回归的应用条件是：

① 独立性。

各观测对象间是相互独立的；

② LogitP与自变量是线性关系；

③ 样本量。

经验值是病例对照各50例以上或为自变量的5-10倍（以10倍为宜），不过随着统计技术和软件的发展，样本量较小或不能进行似然估计的情况下可采用精确logistic回归分析，此时要求分析变量不能太多，且变量分类不能太多；

④ 当队列资料进行logistic回归分析时，观察时间应该相同，否则需考虑观察时间的影响（建议用Poisson回归）。

4、拟和logistic回归方程的步骤：

① 对每一个变量进行量化，并进行单因素分析；

② 数据的离散化，对于连续性变量在分析过程中常常需要进行离散变成等级资料。

可采用的方法有依据经验进行离散，或是按照四分、五分位数法来确定等级，也可采用聚类方法将计量资料聚为二类或多类，变为离散变量。

③ 对性质相近的一些自变量进行部分多因素分析，并探讨各自变量（等级变量，数值变量）纳入模型时的适宜尺度，及对自变量进行必要的变量变换；

④ 在单变量分析和相关自变量分析的基础上，对P≤α（常取0.2，0.15或0.3）的变量，以及专业上认为重要的变量进行多因素的逐步筛选；模型程序每拟合一个模型将给出多个指标值，供用户判断模型优劣和筛选变量。

可以采用双向筛选技术：

a进入变量的筛选用score统计量或G统计量或LRS（似然比统计量），用户确定P值临界值如：

0.05、0.1或0.2，选择统计量显著且最大的变量进入模型；b剔除变量的选择用Z统计量（Wald统计量），用户确定其P值显著性水平，当变量不显者，从模型中予以剔除。

这样，选入和剔除反复循环，直至无变量选入，也无变量删除为止，选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定，一般地，当纳入模型的变量偏多，可提高选入界值或降低剔除标准，反之，则降低选入界值、提高删除标准。

但筛选标准的不同会影响分析结果，这在与他人结果比较时应当注意。

⑤ 在多因素筛选模型的基础上，考虑有无必要纳入变量的交互作用项；两变量间的交互作用为一级交互作用，可推广到二级或多级交互作用，但在实际应用中，各变量最好相互独立（也是模型本身的要求），不必研究交互作用，最多是研究少量的一级交互作用。

⑥ 对专业上认为重要但未选入回归方程的要查明原因。

5、回归方程拟合优劣的判断（为线性回归方程判断依据，可用于logistic回归分析）

① 决定系数（R2）和校正决定系数（

），可以用来评价回归方程的优劣。

R2随着自变量个数的增加而增加，所以需要校正；校正决定系数（

）越大，方程越优。

但亦有研究指出R2是多元线性回归中经常用到的一个指标，表示的是因变量的变动中由模型中自变量所解释的百分比，并不涉及预测值与观测值之间差别的问题，因此在logistic回归中不适合。

② Cp选择法：

选择Cp最接近p或p＋1的方程（不同学者解释不同）。

Cp无法用SPSS直接计算，可能需要手工。

1964年CLMallows提出：

Cp接近（p+1）的模型为最佳，其中p为方程中自变量的个数，m为自变量总个数。

③ AIC准则：

1973年由日本学者赤池提出AIC计算准则，AIC越小拟合的方程越好。

在logistic回归中，评价模型拟合优度的指标主要有Pearson χ2、偏差（deviance）、Hosmer-Lemeshow（HL）指标、Akaike信息准则（AIC）、SC指标等。

Pearson χ2、偏差（deviance）主要用于自变量不多且为分类变量的情况，当自变量增多且含有连续型变量时，用HL指标则更为恰当。

Pearsonχ2、偏差（deviance）、Hosmer-Lemeshow（HL）指标值均服从χ2分布，χ2检验无统计学意义（P>0.05）表示模型拟合的较好，χ2检验有统计学意义（P≤0.05）则表示模型拟合的较差。

AIC和SC指标还可用于比较模型的优劣，当拟合多个模型时，可以将不同模型按其AIC和SC指标值排序，AIC和SC值较小者一般认为拟合得更好。

6、拟合方程的注意事项：

① 进行方程拟合对自变量筛选采用逐步选择法[前进法（forward）、后退法（backward）、逐步回归法（stepwise）]时，引入变量的检验水准要小于或等于剔除变量的检验水准；

② 小样本检验水准α定为0.10或0.15，大样本把α定为0.05。

值越小说明自变量选取的标准越严；

③ 在逐步回归的时可根据需要放宽或限制进入方程的标准，或硬性将最感兴趣的研究变量选入方程；

④ 强影响点记录的选择：

从理论上讲，每一个样本点对回归模型的影响应该是同等的，实际并非如此。

有些样本点（记录）对回归模型影响很大。

对由过失或错误造成的点应删去，没有错误的强影响点可能和自变量与应变量的相关有关，不可轻易删除。

⑤ 多重共线性的诊断（SPSS中的指标）：

a容许度：

越近似于0，共线性越强；b特征根：

越近似于0，共线性越强；c条件指数：

越大，共线性越强；

⑥ 异常点的检查：

主要包括特异点（outher）、高杠杆点（highleveragepoints）以及强影响点（influentialpoints）。

特异点是指残差较其他各点大得多的点；高杠杆点是指距离其他样品较远的点；强影响点是指对模型有较大影响的点，模型中包含该点与不包含该点会使求得的回归系数相差很大。

单独的特异点或高杠杆点不一定会影响回归系数的估计，但如果既是特异点又是高杠杆点则很可能是一个影响回归方程的“有害”点。

对特异点、高杠杆点、强影响点诊断的指标有Pearson残差、Deviance残差、杠杆度统计量H（hatmatrixdiagnosis）、Cook 距离、DFBETA、Score检验统计量等。

这五个指标中，Pearson残差、Deviance残差可用来检查特异点，如果某观测值的残差值>2，则可认为是一个特异点。

杠杆度统计量H可用来发现高杠杆点， H值大的样品说明距离其他样品较远，可认为是一个高杠杆点。

Cook 距离、DFBETA指标可用来度量特异点或高杠杆点对回归模型的影响程度。

Cook距离是标准化残差和杠杆度两者的合成指标，其值越大，表明所对应的观测值的影响越大。

DFBETA指标值反映了某个样品被删除后logistic回归系数的变化，变化越大（即DFBETA指标值越大），表明该观测值的影响越大。

如果模型中检查出有特异点、高杠杆点或强影响点，首先应根据专业知识、数据收集的情况，分析其产生原因后酌情处理。

如来自测量或记录错误，应剔除或校正，否则处置就必须持慎重态度，考虑是否采用新的模型，而不能只是简单地删除就算完事。

因为在许多场合，异常点的出现恰好是我们探测某些事先不清楚的或许更为重要因素的线索。

7、回归系数符号反常与主要变量选不进方程的原因：

① 存在多元共线性；

② 有重要影响的因素未包括在内；

③ 某些变量个体间的差异很大；

④ 样本内突出点上数据误差大；

⑤ 变量的变化范围较小；

⑥ 样本数太少。

8、参数意义

① Logistic回归中的常数项（b0）表示，在不接触任何潜在危险／保护因素条件下，效应指标发生与不发生事件的概率之比的对数值。

② Logistic回归中的回归系数（bi）表示，其它所有自变量固定不变，某一因素改变一个单位时，效应指标发生与不发生事件的概率之比的对数变化值，即OR或RR的对数值。

需要指出的是，回归系数β的大小并不反映变量对疾病发生的重要性，那么哪种因素对模型贡献最大即与疾病联系最强呢?

（InL（t-1）-InL（t））三种方法结果基本一致。

③ 存在因素间交互作用时，Logistic回归系数的解释变得更为复杂，应特别小心。

④ 模型估计出OR，当发病率较低时，OR≈RR，因此发病率高的疾病资料不适合使用该模型。

另外，Logistic模型不能利用随访研究中的时间信息，不考虑发病时间上的差异，因而只适于随访期较短的资料，否则随着随访期的延长，回归系数变得不稳定，标准误增加。

9、统计软件

能够进行logistic回归分析的软件非常多，常用的有SPSS、SAS、Stata、EGRET（EpidemiologicalGraphicsEstimationandTestingPackage）等。

二、logistic回归模型的建立

1、实际的例子：

在一次住房展销会上，与房地产商签订初步购房意向书的共有n=313名顾客。

在随后的3个月的时间内，只有部分顾客确实购买了房屋。

购买房屋的顾客记为1，没有购买房屋的顾客记为0。

以顾客的年家庭收入（万元）为自变量x，对表1中的数据建立Logistic回归模型。

序号

年家庭收入（万元）x

签订意向书人数

实际购房人数

实际购房比例

逻辑变换

权重

1.5

0.320000

-0.75377

5.440

2.5

0.406250

-0.37949

7.719

3.5

0.448276

-0.20764

14.345

4.5

0.423077

-0.31015

12.692

5.5

0.465116

-0.13976

10.698

6.5

0.564103

0.257829

9.590

7.5

0.571429

0.287682

6.857

8.5

0.571429

0.287682

5.143

9.5

0.666667

0.693147

3.333

表1

2、模型的建立：

Logistic回归方程：

，i=1,2,...,c

（1）

（1）式中c为分组数据的组数。

本例中，c=9。

将以上回归方程做线性变换，令

（2）

式

（2）的变换称为逻辑变换，变换后的线性回归模型为：

（3）

式（3）是一个普通的一元线性回归模型。

式（3）没有给出误差项的形式，我们认为其误差项的形式就是做线性变换所需要的形式。

对表1中的数据，算出经验回归方程为：

，（4）

判别系数

，显著性检验P值

0，高度显著。

将式（4）还原为式

（1）的Logistic回归方程为：

（5）

三、运用模型进行预测

利用式（5）可以对购房比例做预测，例如

，则有

=0.590。

四、结果的实际意义

这表明在住房展销会上与房地产商签订初步购房意向书的年收入8万元家庭中，预计实际购房比例为59%.或者说，一个签订初步购房意向书的年收入8万元的家庭，其购房概率为59%.

五、模型的拟合效果分析

我们用Logistic回归模型成功地拟合了因变量为定性变量的回归模型，但是仍然存在一个不足之处，即异方差性并没有解决。

式（3）的回归模型不是等方差的，应该对式（3），用加权最小二乘估计。

当

较大，

的近似方差为：

（6），其中

，因而选取权数：

，（7）对例题重新用加权最小二乘做估计。

利用SPSS软件操作，点选分析

回归

线性回归，因变量：

逻辑变换；自变量：

年家庭收入；WLS权重：

权重

。

得到结果如下：

模型汇总b,c

模型

R方

调整R方

标准估计的误差

Durbin-Watson

.939a

.881

.864

2.4282

2.059

a.预测变量:

（常量）,逻辑变换。

b.因变量:

年家庭收入x

c.加权的最小二乘回归-按权重w进行加权

Anovab,c

模型

平方和

均方

Sig.

回归

306.486

51.982

.000a

残差

41.272

5.896

总计

347.758

a.预测变量:

（常量）,逻辑变换。

b.因变量:

年家庭收入x

c.加权的最小二乘回归-按权重w进行加权

系数a

模型

非标准化系数

标准系数

Sig.

标准误差

试用版

（常量）

-.886

.102

-8.653

.000

家庭年收入

.156

.017

.961

9.242

.000

a.因变量:

逻辑变换

系数a,b

模型

非标准化系数

标准系数

Sig.

标准误差

试用版

（常量）

-.849

.114

-7.474

.000

家庭年收入

.149

.021

.939

7.210

.000

a.因变量:

逻辑变换

b.加权的最小二乘回归-按权重进行加权

用加权最小二乘法得到的Logistic回归方程为：

，（8）利用（8）式可以对

时的购房比例做预测，有：

=0.585，所以，年收入8万元的家庭预计实际购房比例为58.5%，这个结果与未加权的结果很接近。

结束语

本文对Logistic回归的应用范围和拟和logistic回归方程的步骤进行了简要介绍，以及对回归方程拟合优劣的判断，提及了一些拟合方程的注意事项；明确了参数意义；其实能够进行logistic回归分析的软件非常多，常用的有SPSS、SAS、Stata、EGRET（EpidemiologicalGraphicsEstimationandTestingPackage）等，本文中实际的例子利用了SPSS进行了分析，发现拟合效果还不错。

展开阅读全文