Logistic回归分析及其应用.ppt

资源描述

Logistic回归分析及其应用.ppt

《Logistic回归分析及其应用.ppt》由会员分享，可在线阅读，更多相关《Logistic回归分析及其应用.ppt（40页珍藏版）》请在冰豆网上搜索。

Logistic回归分析及其应用.ppt

LogisticLogistic回归分析回归分析及其应用及其应用温泽淮温泽淮DME中心中心10/28/20221概述概述1967年年TrueltJ，ConnifieldJ和和KannelW在在JournalofChronicDisease上发表了冠心病危险因素上发表了冠心病危险因素的研究，较早将的研究，较早将Logistic回归用于医回归用于医学研究。

学研究。

一般概念一般概念l一元直线回归一元直线回归l多元直线回归多元直线回归10/28/20222一元直线回归模型一元直线回归模型y=a+bx+e多元直线回归模型多元直线回归模型y=a+b1x1+b2x2+bkxk+e10/28/20223-4.00-2.000.002.004.00XX：

自变量自变量0.000.250.500.751.00F（y）：

因变量的logit值如果一定要进行直线回归也可以做出结果，但此时效果不佳。

当自变量取一定值时，因变量的预测值可能为负数。

10/28/20224一般直线回归难以解决的问题一般直线回归难以解决的问题医学数据的复杂、多样医学数据的复杂、多样l连续型和离散型数据连续型和离散型数据医学研究中疾病的复杂性医学研究中疾病的复杂性l一种疾病可能有多种致病因素或与多种危一种疾病可能有多种致病因素或与多种危险因素有关险因素有关l疾病转归的影响因素也可能多种多样疾病转归的影响因素也可能多种多样l临床治疗结局的综合性临床治疗结局的综合性10/28/20225简单的解决方法简单的解决方法固定其他因素，研究有影响的一两个因固定其他因素，研究有影响的一两个因素；素；分层分析：

按分层分析：

按12个因素组成的层进行个因素组成的层进行层内分析和综合。

层内分析和综合。

统计模型统计模型10/28/20226寻找合适的模型寻找合适的模型进行进行logit变换变换llogit（p）=ln（），p为为y=1所对应的概所对应的概率率logit（0.1）=ln（）=ln（0.1/0.9）p1p0.110.110/28/20227llogit（p）=ln（）p=0或或1时，此式失效时，此式失效以以p=r/n代之代之logit（p）=ln（r+0.5）/（nr+0.5）此称此称经验经验logistic变换变换以以Z代上式的代上式的logit（p）,Z=a+b1x1+b2x2+bkxk称此为称此为logistic回归模型回归模型p1p10/28/20228P=ez/（1+ez）ea+b1x1+b2x2+bkxk1+ea+b1x1+b2x2+bkxk此为非条件此为非条件logistic回归模型回归模型应用于成组数据的分析应用于成组数据的分析P=10/28/20229自变量取定一些值时，因变量取自变量取定一些值时，因变量取0、1的概率就是的概率就是条件概率，对条件概率进行条件概率，对条件概率进行logistic回归，称为回归，称为条件条件logistic回归回归表达式：

表达式：

eb1x1+b2x2+bkxk1-eb1x1+b2x2+bkxk常用于分析配比的资料常用于分析配比的资料P=10/28/202210概述小结概述小结logistic回归回归对因变量的比数的对数值对因变量的比数的对数值（logit值）建立模型值）建立模型因变量的因变量的logit值值的的改变与多个自变量的改变与多个自变量的加权和加权和呈线性关系呈线性关系因变量呈二项分布因变量呈二项分布10/28/202211分析的一般步骤分析的一般步骤变量的编码变量的编码哑变量的设置和引入哑变量的设置和引入各个自变量的单因素分析各个自变量的单因素分析变量的筛选变量的筛选交互作用的引入交互作用的引入建立多个模型建立多个模型选择较优的模型选择较优的模型模型应用条件的评价模型应用条件的评价输出结果的解释输出结果的解释10/28/2022121.变量的编码变量的编码变量的编码要易于识别变量的编码要易于识别注意编码的等级关系注意编码的等级关系改变分类变量的编码，其分析的意改变分类变量的编码，其分析的意义并不改变。

义并不改变。

牢记编码牢记编码l使用变量数值标识（使用变量数值标识（valuelabels）l记录编码内容记录编码内容10/28/202213变量的编码变量的编码变量名变量标识变量值值标识SEX性别1男2女EDU教育程度0文盲1小学2初中及以上10/28/202214variablelabelsqnum问卷序号rnum录入序号pnum病人编号hnum住院号/门诊号chname患者中文姓名drugroup组别name患者姓名sex患者性别age患者年龄valuelabelssex1男2女/hisc1是0否9无法判断/nsex1正常0异常9未检/demdx1有0无/addx0无1危险性2可能3很可能/edu0文盲1小学程度2初中及以上10/28/2022152.哑变量的设置和引入哑变量的设置和引入哑哑变量，又称变量，又称指示变量指示变量或或设计矩阵设计矩阵。

有利于检验等级变量各个等级间的有利于检验等级变量各个等级间的变化是否相同。

变化是否相同。

一个一个k分类的分类变量，可以用分类的分类变量，可以用k-1个哑变量来表示。

个哑变量来表示。

10/28/202216哑变量的设置教育程度X1X2X3文盲：

0000小学：

1100初中：

2010高中：

3001教育程度教育程度：

文盲，小学，初中，高中以上文盲，小学，初中，高中以上10/28/202217教育程度X1X2X3文盲：

0100小学：

1010初中：

2001高中：

3000以高中作为参照以高中作为参照10/28/202218SPSS提供的方法Indicator:

默认。

以第1或最后1类作对照，其他每类与对照比较；Sample:

以第1或最后1类作对照，其他每类与对照比较，但反映平均效应。

Difference:

除第1类外各分类与其前各类平均效应比较；Helmert:

除最后1类外各分类与其前各类平均效应比较；Repeated:

除第1类外各分类与其前一类比较；Polynomial:

假设类间距相等，用于数值型变量。

Deviation:

以第1或最后1类作对照，其余每类与总效应比较。

10/28/2022193.自变量的单因素分析自变量的单因素分析了解自变量与因变量的分布了解自变量与因变量的分布检验是否符合建立模型的应用条件检验是否符合建立模型的应用条件l偏离应用条件时，进行数据变换偏离应用条件时，进行数据变换各个自变量两组间的比较各个自变量两组间的比较l计数资料计数资料l计量资料计量资料双变量分析双变量分析10/28/2022204.变量的筛选变量的筛选变量筛选的原则变量筛选的原则l专业上考虑专业上考虑l测量上考虑测量上考虑l共线性问题：

计算相关矩阵，相关系数共线性问题：

计算相关矩阵，相关系数0.8-0.9，则选其一。

，则选其一。

l缺失数据少、测量误差低的优先选择缺失数据少、测量误差低的优先选择l经验上考虑经验上考虑l双变量分析中有显著性的自变量（双变量分析中有显著性的自变量（P.15）l选择那些改变主效应的自变量选择那些改变主效应的自变量10/28/202221变量的筛选变量的筛选变量筛选的可用方法变量筛选的可用方法l逐步逐步logistic回归：

回归：

自动选择有显著性的自变自动选择有显著性的自变量，不仅用于自变量的剔选，也用于交互作量，不仅用于自变量的剔选，也用于交互作用项是否显著的判断。

用项是否显著的判断。

l前进法：

前进法：

逐个引入模型外的变量逐个引入模型外的变量l后退法：

后退法：

放入所有变量，再逐个筛选放入所有变量，再逐个筛选理论上看，前进法选择变量的经验公式缺乏总体概念，理论上看，前进法选择变量的经验公式缺乏总体概念，当用于因素分析时，建议用后退法。

当变量间有完全相当用于因素分析时，建议用后退法。

当变量间有完全相关性时，后退法无法使用，可用前进法。

关性时，后退法无法使用，可用前进法。

10/28/2022225.交互作用的引入交互作用的引入交互作用的定义交互作用的定义l当自变量和因变量的关系随第三个变量当自变量和因变量的关系随第三个变量的变化而改变时，则存在交互作用的变化而改变时，则存在交互作用交互作用项的引入交互作用项的引入l基于临床实际认为对结果有重要影响基于临床实际认为对结果有重要影响l基于模型应用条件的分析基于模型应用条件的分析l引入两个自变量的乘积项引入两个自变量的乘积项交互作用的检验交互作用的检验交互作用的解释交互作用的解释10/28/2022236.建立多个模型建立多个模型饱和模型饱和模型自定义的模型自定义的模型l从饱和模型中选择自变量从饱和模型中选择自变量l再建立模型再建立模型10/28/2022247.选择较优的模型选择较优的模型模型拟合优度检验模型拟合优度检验lAIC（Akaikeinformationcriterion）：

）：

同一资料的多个模型的比较，此值越小，模型越合适。

lSC（Schwartzcriterion）：

）：

同上同上lScore统计量统计量：

同上，但不包括截距项。

：

同上，但不包括截距项。

l-2logL（似然比检验，似然比检验，OmnibusTest）：

检验全部自检验全部自变量的作用是否显著。

较为可靠。

适用于含连续性变变量的作用是否显著。

较为可靠。

适用于含连续性变量的情况。

模型拟合好，量的情况。

模型拟合好，x2值大，值大，P值小。

值小。

lHosmer-Lemeshow检验：

检验：

评价估计概率和观察概率评价估计概率和观察概率接近的程度。

适用于含连续性变量的情况。

模型好，接近的程度。

适用于含连续性变量的情况。

模型好，x2值值小，小，P值大。

值大。

10/28/2022258.模型应用条件的评价模型应用条件的评价残差分析残差分析l残差是观察值与估计值之差残差是观察值与估计值之差合理的合理的logistic回归模型也可能得到回归模型也可能得到不理想的残差，这在自变量是二分类不理想的残差，这在自变量是二分类变量时更易出现。

变量时更易出现。

增加交互作用项可能增加模型的效能增加交互作用项可能增加模型的效能10/28/2022269.输出结果的解释输出结果的解释模型中各个系数的显著性检验模型中各个系数的显著性检验lWald检验：

检验：

类似于直线回归系数的类似于直线回归系数的t检验检验lWaldx2检验：

检验：

同上同上l似然比检验：

似然比检验：

自变量不在模型中与自变量不在模型中与在模型中的似然值比较。

在模型中的似然值比较。

lScore检验检验10/28/202227输出结果的解释输出结果的解释回归系数的解释回归系数的解释l系数的正负值：

系数的正负值：

正（负）系数表示随自变量的正（负）系数表示随自变量的增加因变量增加因变量logit值的增加（减少）。

值的增加（减少）。

l二分类自变量二分类自变量系数为比数比的对数值，由此比数比系数为比数比的对数值，由此比数比=ebl多分类自变量多分类自变量以第以第i类作参照，比较相邻或相隔的两个类别。

类作参照，比较相邻或相隔的两个类别。

l连续型自变量连续型自变量当自变量改变一个单位时，比数比为当自变量改变一个单位时，比数比为eb10/28/202228输出结果的解释输出结果的解释模型拟合的优劣模型拟合的优劣自变量与结果变量（因变量）有无关系自变量与结果变量（因变量）有无关系确认因变量与自变量的编码确认因变量与自变量的编码模型包含的各个自变量的临床意义模型包含的各个自变量的临床意义由模型回归系数计算得到的各个自变由模型回归系数计算得到的各个自变量的比数比的临床意义量的比数比的临床意义10/28/202229输出结果的解释输出结果的解释模型的预测结果的评价模型的预测结果的评价l敏感度、特异度和阳性预测值敏感度、特异度和阳性预测值正确选择预测概率界值，简单地以正确选择预测概率界值，简单地以0.5为界值，但并不是最

展开阅读全文