统计学-logistic回归分析.ppt
《统计学-logistic回归分析.ppt》由会员分享,可在线阅读,更多相关《统计学-logistic回归分析.ppt(59页珍藏版)》请在冰豆网上搜索。
![统计学-logistic回归分析.ppt](https://file1.bdocx.com/fileroot1/2022-10/8/d4da4c1a-8b0c-4bff-bb88-e6b437e993fd/d4da4c1a-8b0c-4bff-bb88-e6b437e993fd1.gif)
问题提出:
问题提出:
医医学学研研究究中中常常研研究究某某因因素素存存在在条条件件下下某某结结果果是是否否发发生?
以及之间的关系如何?
生?
以及之间的关系如何?
因素(因素(X)疾病结果(疾病结果(Y)x1,x2,x3XK发生发生Y=1不发生不发生Y=0例:
暴露因素例:
暴露因素冠心病结果冠心病结果高血压史高血压史(x1):
有有或无或无有有或或无无高血脂史高血脂史(x2):
有有或或无无吸烟吸烟(x3):
有或无有或无研究问题可否用多元线性回归方法?
研究问题可否用多元线性回归方法?
1.多元线性回归方法要求多元线性回归方法要求Y的取值为计量的取值为计量的连续性随机变量。
的连续性随机变量。
2.多元线性回归方程要求多元线性回归方程要求Y与与X间关系为线间关系为线性关系。
性关系。
3.多元线性回归结果多元线性回归结果不能回答不能回答“发生与发生与否否”logistic回归方法补充多元线性回归的不足回归方法补充多元线性回归的不足Logistic回归方法该法研究是该法研究是当当y取某值(如取某值(如y=1)发生的概率(发生的概率(p)与与某暴露因素(某暴露因素(x)的关系。
的关系。
P(概率)的取值波动概率)的取值波动01范围。
范围。
基本原理基本原理:
用一组观察数据拟合:
用一组观察数据拟合Logistic模型,模型,揭示若干个揭示若干个x与一个因变量取值的关系,反映与一个因变量取值的关系,反映y对对x的依存关系。
的依存关系。
一、基本概念一、基本概念1.变量的取值变量的取值logistic回归要求应变量(回归要求应变量(Y)取值为分类变量取值为分类变量(两分类或多个分类)(两分类或多个分类)自变量(自变量(Xi)称为危险因素或暴露因素称为危险因素或暴露因素,可为连续可为连续变量、等级变量、分类变量。
变量、等级变量、分类变量。
可有可有m个自变量个自变量X1,X2,Xm2.两值因变量的两值因变量的logistic回归模型方程回归模型方程一个自变量与一个自变量与Y关系的回归模型关系的回归模型如:
如:
y:
发生发生=1,未发生未发生=0x有有=1无无=0,记为记为p(y=1/x)表示某暴露因素状态下,结表示某暴露因素状态下,结果果y=1的概率(的概率(P)模型。
模型。
或或模型描述了应变量模型描述了应变量p与与x的关系的关系P概率概率10.5Z值值0123-1-2-3图图16-1Logistic回归函数的几何图形回归函数的几何图形为正值,为正值,x越越大,结果大,结果y=1发发生的可能性生的可能性(p)越大。
越大。
几个几个logistic回归模型方程回归模型方程logistic回归模型方程的线性表达回归模型方程的线性表达对对logistic回归模型的概率(回归模型的概率(p)做)做logit变变换,换,截距(常数)截距(常数)回归系数回归系数Y(-至至+)线性线性关系关系方程如下:
方程如下:
在有多个危险因素(在有多个危险因素(Xi)时时多个变量多个变量的logistic回归模型方程的线性表达:
回归模型方程的线性表达:
或或2.模型中参数的意义模型中参数的意义0(常数项)常数项):
暴露因素:
暴露因素Xi=0时,个体发病时,个体发病概率与不发病概率之比的自然对数比值。
概率与不发病概率之比的自然对数比值。
的含义:
的含义:
某危险因素,暴露水平变化时,即某危险因素,暴露水平变化时,即Xi=1与与Xi=0相比,发生某结果(如发病)优势比相比,发生某结果(如发病)优势比的对数值。
的对数值。
P1(y=1/x=1)的概率的概率P0(y=1/x=0)的概率的概率危险因素危险因素Yx=1x=0发病发病=130(a)10(b)不发病不发病=070(c)90(d)a+cb+d危险因素危险因素Yx=1x=0发病发病=1p1p0不发病不发病=01-p11-p0有暴露因素人群中发病的比例有暴露因素人群中发病的比例反映了在其他变量固定后,反映了在其他变量固定后,X=1与与x=0相比相比发生发生Y事件的对数优势比。
事件的对数优势比。
回归系数回归系数与与ORX与与Y的关联的关联=0,OR=1,无关无关0,OR1,有关,危险因素有关,危险因素0,OR1,有关,保护因子有关,保护因子事件发生率很小,事件发生率很小,ORRR。
多元回归模型的的概念二、二、Logistic回归模型回归模型Logistic回归的分类回归的分类二分类二分类多分类多分类条件条件Logistic回归回归非条件非条件Logistic回归回归Logit变换变换也称对数单位转换也称对数单位转换logitP=流行病学概念:
流行病学概念:
设设P表示暴露因素表示暴露因素X时个体发病的概率,时个体发病的概率,则发病的概率则发病的概率P与未发病的概率与未发病的概率1-P之之比为优势比为优势(odds),logitP就是就是odds的对数值。
的对数值。
Logistic回归模型回归模型Logistic回归的回归的logit模型模型Logistic回归模型回归模型三、参数估计三、参数估计最大似然估计法最大似然估计法(Maximumlikehoodestimate)似然函数:
似然函数:
L=Pi对数似然函数:
数似然函数:
lnL=(lnP)=lnP1+lnP2+lnPn非非线性迭代方法性迭代方法Newton-Raphson法法四、参数检验四、参数检验似然比检验似然比检验(likehoodratiotest)通过比较包含与不包含某一个或通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为数似然函数变化来进行,其统计量为G(又称又称Deviance)。
)。
G=-2(lnLp-lnLk)样本量较大时,样本量较大时,G近似服从自由近似服从自由度为待检验因素个数的度为待检验因素个数的分布。
分布。
比分检验比分检验(scoretest)以未包含某个或几个变量的模型为基础,以未包含某个或几个变量的模型为基础,保留模型中参数的估计值,并假设新增加保留模型中参数的估计值,并假设新增加的参数为零,计算似然函数的一价偏导数的参数为零,计算似然函数的一价偏导数(又称有效比分)及信息距阵,两者相乘(又称有效比分)及信息距阵,两者相乘便得比分检验的统计量便得比分检验的统计量S。
样本量较大时,样本量较大时,S近似服从自由度为待检验因素个数的近似服从自由度为待检验因素个数的分布。
分布。
Wald检验检验(waldtest)即广义的即广义的t检验,统计量为检验,统计量为uu服从正态分布,即为标准正态离差。
服从正态分布,即为标准正态离差。
Logistic回归系数的区间估计回归系数的区间估计上述三种方法中,似然比检验上述三种方法中,似然比检验最可靠,比分检验一般与它相一致,最可靠,比分检验一般与它相一致,但两者均要求较大的计算量;而但两者均要求较大的计算量;而Wald检验未考虑各因素间的综合检验未考虑各因素间的综合作用,在因素间有共线性时结果不作用,在因素间有共线性时结果不如其它两者可靠。
如其它两者可靠。
五、回归系数的意义五、回归系数的意义单纯从数学上讲,与多元线性单纯从数学上讲,与多元线性回归分析中回归系数的解释并无不回归分析中回归系数的解释并无不同,亦即同,亦即bi表示表示xi改变一个单位时,改变一个单位时,logitP的平均变化量。
的平均变化量。
流行病学中的一些基本概念:
流行病学中的一些基本概念:
相对危险度相对危险度(relativerisk):
RR=P1/P2比数比数Odds=P/(1-P)比数比比数比OR=P/(1-P)/P/(1-P)在患病率较小情况下,在患病率较小情况下,ORRRLogistic回归中的常数项(回归中的常数项(b0)表示,表示,在不接触任何潜在危险保护因素条在不接触任何潜在危险保护因素条件下,效应指标发生与不发生事件的件下,效应指标发生与不发生事件的概率之比的对数值。
概率之比的对数值。
Logistic回归中的回归系数回归中的回归系数(bi)表示,表示,某一因素改变一个单位时,效应指标某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数发生与不发生事件的概率之比的对数变化值,即变化值,即OR的对数值。
的对数值。
Logistic回归系数的意义回归系数的意义分析因素分析因素xi为二分类变量时,存在(暴为二分类变量时,存在(暴露)露)xi,不存在(未暴露)不存在(未暴露)xi,则则Logistic回归中回归中xi的系数的系数bi就是暴露与就是暴露与非暴露优势比的对数值即非暴露优势比的对数值即OR=exp(bi)=e(bi)分析因素分析因素xi为多分类变量时,为方便起为多分类变量时,为方便起见,常用见,常用1,2,k分别表示分别表示k个不个不同的类别。
进行同的类别。
进行Logistic回归分析前需回归分析前需将该变量转换成将该变量转换成k-1个指示变量或哑变个指示变量或哑变量量(design/dummyvariable),这样指这样指示变量都是一个二分变量,每一个指示变量都是一个二分变量,每一个指示变量均有一个估计系数,即回归系示变量均有一个估计系数,即回归系数,其解释同前。
数,其解释同前。
分析因素分析因素xi为等级变量时,如果每个等级的为等级变量时,如果每个等级的作用相同,可按计量资料处理:
如以最小或作用相同,可按计量资料处理:
如以最小或最大等级作参考组,并按等级顺序依次取为最大等级作参考组,并按等级顺序依次取为0,1,2,。
此时,。
此时,e(bi)表示表示xi增加一个增加一个等级时的优势比,等级时的优势比,e(k*bi)表示表示xi增加增加k个等级个等级时的优势比。
如果每个等级的作用不相同,时的优势比。
如果每个等级的作用不相同,则应按多分类资料处理。
则应按多分类资料处理。
分析因素分析因素xi为连续性变量时,为连续性变量时,e(bi)表示表示xi增加增加一个计量单位时的优势比。
一个计量单位时的优势比。
多因素多因素Logistic回归分析时,回归分析时,对回归系数的解释都是指在其它对回归系数的解释都是指在其它所有自变量固定的情况下的优势所有自变量固定的情况下的优势比。
存在因素间交互作用时,比。
存在因素间交互作用时,Logistic回归系数的解释变得更回归系数的解释变得更为复杂,应特别小心。
为复杂,应特别小心。
根据根据Wald检验,可知检验,可知Logistic回归回归系数系数bi服从服从u分布。
因此其可信区间为分布。
因此其可信区间为进而,优势比进而,优势比e(bi)的可信区间为的可信区间为六、六、Logistic回归分析方法回归分析方法基本思想同线性回归分析。
基本思想同线性回归分析。
从所用的方法看,有强迫法、前进法、从所用的方法看,有强迫法、前进法、后退法和逐步法。
在这些方法中,筛选变量后退法和逐步法。
在这些方法中,筛选变量的过程与线性回归过程的完全一样。
但其中的过程与线性回归过程的完全一样。
但其中所用的统计量不再是线性回归分析中的所用的统计量不再是线性回归分析中的F统计统计量,而是以上介绍的参数检验方法中的三种量,而是以上介绍的参数检验方法中的三种统计量之一。
统计量之一。
为计算方便,通常向前选取为计算方便,通常向前选取变量用似然比或比分检验,而向变量用似然比或比分检验,而向后剔除变量常用后剔除变量常用Wald检验。
检验。
七、条件七、条件Logistic回归回归对配对对配对/比调查资料,应该用条件比调查资料,应该用条件Logistic回归分析。
回归分析。
对于配比资料,第对于配比资料,第i个配比组个配比组可以建立一个可以建立一个Logistic回归:
回归:
假设自变量在各配比组中对结果变量假设自变量在各配比组中对结果变量的作用是相同的,即自变量的回归系的作用是相同的,即自变量的回归系数与配比组无关。
数与配比组无关。
配比设计的配比设计的Logistic回归模型回归模型其中不含常数项。
其中不含常数项。
可以看出此回归模型与非条件可以看出此回归模型与非条件Logistic回归模型十分相似,只不过这里的参数回归模型十分相似,只不过这里的参数估计是根据