Logistic回归模型和生存分析简介.ppt

上传人:b****3 文档编号:2706217 上传时间:2022-11-08 格式:PPT 页数:53 大小:3.44MB
下载 相关 举报
Logistic回归模型和生存分析简介.ppt_第1页
第1页 / 共53页
Logistic回归模型和生存分析简介.ppt_第2页
第2页 / 共53页
Logistic回归模型和生存分析简介.ppt_第3页
第3页 / 共53页
Logistic回归模型和生存分析简介.ppt_第4页
第4页 / 共53页
Logistic回归模型和生存分析简介.ppt_第5页
第5页 / 共53页
点击查看更多>>
下载资源
资源描述

Logistic回归模型和生存分析简介.ppt

《Logistic回归模型和生存分析简介.ppt》由会员分享,可在线阅读,更多相关《Logistic回归模型和生存分析简介.ppt(53页珍藏版)》请在冰豆网上搜索。

Logistic回归模型和生存分析简介.ppt

SPSSSPSSLogistic回归模型与生存分析简介回归模型与生存分析简介张志杰张志杰流行病学教研室流行病学教研室Tel.:

54237410(Office:

8号楼号楼443)SPSSSPSS主要内容主要内容一、一、Logistic回归模型回归模型二、生存分析二、生存分析三、三、Assignments2022/11/82022/11/822张志杰张志杰张志杰张志杰,流行病学教研室流行病学教研室流行病学教研室流行病学教研室,公共卫生学院公共卫生学院公共卫生学院公共卫生学院,复旦大学复旦大学复旦大学复旦大学SPSSSPSSLogistic回归模型简介回归模型简介模型简介模型简介模型中参数的估计与意义模型中参数的估计与意义模型与参数的假设检验模型与参数的假设检验模型的拟合优度模型的拟合优度Logistic回归模型中的高级话题回归模型中的高级话题分析实例分析实例2022/11/82022/11/833张志杰张志杰张志杰张志杰,流行病学教研室流行病学教研室流行病学教研室流行病学教研室,公共卫生学院公共卫生学院公共卫生学院公共卫生学院,复旦大学复旦大学复旦大学复旦大学SPSSSPSS模型简介模型简介方差分析模型方差分析模型:

应变量应变量-连续连续/正态;正态;自变量自变量:

分类分类/连续变量连续变量线性回归模型:

应变量线性回归模型:

应变量-连续连续/正态;正态;自变量自变量:

连续连续/分类变量分类变量应变量为分类变量应变量为分类变量:

研究该分类变量与一组自变量之间的关系:

研究该分类变量与一组自变量之间的关系治愈治愈/未治愈未治愈(0/1);治愈治愈/好转好转/未治愈未治愈(有序分类有序分类);无序分类;无序分类(腺癌、腺癌、鳞癌、大细胞癌鳞癌、大细胞癌)研究的因素较少研究的因素较少:

2;CMH(无序分类变量;自变量为分类变量无序分类变量;自变量为分类变量)研究的因素较多时研究的因素较多时(分层较多分层较多):

出现较多出现较多0的单元的单元Logistic回归模型回归模型单元为单元为0的信息可以利用;自变量可以是连续性变量的信息可以利用;自变量可以是连续性变量基于线性回归模型的思想发展而来基于线性回归模型的思想发展而来2022/11/82022/11/844张志杰张志杰张志杰张志杰,流行病学教研室流行病学教研室流行病学教研室流行病学教研室,公共卫生学院公共卫生学院公共卫生学院公共卫生学院,复旦大学复旦大学复旦大学复旦大学SPSSSPSS模型简介模型简介应变量为应变量为0/1变量变量的的Logistic回归模型回归模型在冠心病可疑危险因素的研究中,记录下每个研究对象的在冠心病可疑危险因素的研究中,记录下每个研究对象的p个自变量个自变量(年龄、性别、饮酒等年龄、性别、饮酒等),记为,记为x1,xp。

随访一段时间,。

随访一段时间,如果发生冠心病,应变量如果发生冠心病,应变量y记为记为1,如果没有发生冠心病,如果没有发生冠心病,y=0。

可以观察到,不同的可以观察到,不同的x1,xp的研究对象,冠心病的发生概的研究对象,冠心病的发生概率率P(y=1)不同,如果我们希望依据随访得到的这组数据建立一不同,如果我们希望依据随访得到的这组数据建立一个描述自变量个描述自变量x1,xp与冠心病的发生概率与冠心病的发生概率P(y=1)间关系的回间关系的回归方程,并根据建立的回归方程进行预测,对各个自变量的作用归方程,并根据建立的回归方程进行预测,对各个自变量的作用大小和方向作出评价,如何实现?

大小和方向作出评价,如何实现?

我们首先想到的是能不能用线性回归模型来实现?

我们首先想到的是能不能用线性回归模型来实现?

2022/11/82022/11/855张志杰张志杰张志杰张志杰,流行病学教研室流行病学教研室流行病学教研室流行病学教研室,公共卫生学院公共卫生学院公共卫生学院公共卫生学院,复旦大学复旦大学复旦大学复旦大学SPSSSPSS模型简介模型简介存在的问题存在的问题1.模型两边的值域不同:

左边概率模型两边的值域不同:

左边概率0,1,右边,右边-,;2.应变量概率应变量概率P与自变量间通常不存在线性关系与自变量间通常不存在线性关系解决办法:

解决办法:

Logit变换变换应变量取值区间的变化应变量取值区间的变化-问题问题1的解决的解决P=0logitP=ln(0/1)=-P=0.5logitP=ln(0.5/0.5)=0P=1logitP=ln(1/0)=+实践证明,实践证明,logitP往往和自变量呈线性关系往往和自变量呈线性关系-问题问题2的解决的解决2022/11/82022/11/866张志杰张志杰张志杰张志杰,流行病学教研室流行病学教研室流行病学教研室流行病学教研室,公共卫生学院公共卫生学院公共卫生学院公共卫生学院,复旦大学复旦大学复旦大学复旦大学SPSSSPSS模型简介模型简介2022/11/82022/11/877张志杰张志杰张志杰张志杰,流行病学教研室流行病学教研室流行病学教研室流行病学教研室,公共卫生学院公共卫生学院公共卫生学院公共卫生学院,复旦大学复旦大学复旦大学复旦大学SPSSSPSS模型简介模型简介模型名称的来源模型名称的来源:

Logistic这个名称来源于它对应变量所采用这个名称来源于它对应变量所采用的的logit变换,和英文单词变换,和英文单词Logistic的含义(后勤的)一点关的含义(后勤的)一点关系都没有,与逻辑就更不相干系都没有,与逻辑就更不相干模型用途模型用途筛选危险因素筛选危险因素校正混杂因素校正混杂因素预测与判别预测与判别(判别分析判别分析)2022/11/82022/11/888张志杰张志杰张志杰张志杰,流行病学教研室流行病学教研室流行病学教研室流行病学教研室,公共卫生学院公共卫生学院公共卫生学院公共卫生学院,复旦大学复旦大学复旦大学复旦大学SPSSSPSS模型中参数的估计与意义模型中参数的估计与意义模型参数的估计方法模型参数的估计方法由于应变量为二分类,所以误差项服从二项分布,而非正态分布。

由于应变量为二分类,所以误差项服从二项分布,而非正态分布。

最小二乘法不适用,最大似然法最小二乘法不适用,最大似然法2022/11/82022/11/899张志杰张志杰张志杰张志杰,流行病学教研室流行病学教研室流行病学教研室流行病学教研室,公共卫生学院公共卫生学院公共卫生学院公共卫生学院,复旦大学复旦大学复旦大学复旦大学SPSSSPSS模型中参数的估计与意义模型中参数的估计与意义模型中参数的意义模型中参数的意义0-常数项常数项自变量取值全为自变量取值全为0时的基线状况,未必有实际意义;时的基线状况,未必有实际意义;比数(比数(Y=1与与Y=0的概率之比)的自然对数值;的概率之比)的自然对数值;病例病例对照研究中,病例与对照两组人数的比例是人为定的,对照研究中,病例与对照两组人数的比例是人为定的,不能代表人群中真实的病人与正常人比例,因此该常数项不不能代表人群中真实的病人与正常人比例,因此该常数项不是各自变量取值为是各自变量取值为0时人群患病比的估计值的对数。

因此根据时人群患病比的估计值的对数。

因此根据病例病例对照研究资料建立的对照研究资料建立的Logistic回归模型中,常数项意回归模型中,常数项意义不大,主要针对结果中自变量的偏回归系数及其转换成义不大,主要针对结果中自变量的偏回归系数及其转换成OR值的意义作解释,不适宜直接用于预测和判别。

如希望进行值的意义作解释,不适宜直接用于预测和判别。

如希望进行预测,则需知道人群中真实的患病率预测,则需知道人群中真实的患病率P。

2022/11/82022/11/81010张志杰张志杰张志杰张志杰,流行病学教研室流行病学教研室流行病学教研室流行病学教研室,公共卫生学院公共卫生学院公共卫生学院公共卫生学院,复旦大学复旦大学复旦大学复旦大学SPSSSPSS模型中参数的估计与意义模型中参数的估计与意义ii和多重线性回归模型中系数的解释一样,偏回归系数和多重线性回归模型中系数的解释一样,偏回归系数;代表固定其它代表固定其它Xj时,时,Xi改变一个单位引起改变一个单位引起logitP平均值的改平均值的改变量;变量;在实际应用中,可以为这些系数找到更加贴近实际的解释在实际应用中,可以为这些系数找到更加贴近实际的解释,比比数比数比(OddsRatio,OR)=exp(i):

Logit变换的优势变换的优势当其它自变量当其它自变量(Xj)取值保持不变时,取值保持不变时,Xi取值增加一个单位引取值增加一个单位引起起OR自然对数值的变化量,因此在使用上自然对数值的变化量,因此在使用上OR值要远比值要远比i本身本身更常用更常用2022/11/82022/11/81111张志杰张志杰张志杰张志杰,流行病学教研室流行病学教研室流行病学教研室流行病学教研室,公共卫生学院公共卫生学院公共卫生学院公共卫生学院,复旦大学复旦大学复旦大学复旦大学SPSSSPSS模型中参数的估计与意义模型中参数的估计与意义(X1增加一个单位)2022/11/82022/11/81212张志杰张志杰张志杰张志杰,流行病学教研室流行病学教研室流行病学教研室流行病学教研室,公共卫生学院公共卫生学院公共卫生学院公共卫生学院,复旦大学复旦大学复旦大学复旦大学SPSSSPSS模型与参数的假设检验模型与参数的假设检验1.似然比检验似然比检验模型模型(两个模型拟合效果的比较两个模型拟合效果的比较)及偏回归系数的假设检验及偏回归系数的假设检验假设模型假设模型1含有较少自变量,模型含有较少自变量,模型2含有较多自变量,检验的含有较多自变量,检验的H0:

模型:

模型1与模型与模型2的拟合效果无差异的拟合效果无差异似然比检验统计量似然比检验统计量:

,即两个模型负,即两个模型负二倍对数似然函数值之差,二倍对数似然函数值之差,G反映的是模型反映的是模型2较模型较模型1拟合优度提拟合优度提高的程度。

当样本量较大时,在高的程度。

当样本量较大时,在H0成立的情况下,成立的情况下,G服从卡方分服从卡方分布,自由度为布,自由度为2个模型的变量个数之差个模型的变量个数之差2022/11/82022/11/81313张志杰张志杰张志杰张志杰,流行病学教研室流行病学教研室流行病学教研室流行病学教研室,公共卫生学院公共卫生学院公共卫生学院公共卫生学院,复旦大学复旦大学复旦大学复旦大学SPSSSPSS模型与参数的假设检验模型与参数的假设检验2.Walds检验检验模型中回归系数的假设检验模型中回归系数的假设检验在在SPSS输出的结果中,关于输出的结果中,关于值的所有检验都是值的所有检验都是Walds检验检验该检验基于该检验基于值服从正态分布的假设,首先求出值服从正态分布的假设,首先求出值的标准误,然值的标准误,然后基于正态分布原理求出后基于正态分布原理求出P值进行检验值进行检验模型中参数可信区间的估计就是基于模型中参数可信区间的估计就是基于Walds检验来的;检验来的;常用于模型中变量的剔除常用于模型中变量的剔除2022/11/82022/11/81414张志杰张志杰张志杰张志杰,流行病学教研室流行病学教研室流行病学教研室流行病学教研室,公共卫生学院公共卫生学院公共卫生学院公共卫生学院,复旦大学复旦大学复旦大学复旦大学SPSSSPSS模型与参数的假设检验模型与参数的假设检验3.记分检验记分检验模型中回归系数的假设检验及两个模型拟合效果的比较模型中回归系数的假设检验及两个模型拟合效果的比较以未包含某一个(或几个)参数的模型为基础,保留模型中参数以未包含某一个(或几个)参数的模型为基础,保留模型中参数的估计值,并假设新增加的参数为的估计值,并假设新增加的参数为0,计算似然函数的一阶偏导,计算似然函数的一阶偏导数(又称有效比分)及信息矩阵;数(又称有效比分)及信息矩阵;记分检验统计量记分检验统计量Score=S(COV)S列向量列向量S是对数似然函数的一阶偏导数,是对数似然函数的一阶偏导数,S是行向量是行向量COV是模型的方差协方差矩阵是模型的方差协方差矩阵当样本量较大

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 电子电路

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1