1、复习:1.多元统计分析中指标的量化法2.多元线性回归分析的数据结构与模型3.多元线性回归分析的具体任务回归分析的具体任务4.4.筛选变量的常用方法5.5.多元线性回归分析的实现方法回归分析的实现方法.多元统计分析指标的量化法:(1)二分类(2)无序多分类(3)有序多分类 .多元线性回归分析的数据结构与模型:.多元线性回归分析的具体任务回归分析的具体任务1)采用最小二乘法原理确定方程中系数bi i=0,1,2,3p;2)采用F检验对回归方程整体进行假设检验;3)采用t检验对方程中的每个系数bi进行假设检验。4)结合专业给出合理的解释。.筛选变量的常用方法向前法(forward selection
2、)后退法(backward selection)逐步回归法(stepwise selection).多元线性回归的实现过程多元线性回归的实现过程操作过程:操作过程:Analyze-Regression-Analyze-Regression-Linear-yLinear-y选入选入Dependent-x1Dependent-x1、x2x2、X3X3选入选入Independent-Stepwise-Independent-Stepwise-options-okoptions-ok logistic regression analysis内容:(一)基本概念和原理(一)基本概念和原理 1.1.应用背
3、景应用背景 LogisticLogistic回归模型是一种概率模型,适合于病例对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类。可用影响结果变量发生的因素为自变量与因变量,建立回归方程。设资料中有一个因变量y、p个自变量x1,x2,xp,对每个实验对象共有n次观测结果,可将原始资料列成表1形式。2、LogisticLogistic回归模型的数据结构 表1 LogisticLogistic回归模型的数据结构实验对象 y X1 X2 X3 .XP 1 y1 a11 a12 a13 a1p 2 y2 a21 a22 a23 a2p 3 y3 a31 a32 a33 a3p
4、n yn an1 an2 an3 anp 表2肺癌与危险因素的调查分析例号是否患病性别吸烟年龄地区10103002001461310035130100261注:是否患病中,1代表否,0代表是。性别中1代表男,0代表女,吸烟中1代表吸烟,0代表不吸烟。地区中,1代表农村,0代表城市。表3配对资料(1:1)对子号病例对照x1x2x3x1x2x311301012031130301202010222000注:X1蛋白质摄入量,取值:0,1,2,3X2不良饮食习惯,取值:0,1,2,3X3精神状况,取值:0,1,2LogisticLogistic回归回归-Logistic-Logistic回归与回归与多
5、重多重线性回归联系与区别线性回归联系与区别联系联系:用于分析多个自变量与一个因变量的关用于分析多个自变量与一个因变量的关系,目的是矫正混杂因素、筛选自变量和更系,目的是矫正混杂因素、筛选自变量和更精确地对因变量作预测等精确地对因变量作预测等.区别区别:线性模型中因变量为连续性随机变量,线性模型中因变量为连续性随机变量,且要求呈正态分布且要求呈正态分布.Logistic.Logistic回归因变量的回归因变量的取值仅有两个,不满足正态分布取值仅有两个,不满足正态分布.3 3、Logistic回归模型l令令:y=1 发病(阳性、死亡、治愈等)发病(阳性、死亡、治愈等)l y=0 未发病(阴性、生存
6、、未治愈等)未发病(阴性、生存、未治愈等)l 将发病的概率记为将发病的概率记为P,它与自变量它与自变量x x1 1,x x2 2,x xp p之间的之间的Logistic回归模型为:回归模型为:l可知,不发病的概率为:可知,不发病的概率为:l经数学变换得:定义:为Logistic变换,即:4、回归系数i的意义流行病学的常用指标优势比(odds ratio,OR)或称比数比,定义为:暴露人群发病优势与非暴露人群发病优势之比。即Xi的优势比为:故对于样本资料OR=exp()95%置信区间为:可见是影响因素Xi增加一个单位所引起的对数优势的增量,反映了其对Y作用大小。如果要比较不同因素对Y作用大小,
7、需要消除变量量纲的影响,为此计算标准化回归系数5.假设检验(1)回归方程的假设检验H0:所有H1:某个计算统计量为:G=-2lnL,服从自由度等于n-p的分布(2)回归系数的假设检验H0:H1:计算统计量为:Wald,自由度等于1。(二)Logistic回归类型及其实例分析1、非条件Logistic回归 当研究设计为队列研究、横断面研究或成组病例对照研究时,要用非条件Logistic回归。实例1某研讨究者调查了某研讨究者调查了3030名成年人,名成年人,记录了同肺癌发病的有关因素情况记录了同肺癌发病的有关因素情况,数据见表数据见表4 4。其中是否患病中。其中是否患病中,1,1代表否代表否,0,
8、0代表是代表是.性别中性别中 11代表男代表男,0,0代表女代表女,吸烟吸烟中中 11代表吸烟代表吸烟,0,0代表不吸代表不吸烟烟.地区中地区中,1,1代表农村代表农村,00代表城市。代表城市。试分析各因素与肺试分析各因素与肺癌间的关系。癌间的关系。表4肺癌与危险因素的调查分析例号是否患病性别吸烟年龄地区10103002001461310035130100261注:是否患病中,1代表否,0代表是。性别中1代表男,0代表女,吸烟中1代表吸烟,0代表不吸烟。地区中,1代表农村,0代表城市。Datalog1;Infilelog1.dat;-读取数据Inputnyx1-x4;-指出变量Proclogi
9、stic;-调logistic回归模块modely=x1;run;-作单变量(x1)分析Proclogistic;modely=x2;run;Proclogistic;modely=x3;run;Proclogistic;modely=x4;run;Proclogistic;modely=x1-x4;run;-作多变量分析dataa;infiled:/a.xls;inputabyx1-x22;要导入()Procprint;Run;proclogistic;modely=x1-x4;run;表6单因素Logistic回归分析结果 模型号 变量 系数 标准误 Wald 卡方 P值1X11.7047
10、0.80064.53440.03322X22.56490.93647.50290.00623X30.14280.04679.34090.00224X4-0.27190.73870.13550.7128结果表明,性别,吸烟,年龄三个因素都与肺癌有关.由于在对某一因素进行单因素分析时没有控制其它因素的干扰,因此结果不可靠.表7多元Logistic回归分析结果变量系数标准误Wald卡方P值INTERCPT-9.754.095.660.02X12.521.821.920.17X23.981.984.060.04X30.190.085.670.02X4-1.301.580.680.41由上最大似然估计分
11、析知因素X2(吸烟),X3(年龄)对肺癌的发生有显著的影响。所得的回归方程为:Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X3-1.3037X4.SPSS操作步骤:Analyze-Regression-BinaryLogistic-Dependent框(y)-Covariates框(x1,x2,)-ok非条件Logistic回归SPSS操作步骤:结果表明,性别,吸烟,年龄三个因素都与肺癌有关.由于在对某一因素进行单因素分析时没有控制其它因素的干扰,因此结果不可靠.单因素分析的结果多因素分析的结果 由上最大似然估计分析知因素X2(吸烟),X3(年龄)对肺癌的
12、发生有影响。所得的回归方程为:Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X3-1.3037X4.2.条件logistic回归分析配对设计的类型:1:1、1:m、n:m(可采用分层COX模型来拟合)。例如:某市调查三种生活因素与胃癌的关系,资料见表5。表5配对资料(1:1)对子号病例对照x1x2x3x1x2x311301012031130301202010222000注:X1蛋白质摄入量,取值:0,1,2,3X2不良饮食习惯,取值:0,1,2,3X3精神状况,取值:0,1,2data log2;input no y x1 x2 x3;-输入变量cards;
13、1 0 1 3 0(对子号、病人、x1、x2、x3)1 1 1 0 1(对子号、对照、x1、x2、x3)2 0 0 3 1 2 1 1 3 0.10 1 0 0 0;proc phreg;-调用实现条件 Logistic回归和COX回归模块 model y=x1;-作单变量分析 strata no;run;proc phreg;model y=x1-x3;-作多变量分析 strata no;run;配对Logistic回归SPSS操作步骤:Analyze-Survival-COXRegression-Time框(outcome)-Status框(Status)-DefineEvent:Sing
14、levalue1:continue-Covariates框(x1、x2、x3)-Strata框(id)-Options-atlaststep-ok3、逐步Logistic回归分析(1 1)向前法)向前法(forward selection)(forward selection)开始方程中没有变量,自变量由少到多一个一个引入回归方程。按自变量对因变量的贡献(P值的大小)由小到大依次挑选,变量入选的条件是其P值小于规定进入方程的P界值Enter,缺省值 P(0.05)。(2)后退法(backward selection)开始变量都在方程中,然后按自变量因变量的贡献(P值的大小)由大到小依次剔除,变
15、量剔除的条件是其P值小于规定的剔除标准Remove,缺省值 p(0.10)。(3)逐步回归法逐步引入-剔除法(stepwiseselection)前进前进逐步引入-剔除法 是在前进法的思想下,考虑剔除变量,因此有两个p界值Enter,Remove。SPSS无论是条件还是非条件Logistic回归,在多变量分析时均可以采用逐步回归方法,实现的方法是:在 method后加选项:Enter:所有变量一次全部进入方程。Forward:逐步向前法 Backward:后退法 变量移出方程所采取的检验方法:Conditional;LR;Ward(尽量不用)二分类二分类LogisticLogistic回归回归
16、 method中文名称剔除依据Enter全部进入Forward:conditional向前逐步条件参数估计似然比PForward:LR向前逐步最大偏似然估计似然比PForward:Wald向前逐步Wald统计量PBackward:conditional向后逐步条件参数估计似然比PBackward:LR向后逐步最大偏似然估计似然比PBackward:Wald向后逐步Wald统计量PLogisticLogistic回归回归检验方法检验方法似然比检验(似然比检验(likelihood ratio testlikelihood ratio test)记分检验记分检验(score test)(score test)Wald Wald检验检验三种方法比较三种方法比较 通常应用似然比检验结果相对较可靠通常应用似然比检验结果相对较可靠.在在小样本情况下记分的分布根接近于卡方分布,小样本情况下记分的分布根接近于卡方分布,所以记分检验导致的第所以记分检验导致的第类类错误的可能性要小错误的可能性要小一些一些.Wald.Wald检验在计算和使用上较容易检验在计算和使用上较容易.但是但是结果略偏于保守结果略偏于
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1