1、253231727130049502815005193063132736331800842229463810482441115545125621002613585214逻辑回归SPSS操作方法的具体步骤:1选择AnalyzeRegreessinBinary Logistic,打开对话框如图1所示: 图1 主对话框Logistic回归。2选择因变量Y进入Dependent框内,将自变量选择进入 Convariates框。也可以将不同的自变量组放在不同的块(block)中,可以分析不同的自变量组对因变量的贡献。3在Mothed框内选择自变量的筛选策略:Enter表示强行进入法;(本例选择)Forw
2、ord和Bacword都表示逐步筛选策略;Forword 为自变量逐步进入,Bacword是自变量逐步剔出。Conditional ;LR; Wald分别表示不同的检验统计量,如Forword Wald表示自变量进入方程的依据是Wald统计量。4在Selection中选择一个变量作为条件变量,只有满足条件的变量数据才能参与回归分析。5单击Categorical打开Categorical对话框如图2所示:对定性变量的自变量选择参照类。常用的方法是Indicator,即以某个特定的类为参照类,Last表示以最大值对应的类为参照类(系统默认),First表示以最小值对应的类为参照类。选择后点击Con
3、tinue按钮返回主对话框。(本例不作选择性)图2 Categorical对话框6单击Option按钮,打开Option对话框如图3所示 图3:Option对话框(1)从Statistics and Plots框中选择输出图和分析结果。 Classification Plots:表示绘制因变量实际值与预测分类值的关系图(本例选择)。Hosmer-lemeshow goodness-of-fit:表示拟合优度指标(本例选择)。Casewise Listing of residuals:表示输出各样本数据残差列表,有因变量的观察值,预测值,相应的预测概率,残差(非标准化残差,标准化残差)等。 Co
4、rrelations of estimations:表示输出估计参数的相关矩阵(本例选择)。Iteration history:表示输出估计参数迭代过程中的参数与对数似然值(本例选择)。CI for exp(B):表示输出发生比N%的置信区间(默认95%)。(2)从Display框中选择输出方式。 At each step 表示输出模型建立过程中的每一步结果(系统默认),At last step 表示只输出最终结果。(3)从Propbability for Stepwise框中指定自变量进入方程或剔除方程的显著性水平。Entry表示回归系数Score检验的概率p值小于时相应变量可进入方程; R
5、emoval 表示回归系数Score检验的概率p值大于时相应变量应当剔除出回归方程.。(4)Classification Cutoff设置概率分界值,预测概率大于分界值(默认)时,分类预测值为1, 否则为预测值为0。(本例选择系统默认项)(5)从Maximum Iterations框内指定极大似然估计的最大迭代次数(默认值是20)7单击Save按钮,打开Save对话框如图4所示:从中选择需要保存预测结果到数据窗口。图4:Save对话框(1)从Predieted Values框中,Probalities 表示保存因变量取1 的预测概率值,Croup membership表示保存分类预测值。(2)
6、Residuals和Influence表示保存残差及影响点,具体含义与线性回归相同。选择结束,后可以从输出窗口观看输出结果如下:表1 案例处理摘要未加权的案例aN百分比已选定的案例包括在分析中缺失案例.0总计未选定的案例a. 如果权重有效,请参见分类表以获得案例总数。表2 因变量编码初始值内部值以上两个表是数据个数,分类,及因变量的概况。表3 迭代历史记录a,b,c迭代-2 对数似然值系数Constant步骤 0a. 模型中包括常量。b. 初始 -2 对数似然值:c. 因为参数估计的更改范围小于 .001,所以估计在迭代次数 2 处终止。表4 分类表a,b观察值预测值出行方式百分比校正总百分比
7、b. 切割值为 .500表5 方程中的变量B.Walddf显著性Exp(B)常量.379.143.706.867表6 不在方程中的变量得分变量x3.024x1.014x2.086总统计量.015注意:表3至表6表示只有常数项的模型,没有实际意义,可以不考虑。表7 迭代历史记录a,b,c,dx1(1)步骤 1.056.001.075.082.002a. 方法:输入b. 模型中包括常量。c. 初始 -2 对数似然值:d. 因为参数估计的更改范围小于 .001,所以估计在迭代次数 5 处终止。 表7表示的是迭代历史,表示每一次迭代中-2LL值和系数值。表8 模型系数的综合检验卡方步骤.005块模型表
8、8模型综合检验是模型拟合优度检验的,用-2LL度量。最好的模型有-2LL=0,步骤1中的“步骤”中的卡方值是当前-2LL与下一步-2LL的差值,“块”中的卡方值为当前值-2LL与后一组变量进入模型后的-2LL的差值,“模型”中的卡方统计量是当前模型中的-2LL与只含常数项模型的-2LL的差值,因所有自变量是强行进入,只有一个步骤,一个块和一个模型,所以三者的卡方值相等。本例中假设检验的P值等于,小于,故模型中至少有一个回归系数不为0。表9 模型摘要Cox & Snell R 方Nagelkerke R 方25.971a.365.487a. 因为参数估计的更改范围小于 .001,所以估计在迭代次
9、数 5 处终止。从表9中看出-22LN值不算太大,模型拟合程度一般。 Snell R2和 Nagelkerke R2类似于线性模型中的拟合优度检验。其中: Snell R2= Nagelkerke R2=从表中得出Cox & Snell R2和 Nagelkerke R2类不是太高,似合优度一般。表10 Hosmer 和 Lemeshow 检验.118表11 Hosmer 和 Lemeshow 检验的随机性表出行方式 = 0出行方式 = 1期望值.173.336.527.953.556.172表10 和表11是逻辑方程的拟合程度的检验,由于观察值和理论频数的差异不大,检验通过。但是理论频数都小
10、于5,原因是数据个数太少造成的,所以检验结果有待进一步检验。 表12 分类表aa. 切割值为 .500表12也称错判矩阵。从表10中看出,如出行方式为坐公交车15人中,预测值为13人,正确率为%。表13 方程中的变量步骤 1a.031.052.115.661.416.081.026a. 在步骤 1 中输入的变量: x3, x1, x2. 从表13中可以得到回归系数、回归系数的标准误、Wald检验统计量、P值、发生比等。其中第二个与第三个变量的回归系数没有通过检验。为回归系数的标准误。表示一个自变量的发生比,指当其它自变量不变时,该自变量每增加一个单位,将引起发生比扩大。表14 相关矩阵x3 x
11、1 x2 .311 表14中表示的是回归系数的相关矩阵。Stepnumber:ObservedGroupsandPredictedProbabilitiesProbabilityisofMembershipforTheCutValue.50Symbols:0- 图5 预测分类图 预测分类图中显示预测值的分布,横坐标表示预测概率值,大于的预测值将预测为1,小于的预测值为0。图中0表示实际观察值为Y=0,1表示观察值Y=1,纵向四个同样的数字表示一个样本观察值。实验题:为研究某商品消费特点和趋势,收集以往的消费数据,数据包括:因变量Y为是否购买,购买取值为1,否则Y取值为0。自变量有性别,年龄和收入水平。数据见表。试采用逻辑回归的方法进行分析。
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1