SPSS二项Logistic回归.ppt

资源描述

SPSS二项Logistic回归.ppt

《SPSS二项Logistic回归.ppt》由会员分享，可在线阅读，更多相关《SPSS二项Logistic回归.ppt（16页珍藏版）》请在冰豆网上搜索。

SPSS二项Logistic回归.ppt

SPSSSPSS二项二项LogisticLogistic回归回归当被解释变量是0/1二值品质变量时，通常应采用Logistic回归；Logistic回归模型：

案例分析：

消费行为的消费行为的logisticlogistic回归分析回归分析背景：

背景：

为研究和预测某商品消费特点和趋势，收集到以为研究和预测某商品消费特点和趋势，收集到以往的消费数据。

数据项包括：

是否购买往的消费数据。

数据项包括：

是否购买（PURCHASE）（PURCHASE）、性、性别（别（GenderGender）、年龄（）、年龄（AgeAge）和收入水平（）和收入水平（IncomeIncome）。

）。

现依据性别（现依据性别（GenderGender）、年龄（）、年龄（AgeAge）和收入水平）和收入水平（IncomeIncome）预测判断消费者行为。

）预测判断消费者行为。

注意：

1111、本例中性别属于品质型变量。

品质型变量应将其转化虚拟变量后再参与回归分析。

22、虚拟变量的设置是将品质变量的各个类别分别以0/1二值变量的形式重新编码，1表示属于该类，0表示不属于该类；33、对于、对于nn个分类的品质变量，当确定了参照类后，只需设置个分类的品质变量，当确定了参照类后，只需设置n-1n-1个虚拟变量即可。

个虚拟变量即可。

如：

性别可需只设置变量x1表示是否男，取1表示男，取0表示非男即女，此时女类作为参照类。

基本操作：

选择分析（analyze）-回归（regression）-二元Logistic回归被解释变量的选择解释变量的选择条件变量的选择，只有满足条件变量值的样本才参与回归分析选择解释变量的筛选策略选择解释变量的筛选策略

（1）进入（enter）：

表示解释变量全部强行进入模型；

（2）向前：

条件（forward:

conditional）表示向前筛选变量且变量进入模型的依据是比分检验统计量，剔除出模型的依据是条件参数估计原则下的似然率卡方（首选选择使变化量变化最小的解释变量剔除出模型）；（3）向前：

LR（forward:

LR）表示向前筛选变量且变量进入模型的依据是比分检验统计量，剔除出模型的依据是极大似然估计原则下的似然比卡方；（4）向后：

条件（backward:

conditional）表示向后筛选变量且变量剔除出模型的依据是条件参数估计原则下的似然比卡方；（5）向后：

LR（backward:

LR）表示向后筛选变量且变量剔除出模型的依据是极大似然估计原则下的似然比卡方；（6）向后：

Wald（backward:

Wald）表示向后筛选变量且变量剔除出模型的依据是wald统计量；解释变量是品质变量时，点击分类按钮指定如何生成虚拟变量。

分类变量的选择。

更改对比（changecontrast）框中对比（contrast）中选择参照类，并点击更改。

其中：

指示符（indicator）表示以某个特定的类为参照类；这个类可以是品质变量最大值对应的类（即：

参考类别（reference）中的最后一个（last）;也可以是品质变量最小值对应的类（即：

参考类别（reference）中的第一个（first）绘制被解释变量实际值和预测分类值的关系图。

输出Hosmer-Lemeshow拟合优度指标。

（当解释变量较多且多为定距型变量时使用）输出各样本数据的非标准化残差和标准化残差等指标。

输出风险比默认95%的置信区间。

只输出最终的模型结果。

输出模型建立过程中每一步的结果。

指定解释变量进入或剔除出模型的显著性水平。

设置概率分界值。

预测概率值大于0.5时认为被解释变量的分类预测值为1，小于0.5时认为分类预测值为0.根据需要对预测精度的要求修改该参数。

设置极大似然估计的最大迭代次数。

保存被解释变量取值为1的概率值。

保存分类预测值。

保存残差。

u对被解释变量y中异常值的探测。

u标准化残差：

根据3准则，认为标准化残差绝对值大于3对应的观察值为异常值。

u学生化残差：

适用于存在异方差现象时的异常值判断。

一般认为：

学生化残差大于3对应的观察值为异常值。

u一般库克距离大于1，就可认为对应的观察值为强影响点。

u杠杆值是指反映了解释变量x的第i个值与x的平均值之间的差异；一般第i个样本的杠杆值较高（大于2倍或3倍的中心化杠杆值）意味着对应的x是一个强影响点。

u剔除第i个样本后，观察标准化回归系数前后变化。

标准化回归系数变化的绝对值大于2/时，可认为第i个样本可能是强影响点。

利用残差分析探测样本中的异常值和强影响点。

通常异常值和强影响点是指那些远离均值的样本数据点，对回归方程的参数估计有较大影响，应尽量找出并加以剔除。

OmnibusTestsofModelCoefficientsChi-square（似然比卡方）Df（自由度）Sig.（显著性水平）Step1Step18.4414.001Block18.4414.001Model18.4414.001回归模型的显著性检验回归模型的显著性检验上表中step行是本步与前一步相比的似然比卡方；Block行是本块与前一块相比的似然比卡方；Model行是本模型与前一模型相比的似然比卡方。

本例中没有设置解释变量块且解释变量是一次性强制进入，所以三行结果相同。

模型显著性检验的零假设：

零假设：

各回归系数同时为0，解释变量全体与logitP的线性关系不显著；备择假设：

。

如果显著性水平为0.05，因为概率P值0.001小于0.05，应拒绝零假设，认为所有回归系数不同时为0，解释变量全体与LogitP之间的关系显著，采用该模型是合理的。

强制进入策略下的回归结果：

ModelSummaryStep-2LoglikelihoodCox&SnellRSquareNagelkerkeRSquare1552.208a.042.057a.Estimationterminatedatiterationnumber4becauseparameterestimateschangedbylessthan.001.回归模型的拟合优度检验回归模型的拟合优度检验判断规则：

判断规则：

-2倍的对上似然函数值越小则模型的拟合优度越高；Cox&SnellR2相当于一般线性回归分析中的R2,NagelkerkeR2是修正的Cox&SnellR2，其值越接近0，模型的拟合优度越低；越接近1，模型的拟合优度越高。

从上表中可知，-2倍的对上似然函数值较高；Cox&SnellR2和NagelkerkeR2的值均接近0，说明模型的拟合优度较低。

VariablesintheEquationBS.E.WalddfSig.Exp（B）Step1aage.025.0181.9741.1601.026gender

（1）.511.2095.9541.0151.667income12.3052.002income

（1）.101.263.1461.7031.106income

（2）.787.2539.6761.0022.196Constant-2.112.7547.8431.005.121a.Variable（s）enteredonstep1:

age,gender,income.回归系数及显著性检验回归系数及显著性检验logisticlogistic回归模型回归模型回归系数显著性检验的零假设：

i=0,即某回归系数与零无差异，相应的及时变量与LogitP之间的线性关系不显著。

从表中可知，如果在5%的显著性水平下，年龄Age和收入

（1）的概率P值大于0.05，其回归系数与0无差异。

模型中有不显著解释变量，应考虑重新建模。

ClassificationTableaObservedPredicted是否购买不购买购买PercentageCorrectStep1是否购买不购买2363387.7购买1313119.1OverallPercentage61.9a.Thecutvalueis.500（注：

注：

如果预测概率值大于0.5则认为被解释变量的分类预测值为1；若小于0.5则认为被解释变量的分类预测值为0）错判矩阵错判矩阵表中可看出，实际不购买的269人中，预测正确的有236人，错判33人，正确率为87.7%；实际购买的162人中，正判有11人，错判131人，正判率为19.1%；总的正判率为61.9%。

向前向前向前向前LRLRLRLR筛选策略下的回归结果：

筛选策略下的回归结果：

逐步筛选回归模型的显著性检验逐步筛选回归模型的显著性检验上表中第二步与第一步相比的似然比卡方为5.917，概率为0.015小于显著水平0.05，此时的模型解释变量（即引入的性别变量）与logitP的线性关系显著；当前模型与第零步相比的对数似然比卡方为16.459，概率为0.001，说明当前模型中的解释变量全体与logitP的线性关系显著。

OmnibusTestsofModelCoefficientsChi-squaredfSig.Step1Step10.5432.005Block10.5432.005Model10.5432.005Step2Step5.9171.015Block16.4593.001Model16.4593.001ModelSummaryStep-2LoglikelihoodCox&SnellRSquareNagelkerkeRSquare1560.107a.024.0332554.190b.037.051a.Estimationterminatedatiterationnumber3becauseparameterestimateschangedbylessthan.001.b.Estimationterminatedatiterationnumber4becauseparameterestimateschangedbylessthan.001.逐步回归模型的拟合优度检验逐步回归模型的拟合优度检验从上表中可知，-2倍的对上似然函数值较高；Cox&SnellR2和NagelkerkeR2的值均接近0，说明模型的拟合优度较低。

逐步回归系数及显著性检验逐步回归系数及显著性检验从表中可知，第二步回归后最终模型只包含了性别和收入。

VariablesintheEquationBS.E.WalddfSig.Exp（B）（发生比（发生比）Step1aincome10.5122.005income

（1）.006.259.0011.9821.006income

（2）.672.2477.4241.0061.958Constant-.762.18716.6341.000.467Step2bgender

（1）.504.2095.8241.0161.656income11.6692.003income

（1）.096.263.1341.7141.101income

（2）.761.2519.1471.0022.139Constant-1.113.24021.4321.000.329a.Variable（s）enteredonstep1:

income.b.Variable（s）enteredonstep2:

gender.从模型

（1）可以看出女性和男性在购买上的差异。

女性较男性使LogitP平均增长0.504个单位；结合发生比，女性的购买发生比是男性的1.656倍，女性更倾向购买该商品；从模型

（2）可看出女性顾客群中中收入较低收入群能使LogitP平均增长0.096个单位；结合发生比可看出中等收入的购买发生比是低收入的1.101倍；从模型（3）可看出女性顾客群中高收入较低收入群能使LogitP平均增长0.761个单位；结合发生比可看

展开阅读全文