SPSS实验8二项Logistic回归分析.docx-资源下载

SPSS实验8二项Logistic回归分析.docx

1、SPSS实验8二项Logistic回归分析SPSS作业8：二项Logistic回归分析为研究和预测某商品消费特点和趋势，收集到以往胡消费数据。数据项包括是否购买，性别，年龄和收入水平。这里采用Logistic回归的方法，是否购买作为被解释变量（0/1二值变量），其余各变量为解释变量，且其中性别和收入水平为品质变量，年龄为定距变量。变量选择采用Enter方法，性别以男为参照类，收入以低收入为参照类。（一）基本操作：（1）选择菜单AnalyzeRegressionBinary Logistic;（2）选择是否购买作为被解释变量到Dependent框中，选其余各变量为解释变量到Covariates框

2、中，采用Enter方法，结果如下：消费的二项Logistic分析结果（一）（强制进入策略）Categorical Variables CodingsFrequencyParameter coding(1)(2)收入低收入132.000.000中收入1441.000.000高收入155.0001.000性别男191.000女2401.000分析：上表显示了对品质变量产生虚拟变量的情况，产生的虚拟变量命名为原变量名（编码）。可以看到，对收入生成了两个虚拟变量名为Income（1）和Income（2），分别表示是否中收入和是否高收入，两变量均为0时表示低收入；对性别生成了一个虚拟变量名为Gedder

3、（1），表示是否女，取值为0时表示为男。消费的二项Logistic分析结果（二）（强制进入策略）Block 0: Beginning BlockClassification Tablea,bObservedPredicted是否购买Percentage Correct不购买购买Step 0是否购买不购买2690100.0购买1620.0Overall Percentage62.4a. Constant is included in the model.b. The cut value is .500分析：上表显示了Logistic分析初始阶段（第零步）方程中只有常数项时的错判矩阵。可以看到：2

4、69人中实际没购买且模型预测正确，正确率为100；162人中实际购买了但模型均预测错误，正确率为0%。模型总的预测正确率为62.4。消费的二项Logistic分析结果（三）（强制进入策略）Variables in the EquationBS.E.WalddfSig.Exp(B)Step 0Constant-.507.09926.0021.000.602分析：上表显示了方程中只有常数项时的回归系数方面的指标，各数据项的含义依次为回归系数，回归系数标准误差，Wald检验统计量的观测值，自由度，Wald检验统计量的概率p值，发生比。由于此时模型中未包含任何解释变量，因此该表没有实际意义。消费的二项

5、Logistic分析结果（四）（强制进入策略）Variables not in the EquationScoredfSig.Step 0Variablesage1.2681.260gender(1)4.6671.031income10.6402.005income(1)2.9351.087income(2)10.6401.001Overall Statistics18.2734.001分析：上表显示了待进入方程的各个变量的情况，各数据项的含义依次为Score检验统计量的观测值，自由度和概率p值。可以看到，如果下一步Age进入方程，则Score检验统计量的观测值为1.268，概率p值为0.26

6、。如果显著性水平a为0.05，由于Age的概率p值大于显著性水平a，所以是不能进入方程的。但在这里，由于解释变量的筛选策略为Enter，所以这些变量也被强行进入方程。消费的二项Logistic分析结果（五）（强制进入策略）Block 1: Method = EnterOmnibus Tests of Model CoefficientsChi-squaredfSig.Step 1Step18.4414.001Block18.4414.001Model18.4414.001分析：上表显示了Logistic分析第一步时回归方程显著性检验的总体情况，各数据项的含义依次为似然比卡方的观测值，自由度和概

7、率p值。可以看到，在本步所选变量均进入方程（Method=Enter）。与前一步相比，似然比卡方检验的观测值18.441，概率p值为0.001。如果显著性水平a为0.05，由于概率p值小于显著性水平a，应拒绝零假设，认为所有回归系数不同时为0，解释变量的全体与Logit P之间的线性关系显著，采用该模型是合理的。在这里分别输出了三行似然比卡方值。其中，Step行是本步与前一步相比的似然卡方比；Block行是本块（Block）与前一块相比的似然卡方比；Model行是本模型与前一模型相比的似然卡方比。在本例中，由于没有设置解释变量块，且解释变量是一次性强制进入模型，所以三行结果都相同。消费的二项L

8、ogistic分析结果（六）（强制进入策略）Model SummaryStep-2 Log likelihoodCox & Snell R SquareNagelkerke R Square1552.208a.042.057a. Estimation terminated at iteration number 4 because parameter estimates changed by less than .001.分析：上表显示了当前模型拟合优度方面的指标，各数据项的含义依次为-2倍的对数似然函数值，Cox&SnellR2。-2倍的对数似然函数值越小则模型的拟合优度越高。这里该值较大，

9、所以模型的拟合优度并不理想。从NagelkerkeR2也可以看到其值接近零，因此拟合优度比较低。消费的二项Logistic分析结果（七）（强制进入策略）Classification TableaObservedPredicted是否购买Percentage Correct不购买购买Step 1是否购买不购买2363387.7购买1313119.1Overall Percentage61.9a. The cut value is .500分析：上表显示了当前所得模型的错判矩阵。可以看到，脚注中的The Cut value is .500意味着：如果预测概率值大于0.5，则认为被解释变量的分类预测

10、值为1，如果小于0.5，则认为被解释变量的分类预测值为0.；在实际没购买的269人中，模型正确识别了236人，识别错误了131人，正确率为19.1%。模型总的预测正确率为61.9%。与前一步相比，对未购买的预测准确度下降了，对购买的预测准确度上升了，但总体预测精度仍下降了。因此模型预测效果并不十分理想。消费的二项Logistic分析结果（八）（强制进入策略）Variables in the EquationBS.E.WalddfSig.Exp(B)Step 1aage.025.0181.9741.1601.026gender(1).511.2095.9541.0151.667income12.

11、3052.002income(1).101.263.1461.7031.106income(2).787.2539.6761.0022.196Constant-2.112.7547.8431.005.121a. Variable(s) entered on step 1: age, gender, income.分析：上表显示了当前所得模型中各个回归系数方面的指标。可以看出，如果显著性水平a为0.05，由于Age的Wald检验概率p值大于显著性水平a，不应拒绝零假设，认为该回归系数与0无显著差异，它与Logit P的线性关系是不显著的，不应保留在方程中。由于方程中包含了不显著的解释变量，因此该

12、模型是不可用的，应重新建模。下面是对模型做进一步分析，解释变量的筛选采用基于极大似然估计的逐步筛选策略（Forward：LR），分析的具体操作以及结果如下：（二）基本操作：（1）选择菜单AnalyzeRegressionBinary Logistic;（2）选择是否购买作为被解释变量到Dependent框中，选其余各变量为解释变量到Covariates框中，采用Forward:LR方法，在Option框中对模型做近一步分析，结果如下：消费的二项Logistic分析结果（一）（逐步筛选策略）Block 1: Method = Forward Stepwise (Likelihood Ratio)

13、Omnibus Tests of Model CoefficientsChi-squaredfSig.Step 1Step10.5432.005Block10.5432.005Model10.5432.005Step 2Step5.9171.015Block16.4593.001Model16.4593.001消费的二项Logistic分析结果（二）（逐步筛选策略）Model if Term RemovedVariableModel Log LikelihoodChange in -2 Log LikelihooddfSig. of the ChangeStep 1income-285.325

14、10.5432.005Step 2gender-280.0535.9171.015income-282.97611.7612.003分析：上面第一个表显示了变量逐步筛选过程中对数似然比卡方检验的结果，用于回归方程的显著性检验。这里略去了第零步分析的结果。结果上面的两个表共同分析。在Step1中，模型中包含常数项和INCOME。如果此时剔除INCOME将使-2LL减少10.543，即10.543是INCOME进入模型引起的，-285.325即为零模型的对数似然比；在Step2中，模型中包含常数项，INCOME，GENDER。此时剔除GENDER，即-2LL将减少5.917，即5.917是在Ste

15、p1基础上GENDER所引起的，-280.053即为Step1模型的对数似然比，此时-2*285.325+2*280.053=10.543，即INCOME引起的。其他同理。可以看到，如果显著性水平a为0.05，由于各步的概率p值均小于显著性水平a，因此此时模型中的解释变量全体与Logit P的线性关系是显著，模型合理。消费的二项Logistic分析结果（三）（逐步筛选策略）Variables in the EquationBS.E.WalddfSig.Exp(B)95.0% C.I.for EXP(B)LowerUpperStep 1aincome10.5122.005income(1).00

16、6.259.0011.9821.006.6061.670income(2).672.2477.4241.0061.9581.2083.174Constant-.762.18716.6341.000.467Step 2bgender(1).504.2095.8241.0161.6561.0992.493income11.6692.003income(1).096.263.1341.7141.101.6581.843income(2).761.2519.1471.0022.1391.3073.502Constant-1.113.24021.4321.000.329a. Variable(s) en

17、tered on step 1: income.b. Variable(s) entered on step 2: gender.分析：上表显示了解释变量筛选的过程和各解释变量的回归系数检验结果。可以看到，最终的模型（第二步）中包含了性别和收入变量，各自回归系数显著性检验的Wald观测值对应的概率p值都小于显著性水平a，因此均拒绝零假设，意味它们与Logit P的线性关系是显著，应保留在方程中。表中的第七，第八列分别是发生比的95%的置信区间。最终年龄变量没有引入方程，因为如果引入则相应的Score检验的概率p值大于显著性水平a，不应拒绝零假设，它与Logit P的线性关系不显著，不应进入方程

18、。具体结果如下：消费的二项Logistic分析结果（四）（逐步筛选策略）Variables not in the EquationScoredfSig.Step 1Variablesage1.8481.174gender(1)5.8651.015Overall Statistics7.8242.020Step 2Variablesage1.9841.159Overall Statistics1.9841.159消费的二项Logistic分析结果（五）（逐步筛选策略）Model SummaryStep-2 Log likelihoodCox & Snell R SquareNagelkerke

19、R Square1560.107a.024.0332554.190b.037.051a. Estimation terminated at iteration number 3 because parameter estimates changed by less than .001.b. Estimation terminated at iteration number 4 because parameter estimates changed by less than .001.分析：上表显示了模型拟合优度方面的测度指标。最终模型的-2倍的对数似然函数值为554.190，仍然较高，说明模型

20、的拟合优度不甚理想。同时，NagelkerkeR2距1较远，也说明了模型的拟合优度不高。消费的二项Logistic分析结果（六）（逐步筛选策略）Hosmer and Lemeshow TestStepChi-squaredfSig.1.00011.00028.9434.063消费的二项Logistic分析结果（七）（逐步筛选策略）Contingency Table for Hosmer and Lemeshow Test是否购买 = 不购买是否购买 = 购买TotalObservedExpectedObservedExpectedStep 119090.0004242.00013229898.

21、0004646.00014438181.0007474.000155Step 213532.363810.6374325853.6021519.3987335557.6373431.3638944044.3983126.6027153744.0353830.9657564436.9653643.03580分析：上面是Hosmer-Lemeshow检验的结果。最终模型中，Hosmer-Lemeshow统计量的观测值为8.943，概率p值为0.063，大于显著性水平a，因此不应拒绝零假设，认为该组的划分与被解释变量的取值不相关，说明模型的拟合优度较低。它与NagelkerkeR2分析的结果是一致的

22、。消费的二项Logistic分析结果（八）（逐步筛选策略）Classification TableaObservedPredicted是否购买Percentage Correct不购买购买Step 1是否购买不购买2690100.0购买1620.0Overall Percentage62.4Step 2是否购买不购买2254483.6购买1263622.2Overall Percentage60.6a. The cut value is .500Stepnumber:2ObservedGroupsandPredictedProbabilities160FR120EQU1E80111N11111C00111Y0011140000000000000000000000000PredictedProb:0.1.2.3.4.5

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？