SPSS实验8二项Logistic回归分析教学文稿.docx

资源描述

SPSS实验8二项Logistic回归分析教学文稿.docx

《SPSS实验8二项Logistic回归分析教学文稿.docx》由会员分享，可在线阅读，更多相关《SPSS实验8二项Logistic回归分析教学文稿.docx（21页珍藏版）》请在冰豆网上搜索。

SPSS实验8二项Logistic回归分析教学文稿.docx

SPSS实验8二项Logistic回归分析教学文稿

SPSS作业8：

二项Logistic回归分析

为研究和预测某商品消费特点和趋势，收集到以往胡消费数据。

数据项包括是否购买，性别，年龄和收入水平。

这里采用Logistic回归的方法，是否购买作为被解释变量（0/1二值变量），其余各变量为解释变量，且其中性别和收入水平为品质变量，年龄为定距变量。

变量选择采用Enter方法，性别以男为参照类，收入以低收入为参照类。

（一）基本操作：

（1）选择菜单Analyze－Regression－BinaryLogistic;

（2）选择是否购买作为被解释变量到Dependent框中，选其余各变量为解释变量到Covariates框中，采用Enter方法，结果如下：

消费的二项Logistic分析结果

（一）（强制进入策略）

CategoricalVariablesCodings

Frequency

Parametercoding

（1）

（2）

收入

低收入

132

.000

中收入

144

1.000

.000

高收入

155

.000

1.000

性别

男

191

.000

女

240

1.000

分析：

上表显示了对品质变量产生虚拟变量的情况，产生的虚拟变量命名为原变量名（编码）。

可以看到，对收入生成了两个虚拟变量名为Income

（1）和Income

（2），分别表示是否中收入和是否高收入，两变量均为0时表示低收入；对性别生成了一个虚拟变量名为Gedder

（1），表示是否女，取值为0时表示为男。

消费的二项Logistic分析结果

（二）（强制进入策略）

Block0:

BeginningBlock

ClassificationTablea,b

Observed

Predicted

是否购买

PercentageCorrect

不购买

购买

Step0

是否购买

不购买

269

100.0

购买

162

OverallPercentage

62.4

a.Constantisincludedinthemodel.

b.Thecutvalueis.500

分析：

上表显示了Logistic分析初始阶段（第零步）方程中只有常数项时的错判矩阵。

可以看到：

269人中实际没购买且模型预测正确，正确率为100％；162人中实际购买了但模型均预测错误，正确率为0%。

模型总的预测正确率为62.4％。

消费的二项Logistic分析结果（三）（强制进入策略）

VariablesintheEquation

S.E.

Wald

Sig.

Exp（B）

Step0

Constant

-.507

.099

26.002

.000

.602

分析：

上表显示了方程中只有常数项时的回归系数方面的指标，各数据项的含义依次为回归系数，回归系数标准误差，Wald检验统计量的观测值，自由度，Wald检验统计量的概率p值，发生比。

由于此时模型中未包含任何解释变量，因此该表没有实际意义。

消费的二项Logistic分析结果（四）（强制进入策略）

VariablesnotintheEquation

Score

Sig.

Step0

Variables

age

1.268

.260

gender

（1）

4.667

.031

income

10.640

.005

income

（1）

2.935

.087

income

（2）

10.640

.001

OverallStatistics

18.273

.001

分析：

上表显示了待进入方程的各个变量的情况，各数据项的含义依次为Score检验统计量的观测值，自由度和概率p值。

可以看到，如果下一步Age进入方程，则Score检验统计量的观测值为1.268，概率p值为0.26。

如果显著性水平a为0.05，由于Age的概率p值大于显著性水平a，所以是不能进入方程的。

但在这里，由于解释变量的筛选策略为Enter，所以这些变量也被强行进入方程。

消费的二项Logistic分析结果（五）（强制进入策略）

Block1:

Method=Enter

OmnibusTestsofModelCoefficients

Chi-square

Sig.

Step1

Step

18.441

.001

Block

18.441

.001

Model

18.441

.001

分析：

上表显示了Logistic分析第一步时回归方程显著性检验的总体情况，各数据项的含义依次为似然比卡方的观测值，自由度和概率p值。

可以看到，在本步所选变量均进入方程（Method=Enter）。

与前一步相比，似然比卡方检验的观测值18.441，概率p值为0.001。

如果显著性水平a为0.05，由于概率p值小于显著性水平a，应拒绝零假设，认为所有回归系数不同时为0，解释变量的全体与LogitP之间的线性关系显著，采用该模型是合理的。

在这里分别输出了三行似然比卡方值。

其中，Step行是本步与前一步相比的似然卡方比；Block行是本块（Block）与前一块相比的似然卡方比；Model行是本模型与前一模型相比的似然卡方比。

在本例中，由于没有设置解释变量块，且解释变量是一次性强制进入模型，所以三行结果都相同。

消费的二项Logistic分析结果（六）（强制进入策略）

ModelSummary

Step

-2Loglikelihood

Cox&SnellRSquare

NagelkerkeRSquare

552.208a

.042

.057

a.Estimationterminatedatiterationnumber4becauseparameterestimateschangedbylessthan.001.

分析：

上表显示了当前模型拟合优度方面的指标，各数据项的含义依次为-2倍的对数似然函数值，Cox&SnellR^2。

-2倍的对数似然函数值越小则模型的拟合优度越高。

这里该值较大，所以模型的拟合优度并不理想。

从NagelkerkeR^2也可以看到其值接近零，因此拟合优度比较低。

消费的二项Logistic分析结果（七）（强制进入策略）

ClassificationTablea

Observed

Predicted

是否购买

PercentageCorrect

不购买

购买

Step1

是否购买

不购买

236

87.7

购买

131

19.1

OverallPercentage

61.9

a.Thecutvalueis.500

分析：

上表显示了当前所得模型的错判矩阵。

可以看到，脚注中的TheCutvalueis.500意味着：

如果预测概率值大于0.5，则认为被解释变量的分类预测值为1，如果小于0.5，则认为被解释变量的分类预测值为0.；在实际没购买的269人中，模型正确识别了236人，识别错误了131人，正确率为19.1%。

模型总的预测正确率为61.9%。

与前一步相比，对未购买的预测准确度下降了，对购买的预测准确度上升了，但总体预测精度仍下降了。

因此模型预测效果并不十分理想。

消费的二项Logistic分析结果（八）（强制进入策略）

VariablesintheEquation

S.E.

Wald

Sig.

Exp（B）

Step1a

age

.025

.018

1.974

.160

1.026

gender

（1）

.511

.209

5.954

.015

1.667

income

12.305

.002

income

（1）

.101

.263

.146

.703

1.106

income

（2）

.787

.253

9.676

.002

2.196

Constant

-2.112

.754

7.843

.005

.121

a.Variable（s）enteredonstep1:

age,gender,income.

分析：

上表显示了当前所得模型中各个回归系数方面的指标。

可以看出，如果显著性水平a为0.05，由于Age的Wald检验概率p值大于显著性水平a，不应拒绝零假设，认为该回归系数与0无显著差异，它与LogitP的线性关系是不显著的，不应保留在方程中。

由于方程中包含了不显著的解释变量，因此该模型是不可用的，应重新建模。

下面是对模型做进一步分析，解释变量的筛选采用基于极大似然估计的逐步筛选策略（Forward：

LR），分析的具体操作以及结果如下：

（二）基本操作：

（1）选择菜单Analyze－Regression－BinaryLogistic;

（2）选择是否购买作为被解释变量到Dependent框中，选其余各变量为解释变量到Covariates框中，采用Forward:

LR方法，在Option框中对模型做近一步分析，结果如下：

消费的二项Logistic分析结果

（一）（逐步筛选策略）

Block1:

Method=ForwardStepwise（LikelihoodRatio）

OmnibusTestsofModelCoefficients

Chi-square

Sig.

Step1

Step

10.543

.005

Block

10.543

.005

Model

10.543

.005

Step2

Step

5.917

.015

Block

16.459

.001

Model

16.459

.001

消费的二项Logistic分析结果

（二）（逐步筛选策略）

ModelifTermRemoved

Variable

ModelLogLikelihood

Changein-2LogLikelihood

Sig.oftheChange

Step1

income

-285.325

10.543

.005

Step2

gender

-280.053

5.917

.015

income

-282.976

11.761

.003

分析：

上面第一个表显示了变量逐步筛选过程中对数似然比卡方检验的结果，用于回归方程的显著性检验。

这里略去了第零步分析的结果。

结果上面的两个表共同分析。

在Step1中，模型中包含常数项和INCOME。

如果此时剔除INCOME将使-2LL减少10.543，即10.543是INCOME进入模型引起的，-285.325即为零模型的对数似然比；在Step2中，模型中包含常数项，INCOME，GENDER。

此时剔除GENDER，即-2LL将减少5.917，即5.917是在Step1基础上GENDER所引起的，-280.053即为Step1模型的对数似然比，此时-2*285.325+2*280.053=10.543，即INCOME引起的。

其他同理。

可以看到，如果显著性水平a为0.05，由于各步的概率p值均小于显著性水平a，因此此时模型中的解释变量全体与LogitP的线性关系是显著，模型合理。

消费的二项Logistic分析结果（三）（逐步筛选策略）

VariablesintheEquation

S.E.

Wald

Sig.

Exp（B）

95.0%C.I.forEXP（B）

Lower

Upper

Step1a

income

10.512

.005

income

（1）

.006

.259

.001

.982

1.006

.606

1.670

income

（2）

.672

.247

7.424

.006

1.958

1.208

3.174

Constant

-.762

.187

16.634

.000

.467

Step2b

gender

（1）

.504

.209

5.824

.016

1.656

1.099

2.493

income

11.669

.003

income

（1）

.096

.263

.134

.714

1.101

.658

1.843

income

（2）

.761

.251

9.147

.002

2.139

1.307

3.502

Constant

-1.113

.240

21.432

.000

.329

a.Variable（s）enteredonstep1:

income.

b.Variable（s）enteredonstep2:

gender.

分析：

上表显示了解释变量筛选的过程和各解释变量的回归系数检验结果。

可以看到，最终的模型（第二步）中包含了性别和收入变量，各自回归系数显著性检验的Wald观测值对应的概率p值都小于显著性水平a，因此均拒绝零假设，意味它们与LogitP的线性关系是显著，应保留在方程中。

表中的第七，第八列分别是发生比的95%的置信区间。

最终年龄变量没有引入方程，因为如果引入则相应的Score检验的概率p值大于显著性水平a，不应拒绝零假设，它与LogitP的线性关系不显著，不应进入方程。

具体结果如下：

消费的二项Logistic分析结果（四）（逐步筛选策略）

VariablesnotintheEquation

Score

Sig.

Step1

Variables

age

1.848

.174

gender

（1）

5.865

.015

OverallStatistics

7.824

.020

Step2

Variables

age

1.984

.159

OverallStatistics

1.984

.159

消费的二项Logistic分析结果（五）（逐步筛选策略）

ModelSummary

Step

-2Loglikelihood

Cox&SnellRSquare

NagelkerkeRSquare

560.107a

.024

.033

554.190b

.037

.051

a.Estimationterminatedatiterationnumber3becauseparameterestimateschangedbylessthan.001.

b.Estimationterminatedatiterationnumber4becauseparameterestimateschangedbylessthan.001.

分析：

上表显示了模型拟合优度方面的测度指标。

最终模型的-2倍的对数似然函数值为554.190，仍然较高，说明模型的拟合优度不甚理想。

同时，NagelkerkeR^2距1较远，也说明了模型的拟合优度不高。

消费的二项Logistic分析结果（六）（逐步筛选策略）

HosmerandLemeshowTest

Step

Chi-square

Sig.

.000

1.000

8.943

.063

消费的二项Logistic分析结果（七）（逐步筛选策略）

ContingencyTableforHosmerandLemeshowTest

是否购买=不购买

是否购买=购买

Total

Observed

Expected

Observed

Expected

Step1

90.000

42.000

132

98.000

46.000

144

81.000

74.000

155

Step2

32.363

10.637

53.602

19.398

57.637

31.363

44.398

26.602

44.035

30.965

36.965

43.035

分析：

上面是Hosmer-Lemeshow检验的结果。

最终模型中，Hosmer-Lemeshow统计量的观测值为8.943，概率p值为0.063，大于显著性水平a，因此不应拒绝零假设，认为该组的划分与被解释变量的取值不相关，说明模型的拟合优度较低。

它与NagelkerkeR^2分析的结果是一致的。

消费的二项Logistic分析结果（八）（逐步筛选策略）

ClassificationTablea

Observed

Predicted

是否购买

PercentageCorrect

不购买

购买

Step1

是否购买

不购买

269

100.0

购买

162

OverallPercentage

62.4

Step2

是否购买

不购买

225

83.6

购买

126

22.2

OverallPercentage

60.6

a.Thecutvalueis.500

Step number:

Observed Groups and Predicted Probabilities

160 ┼ ┼

│ │

F │ │

R 120 ┼ ┼

E │ │

Q │ │

U │ 1 │

E 80 ┼ 1 1 1 ┼

N │ 1 1 1 1 1 │

C │ 0 0 1 1 1 │

Y │ 0 0 1 1 1 │

40 ┼ 0 0 0 0 0 0 ┼

│ 0 0 0 0 0 0 │

Predicted ─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼──────────

Prob:

0 .1 .2 .3 .4 .5

展开阅读全文