SPSS实验8二项Logistic回归分析教学文稿.docx
《SPSS实验8二项Logistic回归分析教学文稿.docx》由会员分享,可在线阅读,更多相关《SPSS实验8二项Logistic回归分析教学文稿.docx(21页珍藏版)》请在冰豆网上搜索。
SPSS实验8二项Logistic回归分析教学文稿
SPSS作业8:
二项Logistic回归分析
为研究和预测某商品消费特点和趋势,收集到以往胡消费数据。
数据项包括是否购买,性别,年龄和收入水平。
这里采用Logistic回归的方法,是否购买作为被解释变量(0/1二值变量),其余各变量为解释变量,且其中性别和收入水平为品质变量,年龄为定距变量。
变量选择采用Enter方法,性别以男为参照类,收入以低收入为参照类。
(一)基本操作:
(1)选择菜单Analyze-Regression-BinaryLogistic;
(2)选择是否购买作为被解释变量到Dependent框中,选其余各变量为解释变量到Covariates框中,采用Enter方法,结果如下:
消费的二项Logistic分析结果
(一)(强制进入策略)
CategoricalVariablesCodings
Frequency
Parametercoding
(1)
(2)
收入
低收入
132
.000
.000
中收入
144
1.000
.000
高收入
155
.000
1.000
性别
男
191
.000
女
240
1.000
分析:
上表显示了对品质变量产生虚拟变量的情况,产生的虚拟变量命名为原变量名(编码)。
可以看到,对收入生成了两个虚拟变量名为Income
(1)和Income
(2),分别表示是否中收入和是否高收入,两变量均为0时表示低收入;对性别生成了一个虚拟变量名为Gedder
(1),表示是否女,取值为0时表示为男。
消费的二项Logistic分析结果
(二)(强制进入策略)
Block0:
BeginningBlock
ClassificationTablea,b
Observed
Predicted
是否购买
PercentageCorrect
不购买
购买
Step0
是否购买
不购买
269
0
100.0
购买
162
0
.0
OverallPercentage
62.4
a.Constantisincludedinthemodel.
b.Thecutvalueis.500
分析:
上表显示了Logistic分析初始阶段(第零步)方程中只有常数项时的错判矩阵。
可以看到:
269人中实际没购买且模型预测正确,正确率为100%;162人中实际购买了但模型均预测错误,正确率为0%。
模型总的预测正确率为62.4%。
消费的二项Logistic分析结果(三)(强制进入策略)
VariablesintheEquation
B
S.E.
Wald
df
Sig.
Exp(B)
Step0
Constant
-.507
.099
26.002
1
.000
.602
分析:
上表显示了方程中只有常数项时的回归系数方面的指标,各数据项的含义依次为回归系数,回归系数标准误差,Wald检验统计量的观测值,自由度,Wald检验统计量的概率p值,发生比。
由于此时模型中未包含任何解释变量,因此该表没有实际意义。
消费的二项Logistic分析结果(四)(强制进入策略)
VariablesnotintheEquation
Score
df
Sig.
Step0
Variables
age
1.268
1
.260
gender
(1)
4.667
1
.031
income
10.640
2
.005
income
(1)
2.935
1
.087
income
(2)
10.640
1
.001
OverallStatistics
18.273
4
.001
分析:
上表显示了待进入方程的各个变量的情况,各数据项的含义依次为Score检验统计量的观测值,自由度和概率p值。
可以看到,如果下一步Age进入方程,则Score检验统计量的观测值为1.268,概率p值为0.26。
如果显著性水平a为0.05,由于Age的概率p值大于显著性水平a,所以是不能进入方程的。
但在这里,由于解释变量的筛选策略为Enter,所以这些变量也被强行进入方程。
消费的二项Logistic分析结果(五)(强制进入策略)
Block1:
Method=Enter
OmnibusTestsofModelCoefficients
Chi-square
df
Sig.
Step1
Step
18.441
4
.001
Block
18.441
4
.001
Model
18.441
4
.001
分析:
上表显示了Logistic分析第一步时回归方程显著性检验的总体情况,各数据项的含义依次为似然比卡方的观测值,自由度和概率p值。
可以看到,在本步所选变量均进入方程(Method=Enter)。
与前一步相比,似然比卡方检验的观测值18.441,概率p值为0.001。
如果显著性水平a为0.05,由于概率p值小于显著性水平a,应拒绝零假设,认为所有回归系数不同时为0,解释变量的全体与LogitP之间的线性关系显著,采用该模型是合理的。
在这里分别输出了三行似然比卡方值。
其中,Step行是本步与前一步相比的似然卡方比;Block行是本块(Block)与前一块相比的似然卡方比;Model行是本模型与前一模型相比的似然卡方比。
在本例中,由于没有设置解释变量块,且解释变量是一次性强制进入模型,所以三行结果都相同。
消费的二项Logistic分析结果(六)(强制进入策略)
ModelSummary
Step
-2Loglikelihood
Cox&SnellRSquare
NagelkerkeRSquare
1
552.208a
.042
.057
a.Estimationterminatedatiterationnumber4becauseparameterestimateschangedbylessthan.001.
分析:
上表显示了当前模型拟合优度方面的指标,各数据项的含义依次为-2倍的对数似然函数值,Cox&SnellR^2。
-2倍的对数似然函数值越小则模型的拟合优度越高。
这里该值较大,所以模型的拟合优度并不理想。
从NagelkerkeR^2也可以看到其值接近零,因此拟合优度比较低。
消费的二项Logistic分析结果(七)(强制进入策略)
ClassificationTablea
Observed
Predicted
是否购买
PercentageCorrect
不购买
购买
Step1
是否购买
不购买
236
33
87.7
购买
131
31
19.1
OverallPercentage
61.9
a.Thecutvalueis.500
分析:
上表显示了当前所得模型的错判矩阵。
可以看到,脚注中的TheCutvalueis.500意味着:
如果预测概率值大于0.5,则认为被解释变量的分类预测值为1,如果小于0.5,则认为被解释变量的分类预测值为0.;在实际没购买的269人中,模型正确识别了236人,识别错误了131人,正确率为19.1%。
模型总的预测正确率为61.9%。
与前一步相比,对未购买的预测准确度下降了,对购买的预测准确度上升了,但总体预测精度仍下降了。
因此模型预测效果并不十分理想。
消费的二项Logistic分析结果(八)(强制进入策略)
VariablesintheEquation
B
S.E.
Wald
df
Sig.
Exp(B)
Step1a
age
.025
.018
1.974
1
.160
1.026
gender
(1)
.511
.209
5.954
1
.015
1.667
income
12.305
2
.002
income
(1)
.101
.263
.146
1
.703
1.106
income
(2)
.787
.253
9.676
1
.002
2.196
Constant
-2.112
.754
7.843
1
.005
.121
a.Variable(s)enteredonstep1:
age,gender,income.
分析:
上表显示了当前所得模型中各个回归系数方面的指标。
可以看出,如果显著性水平a为0.05,由于Age的Wald检验概率p值大于显著性水平a,不应拒绝零假设,认为该回归系数与0无显著差异,它与LogitP的线性关系是不显著的,不应保留在方程中。
由于方程中包含了不显著的解释变量,因此该模型是不可用的,应重新建模。
下面是对模型做进一步分析,解释变量的筛选采用基于极大似然估计的逐步筛选策略(Forward:
LR),分析的具体操作以及结果如下:
(二)基本操作:
(1)选择菜单Analyze-Regression-BinaryLogistic;
(2)选择是否购买作为被解释变量到Dependent框中,选其余各变量为解释变量到Covariates框中,采用Forward:
LR方法,在Option框中对模型做近一步分析,结果如下:
消费的二项Logistic分析结果
(一)(逐步筛选策略)
Block1:
Method=ForwardStepwise(LikelihoodRatio)
OmnibusTestsofModelCoefficients
Chi-square
df
Sig.
Step1
Step
10.543
2
.005
Block
10.543
2
.005
Model
10.543
2
.005
Step2
Step
5.917
1
.015
Block
16.459
3
.001
Model
16.459
3
.001
消费的二项Logistic分析结果
(二)(逐步筛选策略)
ModelifTermRemoved
Variable
ModelLogLikelihood
Changein-2LogLikelihood
df
Sig.oftheChange
Step1
income
-285.325
10.543
2
.005
Step2
gender
-280.053
5.917
1
.015
income
-282.976
11.761
2
.003
分析:
上面第一个表显示了变量逐步筛选过程中对数似然比卡方检验的结果,用于回归方程的显著性检验。
这里略去了第零步分析的结果。
结果上面的两个表共同分析。
在Step1中,模型中包含常数项和INCOME。
如果此时剔除INCOME将使-2LL减少10.543,即10.543是INCOME进入模型引起的,-285.325即为零模型的对数似然比;在Step2中,模型中包含常数项,INCOME,GENDER。
此时剔除GENDER,即-2LL将减少5.917,即5.917是在Step1基础上GENDER所引起的,-280.053即为Step1模型的对数似然比,此时-2*285.325+2*280.053=10.543,即INCOME引起的。
其他同理。
可以看到,如果显著性水平a为0.05,由于各步的概率p值均小于显著性水平a,因此此时模型中的解释变量全体与LogitP的线性关系是显著,模型合理。
消费的二项Logistic分析结果(三)(逐步筛选策略)
VariablesintheEquation
B
S.E.
Wald
df
Sig.
Exp(B)
95.0%C.I.forEXP(B)
Lower
Upper
Step1a
income
10.512
2
.005
income
(1)
.006
.259
.001
1
.982
1.006
.606
1.670
income
(2)
.672
.247
7.424
1
.006
1.958
1.208
3.174
Constant
-.762
.187
16.634
1
.000
.467
Step2b
gender
(1)
.504
.209
5.824
1
.016
1.656
1.099
2.493
income
11.669
2
.003
income
(1)
.096
.263
.134
1
.714
1.101
.658
1.843
income
(2)
.761
.251
9.147
1
.002
2.139
1.307
3.502
Constant
-1.113
.240
21.432
1
.000
.329
a.Variable(s)enteredonstep1:
income.
b.Variable(s)enteredonstep2:
gender.
分析:
上表显示了解释变量筛选的过程和各解释变量的回归系数检验结果。
可以看到,最终的模型(第二步)中包含了性别和收入变量,各自回归系数显著性检验的Wald观测值对应的概率p值都小于显著性水平a,因此均拒绝零假设,意味它们与LogitP的线性关系是显著,应保留在方程中。
表中的第七,第八列分别是发生比的95%的置信区间。
最终年龄变量没有引入方程,因为如果引入则相应的Score检验的概率p值大于显著性水平a,不应拒绝零假设,它与LogitP的线性关系不显著,不应进入方程。
具体结果如下:
消费的二项Logistic分析结果(四)(逐步筛选策略)
VariablesnotintheEquation
Score
df
Sig.
Step1
Variables
age
1.848
1
.174
gender
(1)
5.865
1
.015
OverallStatistics
7.824
2
.020
Step2
Variables
age
1.984
1
.159
OverallStatistics
1.984
1
.159
消费的二项Logistic分析结果(五)(逐步筛选策略)
ModelSummary
Step
-2Loglikelihood
Cox&SnellRSquare
NagelkerkeRSquare
1
560.107a
.024
.033
2
554.190b
.037
.051
a.Estimationterminatedatiterationnumber3becauseparameterestimateschangedbylessthan.001.
b.Estimationterminatedatiterationnumber4becauseparameterestimateschangedbylessthan.001.
分析:
上表显示了模型拟合优度方面的测度指标。
最终模型的-2倍的对数似然函数值为554.190,仍然较高,说明模型的拟合优度不甚理想。
同时,NagelkerkeR^2距1较远,也说明了模型的拟合优度不高。
消费的二项Logistic分析结果(六)(逐步筛选策略)
HosmerandLemeshowTest
Step
Chi-square
df
Sig.
1
.000
1
1.000
2
8.943
4
.063
消费的二项Logistic分析结果(七)(逐步筛选策略)
ContingencyTableforHosmerandLemeshowTest
是否购买=不购买
是否购买=购买
Total
Observed
Expected
Observed
Expected
Step1
1
90
90.000
42
42.000
132
2
98
98.000
46
46.000
144
3
81
81.000
74
74.000
155
Step2
1
35
32.363
8
10.637
43
2
58
53.602
15
19.398
73
3
55
57.637
34
31.363
89
4
40
44.398
31
26.602
71
5
37
44.035
38
30.965
75
6
44
36.965
36
43.035
80
分析:
上面是Hosmer-Lemeshow检验的结果。
最终模型中,Hosmer-Lemeshow统计量的观测值为8.943,概率p值为0.063,大于显著性水平a,因此不应拒绝零假设,认为该组的划分与被解释变量的取值不相关,说明模型的拟合优度较低。
它与NagelkerkeR^2分析的结果是一致的。
消费的二项Logistic分析结果(八)(逐步筛选策略)
ClassificationTablea
Observed
Predicted
是否购买
PercentageCorrect
不购买
购买
Step1
是否购买
不购买
269
0
100.0
购买
162
0
.0
OverallPercentage
62.4
Step2
是否购买
不购买
225
44
83.6
购买
126
36
22.2
OverallPercentage
60.6
a.Thecutvalueis.500
Step number:
2
Observed Groups and Predicted Probabilities
160 ┼ ┼
│ │
│ │
F │ │
R 120 ┼ ┼
E │ │
Q │ │
U │ 1 │
E 80 ┼ 1 1 1 ┼
N │ 1 1 1 1 1 │
C │ 0 0 1 1 1 │
Y │ 0 0 1 1 1 │
40 ┼ 0 0 0 0 0 0 ┼
│ 0 0 0 0 0 0 │
│ 0 0 0 0 0 0 │
│ 0 0 0 0 0 0 │
Predicted ─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼──────────
Prob:
0 .1 .2 .3 .4 .5