SPSS二元Logistic回归结果分析doc.docx
《SPSS二元Logistic回归结果分析doc.docx》由会员分享,可在线阅读,更多相关《SPSS二元Logistic回归结果分析doc.docx(19页珍藏版)》请在冰豆网上搜索。
SPSS二元Logistic回归结果分析doc
SPSS-二元Logistic回归结果分析
2011-12-0216:
48
身心疲惫,睡意连连,头不断往下掉,拿出耳机,听下歌曲,缓解我这严重的睡意吧!
今天来分析二元Logistic回归的结果
分析结果如下:
案例艷理汇总
N
百分上匕
选定案例包括在分析中
489
57.5
缺失寨剑
0
.0
总计
489
57.5
耒选定的案例
361
42.5
总计
950
100.0
因歪量编碍
初^値
商部値
否
0
是
分类畫量垢碣
参敎镐硏
(1)
⑵
皱盲水平来完惑高中
269
0&0
.C00
.000
高中
134
.OCO
1.000
00Q
.000
53
.D00
.OUG
1.C00
.000
大学
25
.DC0
rOOO
.C00
1.000
硏究生
3
.OCO
.000
.CD0
.000
1:
在“案例处理汇总”中可以看出:
选定的案例489个,未选定的案例361个,这个结果是根据设定的validate=1得到的,在“因变量编码”中可以看出“违约”的两种结果“是”或者“否”分别用值“1“和“0”代替,在“分
类变量编码”中教育水平分为5类,如果选中“为完成高中,高中,大专,大学等,其中的任何一个,那么就取值为1,未选中的为0,如果四个都未被选中,那么就是”研究生“频率分别代表了处在某个教育水平的个数,总和应该为489个
分类表d工
己观测
未选匡的
是否曾经违约
口分比檢IE
是否曾经劇
O
H
7E
彷骤0是否噌究违约否
360
□
1D0.0
157
是
仁9
0
.C
54
总计口分此
73.6
a已谴定的案^validateEQ1
A未迭定的案例validateJ4E1
c.由于目娈量中有駛失值:
或分类娈量中的値超岀选定臬例的范圉‘眇以床跖某翌未选建的案例进彳乩携型中包括常量=
e切割値对•別“
左握中的裘量
B
SE,
Wais
df
Sig.
EKP(fi)
齿骤0常量
026
.103
100.02S
1
.000
.356
1:
在“分类表”中可以看出:
预测有360个是“否”(未违约)有129个是
“是”(违约)
2:
在“方程中的变量”表中可以看出:
最初是对“常数项”记性赋值,B为
-1.026,标准误差为:
0.103
那么wald=(B/S.E)2=(-1.026/0.103)2=99.2248,跟表中的“100.029几乎
接近,是因为我对数据进行的向下舍入的关系,所以数据会稍微偏小,
B和Exp(B)是对数关系,将B进行对数抓换后,可以得到:
Exp(B)=eA-1.026=0.358,其中自由度为1,sig为0.000,非常显著
干在方程中的畫星
導仔
df
Sig.
歩疆0克虽年肾
7.460
1
.006
教肓
8,93+
4
.051
如⑴
6.009
1
.OU
1U5
1
.285
教育⑶
2.224
1
136
2.51S
1
m
工歸
3674S
1
.000
把址
9.463
1
002
收入
1.1D7
1
.292
76.418
1
.000
信用卡£1债
35.329
1
000
其他员质
12531
1
.000
总红计量
147557
11
.000
1:
从“不在方程中的变量”可以看出,最初模型,只有“常数项”被纳入了模型,其它变量都不在最初模型内
表中分别给出了,得分,df,Sig三个值,而其中得分(Score)计算公式如下:
Score.二
JJt
只1—刃壬厲-町
F面来举例说明这个计算过程:
(“年龄”自变量的得分为例)
从“分类表”中可以看出:
有129人违约,违约记为“T则违约总和为129,选定案例总和为489
那么:
y-=129/489=0.2638036809816
x-=16951/489=34.664621676892
所以:
刀(Xi-x-)2=30074.9979
y"(1-y")=0.2638036809816*(1-0.2638036809816)
=0.19421129888216
则:
y—(1-y—)*刀(Xi-x-)2=0.19421129888216*30074.9979=5840.9044060372
则:
[刀Xi(yi-y")]A2=43570.8
所以:
O心j刃r
Scorei二
JJt
y(l-刃£E-x)
=43570.8/5840.9044060372=
7.4595982010876=7.46(四舍五入)
计算过程采用的是在EXCEL里面计算出来的,截图如下所示:
A
1.B|
C
E
E
F
G
23
136.0633999
0
-6.06748
27
5乩74:
&4254=5
0
-7.1227
[34
0.441721973
0
-8.96933
135
0.112479G2
1
25,76687
24
113.节3|1555
0
-&32129
4B
177.832315
0
-12,6626
26
75,0756688
0
-6.8589
30
21.76869589
L
22*08589
36
1.783235266
0
-9.49693
21
186.7218856
0
-5,53988
34
0.44=1721973
0
-8.96933
35
0・11247862
1
25.76687
35
0.112^7862
0
-9.23313
34
0.441721973
1
25.03067
33
2.770565327
0
-S,70552
[30
21.75869539
0
-7.91411
24
113,7311555
0
-6.33129
47
152.1615584
0
-12.3988
53
336.1860983
1
39.0134
22
1&0.>926432
0
—宝803&8
'36
1.793235266
L
26*50307
29
32.08753874
0
T.65031
33
乙770955327
0
-比70552
45
106.8200451
0
-11.8712
16951
30074.99796
0.263804
43570.8
从“不在方程的变量中”可以看出,年龄的“得分”为7.46,刚好跟计算结果
吻合!
!
答案得到验证~!
!
!
!
块仁方法=向前步逬(似然比)
撲型系議的织合竝船
卡方
at
8ig
捞骡1齿骡
74052
1
.000
烘
74:
052
1
.oon
模型
74052
1
.000
44.543
1
.000
11S.596
2
.OQO
模型
118.595
2
.000
曲菠3歩專
43.619
■'1
块
108414
3
.000
模型
168.414
3
.000
步辕4歩骡
1
002
176091
4
.000
模型
V9.C91
4
.000
-2对数似然僵
Coo(&SnellR
NagelherkeF?
1
40OJ5|-
.141
.705
2
445709b
215
.315
3
2餌一胸3
.291
.426
4
266213*
.305
.JI46
撲型汇总
a因期参數怙廿的更改范国小于刖1,所以估计在進代况数4处嶽止=
b因対琴數估计的更改范圉小于.001,所以估计在迭
1:
从“块T中可以看出:
采用的是:
向前步进的方法,在“模型系数的综合检验”表中可以看出:
所有的SIG几乎都为“0”而且随着模型的逐渐步进,卡方值越来越大,说明模型越来越显著,在第4步后,终止,
根据设定的显著性值和自由度,可以算出卡方临界值,公式为:
=CHIINV(显著性值,自由度),放入excel就可以得到结果2:
在“模型汇总“中可以看出:
Cox&SnellR方和NagelkerkeR方拟合效果
都不太理想,最终理想模型也才:
0.305和0.446,最大似然平方的对数值都比较大,明显是显著的
lnl=yIn/?
+(1》”(】-£)]似然数对数计算公式为:
计算过程太费时间了,我就不举例说明计算过程了
Cox&SnellR方的计算值是根据:
1:
先拟合不包含待检验因素的Logistic模型,求对数似然函数值INL0(指只包含“常数项”的检验)
2:
再拟合包含待检验因素的Logistic模型,求新的对数似然函数值InLB(包含自变量的检验)
盘去三1-更A
再根据公式:
即可算出:
Cox&SnellR方的
值!
=Hosmer和Lemeshow楡验=
卡方
df
Sig
1
75&7
8
.477
2
5.341
8
.721
3
3.312
0
.913
4
11.91S
e
.155
Hosmer和Lemesho^r检脸的随和I.1涉表
昱否国境违缁二否
昙否曽经通釣二昱
总计
己观测
期望値
已观测
期望値
1
44
44;353
5
4012
4Q
2
45
41344
4
5656
49
3
di
41.467
T
6.513
46
+
勢
40.550
11
7.450
46
5
45
4,0;20.1
4
879S
列
&
39
37.607
g
10.393
48
T
33
35.142
15
12.856
+6
&
33
32.590
15
16J10
49
g
24
27.217
25
21.7S3
+9
10
19
17.500
33
34.494
52
翱2
1
48
47.541
1
1469
斗9
2
46
46,041
3
2.956
+0
3
45
44.258
4
4742
49
4
42
T
6506
49
5
33
40.2G5
11
e.6-15
4-G
E
35
37.855
14
11.145
49
T
33
31.330
11
14170
轴
5
35
30,562
U
18.43&
4S
9
21
23.564
29
2543E
列
10
12
12.465
35
35.535
48
霁鸞1
1
dQ
idd
fk
3
提示:
将Hosmer和Lemeshow检验和“随机性表”
1:
从Hosmer和Lemeshow检验表中,可以看出:
经过4次迭代后,最终的卡
方统计量为:
11.919,而临界值为:
CHINV(0.05,8)=15.507
卡方统计量<临界值,从SIG角度来看:
0.155>0.05,说明模型能够很好
的拟合整体,不存在显著的差异。
2:
从Hosmer和Lemeshow检验随即表中可以看出:
”观测值“和”期望值
“几乎是接近的,不存在很大差异,说明模型拟合效果比较理想,印证了“Hosmer和Lemeshow检验”中的结果
而“Hosmer和Lemeshow检验”表中的“卡方”统计量,是通过“Hosmer和Lemeshow检验随即表”中的数据得到的(即通过“观测值和”预测值“)得到的,计算公式如下所示:
x2(卡方统计量)=刀(观测值频率-预测值频率)A2/预测值的频率举例说明一下计算过程:
以计算"步骤1的卡方统计量为例"
1:
将“Hosmer和Lemeshow检验随即表”中“步骤1”的数据,复制到excel中,得到如下所示结果:
__C21■A^SOCCl:
C20)
A」
B
C
D
E|
44
44.369
0.003385
45
43.544
0.063249
41
41487
0.OOS714
37
40.520
0.305729
45
40.201
0.572874
39
J7.607
0.051608
33
35.K2
0.130517
33
32.590
0,005166
24
27.217
0.330177
3
19
17.506
0.127566
1
5
4,512
Q・032576
2
4
5.656
0.484724
3
7
6.513
0.Q36096
4
11
7.480
1.656082
□
斗
8.799
2.617364
-J
9
g
山”欽
0,186741
7
15
12.S59
0.3567
弓
16
16.410
0.010258
d
25
.763
0.475004
3
33
34.494
0.064739
1
工566569
从“Hosmer和Lemeshow检验”表中可以看出,步骤1的卡方统计量为:
7.567,在上图中,通过excel计算得到,结果为7.566569~~7.567(四舍
五入),结果是一致的,答案得到验证!
!
己观测
I已硕测
耒选疋的
是否曾经违約
百分比校正
是否曾坯降
否
ja
a
步麥1
昱
总计■苜幷上匕
340
95
20
34
944
264
765
150
42
W2
是否曾轻违妁否是总计肖井讯
335
74
25
55
931
42.6
7Se
ur
39
昙杏曾疑逋妁否
是
总计百分讯
333
64
27
65
925
504
914
U2
33
舞4
是否曾轻违妁香是总计百分比
337
53
23
71
93E
55.0
03.4
U1
34
a-已遴定的案捌validateEQ1
d未选定的案倒validateNE1
c由于旨变量中有锻失値,戴分类变量中的値超出选定舉例的范国'所以未対某些未迭定的案例进彳d切剖値討.500
1:
从“分类表”一“步骤T中可以看出:
选定的案例中,“是否曾今违约”总计:
489个,其中没有违约的360个,并且对360个“没有违约”的客户进行了预测,有340个预测成功,20个预测失败,预测成功率为:
340/360=94.4%
其中“违约”的有189个,也对189个“违约”的客户进行了预测,有95个预测失败,34个预测成功,预测成功率:
34/129=26.4%
总计预测成功率:
(340+34)/489=76.5%
步骤1的总体预测成功率为:
76.5%,在步骤4终止后,总体预测成功率为:
83.4,预测准确率逐渐提升76.5%—79.8%—81.4%—83.4。
83.4的预测准确率,不能够算太高,只能够说还行。
如果轄去顿则建撲
樸型対敌似然性
在-2对散似誰中的夏改
(IT
更改的显薯性
步膘1甸债率
-282152
74.052
1
.000
場靈2工龄
-245.126
44543
1
.000
負债辜
-260.995
76282
1
.000
步腔3工龄
-242.996
90.102
1
.000
员债率
-205.884
158戸
1
000
信用卡负债
-222.855
49.919
1
.000
谿1工龄
-234776
63.3^3
1
DOO
地址
-197.945
967T
1
.002
負债率
-200.572
15.135
1
.000
信用卡负债
-221.fB4
56.174
1
.000
E
S.E.
Wais
df
Sig.
Exp(B)
129
.016
61777
1
.000
1138
常量
-2.500
238
119948
1
.coo
.092
-131
022
34.850
1
.000
.877
.140
.018
61.974
1
.000
1.150
常量
-1695
269
42051
1
xoo
.194
-?
52
.033
57744
1
.000
.777
.0S3
.021
15728
1
JQO
1.086
信用卡贲债
544
0G9
31.09&
1
xoo
1.723
窜量
■1181
275
18.505
1
.000
.307
步展梓工龄
-249
.034
64.977
1
xoo
.730
-069
.023
9.027
1
.933
081
.021
U.893
1
.000
1.035
信用咔命债
594
.102
33.053
1
TOO
1.811
-763
304
6.376
1
”012
.465
乩在歩聲1中樹入的变呈:
员僵率.
0在歩鑒卫中骚入鼬变薑工龌.
C.在垢骤3中输卩.的具虽.涪用卡员债.
[在歩骋4中输入的变量:
地址.
从“如果移去项则建模”表中可以看出:
“在-2对数似然中的更改”中的数值是不是很眼熟?
?
?
,跟在“模型系数总和检验”表中“卡方统计量"量的值是一样的!
!
!
将“如果移去项则建模”和“方程中的变量”两个表结合一起来看
1:
在“方程中的变量”表中可以看出:
在步骤1中输入的变量为“负债率”,
在”如果移去项则建模“表中可以看出,当移去“负债率”这个变量时,引起了74.052的数值更改,此时模型中只剩下“常数项”-282.152为常数项的对数似然值
在步骤2中,当移去“工龄”这个自变量时,引起了44.543的数值变化(简称:
似然比统计量),在步骤2中,移去“工龄”这个自变量后,还剩下“负债率”和“常量”,此时对数似然值变成了:
-245.126,此时我们可以通过公式算出“负债率”的似然比统计量:
计算过程如下:
似然比统计量=2(-245.126+282.152)=74.052
2:
在“如果移去项则建模”表中可以看出:
不管移去那一个自变量,“更改的显著性”都非常小,几乎都小于0.05,所以这些自变量系数跟模型显著相关,不能够剔去!
!
3:
根据"方程中的变量“这个表,我们可以得出logistic
口+塔1阳血那么可以得到简洁表达式:
P(Y)=1/1+eA(-z)
将”方程中的变量“一步骤4中的参数代入模型表达式中,可以得
P(Y)=1/1+ea-址-0.249*功龄)
到logistic回归模型如下所示:
(-0.766+0.594*信用卡负债率+0.081*负债率-0.069*地
收入
430
1
.512
其他贡债
012
1
.914
总貓量
12,707
3
.122
步鑿4变昼年議
2023
1
.155
1.233
4
.673
教育⑴
.31^
1
.556
056
1
.613
抽首⑶
772
1
.380
教言⑷
136
1
712
收入
.005
1
.S+5
.131
1
.719
总锁计量
3.613
7
.323
从”不在方程中的变量“表中可以看出:
年龄,教育,收入,其它负债,都没有纳入模型中,其中:
sig值都大于0.05,所以说明这些自变量跟模型显著不相关。
ObservedGroupsandPredict^dProbabilities
804
1
+
1
F
1
1
1
1
R
eo+
+
E
i
1
Q
i
1
U
i
1
E
40+0
十
N
10
1
Q
10
1
Y
1000
1
20+0000
十
1000001
1
IOOOOOOLO0101100001
101
IOOOOOQOOOOOOOOOOOOOOO000010001
10011000000
mi
111
Predicted—
——
Prob:
0.1.2
.3
.4.5.
G
.8
.9
1
Group:
000000000000000000000000000000000000000000000000001:
Preditt^cfProbabilityisofM*mb^rshipf