SPSS二元Logistic回归结果分析doc.docx

资源描述

SPSS二元Logistic回归结果分析doc.docx

《SPSS二元Logistic回归结果分析doc.docx》由会员分享，可在线阅读，更多相关《SPSS二元Logistic回归结果分析doc.docx（19页珍藏版）》请在冰豆网上搜索。

SPSS二元Logistic回归结果分析doc.docx

SPSS二元Logistic回归结果分析doc

SPSS-二元Logistic回归结果分析

2011-12-0216:

身心疲惫，睡意连连，头不断往下掉，拿出耳机，听下歌曲，缓解我这严重的睡意吧！

今天来分析二元Logistic回归的结果

分析结果如下：

案例艷理汇总

百分上匕

选定案例包括在分析中

489

57.5

缺失寨剑

总计

489

57.5

耒选定的案例

361

42.5

总计

950

100.0

因歪量编碍

初^値

商部値

否

是

分类畫量垢碣

参敎镐硏

（1）

⑵

皱盲水平来完惑高中

269

0&0

.C00

.000

高中

134

.OCO

1.000

00Q

.000

.D00

.OUG

1.C00

.000

大学

.DC0

rOOO

.C00

1.000

硏究生

.OCO

.000

.CD0

.000

1：

在“案例处理汇总”中可以看出：

选定的案例489个，未选定的案例361个，这个结果是根据设定的validate=1得到的，在“因变量编码”中可以看出“违约”的两种结果“是”或者“否”分别用值“1“和“0”代替，在“分

类变量编码”中教育水平分为5类，如果选中“为完成高中，高中，大专，大学等，其中的任何一个，那么就取值为1，未选中的为0,如果四个都未被选中，那么就是”研究生“频率分别代表了处在某个教育水平的个数，总和应该为489个

分类表d工

己观测

未选匡的

是否曾经违约

口分比檢IE

是否曾经劇

彷骤0是否噌究违约否

360

□

1D0.0

157

是

仁9

总计口分此

73.6

a已谴定的案^validateEQ1

A未迭定的案例validateJ4E1

c.由于目娈量中有駛失值：

或分类娈量中的値超岀选定臬例的范圉‘眇以床跖某翌未选建的案例进彳乩携型中包括常量=

e切割値对•別“

左握中的裘量

SE,

Wais

Sig.

EKP（fi）

齿骤0常量

026

.103

100.02S

.000

.356

在“分类表”中可以看出：

预测有360个是“否”（未违约）有129个是

“是”（违约）

在“方程中的变量”表中可以看出：

最初是对“常数项”记性赋值，B为

-1.026，标准误差为：

0.103

那么wald=（B/S.E）2=（-1.026/0.103）2=99.2248,跟表中的“100.029几乎

接近，是因为我对数据进行的向下舍入的关系，所以数据会稍微偏小，

B和Exp（B）是对数关系，将B进行对数抓换后，可以得到：

Exp（B）=eA-1.026=0.358,其中自由度为1，sig为0.000,非常显著

干在方程中的畫星

導仔

Sig.

歩疆0克虽年肾

7.460

.006

教肓

8,93+

.051

如⑴

6.009

.OU

1U5

.285

教育⑶

2.224

136

2.51S

工歸

3674S

.000

把址

9.463

002

收入

1.1D7

.292

76.418

.000

信用卡£1债

35.329

000

其他员质

12531

.000

总红计量

147557

.000

从“不在方程中的变量”可以看出，最初模型，只有“常数项”被纳入了模型，其它变量都不在最初模型内

表中分别给出了，得分，df,Sig三个值,而其中得分（Score）计算公式如下:

Score.二

JJt

只1—刃壬厲-町

F面来举例说明这个计算过程：

（“年龄”自变量的得分为例）

从“分类表”中可以看出：

有129人违约，违约记为“T则违约总和为129，选定案例总和为489

那么：

y-=129/489=0.2638036809816

x-=16951/489=34.664621676892

所以：

刀（Xi-x-）2=30074.9979

y"（1-y"）=0.2638036809816*（1-0.2638036809816）

=0.19421129888216

则：

y—（1-y—）*刀（Xi-x-）2=0.19421129888216*30074.9979=5840.9044060372

则：

[刀Xi（yi-y"）]A2=43570.8

所以：

O心j刃r

Scorei二

JJt

y（l-刃£E-x）

=43570.8/5840.9044060372=

7.4595982010876=7.46（四舍五入）

计算过程采用的是在EXCEL里面计算出来的，截图如下所示:

1.B|

136.0633999

-6.06748

5乩74：

&4254=5

-7.1227

[34

0.441721973

-8.96933

135

0.112479G2

25,76687

113.节3|1555

-&32129

177.832315

-12,6626

75,0756688

-6.8589

21.76869589

22*08589

1.783235266

-9.49693

186.7218856

-5,53988

0.44=1721973

-8.96933

0・11247862

25.76687

0.112^7862

-9.23313

0.441721973

25.03067

2.770565327

-S,70552

[30

21.75869539

-7.91411

113,7311555

-6.33129

152.1615584

-12.3988

336.1860983

39.0134

1&0.>926432

—宝803&8

'36

1.793235266

26*50307

32.08753874

T.65031

乙770955327

-比70552

106.8200451

-11.8712

16951

30074.99796

0.263804

43570.8

从“不在方程的变量中”可以看出，年龄的“得分”为7.46，刚好跟计算结果

吻合！

！

答案得到验证~!

块仁方法=向前步逬（似然比）

撲型系議的织合竝船

卡方

8ig

捞骡1齿骡

74052

.000

烘

74:

052

.oon

模型

74052

.000

44.543

.000

11S.596

.OQO

模型

118.595

.000

曲菠3歩專

43.619

■'1

块

108414

.000

模型

168.414

.000

步辕4歩骡

002

176091

.000

模型

V9.C91

.000

-2对数似然僵

Coo（&SnellR

NagelherkeF?

40OJ5|-

.141

.705

445709b

215

.315

2餌一胸3

.291

.426

266213*

.305

.JI46

撲型汇总

a因期参數怙廿的更改范国小于刖1，所以估计在進代况数4处嶽止=

b因対琴數估计的更改范圉小于.001，所以估计在迭

1：

从“块T中可以看出：

采用的是：

向前步进的方法，在“模型系数的综合检验”表中可以看出：

所有的SIG几乎都为“0”而且随着模型的逐渐步进，卡方值越来越大，说明模型越来越显著，在第4步后，终止，

根据设定的显著性值和自由度，可以算出卡方临界值，公式为:

=CHIINV（显著性值,自由度），放入excel就可以得到结果2：

在“模型汇总“中可以看出：

Cox&SnellR方和NagelkerkeR方拟合效果

都不太理想，最终理想模型也才：

0.305和0.446，最大似然平方的对数值都比较大，明显是显著的

lnl=yIn/?

+（1》”（】-£）］似然数对数计算公式为：

计算过程太费时间了，我就不举例说明计算过程了

Cox&SnellR方的计算值是根据：

先拟合不包含待检验因素的Logistic模型，求对数似然函数值INL0（指只包含“常数项”的检验）

再拟合包含待检验因素的Logistic模型，求新的对数似然函数值InLB（包含自变量的检验）

盘去三1-更A

再根据公式：

即可算出：

Cox&SnellR方的

值！

=Hosmer和Lemeshow楡验=

卡方

Sig

75&7

.477

5.341

.721

3.312

.913

11.91S

.155

Hosmer和Lemesho^r检脸的随和I.1涉表

昱否国境违缁二否

昙否曽经通釣二昱

总计

己观测

期望値

已观测

期望値

44；353

4012

41344

5656

41.467

6.513

勢

40.550

7.450

4,0；20.1

879S

列

37.607

10.393

35.142

12.856

32.590

16J10

27.217

21.7S3

17.500

34.494

翱2

47.541

1469

斗9

46,041

2.956

44.258

4742

6506

40.2G5

e.6-15

4-G

37.855

11.145

31.330

14170

轴

30,562

18.43&

23.564

2543E

列

12.465

35.535

霁鸞1

idd

提示：

将Hosmer和Lemeshow检验和“随机性表”

从Hosmer和Lemeshow检验表中，可以看出：

经过4次迭代后，最终的卡

方统计量为：

11.919，而临界值为：

CHINV（0.05,8）=15.507

卡方统计量<临界值，从SIG角度来看：

0.155>0.05,说明模型能够很好

的拟合整体，不存在显著的差异。

2：

从Hosmer和Lemeshow检验随即表中可以看出：

”观测值“和”期望值

“几乎是接近的，不存在很大差异，说明模型拟合效果比较理想，印证了“Hosmer和Lemeshow检验”中的结果

而“Hosmer和Lemeshow检验”表中的“卡方”统计量，是通过“Hosmer和Lemeshow检验随即表”中的数据得到的（即通过“观测值和”预测值“）得到的，计算公式如下所示：

x2（卡方统计量）=刀（观测值频率-预测值频率）A2/预测值的频率举例说明一下计算过程：

以计算"步骤1的卡方统计量为例"

将“Hosmer和Lemeshow检验随即表”中“步骤1”的数据，复制到excel中，得到如下所示结果：

__C21■A^SOCCl:

C20）

A」

44.369

0.003385

43.544

0.063249

41487

0.OOS714

40.520

0.305729

40.201

0.572874

J7.607

0.051608

35.K2

0.130517

32.590

0,005166

27.217

0.330177

17.506

0.127566

4,512

Q・032576

5.656

0.484724

6.513

0.Q36096

7.480

1.656082

□

斗

8.799

2.617364

-J

山”欽

0,186741

12.S59

0.3567

弓

16.410

0.010258

.763

0.475004

34.494

0.064739

工566569

从“Hosmer和Lemeshow检验”表中可以看出，步骤1的卡方统计量为：

7.567,在上图中，通过excel计算得到，结果为7.566569~~7.567（四舍

五入），结果是一致的，答案得到验证！

！

己观测

I已硕测

耒选疋的

是否曾经违約

百分比校正

是否曾坯降

否

步麥1

昱

总计■苜幷上匕

340

944

264

765

150

是否曾轻违妁否是总计肖井讯

335

931

42.6

7Se

昙杏曾疑逋妁否

是

总计百分讯

333

925

504

914

舞4

是否曾轻违妁香是总计百分比

337

93E

55.0

03.4

a-已遴定的案捌validateEQ1

d未选定的案倒validateNE1

c由于旨变量中有锻失値，戴分类变量中的値超出选定舉例的范国'所以未対某些未迭定的案例进彳d切剖値討.500

1：

从“分类表”一“步骤T中可以看出：

选定的案例中，“是否曾今违约”总计：

489个，其中没有违约的360个，并且对360个“没有违约”的客户进行了预测，有340个预测成功，20个预测失败，预测成功率为：

340/360=94.4%

其中“违约”的有189个，也对189个“违约”的客户进行了预测，有95个预测失败，34个预测成功，预测成功率：

34/129=26.4%

总计预测成功率：

（340+34）/489=76.5%

步骤1的总体预测成功率为：

76.5%,在步骤4终止后，总体预测成功率为:

83.4，预测准确率逐渐提升76.5%—79.8%—81.4%—83.4。

83.4的预测准确率,不能够算太高，只能够说还行。

如果轄去顿则建撲

樸型対敌似然性

在-2对散似誰中的夏改

（IT

更改的显薯性

步膘1甸债率

-282152

74.052

.000

場靈2工龄

-245.126

44543

.000

負债辜

-260.995

76282

.000

步腔3工龄

-242.996

90.102

.000

员债率

-205.884

158戸

000

信用卡负债

-222.855

49.919

.000

谿1工龄

-234776

63.3^3

DOO

地址

-197.945

967T

.002

負债率

-200.572

15.135

.000

信用卡负债

-221.fB4

56.174

.000

S.E.

Wais

Sig.

Exp（B）

129

.016

61777

.000

1138

常量

-2.500

238

119948

.coo

.092

-131

022

34.850

.000

.877

.140

.018

61.974

.000

1.150

常量

-1695

269

42051

xoo

.194

.033

57744

.000

.777

.0S3

.021

15728

JQO

1.086

信用卡贲债

544

0G9

31.09&

xoo

1.723

窜量

■1181

275

18.505

.000

.307

步展梓工龄

-249

.034

64.977

xoo

.730

-069

.023

9.027

.933

081

.021

U.893

.000

1.035

信用咔命债

594

.102

33.053

TOO

1.811

-763

304

6.376

”012

.465

乩在歩聲1中樹入的变呈:

员僵率.

0在歩鑒卫中骚入鼬变薑工龌.

C.在垢骤3中输卩.的具虽.涪用卡员债.

［在歩骋4中输入的变量:

地址.

从“如果移去项则建模”表中可以看出：

“在-2对数似然中的更改”中的数值是不是很眼熟？

？

，跟在“模型系数总和检验”表中“卡方统计量"量的值是一样的！

！

将“如果移去项则建模”和“方程中的变量”两个表结合一起来看

在“方程中的变量”表中可以看出：

在步骤1中输入的变量为“负债率”，

在”如果移去项则建模“表中可以看出，当移去“负债率”这个变量时，引起了74.052的数值更改，此时模型中只剩下“常数项”-282.152为常数项的对数似然值

在步骤2中，当移去“工龄”这个自变量时，引起了44.543的数值变化（简称：

似然比统计量），在步骤2中，移去“工龄”这个自变量后，还剩下“负债率”和“常量”，此时对数似然值变成了：

-245.126，此时我们可以通过公式算出“负债率”的似然比统计量：

计算过程如下：

似然比统计量=2（-245.126+282.152）=74.052

在“如果移去项则建模”表中可以看出：

不管移去那一个自变量，“更改的显著性”都非常小，几乎都小于0.05，所以这些自变量系数跟模型显著相关,不能够剔去！

！

3：

根据"方程中的变量“这个表，我们可以得出logistic

口+塔1阳血那么可以得到简洁表达式:

P（Y）=1/1+eA（-z）

将”方程中的变量“一步骤4中的参数代入模型表达式中，可以得

P（Y）=1/1+ea-址-0.249*功龄）

到logistic回归模型如下所示：

（-0.766+0.594*信用卡负债率+0.081*负债率-0.069*地

收入

430

.512

其他贡债

012

.914

总貓量

12,707

.122

步鑿4变昼年議

2023

.155

1.233

.673

教育⑴

.31^

.556

056

.613

抽首⑶

772

.380

教言⑷

136

712

收入

.005

.S+5

.131

.719

总锁计量

3.613

.323

从”不在方程中的变量“表中可以看出：

年龄，教育，收入，其它负债，都没有纳入模型中，其中：

sig值都大于0.05，所以说明这些自变量跟模型显著不相关。

ObservedGroupsandPredict^dProbabilities

804

eo+

40+0

十

1000

20+0000

十

1000001

IOOOOOOLO0101100001

101

IOOOOOQOOOOOOOOOOOOOOO000010001

10011000000

111

Predicted—

——

Prob：

0.1.2

.4.5.

Group:

000000000000000000000000000000000000000000000000001：

Preditt^cfProbabilityisofM*mb^rshipf

展开阅读全文