第7章 5逻辑回归分析讲义.docx

上传人:b****5 文档编号:7668362 上传时间:2023-01-25 格式:DOCX 页数:12 大小:619.80KB
下载 相关 举报
第7章 5逻辑回归分析讲义.docx_第1页
第1页 / 共12页
第7章 5逻辑回归分析讲义.docx_第2页
第2页 / 共12页
第7章 5逻辑回归分析讲义.docx_第3页
第3页 / 共12页
第7章 5逻辑回归分析讲义.docx_第4页
第4页 / 共12页
第7章 5逻辑回归分析讲义.docx_第5页
第5页 / 共12页
点击查看更多>>
下载资源
资源描述

第7章 5逻辑回归分析讲义.docx

《第7章 5逻辑回归分析讲义.docx》由会员分享,可在线阅读,更多相关《第7章 5逻辑回归分析讲义.docx(12页珍藏版)》请在冰豆网上搜索。

第7章 5逻辑回归分析讲义.docx

第7章5逻辑回归分析讲义

7.5逻辑回归分析

统计学上的定义和计算公式

定义:

逻辑回归分析是对定性变量的回归分析。

  现实中的很多现象可以划分为两种可能,或者归结为两种状态,这两种状态分别用0和1表示。

买汽车回受到家庭、收入等因素的影响,但最终的结果只能是两个:

买或不买。

如果我们采用多个因素对0-1表示的某种现象进行因果关系解释,就可能应用到logistic回归。

例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。

这里的因变量就是是否胃癌,即“是”或“否”,为两分类变量,自变量就可以包括很多了,例如年龄、性别、饮食习惯等。

自变量既可以是连续的,也可以是分类的。

通过logistic回归分析,就可以大致了解到底哪些因素是胃癌的危险因素。

可用于处理定性因变量的统计分析方法有:

判别分析(Discriminantanalysis)、Probit分析、Logistic回归分析和对数线性模型等。

在社会科学中,应用最多的是Logistic回归分析。

Logistic回归分析根据因变量取值类别不同,又可以分为BinaryLogistic回归分析和Multi-nominalLogistic回归分析。

BinaryLogistic回归模型中因变量只能取两个值1和0(虚拟因变量),而MultinomialLogistic回归模型中因变量可以取多个值。

本节将只讨论BinaryLogistic回归,并简称Logistic回归(与7.5节曲线估计中介绍的Logistic曲线模型相区别)。

Logistic函数的形式为

实例操作

在一次关于某城镇居民上下班使用交通工具的社会调查中,因变量y=1表示居民主要乘坐公共汽车上下班;y=0表示主要骑自行车上下班;自变量x1表示被调查者的年龄;x2表示被调查者的月收入;x3表示被调查者的性别(x3=1为男性,x3=0为女性)。

试建立y与自变量间的Logistic回归,数据如表所示。

数据“上下班交通调查表.sav”

表:

使用交通工具上下班情况

(22.0版本)

Step1

(22.0版本)

Step2

(22.0版本)

Step3

(22.0版本)

结果分析:

(1)第一部分输出结果有两个表格,第一个表格说明所有个案(10个)都被选入作为回归分析的个案。

个案处理摘要

未加权的个案a

数字

百分比

选定的个案

已包括在分析中的个案

10

100.0

缺少个案

0

.0

总计

10

100.0

未选定的个案

0

.0

总计

10

100.0

a.如果权重有效,那么请参见分类表了解个案总数。

(22.0版本)

(2)第二个表格说明初始的因变量值(0,1)已经转换为逻辑回归分析中常用的0、1数值。

因变量编码

原始值

内部值

主要骑自行车上下班

0

主要乘坐公共汽车上下班

1

(22.0版本)

(3)迭代过程

迭代历史记录a,b,c

迭代

-2对数似然

系数

常量

步骤0

1

12.222

-.800

2

12.217

-.847

3

12.217

-.847

a.模型中包括常量。

b.初始-2对数似然:

12.217

c.估算在迭代号3终止,因为参数估算更改小于.001。

(22.0版本)

(4)ClassificationTable分类表说明第一次迭代结果的拟合效果,从该表格可以看出对于y=0,有100%的准确性;对于y=1,有0%准确性,因此对于所有个案总共有70%的准确性。

分类表a,b

观测值

预测值

上下班方式

百分比正确

主要骑自行车上下班

主要乘坐公共汽车上下班

步骤0

上下班方式

主要骑自行车上下班

7

0

100.0

主要乘坐公共汽车上下班

3

0

.0

总体百分比

70.0

a.模型中包括常量。

b.分界值为.500

(22.0版本)

VariablesintheEquation表格列出了Step1中各个变量对应的系数,以及该变量对应的Wald统计量值和它对应的相伴概率。

从该表格中可以看出x3相伴概率最小,Wald统计量最大,可见该变量在模型中很重要。

方程式中的变量

B

S.E.

Wald

自由度

显著性

Exp(B)

步骤0

常量

-.847

.690

1.508

1

.220

.429

 

方程式中没有的变量a

得分

自由度

显著性

步骤0

变量

x1

8.423

1

.004

x2

.601

1

.438

x3

.476

1

.490

a.由于冗余,未计算残差卡方。

(22.0版本)

(5)OmnibusTestsofModelCoefficients表格列出了模型系数的OmnibusTests结果。

模型系数的Omnibus检验

卡方

自由度

显著性

步骤1

步长(T)

12.217

3

.007

12.217

3

.007

模型

12.217

3

.007

(22.0版本)

(6)ModelSummary表给出了-2对数似然值、Cox和Snell的R2以及Nagelkerke的R2检验统计结果。

模型摘要

步长(T)

-2对数似然

Cox&SnellR平方

NagelkerkeR平方

1

.000a

.705

1.000

a.估算在迭代号20终止,因为检测到完美拟合。

此解决方案并非唯一。

(22.0版本)

(7)HosmerandLemeshowTest表格以及ContingencyTableforHosmerandLemeshowTest表格给出了Hosmer和Lemeshow的拟合优度检验统计量。

Hosmer和Lemeshow检验

步长(T)

卡方

自由度

显著性

1

.000

7

1.000

(22.0版本)

Hosmer和Lemeshow检验的列联表

上下班方式=主要骑自行车上下班

上下班方式=主要乘坐公共汽车上下班

总计

观测值

期望值(E)

观测值

期望值(E)

步骤1

1

1

1.000

0

.000

1

2

1

1.000

0

.000

1

3

1

1.000

0

.000

1

4

1

1.000

0

.000

1

5

1

1.000

0

.000

1

6

1

1.000

0

.000

1

7

1

1.000

0

.000

1

8

0

.000

1

1.000

1

9

0

.000

2

2.000

2

(22.0版本)

(8)逻辑回归的最后一个输出表格是CasewiseList,列出残差大于2的个案,由下表可知没有这样的个案。

个案列表a

a.由于找不到界外值,未生成casewise绘图。

(22.0版本)

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 农林牧渔 > 林学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1