第7章 5逻辑回归分析讲义.docx

资源描述

第7章 5逻辑回归分析讲义.docx

《第7章 5逻辑回归分析讲义.docx》由会员分享，可在线阅读，更多相关《第7章 5逻辑回归分析讲义.docx（12页珍藏版）》请在冰豆网上搜索。

第7章 5逻辑回归分析讲义.docx

第7章5逻辑回归分析讲义

7.5逻辑回归分析

统计学上的定义和计算公式

定义：

逻辑回归分析是对定性变量的回归分析。

　　现实中的很多现象可以划分为两种可能，或者归结为两种状态，这两种状态分别用0和1表示。

买汽车回受到家庭、收入等因素的影响，但最终的结果只能是两个：

买或不买。

如果我们采用多个因素对0－1表示的某种现象进行因果关系解释，就可能应用到logistic回归。

例如，想探讨胃癌发生的危险因素，可以选择两组人群，一组是胃癌组，一组是非胃癌组，两组人群肯定有不同的体征和生活方式等。

这里的因变量就是是否胃癌，即“是”或“否”，为两分类变量，自变量就可以包括很多了，例如年龄、性别、饮食习惯等。

自变量既可以是连续的，也可以是分类的。

通过logistic回归分析，就可以大致了解到底哪些因素是胃癌的危险因素。

可用于处理定性因变量的统计分析方法有：

判别分析（Discriminantanalysis）、Probit分析、Logistic回归分析和对数线性模型等。

在社会科学中，应用最多的是Logistic回归分析。

Logistic回归分析根据因变量取值类别不同，又可以分为BinaryLogistic回归分析和Multi-nominalLogistic回归分析。

BinaryLogistic回归模型中因变量只能取两个值1和0（虚拟因变量），而MultinomialLogistic回归模型中因变量可以取多个值。

本节将只讨论BinaryLogistic回归，并简称Logistic回归（与7.5节曲线估计中介绍的Logistic曲线模型相区别）。

Logistic函数的形式为

实例操作

在一次关于某城镇居民上下班使用交通工具的社会调查中，因变量y=1表示居民主要乘坐公共汽车上下班；y=0表示主要骑自行车上下班；自变量x1表示被调查者的年龄；x2表示被调查者的月收入；x3表示被调查者的性别（x3=1为男性，x3=0为女性）。

试建立y与自变量间的Logistic回归，数据如表所示。

数据“上下班交通调查表.sav”

表:

使用交通工具上下班情况

（22.0版本）

Step1

（22.0版本）

Step2

（22.0版本）

Step3

（22.0版本）

结果分析：

（1）第一部分输出结果有两个表格，第一个表格说明所有个案（10个）都被选入作为回归分析的个案。

个案处理摘要

未加权的个案a

数字

百分比

选定的个案

已包括在分析中的个案

100.0

缺少个案

总计

100.0

未选定的个案

总计

100.0

a.如果权重有效，那么请参见分类表了解个案总数。

（22.0版本）

（2）第二个表格说明初始的因变量值（0，1）已经转换为逻辑回归分析中常用的0、1数值。

因变量编码

原始值

内部值

主要骑自行车上下班

主要乘坐公共汽车上下班

（22.0版本）

（3）迭代过程

迭代历史记录a,b,c

迭代

-2对数似然

系数

常量

步骤0

12.222

-.800

12.217

-.847

12.217

-.847

a.模型中包括常量。

b.初始-2对数似然：

12.217

c.估算在迭代号3终止，因为参数估算更改小于.001。

（22.0版本）

（4）ClassificationTable分类表说明第一次迭代结果的拟合效果，从该表格可以看出对于y=0，有100%的准确性；对于y=1，有0%准确性，因此对于所有个案总共有70%的准确性。

分类表a,b

观测值

预测值

上下班方式

百分比正确

主要骑自行车上下班

主要乘坐公共汽车上下班

步骤0

上下班方式

主要骑自行车上下班

100.0

主要乘坐公共汽车上下班

总体百分比

70.0

a.模型中包括常量。

b.分界值为.500

（22.0版本）

VariablesintheEquation表格列出了Step1中各个变量对应的系数，以及该变量对应的Wald统计量值和它对应的相伴概率。

从该表格中可以看出x3相伴概率最小，Wald统计量最大，可见该变量在模型中很重要。

方程式中的变量

S.E.

Wald

自由度

显著性

Exp（B）

步骤0

常量

-.847

.690

1.508

.220

.429

方程式中没有的变量a

得分

自由度

显著性

步骤0

变量

8.423

.004

.601

.438

.476

.490

a.由于冗余，未计算残差卡方。

（22.0版本）

（5）OmnibusTestsofModelCoefficients表格列出了模型系数的OmnibusTests结果。

模型系数的Omnibus检验

卡方

自由度

显著性

步骤1

步长（T）

12.217

.007

块

12.217

.007

模型

12.217

.007

（22.0版本）

（6）ModelSummary表给出了-2对数似然值、Cox和Snell的R2以及Nagelkerke的R2检验统计结果。

模型摘要

步长（T）

-2对数似然

Cox&SnellR平方

NagelkerkeR平方

.000a

.705

1.000

a.估算在迭代号20终止，因为检测到完美拟合。

此解决方案并非唯一。

（22.0版本）

（7）HosmerandLemeshowTest表格以及ContingencyTableforHosmerandLemeshowTest表格给出了Hosmer和Lemeshow的拟合优度检验统计量。

Hosmer和Lemeshow检验

步长（T）

卡方

自由度

显著性

.000

1.000

（22.0版本）

Hosmer和Lemeshow检验的列联表

上下班方式=主要骑自行车上下班

上下班方式=主要乘坐公共汽车上下班

总计

观测值

期望值（E）

观测值

期望值（E）

步骤1

1.000

.000

1.000

.000

1.000

.000

1.000

.000

1.000

.000

1.000

.000

1.000

.000

1.000

.000

2.000

（22.0版本）

（8）逻辑回归的最后一个输出表格是CasewiseList，列出残差大于2的个案,由下表可知没有这样的个案。

个案列表a

a.由于找不到界外值，未生成casewise绘图。

（22.0版本）

展开阅读全文