第5章列联表分析与对数线性模型.docx

资源描述

第5章列联表分析与对数线性模型.docx

《第5章列联表分析与对数线性模型.docx》由会员分享，可在线阅读，更多相关《第5章列联表分析与对数线性模型.docx（29页珍藏版）》请在冰豆网上搜索。

第5章列联表分析与对数线性模型.docx

第5章列联表分析与对数线性模型

实验5-1列联表分析

一、列联表

若总体中的个体可按两个属性A与B分类，A有r个等级，B有c个等级，从总体中抽取大小为N的样本，每种属性的样本数如下表所示：

…

行和

n11

n12

…

n1c

n1+

n21

n22

…

n2c

n2+

…

nr1

nr2

…

nrc

nr+

列和

n+1

n+2

n+c

称上表为r×c列联表。

当r=2=c时，称上表为2×2列联表或四格表。

行和

n11

n12

n1+

n21

n22

n2+

列和

n+1

n+2

本节仅涉及四格表检验。

例1对肺癌患者和对照组的调查结果：

吸烟

不吸烟

合计

患肺癌

对照组

合计

106

问是否患肺癌与是否吸烟独立与否？

例21976年至1977年美国佛罗里达州29个区的凶杀案件中凶手的肤色和是否被判死刑的326个犯人的情况如下，问是否存在种族歧视与审判不公？

凶手

死刑判决

是

否

合计

白人

141

160

黑人

149

166

合计

290

326

二、实验内容

数据来源：

wushujiance.sav

某防疫站观察当地一个污水排放口在高温和低温季节中伤寒病菌检出情况。

其中高温和低温季节各观测12次，数据有24个观测样本，有两个属性变量degree和test，degree有1（高温季节）和2（低温季节）两个等级；test有1（+）和2（-）两个等级。

问：

两个季节的伤寒菌检出率有无差别？

数据如下图所示：

意为：

Degree

1（高温）

2（低温）

合计

test

1（检出）

2（没有检出）

合计

设：

高温季节；：

低温季节；：

检出；：

没有检出。

记，=

此处欲检验

：

检验统计量：

Pearson卡方统计量=～（渐进）

称此检验为卡方检验。

此外，可以证明：

卡方检验等价于独立性检验（A属性与B属性独立），即：

：

等价于：

：

，

其中，，，

实验过程：

（1）打开数据文件；

（2）分析->描述统计->交叉表；

相依系数：

其数值在0～1之间，但不能达到1，是行变量和列变量相关性的度量指标。

Phi和Cramer变量：

也可以刻画相关性。

Lambda：

取“1”时表明自变量完全预测因变量，取“0”时表示预测完全没有效果。

不定性系数：

表示用一个变量来预测其他变量时降低错误的比例。

输出结果：

[数据集1]K:

\SPSS教程\sample\Chap05\wushuijiance.sav

案例处理摘要

案例

有效的

缺失

合计

百分比

季节*检验结果

100.0%

0.0%

100.0%

季节*检验结果交叉制表

检验结果

合计

阳性

阴性

季节

高温

计数

期望的计数

4.0

8.0

12.0

季节中的%

8.3%

91.7%

100.0%

检验结果中的%

12.5%

68.8%

50.0%

总数的%

4.2%

45.8%

50.0%

残差

-3.0

3.0

标准残差

-1.5

1.1

调整残差

-2.6

2.6

低温

计数

期望的计数

4.0

8.0

12.0

季节中的%

58.3%

41.7%

100.0%

检验结果中的%

87.5%

31.3%

50.0%

总数的%

29.2%

20.8%

50.0%

残差

3.0

-3.0

标准残差

1.5

-1.1

调整残差

2.6

-2.6

合计

计数

期望的计数

8.0

16.0

24.0

季节中的%

33.3%

66.7%

100.0%

检验结果中的%

100.0%

总数的%

33.3%

66.7%

100.0%

卡方检验

值

渐进Sig.（双侧）

精确Sig.（双侧）

精确Sig.（单侧）

Pearson卡方

6.750a

.009

连续校正b

4.688

.030

似然比

7.368

.007

Fisher的精确检验

.027

.014

线性和线性组合

6.469

.011

有效案例中的N

a.2单元格（50.0%）的期望计数少于5。

最小期望计数为4.00。

b.仅对2x2表计算

上表的sig值均小于0.05，说明高低温两组检出率有显著差别。

对称度量

值

渐进标准误差a

近似值Tb

近似值Sig.

按区间

Pearson的R

-.530

.160

-2.934

.008c

按顺序

Spearman相关性

-.530

.160

-2.934

.008c

有效案例中的N

a.不假定零假设。

b.使用渐进标准误差假定零假设。

c.基于正态近似值。

季节*检验结果交叉制表

计数

检验结果

合计

阳性

阴性

季节

高温

低温

合计

直接分析列联表的方法（加权个案）

若无个案，直接分析下表

检验结果

合计

阳性

阴性

季节

高温

低温

合计

本例的完成方法：

在SPSS中，定义数据为：

要让SPSS识别列联表，必须加权个案：

输出结果：

交叉表

[数据集0]C:

\DocumentsandSettings\wangkun\桌面\未标题1.sav

案例处理摘要

案例

有效的

缺失

合计

百分比

气温*检出

100.0%

0.0%

100.0%

气温*检出交叉制表

计数

检出

合计

阴性

高温

气温

低温

高温

合计

卡方检验

值

渐进Sig.（双侧）

精确Sig.（双侧）

精确Sig.（单侧）

Pearson卡方

6.750a

.009

连续校正b

4.688

.030

似然比

7.368

.007

Fisher的精确检验

.027

.014

线性和线性组合

6.469

.011

有效案例中的N

a.2单元格（50.0%）的期望计数少于5。

最小期望计数为4.00。

b.仅对2x2表计算

可以看到上表中

由于sig值小于0.05，所以认为高温和低温检出率有显著差别。

实验5-2对数线性模型

一、对数线性模型

2×2维交叉列联表

行和

n11

n12

n1。

n21

n22

n2。

列和

n。

对应概率表为：

行和

p11

p12

p1。

p21

p22

p2。

列和

p。

其中

将概率取对数：

，

将上式视为：

接下来引入方差分析模型

这是一个有交互效应的双因素方差分析数学模型。

二、实验内容

数据来源：

qiguanyan.sav

实验过程：

（1）打开数据

（2）分析—>对数线性模型—>常规

输出结果

数据信息

案例

有效

缺失

加权有效

206

单元格

定义的单元格

结构中的无效单元

采样无效单元

类别

吸烟状况

治疗效果

收敛信息a,b

最大迭代次数

收敛容限度

.00100

最终最大绝对差值

.00150

最终最大相对差值

.00071c

迭代次数

a.模型：

泊松

b.设计:

常量+smoke*effect+smoke+effect

c.由于参数估计的最大相对变化小于指定的收敛条件，导致迭代已收敛。

迭代历史b,c

迭代

对数似然估计

参数

常量

[smoke=0]*[effect=0]

[smoke=0]*[effect=1]

[smoke=1]*[effect=0]

613.859

3.9512

.0000

660.457

4.3070

-1.1923

-.8462

.6154

670.940

4.2569

-1.7649

-.9639

.4119

671.603

4.2556

-2.0603

-.9783

.3750

671.617

4.2556

-2.1140

-.9785

.3743

671.617a

4.2556

-2.1155

-.9785

.3743

未显示冗余的参数。

这些参数的值在所有迭代中均为零。

a.由于参数估计的最大相对变化小于指定的收敛条件，导致迭代已收敛。

b.模型：

泊松

c.设计:

常量+smoke*effect+smoke+effect

拟合度检验a,b

值

Sig.

似然比

.000

Pearson卡方检验

.000

a.模型：

泊松

b.设计:

常量+smoke*effect+smoke+effect

设计矩阵a,b

参数

吸烟状况

不吸烟

吸烟

治疗效果

无效

显效

无效

显效

单元结构

常量

[smoke=0]*[effect=0]

[smoke=0]*[effect=1]

[smoke=1]*[effect=0]

设计矩阵的缺省显示已被转置。

未显示冗余的参数。

a.模型：

泊松

b.设计:

常量+smoke*effect+smoke+

展开阅读全文