第5章列联表分析与对数线性模型.docx

资源描述

第5章列联表分析与对数线性模型.docx

《第5章列联表分析与对数线性模型.docx》由会员分享，可在线阅读，更多相关《第5章列联表分析与对数线性模型.docx（31页珍藏版）》请在冰豆网上搜索。

第5章列联表分析与对数线性模型.docx

第5章列联表分析与对数线性模型

实验5-1列联表分析

一、列联表

若总体中的个体可按两个属性A与B分类，A有r个等级，B有c个等级，从总体中抽取大小为N的样本，每种属性的样本数如下表所示：

…

行和

n11

n12

…

n1c

n1+

n21

n22

…

n2c

n2+

…

nr1

nr2

…

nrc

nr+

列和

n+1

n+2

n+c

称上表为r×c列联表。

当r=2=c时，称上表为2×2列联表或四格表。

行和

n11

n12

n1+

n21

n22

n2+

列和

n+1

n+2

本节仅涉及四格表检验。

例1对肺癌患者和对照组的调查结果：

吸烟

不吸烟

合计

患肺癌

对照组

合计

106

问是否患肺癌与是否吸烟独立与否？

例21976年至1977年美国佛罗里达州29个区的凶杀案件中凶手的肤色和是否被判死刑的326个犯人的情况如下，问是否存在种族歧视与审判不公？

凶手

死刑判决

是

否

合计

白人

141

160

黑人

149

166

合计

290

326

二、实验内容

数据来源：

wushujiance.sav

某防疫站观察当地一个污水排放口在高温和低温季节中伤寒病菌检出情况。

其中高温和低温季节各观测12次，数据有24个观测样本，有两个属性变量degree和test，degree有1（高温季节）和2（低温季节）两个等级；test有1（+）和2（-）两个等级。

问：

两个季节的伤寒菌检出率有无差别？

数据如下图所示：

意为：

Degree

1（高温）

2（低温）

合计

test

1（检出）

2（没有检出）

合计

设

：

高温季节；

：

低温季节；

：

检出；

：

没有检出。

记

，

此处欲检验

：

检验统计量：

Pearson卡方统计量=

～

（渐进）

称此检验为卡方检验。

此外，可以证明：

卡方检验等价于独立性检验（A属性与B属性独立），即：

：

等价于

：

，

其中

，

实验过程：

（1）打开数据文件；

（2）分析->描述统计->交叉表；

相依系数：

其数值在0～1之间，但不能达到1，是行变量和列变量相关性的度量指标。

Phi和Cramer变量：

也可以刻画相关性。

Lambda：

取“1”时表明自变量完全预测因变量，取“0”时表示预测完全没有效果。

不定性系数：

表示用一个变量来预测其他变量时降低错误的比例。

输出结果：

[数据集1]K:

\SPSS教程\sample\Chap05\wushuijiance.sav

案例处理摘要

案例

有效的

缺失

合计

百分比

季节*检验结果

100.0%

0.0%

100.0%

季节*检验结果交叉制表

检验结果

合计

阳性

阴性

季节

高温

计数

期望的计数

4.0

8.0

12.0

季节中的%

8.3%

91.7%

100.0%

检验结果中的%

12.5%

68.8%

50.0%

总数的%

4.2%

45.8%

50.0%

残差

-3.0

3.0

标准残差

-1.5

1.1

调整残差

-2.6

2.6

低温

计数

期望的计数

4.0

8.0

12.0

季节中的%

58.3%

41.7%

100.0%

检验结果中的%

87.5%

31.3%

50.0%

总数的%

29.2%

20.8%

50.0%

残差

3.0

-3.0

标准残差

1.5

-1.1

调整残差

2.6

-2.6

合计

计数

期望的计数

8.0

16.0

24.0

季节中的%

33.3%

66.7%

100.0%

检验结果中的%

100.0%

总数的%

33.3%

66.7%

100.0%

卡方检验

值

渐进Sig.（双侧）

精确Sig.（双侧）

精确Sig.（单侧）

Pearson卡方

6.750a

.009

连续校正b

4.688

.030

似然比

7.368

.007

Fisher的精确检验

.027

.014

线性和线性组合

6.469

.011

有效案例中的N

a.2单元格（50.0%）的期望计数少于5。

最小期望计数为4.00。

b.仅对2x2表计算

上表的sig值均小于0.05，说明高低温两组检出率有显著差别。

对称度量

值

渐进标准误差a

近似值Tb

近似值Sig.

按区间

Pearson的R

-.530

.160

-2.934

.008c

按顺序

Spearman相关性

-.530

.160

-2.934

.008c

有效案例中的N

a.不假定零假设。

b.使用渐进标准误差假定零假设。

c.基于正态近似值。

季节*检验结果交叉制表

计数

检验结果

合计

阳性

阴性

季节

高温

低温

合计

直接分析列联表的方法（加权个案）

若无个案，直接分析下表

检验结果

合计

阳性

阴性

季节

高温

低温

合计

本例的完成方法：

在SPSS中，定义数据为：

要让SPSS识别列联表，必须加权个案：

输出结果：

交叉表

[数据集0]C:

\DocumentsandSettings\wangkun\桌面\未标题1.sav

案例处理摘要

案例

有效的

缺失

合计

百分比

气温*检出

100.0%

0.0%

100.0%

气温*检出交叉制表

计数

检出

合计

阴性

高温

气温

低温

高温

合计

卡方检验

值

渐进Sig.（双侧）

精确Sig.（双侧）

精确Sig.（单侧）

Pearson卡方

6.750a

.009

连续校正b

4.688

.030

似然比

7.368

.007

Fisher的精确检验

.027

.014

线性和线性组合

6.469

.011

有效案例中的N

a.2单元格（50.0%）的期望计数少于5。

最小期望计数为4.00。

b.仅对2x2表计算

可以看到上表中

由于sig值小于0.05，所以认为高温和低温检出率有显著差别。

实验5-2对数线性模型

一、对数线性模型

2×2维交叉列联表

行和

n11

n12

n1。

n21

n22

n2。

列和

n。

对应概率表为：

行和

p11

p12

p1。

p21

p22

p2。

列和

p。

其中

将概率取对数：

，

将上式视为：

接下来引入方差分析模型

这是一个有交互效应的双因素方差分析数学模型。

二、实验内容

数据来源：

qiguanyan.sav

实验过程：

（1）打开数据

（2）分析—>对数线性模型—>常规

输出结果

数据信息

案例

有效

缺失

加权有效

206

单元格

定义的单元格

结构中的无效单元

采样无效单元

类别

吸烟状况

治疗效果

收敛信息a,b

最大迭代次数

收敛容限度

.00100

最终最大绝对差值

.00150

最终最大相对差值

.00071c

迭代次数

a.模型：

泊松

b.设计:

常量+smoke*effect+smoke+effect

c.由于参数估计的最大相对变化小于指定的收敛条件，导致迭代已收敛。

迭代历史b,c

迭代

对数似然估计

参数

常量

[smoke=0]*[effect=0]

[smoke=0]*[effect=1]

[smoke=1]*[effect=0]

613.859

3.9512

.0000

660.457

4.3070

-1.1923

-.8462

.6154

670.940

4.2569

-1.7649

-.9639

.4119

671.603

4.2556

-2.0603

-.9783

.3750

671.617

4.2556

-2.1140

-.9785

.3743

671.617a

4.2556

-2.1155

-.9785

.3743

未显示冗余的参数。

这些参数的值在所有迭代中均为零。

a.由于参数估计的最大相对变化小于指定的收敛条件，导致迭代已收敛。

b.模型：

泊松

c.设计:

常量+smoke*effect+smoke+effect

拟合度检验a,b

值

Sig.

似然比

.000

Pearson卡方检验

.000

a.模型：

泊松

b.设计:

常量+smoke*effect+smoke+effect

设计矩阵a,b

参数

吸烟状况

不吸烟

吸烟

治疗效果

无效

显效

无效

显效

单元结构

常量

[smoke=0]*[effect=0]

[smoke=0]*[effect=1]

[smoke=1]*[effect=0]

设计矩阵的缺省显示已被转置。

未显示冗余的参数。

a.模型：

泊松

b.设计:

常量+smoke*effect+smoke+effect

单元计数和残差a,b

吸烟状况

治疗效果

观测

期望的

残差

标准化残差

调整残差

偏差

计数

不吸烟

无效

8.500

4.1%

8.500

4.1%

.000

显效

26.500

12.7%

26.500

12.7%

.000

吸烟

无效

102.500

49.3%

102.500

49.3%

.000

显效

70.500

33.9%

70.500

33.9%

.000

a.模型：

泊松

b.设计:

常量+smoke*effect+smoke+effect

参数估计b,c

参数

估计

标准误

Sig.

95%置信区间

下限

上限

常量

4.256

.119

35.732

.000

4.022

4.489

[smoke=0]*[effect=0]

-2.116

.363

-5.830

.000

-2.827

-1.404

[smoke=0]*[effect=1]

-.978

.228

-4.294

.000

-1.425

-.532

[smoke=1]*[effect=0]

.374

.155

2.419

.016

.071

.678

[smoke=1]*[effect=1]

[smoke=0]

[smoke=1]

[effect=0]

[effect=1]

a.此参数为冗余参数，因此将被设为零。

b.模型：

泊松

c.设计:

常量+smoke*effect+smoke+effect

参数估计的相关性a,b,c

常量

[smoke=0]*[effect=0]

[smoke=0]*[effect=1]

[smoke=1]*[effect=0]

常量

-.328

-.523

-.770

[smoke=0]*[effect=0]

-.328

.172

.253

[smoke=0]*[effect=1]

-.523

.172

.402

[smoke=1]*[effect=0]

-.770

.253

.402

a.模型：

泊松

b.设计:

常量+smoke*effect+smoke+effect

c.未显示冗余的参数。

参数估计的协方差a,b,c

常量

[smoke=0]*[effect=0]

[smoke=0]*[effect=1]

[smoke=1]*[effect=0]

常量

.014

-.014

[smoke=0]*[effect=0]

-.014

.132

.014

[smoke=0]*[effect=1]

-.014

.014

.052

.014

[smoke=1]*[effect=0]

-.014

.014

.024

a.模型：

泊松

b.设计:

常量+smoke*effect+smoke+effect

c.未显示冗余的参数。

三、任意r×c列联表分析（对数线性模型）

如：

数据来源：

qiguanyan.sav

意为：

吸烟

不吸烟

行和

有效

无效

102

110

列和

172

206

下面要检验吸烟和治疗效果是否独立？

实验过程：

定义范围

输出结果：

层次对数线性分析

附注

创建的输出

19-JUN-201609:

20:

注释

输入

数据

\2015-2016学年下学期\20131101+统计软件与应用\自编讲义\sample\Chap05\qiguanyan.sav

活动的数据集

数据集1

过滤器

权重

频数

拆分文件

工作数据文件中的N行

缺失值处理

缺失的定义

用户自定义缺失值被视为缺失。

使用的个案

对于模型中的所有变量而言，统计量以带有有效数据的所有个案为基础。

语法

HILOGLINEARsmoke（01）effect（01）

/CWEIGHT=freq

/METHOD=BACKWARD

/CRITERIAMAXSTEPS（10）P（.05）ITERATION（20）DELTA（.5）

/PRINT=FREQRESIDESTIM

/DESIGN.

资源

处理器时间

00:

00.02

已用时间

00:

00.01

[数据集1]M:

\sample\Chap05\qiguanyan.sav

警告

对于1，.500已添加至此饱和模型的所有观测单元格中，使用CRITERIA=DELTA子命令可以更改此值。

数据信息

个案

有效

超出范围a

缺失

加权有效

206

类别

吸烟状况

治疗效果

a.由于超过因子值范围，个案被拒绝。

设计1

收敛信息

生成类

smoke*effect

迭代数

“观测边际”与“拟合边际”之间的最大差异

.000

收敛性准则

10.404

单元计数和残差

吸烟状况

治疗效果

观测

期望

残差

标准残差

计数a

计数

不吸烟

无效

8.500

4.1%

8.500

4.1%

.000

显效

26.500

12.9%

26.500

12.9%

.000

吸烟

无效

102.500

49.8%

102.500

49.8%

.000

显效

70.500

34.2%

70.500

34.2%

.000

a.对于饱和模型，.500已添加至所有观测单元格中。

拟合优度检验

卡方

Sig.

似然比

.000

Pearson

.000

K-Way和高阶效果

似然比

Pearson

迭代数

卡方

Sig.

卡方

Sig.

K-Way和高阶效果a

117.044

.000

105.534

.000

15.070

.000

14.599

.000

K-way效果b

101.974

.000

90.935

.000

15.070

.000

14.599

.000

a.检验k-way和高阶效果是否为零。

b.检验k-way效果是否为零。

参数估计值

效果

参数

估计

标准误

Sig.

95%置信区间

下限

上限

smoke*effect

-.378

.106

-3.569

.000

-.585

-.170

smoke

-.867

.106

-8.190

.000

-1.075

-.660

effect

-.191

.106

-1.801

.072

-.398

.017

展开阅读全文