第5章列联表分析与对数线性模型.docx
《第5章列联表分析与对数线性模型.docx》由会员分享,可在线阅读,更多相关《第5章列联表分析与对数线性模型.docx(31页珍藏版)》请在冰豆网上搜索。
第5章列联表分析与对数线性模型
第5章列联表分析与对数线性模型
实验5-1列联表分析
一、列联表
若总体中的个体可按两个属性A与B分类,A有r个等级,B有c个等级,从总体中抽取大小为N的样本,每种属性的样本数如下表所示:
B
B1
B2
…
Bc
行和
A
A1
n11
n12
…
n1c
n1+
A2
n21
n22
…
n2c
n2+
…
Ar
nr1
nr2
…
nrc
nr+
列和
n+1
n+2
n+c
N
称上表为r×c列联表。
当r=2=c时,称上表为2×2列联表或四格表。
B1
B2
行和
A1
n11
n12
n1+
A2
n21
n22
n2+
列和
n+1
n+2
n
本节仅涉及四格表检验。
例1对肺癌患者和对照组的调查结果:
吸烟
不吸烟
合计
患肺癌
60
3
63
对照组
32
11
43
合计
92
14
106
问是否患肺癌与是否吸烟独立与否?
例21976年至1977年美国佛罗里达州29个区的凶杀案件中凶手的肤色和是否被判死刑的326个犯人的情况如下,问是否存在种族歧视与审判不公?
凶手
死刑判决
是
否
合计
白人
19
141
160
黑人
17
149
166
合计
36
290
326
二、实验内容
数据来源:
wushujiance.sav
某防疫站观察当地一个污水排放口在高温和低温季节中伤寒病菌检出情况。
其中高温和低温季节各观测12次,数据有24个观测样本,有两个属性变量degree和test,degree有1(高温季节)和2(低温季节)两个等级;test有1(+)和2(-)两个等级。
问:
两个季节的伤寒菌检出率有无差别?
数据如下图所示:
意为:
Degree
1(高温)
2(低温)
合计
test
1(检出)
1
7
8
2(没有检出)
11
5
16
合计
12
12
24
设
:
高温季节;
:
低温季节;
:
检出;
:
没有检出。
记
,
=
此处欲检验
:
:
检验统计量:
Pearson卡方统计量=
~
(渐进)
称此检验为卡方检验。
此外,可以证明:
卡方检验等价于独立性检验(A属性与B属性独立),即:
:
:
等价于
:
:
,
其中
,
,
,
实验过程:
(1)打开数据文件;
(2)分析->描述统计->交叉表;
相依系数:
其数值在0~1之间,但不能达到1,是行变量和列变量相关性的度量指标。
Phi和Cramer变量:
也可以刻画相关性。
Lambda:
取“1”时表明自变量完全预测因变量,取“0”时表示预测完全没有效果。
不定性系数:
表示用一个变量来预测其他变量时降低错误的比例。
输出结果:
[数据集1]K:
\SPSS教程\sample\Chap05\wushuijiance.sav
案例处理摘要
案例
有效的
缺失
合计
N
百分比
N
百分比
N
百分比
季节*检验结果
24
100.0%
0
0.0%
24
100.0%
季节*检验结果交叉制表
检验结果
合计
阳性
阴性
季节
高温
计数
1
11
12
期望的计数
4.0
8.0
12.0
季节中的%
8.3%
91.7%
100.0%
检验结果中的%
12.5%
68.8%
50.0%
总数的%
4.2%
45.8%
50.0%
残差
-3.0
3.0
标准残差
-1.5
1.1
调整残差
-2.6
2.6
低温
计数
7
5
12
期望的计数
4.0
8.0
12.0
季节中的%
58.3%
41.7%
100.0%
检验结果中的%
87.5%
31.3%
50.0%
总数的%
29.2%
20.8%
50.0%
残差
3.0
-3.0
标准残差
1.5
-1.1
调整残差
2.6
-2.6
合计
计数
8
16
24
期望的计数
8.0
16.0
24.0
季节中的%
33.3%
66.7%
100.0%
检验结果中的%
100.0%
100.0%
100.0%
总数的%
33.3%
66.7%
100.0%
卡方检验
值
df
渐进Sig.(双侧)
精确Sig.(双侧)
精确Sig.(单侧)
Pearson卡方
6.750a
1
.009
连续校正b
4.688
1
.030
似然比
7.368
1
.007
Fisher的精确检验
.027
.014
线性和线性组合
6.469
1
.011
有效案例中的N
24
a.2单元格(50.0%)的期望计数少于5。
最小期望计数为4.00。
b.仅对2x2表计算
上表的sig值均小于0.05,说明高低温两组检出率有显著差别。
对称度量
值
渐进标准误差a
近似值Tb
近似值Sig.
按区间
Pearson的R
-.530
.160
-2.934
.008c
按顺序
Spearman相关性
-.530
.160
-2.934
.008c
有效案例中的N
24
a.不假定零假设。
b.使用渐进标准误差假定零假设。
c.基于正态近似值。
季节*检验结果交叉制表
计数
检验结果
合计
阳性
阴性
季节
高温
1
11
12
低温
7
5
12
合计
8
16
24
直接分析列联表的方法(加权个案)
若无个案,直接分析下表
检验结果
合计
阳性
阴性
季节
高温
1
11
12
低温
7
5
12
合计
8
16
24
本例的完成方法:
在SPSS中,定义数据为:
要让SPSS识别列联表,必须加权个案:
输出结果:
交叉表
[数据集0]C:
\DocumentsandSettings\wangkun\桌面\未标题1.sav
案例处理摘要
案例
有效的
缺失
合计
N
百分比
N
百分比
N
百分比
气温*检出
24
100.0%
0
0.0%
24
100.0%
气温*检出交叉制表
计数
检出
合计
阴性
高温
气温
低温
5
7
12
高温
11
1
12
合计
16
8
24
卡方检验
值
df
渐进Sig.(双侧)
精确Sig.(双侧)
精确Sig.(单侧)
Pearson卡方
6.750a
1
.009
连续校正b
4.688
1
.030
似然比
7.368
1
.007
Fisher的精确检验
.027
.014
线性和线性组合
6.469
1
.011
有效案例中的N
24
a.2单元格(50.0%)的期望计数少于5。
最小期望计数为4.00。
b.仅对2x2表计算
可以看到上表中
由于sig值小于0.05,所以认为高温和低温检出率有显著差别。
实验5-2对数线性模型
一、对数线性模型
2×2维交叉列联表
B1
B2
行和
A1
n11
n12
n1。
A2
n21
n22
n2。
列和
n。
1
n。
2
n
对应概率表为:
B1
B2
行和
A1
p11
p12
p1。
A2
p21
p22
p2。
列和
p。
1
p。
2
1
其中
将概率取对数:
,
将上式视为:
接下来引入方差分析模型
这是一个有交互效应的双因素方差分析数学模型。
二、实验内容
数据来源:
qiguanyan.sav
实验过程:
(1)打开数据
(2)分析—>对数线性模型—>常规
输出结果
数据信息
N
案例
有效
4
缺失
0
加权有效
206
单元格
定义的单元格
4
结构中的无效单元
0
采样无效单元
0
类别
吸烟状况
2
治疗效果
2
收敛信息a,b
最大迭代次数
20
收敛容限度
.00100
最终最大绝对差值
.00150
最终最大相对差值
.00071c
迭代次数
5
a.模型:
泊松
b.设计:
常量+smoke*effect+smoke+effect
c.由于参数估计的最大相对变化小于指定的收敛条件,导致迭代已收敛。
迭代历史b,c
迭代
对数似然估计
参数
常量
[smoke=0]*[effect=0]
[smoke=0]*[effect=1]
[smoke=1]*[effect=0]
0
613.859
3.9512
.0000
.0000
.0000
1
660.457
4.3070
-1.1923
-.8462
.6154
2
670.940
4.2569
-1.7649
-.9639
.4119
3
671.603
4.2556
-2.0603
-.9783
.3750
4
671.617
4.2556
-2.1140
-.9785
.3743
5
671.617a
4.2556
-2.1155
-.9785
.3743
未显示冗余的参数。
这些参数的值在所有迭代中均为零。
a.由于参数估计的最大相对变化小于指定的收敛条件,导致迭代已收敛。
b.模型:
泊松
c.设计:
常量+smoke*effect+smoke+effect
拟合度检验a,b
值
df
Sig.
似然比
.000
0
.
Pearson卡方检验
.000
0
.
a.模型:
泊松
b.设计:
常量+smoke*effect+smoke+effect
设计矩阵a,b
参数
吸烟状况
不吸烟
吸烟
治疗效果
治疗效果
无效
显效
无效
显效
单元结构
1
1
1
1
常量
1
1
1
1
[smoke=0]*[effect=0]
1
0
0
0
[smoke=0]*[effect=1]
0
1
0
0
[smoke=1]*[effect=0]
0
0
1
0
设计矩阵的缺省显示已被转置。
未显示冗余的参数。
a.模型:
泊松
b.设计:
常量+smoke*effect+smoke+effect
单元计数和残差a,b
吸烟状况
治疗效果
观测
期望的
残差
标准化残差
调整残差
偏差
计数
%
计数
%
不吸烟
无效
8.500
4.1%
8.500
4.1%
.000
.000
.000
.000
显效
26.500
12.7%
26.500
12.7%
.000
.000
.000
.000
吸烟
无效
102.500
49.3%
102.500
49.3%
.000
.000
.000
.000
显效
70.500
33.9%
70.500
33.9%
.000
.000
.000
.000
a.模型:
泊松
b.设计:
常量+smoke*effect+smoke+effect
参数估计b,c
参数
估计
标准误
Z
Sig.
95%置信区间
下限
上限
常量
4.256
.119
35.732
.000
4.022
4.489
[smoke=0]*[effect=0]
-2.116
.363
-5.830
.000
-2.827
-1.404
[smoke=0]*[effect=1]
-.978
.228
-4.294
.000
-1.425
-.532
[smoke=1]*[effect=0]
.374
.155
2.419
.016
.071
.678
[smoke=1]*[effect=1]
0a
.
.
.
.
.
[smoke=0]
0a
.
.
.
.
.
[smoke=1]
0a
.
.
.
.
.
[effect=0]
0a
.
.
.
.
.
[effect=1]
0a
.
.
.
.
.
a.此参数为冗余参数,因此将被设为零。
b.模型:
泊松
c.设计:
常量+smoke*effect+smoke+effect
参数估计的相关性a,b,c
常量
[smoke=0]*[effect=0]
[smoke=0]*[effect=1]
[smoke=1]*[effect=0]
常量
1
-.328
-.523
-.770
[smoke=0]*[effect=0]
-.328
1
.172
.253
[smoke=0]*[effect=1]
-.523
.172
1
.402
[smoke=1]*[effect=0]
-.770
.253
.402
1
a.模型:
泊松
b.设计:
常量+smoke*effect+smoke+effect
c.未显示冗余的参数。
参数估计的协方差a,b,c
常量
[smoke=0]*[effect=0]
[smoke=0]*[effect=1]
[smoke=1]*[effect=0]
常量
.014
-.014
-.014
-.014
[smoke=0]*[effect=0]
-.014
.132
.014
.014
[smoke=0]*[effect=1]
-.014
.014
.052
.014
[smoke=1]*[effect=0]
-.014
.014
.014
.024
a.模型:
泊松
b.设计:
常量+smoke*effect+smoke+effect
c.未显示冗余的参数。
三、任意r×c列联表分析(对数线性模型)
如:
数据来源:
qiguanyan.sav
意为:
吸烟
不吸烟
行和
有效
70
26
96
无效
102
8
110
列和
172
34
206
下面要检验吸烟和治疗效果是否独立?
实验过程:
定义范围
输出结果:
层次对数线性分析
附注
创建的输出
19-JUN-201609:
20:
10
注释
输入
数据
M:
\2015-2016学年下学期\20131101+统计软件与应用\自编讲义\sample\Chap05\qiguanyan.sav
活动的数据集
数据集1
过滤器
权重
频数
拆分文件
工作数据文件中的N行
4
缺失值处理
缺失的定义
用户自定义缺失值被视为缺失。
使用的个案
对于模型中的所有变量而言,统计量以带有有效数据的所有个案为基础。
语法
HILOGLINEARsmoke(01)effect(01)
/CWEIGHT=freq
/METHOD=BACKWARD
/CRITERIAMAXSTEPS(10)P(.05)ITERATION(20)DELTA(.5)
/PRINT=FREQRESIDESTIM
/DESIGN.
资源
处理器时间
00:
00:
00.02
已用时间
00:
00:
00.01
[数据集1]M:
\sample\Chap05\qiguanyan.sav
警告
对于1,.500已添加至此饱和模型的所有观测单元格中,使用CRITERIA=DELTA子命令可以更改此值。
数据信息
N
个案
有效
4
超出范围a
0
缺失
0
加权有效
206
类别
吸烟状况
2
治疗效果
2
a.由于超过因子值范围,个案被拒绝。
设计1
收敛信息
生成类
smoke*effect
迭代数
1
“观测边际”与“拟合边际”之间的最大差异
.000
收敛性准则
10.404
单元计数和残差
吸烟状况
治疗效果
观测
期望
残差
标准残差
计数a
%
计数
%
不吸烟
无效
8.500
4.1%
8.500
4.1%
.000
.000
显效
26.500
12.9%
26.500
12.9%
.000
.000
吸烟
无效
102.500
49.8%
102.500
49.8%
.000
.000
显效
70.500
34.2%
70.500
34.2%
.000
.000
a.对于饱和模型,.500已添加至所有观测单元格中。
拟合优度检验
卡方
df
Sig.
似然比
.000
0
.
Pearson
.000
0
.
K-Way和高阶效果
K
df
似然比
Pearson
迭代数
卡方
Sig.
卡方
Sig.
K-Way和高阶效果a
1
3
117.044
.000
105.534
.000
0
2
1
15.070
.000
14.599
.000
2
K-way效果b
1
2
101.974
.000
90.935
.000
0
2
1
15.070
.000
14.599
.000
0
a.检验k-way和高阶效果是否为零。
b.检验k-way效果是否为零。
参数估计值
效果
参数
估计
标准误
Z
Sig.
95%置信区间
下限
上限
smoke*effect
1
-.378
.106
-3.569
.000
-.585
-.170
smoke
1
-.867
.106
-8.190
.000
-1.075
-.660
effect
1
-.191
.106
-1.801
.072
-.398
.017