第5章列联表分析与对数线性模型.docx
《第5章列联表分析与对数线性模型.docx》由会员分享,可在线阅读,更多相关《第5章列联表分析与对数线性模型.docx(29页珍藏版)》请在冰豆网上搜索。
第5章列联表分析与对数线性模型
第5章列联表分析与对数线性模型
实验5-1列联表分析
一、列联表
若总体中的个体可按两个属性A与B分类,A有r个等级,B有c个等级,从总体中抽取大小为N的样本,每种属性的样本数如下表所示:
B
B1
B2
…
Bc
行和
A
A1
n11
n12
…
n1c
n1+
A2
n21
n22
…
n2c
n2+
…
Ar
nr1
nr2
…
nrc
nr+
列和
n+1
n+2
n+c
N
称上表为r×c列联表。
当r=2=c时,称上表为2×2列联表或四格表。
B1
B2
行和
A1
n11
n12
n1+
A2
n21
n22
n2+
列和
n+1
n+2
n
本节仅涉及四格表检验。
例1对肺癌患者和对照组的调查结果:
吸烟
不吸烟
合计
患肺癌
60
3
63
对照组
32
11
43
合计
92
14
106
问是否患肺癌与是否吸烟独立与否?
例21976年至1977年美国佛罗里达州29个区的凶杀案件中凶手的肤色和是否被判死刑的326个犯人的情况如下,问是否存在种族歧视与审判不公?
凶手
死刑判决
是
否
合计
白人
19
141
160
黑人
17
149
166
合计
36
290
326
二、实验内容
数据来源:
wushujiance.sav
某防疫站观察当地一个污水排放口在高温和低温季节中伤寒病菌检出情况。
其中高温和低温季节各观测12次,数据有24个观测样本,有两个属性变量degree和test,degree有1(高温季节)和2(低温季节)两个等级;test有1(+)和2(-)两个等级。
问:
两个季节的伤寒菌检出率有无差别?
数据如下图所示:
意为:
Degree
1(高温)
2(低温)
合计
test
1(检出)
1
7
8
2(没有检出)
11
5
16
合计
12
12
24
设:
高温季节;:
低温季节;:
检出;:
没有检出。
记,=
此处欲检验
:
:
检验统计量:
Pearson卡方统计量=~(渐进)
称此检验为卡方检验。
此外,可以证明:
卡方检验等价于独立性检验(A属性与B属性独立),即:
:
:
等价于:
:
,
其中,,,
实验过程:
(1)打开数据文件;
(2)分析->描述统计->交叉表;
相依系数:
其数值在0~1之间,但不能达到1,是行变量和列变量相关性的度量指标。
Phi和Cramer变量:
也可以刻画相关性。
Lambda:
取“1”时表明自变量完全预测因变量,取“0”时表示预测完全没有效果。
不定性系数:
表示用一个变量来预测其他变量时降低错误的比例。
输出结果:
[数据集1]K:
\SPSS教程\sample\Chap05\wushuijiance.sav
案例处理摘要
案例
有效的
缺失
合计
N
百分比
N
百分比
N
百分比
季节*检验结果
24
100.0%
0
0.0%
24
100.0%
季节*检验结果交叉制表
检验结果
合计
阳性
阴性
季节
高温
计数
1
11
12
期望的计数
4.0
8.0
12.0
季节中的%
8.3%
91.7%
100.0%
检验结果中的%
12.5%
68.8%
50.0%
总数的%
4.2%
45.8%
50.0%
残差
-3.0
3.0
标准残差
-1.5
1.1
调整残差
-2.6
2.6
低温
计数
7
5
12
期望的计数
4.0
8.0
12.0
季节中的%
58.3%
41.7%
100.0%
检验结果中的%
87.5%
31.3%
50.0%
总数的%
29.2%
20.8%
50.0%
残差
3.0
-3.0
标准残差
1.5
-1.1
调整残差
2.6
-2.6
合计
计数
8
16
24
期望的计数
8.0
16.0
24.0
季节中的%
33.3%
66.7%
100.0%
检验结果中的%
100.0%
100.0%
100.0%
总数的%
33.3%
66.7%
100.0%
卡方检验
值
df
渐进Sig.(双侧)
精确Sig.(双侧)
精确Sig.(单侧)
Pearson卡方
6.750a
1
.009
连续校正b
4.688
1
.030
似然比
7.368
1
.007
Fisher的精确检验
.027
.014
线性和线性组合
6.469
1
.011
有效案例中的N
24
a.2单元格(50.0%)的期望计数少于5。
最小期望计数为4.00。
b.仅对2x2表计算
上表的sig值均小于0.05,说明高低温两组检出率有显著差别。
对称度量
值
渐进标准误差a
近似值Tb
近似值Sig.
按区间
Pearson的R
-.530
.160
-2.934
.008c
按顺序
Spearman相关性
-.530
.160
-2.934
.008c
有效案例中的N
24
a.不假定零假设。
b.使用渐进标准误差假定零假设。
c.基于正态近似值。
季节*检验结果交叉制表
计数
检验结果
合计
阳性
阴性
季节
高温
1
11
12
低温
7
5
12
合计
8
16
24
直接分析列联表的方法(加权个案)
若无个案,直接分析下表
检验结果
合计
阳性
阴性
季节
高温
1
11
12
低温
7
5
12
合计
8
16
24
本例的完成方法:
在SPSS中,定义数据为:
要让SPSS识别列联表,必须加权个案:
输出结果:
交叉表
[数据集0]C:
\DocumentsandSettings\wangkun\桌面\未标题1.sav
案例处理摘要
案例
有效的
缺失
合计
N
百分比
N
百分比
N
百分比
气温*检出
24
100.0%
0
0.0%
24
100.0%
气温*检出交叉制表
计数
检出
合计
阴性
高温
气温
低温
5
7
12
高温
11
1
12
合计
16
8
24
卡方检验
值
df
渐进Sig.(双侧)
精确Sig.(双侧)
精确Sig.(单侧)
Pearson卡方
6.750a
1
.009
连续校正b
4.688
1
.030
似然比
7.368
1
.007
Fisher的精确检验
.027
.014
线性和线性组合
6.469
1
.011
有效案例中的N
24
a.2单元格(50.0%)的期望计数少于5。
最小期望计数为4.00。
b.仅对2x2表计算
可以看到上表中
由于sig值小于0.05,所以认为高温和低温检出率有显著差别。
实验5-2对数线性模型
一、对数线性模型
2×2维交叉列联表
B1
B2
行和
A1
n11
n12
n1。
A2
n21
n22
n2。
列和
n。
1
n。
2
n
对应概率表为:
B1
B2
行和
A1
p11
p12
p1。
A2
p21
p22
p2。
列和
p。
1
p。
2
1
其中
将概率取对数:
,
将上式视为:
接下来引入方差分析模型
这是一个有交互效应的双因素方差分析数学模型。
二、实验内容
数据来源:
qiguanyan.sav
实验过程:
(1)打开数据
(2)分析—>对数线性模型—>常规
输出结果
数据信息
N
案例
有效
4
缺失
0
加权有效
206
单元格
定义的单元格
4
结构中的无效单元
0
采样无效单元
0
类别
吸烟状况
2
治疗效果
2
收敛信息a,b
最大迭代次数
20
收敛容限度
.00100
最终最大绝对差值
.00150
最终最大相对差值
.00071c
迭代次数
5
a.模型:
泊松
b.设计:
常量+smoke*effect+smoke+effect
c.由于参数估计的最大相对变化小于指定的收敛条件,导致迭代已收敛。
迭代历史b,c
迭代
对数似然估计
参数
常量
[smoke=0]*[effect=0]
[smoke=0]*[effect=1]
[smoke=1]*[effect=0]
0
613.859
3.9512
.0000
.0000
.0000
1
660.457
4.3070
-1.1923
-.8462
.6154
2
670.940
4.2569
-1.7649
-.9639
.4119
3
671.603
4.2556
-2.0603
-.9783
.3750
4
671.617
4.2556
-2.1140
-.9785
.3743
5
671.617a
4.2556
-2.1155
-.9785
.3743
未显示冗余的参数。
这些参数的值在所有迭代中均为零。
a.由于参数估计的最大相对变化小于指定的收敛条件,导致迭代已收敛。
b.模型:
泊松
c.设计:
常量+smoke*effect+smoke+effect
拟合度检验a,b
值
df
Sig.
似然比
.000
0
.
Pearson卡方检验
.000
0
.
a.模型:
泊松
b.设计:
常量+smoke*effect+smoke+effect
设计矩阵a,b
参数
吸烟状况
不吸烟
吸烟
治疗效果
治疗效果
无效
显效
无效
显效
单元结构
1
1
1
1
常量
1
1
1
1
[smoke=0]*[effect=0]
1
0
0
0
[smoke=0]*[effect=1]
0
1
0
0
[smoke=1]*[effect=0]
0
0
1
0
设计矩阵的缺省显示已被转置。
未显示冗余的参数。
a.模型:
泊松
b.设计:
常量+smoke*effect+smoke+