4SPSS第九对数线性模型十聚类分析.docx
《4SPSS第九对数线性模型十聚类分析.docx》由会员分享,可在线阅读,更多相关《4SPSS第九对数线性模型十聚类分析.docx(47页珍藏版)》请在冰豆网上搜索。
4SPSS第九对数线性模型十聚类分析
SSPS第九章第十章
第九章
对数线性模型是用于离散型数据或整理成列联表格式的计数资料的统计分析工具。
在对数线性模型中,所有用作的分类的因素均为独立变量,列联表各单元中的例数为应变量。
对于列联表资料,通常作χ2检验,但χ2检验无法系统地评价变量间的联系,也无法估计变量间相互作用的大小,而对数线性模型是处理这些问题的最佳方法。
第一节General过程
9.1.1主要功能
调用该过程可对一个或多个二维列联表资料进行非层次对数线性分析。
它只能拟合全饱和模型,即分类变量各自效应及其相互间效应均包含在对数线性模型中。
9.1.2实例操作
[例9-1]在住院病人中,研究其受教育程度与对保健服务满意程度的关系,资料整理成列联表后如下所示。
对保健服务满意程度
(%)
受教育程度
高
中
低
满意
不满意
65(91.5)
6(8.5)
272(93.8)
18(6.2)
41(97.6)
1(2.4)
按一般情形作χ2检验,结果显示不同受教育程度的住院病人其对保健服务满意程度无差别。
但从百分比分析中可见,随受教育程度的提高,满意程度有下降的趋势;且我们还想了解受教育程度与满意程度有无交互作用和交互作用的大小。
对此,必须采用对数线性模型加以分析。
9.1.2.1数据准备
激活数据管理窗口,定义变量名:
实际观察频数的变量名为freq,受教育程度和满意程度作为行、列分类变量(即独立变量),变量名分别为educ、care。
输入原始数据,结果如图9.1所示。
如同第四章Crosstab过程中所述,为使列联表的频数有效,应选Data菜单的WeightCases...项,弹出WeightCases对话框(图9.2),激活Weightcasesby项,从变量列表中选freq点击钮使之进入FrequencyVariable框,点击OK钮即可。
图9.1原始数据的输入
图9.2频数的加权定义
9.1.2.2统计分析
激活Statistics菜单选Loglinear中的General...项,弹出GeneralLoglinearAnalysis对话框(图9.3)。
从对话框左侧的变量列表中选care,点击钮使之进入Factor(s)框,点击DefineRange...钮,弹出GeneralLoglinearAnalysis:
DefineRange对话框,定义分类变量care的范围,本例为1、2,故可在Minimum处键入1,在Maximum处键入2,点击Continue钮返回GeneralLoglinearAnalysis对话框。
同法将变量educ选入Factor(s)框,并定义其范围为1、3。
本例要求计算各分类变量主效应和交互作用的参数估计,故点击Contrast...钮,弹出GeneralLoglinearAnalysis:
Contrasts对话框,选择Displayparameterestimates项,点击Continue钮返回GeneralLoglinearAnalysis对话框,最后点击OK钮即完成分析。
图9.3非层次对数线性模型分析对话框
9.1.2.3结果解释
在结果输出窗口中将看到如下统计数据:
首先显示系统对403例资料进行分析,共有二个分类变量:
CARE为2水平,EDUC为3水平。
分析的效应有三类:
满意程度(CARE)、教育程度(EDUC)和两者的交互作用(CAREBYEDUC)。
系统经2次叠代后即达到相邻二次估计之差不大于规定的0.001。
DATAInformation
6unweightedcasesaccepted.
0casesrejectedbecauseofout-of-rangefactorvalues.
0casesrejectedbecauseofmissingdata.
403weightedcaseswillbeusedintheanalysis.
FACTORInformation
FactorLevelLabel
CARE2
EDUC3
DESIGNInformation
1Design/Modelwillbeprocessed.
CorrespondenceBetweenEffectsandColumnsofDesign/Model1
StartingEnding
ColumnColumnEffectName
11CARE
23EDUC
45CAREBYEDUC
Note:
forsaturatedmodels.500hasbeenaddedtoallobservedcells.
ThisvaluemaybechangedbyusingtheCRITERIA=DELTAsubcommand.
***MLconvergedatiteration2.
Maximumdifferencebetweensuccessiveiterations=.00000
由于本例对Model(模型)未作定义,故系统采用默认的全饱和模型,因而期望例数(EXP.count)与实际例数(OBS.count)相同,进而残差(Residual)、标准化残差(Std.Resid)和校正残差(Adj.Resid)均为0。
Observed,ExpectedFrequenciesandResiduals
FactorCodeOBS.count&PCT.EXP.count&PCT.ResidualStd.Resid.Adj.Resid.
CARE1
EDUC165.50(16.13)65.50(16.13).0000.0000.0000
EDUC2272.50(67.12)272.50(67.12).0000.0000.0000
EDUC341.50(10.22)41.50(10.22).0000.0000.0000
CARE2
EDUC16.50(1.60)6.50(1.60).0000.0000.0000
EDUC218.50(4.56)18.50(4.56).0000.0000.0000
EDUC31.50(.37)1.50(.37).0000.0000.0000
最后输出参数估计的结果。
为了唯一地估计参数,系统强行限定同一分类变量的各水平参数之和为0,故根据下列结果可推得各参数为:
λ满意=1.386724028
λ不满意=-1.386724028
λ高教育程度=-0.091477207
λ中教育程度=1.144301306
λ低教育程度=-1.052824099
λ满意.高教育程度=-0.231600045
λ满意.中高教育程度=-0.041790087
λ满意.低教育程度=0.273390132
λ不满意.高教育程度=0.231600045
λ不满意.中教育程度=0.041790087
λ不满意.低教育程度=-0.273390132
λ值为正,表示正效应;反之为负效应;零为无效应。
分析提供的信息是:
①对保健服务的满意程度高于不满意程度;②中等教育程度者的满意程度>高等教育程度者的满意程度>低等教育程度者的满意程度;③通过受教育程度与对保健服务满意程度的交互作用研究,结果表明高、中等教育未能增加人们对现有保健服务状况的满意程度。
EstimatesforParameters
CARE
ParameterCoeff.Std.Err.Z-ValueLower95CIUpper95CI
11.386724028.159658.685891.073811.69964
EDUC
ParameterCoeff.Std.Err.Z-ValueLower95CIUpper95CI
2-.091477207.19895-.45980-.48142.29847
31.144301306.174076.57393.803131.48547
CAREBYEDUC
ParameterCoeff.Std.Err.Z-ValueLower95CIUpper95CI
4-.231600045.19895-1.16410-.62154.15834
5-.041790087.17407-.24008-.38296.29938
第二节Hierarchical过程
9.2.1主要功能
调用该过程可对多维列联表资料进行分层对数线性分析。
所谓分层即并可根据用户指定的条件,对某一或某些主效应与交互作用进行剔除,从而形成包含特定层次阶项的各种模型。
9.2.2实例操作
[例9-2]为了研究Colles骨折在不同性别中的年龄分布情况,以说明不同性别者骨折的年龄差异及其年度变化,某地收集了1978--1981年的骨折资料,数据见下表。
请作对数线性模型的分析。
年龄
1978
1979
1980
1981
男
女
男
女
男
女
男
女
0—19
20--59
60--89
55
165
50
17
260
94
43
101
29
9
233
115
89
104
56
20
202
95
140
137
54
41
278
153
9.2.2.1数据准备
激活数据管理窗口,定义变量名:
实际观察频数的变量名为freq,年份、性别和年龄为分类变量,变量名分别为year、sex和age。
输入原始数据,其中年份1978至1981依次为1、2、3、4,性别男为1、女为2,年龄分组依次为1、2、3。
之后选Data菜单的WeightCases...项,在WeightCases对话框中激活Weightcasesby项,从变量列表中选freq点击钮使之进入FrequencyVariable框,点击OK钮完成对频数的权重定义。
9.2.2.2统计分析
激活Statistics菜单选Loglinear中的Hierarchical...项,弹出HierarchicalLoglinearAnalysis对话框(图9.4)。
从对话框左侧的变量列表中选age,点击钮使之进入Factor(s)框,点击DefineRange...钮,弹出HierarchicalLoglinearAnalysis:
DefineRange对话框,定义分类变量age的范围,在Minimum处键入1,在Maximum处键入9,点击Continue钮返回HierarchicalLoglinearAnalysis对话框。
同法将变量sex选入Factor(s)框,定义其范围为1、2;将变量year选入Factor(s)框,定义其范围为1、4。
图9.4层次对数线性模型分析对话框
为了更好地拟合数据,并尽可能的简单和易于解释,本例选择向后剔除法建立模型,即从所有效应均在模型中开始,然后消除那些不满足保留判据的效应。
点击Model...钮,弹出HierarchicalLoglinearAnalysis:
Model对话框,在ModelBuilding栏中选Usebackwardelimination项,点击Continue钮返回HierarchicalLoglinearAnalysis对话框。
本例要求作参数估计,故点击Options...钮,弹出HierarchicalLoglinearAnalysis:
Options对话框,在DisplayforSaturatedModel栏中选Parameterestimates项,点击Continue钮返回HierarchicalLoglinearAnalysis对话框,之后点击OK钮即完成分析。
9.2.2.3结果解释
在结果输出窗口中将看到如下统计数据:
首先显示,共有2540个观察例数进入分析,其中分类变量AGE为3水平,SEX为2水平,YEAR为4水平。
采用全饱和模型,高阶项为年龄、性别和年份三者的交互作用。
(在层次对数线性模型分析中,当指定高阶项时,即意味着包含其所属变量所有可能组合的低阶项;如本例,即包含年龄和性别的交互作用、年龄和年份的交互作用、性别和年份的交互作用、年龄的主效应、性别的主效应、年份的主效应。
从最高阶到最低阶共为3阶。
)
DATAInformation
24unweightedcasesaccepted.
0casesrejectedbecauseofout-of-rangefactorvalues.
3casesrejectedbecauseofmissingdata.
2540weightedcaseswillbeusedintheanalysis.
FACTORInformation
FactorLevelLabel
AGE3
SEX2
YEAR4
DESIGN1hasgeneratingclass
AGE*SEX*YEAR
Note:
Forsaturatedmodels.500hasbeenaddedtoallobservedcells.
ThisvaluemaybechangedbyusingtheCRITERIA=DELTAsubcommand.
TheIterativeProportionalFitalgorithmconvergedatiteration1.
Themaximumdifferencebetweenobservedandfittedmarginaltotalsis.000
andtheconvergencecriterionis.278
系统以全饱和模型为起始,故显示各变量的实际例数、期望例数、残差和标准化残差,因期望例数与实际例数相同,进而残差、标准化残差均为0。
Observed,ExpectedFrequenciesandResiduals.
FactorCodeOBScountEXPcountResidualStdResid
AGE1
SEX1
YEAR155.555.5.00.00
YEAR243.543.5.00.00
YEAR389.589.5.00.00
YEAR4140.5140.5.00.00
SEX2
YEAR117.517.5.00.00
YEAR29.59.5.00.00
YEAR320.520.5.00.00
YEAR441.541.5.00.00
AGE2
SEX1
YEAR1165.5165.5.00.00
YEAR2101.5101.5.00.00
YEAR3104.5104.5.00.00
YEAR4137.5137.5.00.00
SEX2
YEAR1260.5260.5.00.00
YEAR2233.5233.5.00.00
YEAR3202.5202.5.00.00
YEAR4278.5278.5.00.00
AGE3
SEX1
YEAR150.550.5.00.00
YEAR229.529.5.00.00
YEAR356.556.5.00.00
YEAR454.554.5.00.00
SEX2
YEAR194.594.5.00.00
YEAR2115.5115.5.00.00
YEAR395.595.5.00.00
YEAR4153.5153.5.00.00
Goodness-of-fitteststatistics
Likelihoodratiochisquare=.00000DF=0P=1.000
Pearsonchisquare=.00000DF=0P=1.000
下面,系统先显示某一阶及其更高阶交互效应为0时的似然比χ2检验概率值,因K为3时的概率值=0.1964>0.05,故认为年龄、性别、年份三者的交互作用为0,亦即含1阶(单一变量主效应)及2阶(变量两两交互效应)的模型就能恰当地表述数据。
接着,系统又显示特定阶交互效应为0时的似然比χ2检验概率值,结果表明,单纯含1阶(单一变量主效应)或单纯含2阶(变量两两交互效应)的模型也能恰当地表述数据。
TeststhatK-wayandhigherordereffectsarezero.
KDFL.R.ChisqProbPearsonChisqProbIteration
368.615.19648.547.20074
217404.424.0000425.168.00002
1231279.591.00001293.594.00000
TeststhatK-wayeffectsarezero.
KDFL.R.ChisqProbPearsonChisqProbIteration
16875.167.0000868.426.00000
211395.809.0000416.621.00000
368.615.19648.547.20070
Note:
Forsaturatedmodels.500hasbeenaddedtoallobservedcells.
ThisvaluemaybechangedbyusingtheCRITERIA=DELTAsubcommand.
系统所确定的模型中各参数值如下所示,由于内容较多,各λ值如何推算及其所表示的意义,请读者参阅本章第一节。
EstimatesforParameters.
AGE*SEX*YEAR
ParameterCoeff.Std.Err.Z-ValueLower95CIUpper95CI
1-.1412276052.08417-1.67784-.30621.02375
2.1674922915.101301.65335-.03106.36605
3-.0169870288.07921-.21447-.17223.13826
4.0577506145.055571.03925-.05117.16667
5-.0069187948.06504-.10637-.13440.12057
6-.0817851831.05570-1.46819-.19097.02740
AGE*SEX
ParameterCoeff.Std.Err.Z-ValueLower95CIUpper95CI
1.7059980126.0484814.56319.61098.80102
2-.2968871102.03276-9.06301-.36109-.23268
AGE*YEAR
ParameterCoeff.Std.Err.Z-ValueLower95CIUpper95CI
1-.1762097434.08417-2.09344-.34119-.01123
2-.3051792054.10130-3.01249-.50374-.10662
3.1339590237.079211.69127-.02129.28920
4.1990874838.055573.58269.09017.30800
5.1982170140.065043.04744.07073.32570
6-.1646071030.05570-2.95499-.27379-.05543
SEX*YEAR
ParameterCoeff.Std.Err.Z-ValueLower95CIUpper95CI
1.0471962901.04918.95960-.04920.14360
2-.0778801067.05818-1.33868-.19191.03615
3.0827715134.047341.74836-.01002.17556
AGE
ParameterCoeff.Std.Err.Z-ValueLower95CIUpper95CI
1-.7212868272.04848-14.87857-.81630-.62627
2.7999110228.0327624.41872.73571.86412
SEX
ParameterCoeff.Std.Err.Z-ValueLower95CIUpper95CI
1-.0348756276.02856-1.22099-.09086.02111
YEAR
ParameterCoeff.Std.Err.Z-ValueLower95CIUpper95CI
.020*******
2-.3188195595.05818-5.48020-.43285-.20479
3-.0126524013.04734-.26725-.10544.08014
系统开始对全饱和模型进行从高阶到低阶的效应项剔除。
第一步,剔除3阶交互效应项(AGE*SEX*YEAR)导致χ2值为8.615,概率为0.1964(不小于默认判据0.05),故该效应项被剔除。
第二步,剔除2阶交互效应项,概率均小于0.05,故2阶交互效应项不能剔除。
即本例用2阶交互效应项(同时含1阶主效应项)描述模型已为最佳。
BackwardElimination(p=.050)forDESIGN1withgeneratingclass
A