分层整群随机抽样数据的不同分析方法及结果比较陈丹萍解析.docx

资源描述

分层整群随机抽样数据的不同分析方法及结果比较陈丹萍解析.docx

《分层整群随机抽样数据的不同分析方法及结果比较陈丹萍解析.docx》由会员分享，可在线阅读，更多相关《分层整群随机抽样数据的不同分析方法及结果比较陈丹萍解析.docx（12页珍藏版）》请在冰豆网上搜索。

分层整群随机抽样数据的不同分析方法及结果比较陈丹萍解析.docx

分层整群随机抽样数据的不同分析方法及结果比较陈丹萍解析

122

中国卫生统计2010年4月第27卷第2期

分层整群随机抽样数据的不同分析方法及结果比较

复旦大学公共卫生学院卫生统计和社会医学教研室（200032

陈丹萍赵耐青林燧恒

提要目的探讨分层整群抽样数据应用SAS9.1分析时,不同分析方法对结果的影响。

方法比较多因素logistic回归,surveylogistic回归以及广义线性混合效应模型（glimmix在分层整群抽样数据中的统计分析,并用实例加以说明。

结果不同的方法所产生的结果是有差别的。

surveylogistic回归与广义线性混合效应模型对模型中各回归系数的标准误进行了调整,使得其比多因素logisitic回归中的标准误大。

在实例分析中各危险因素的OR值也发生了变化,其95%可信区间都有不同程度的增宽。

结论在分层整群抽样中,为减少模型系数标准误估计的向下偏倚以及第类错误的发生,surveylogistic回归与广义线性混合效应模型都是比较适用的,不建议使用多因素logisitic回归。

关键词分层整群随机抽样surveylogistic回归广义线性混合效应模型

在抽样调查中,为了减少抽样误差,多采用多阶段的抽样方式;而另一方面为了方便调查回收问卷,多采用整群抽样,故多阶段整群随机抽样在抽样调查中经常被使用。

分层整群抽样在多阶段整群抽样中应用较为广泛,尤其是在流行病学调查及其相关研究中,而在这些研究中常会出现结局变量为分类变量,大多数人在统计分析时常常会直接采用多因素logistic回归。

但是,分层整群抽样的数据可能会因为抽样的复杂性而造成各群体的抽样权重不同;再者,该类数据存在着群内各个个体的内部相关问题,也就是调查个体间的不独立性。

针对不同的抽样权重,可采用surveylogistic回归来将不同的抽样权重纳入到统计分析

1,2

Surveylogistic是SAS91及以上版本出现的专门针对抽样数据分析的程序模块,其回归模型与式（1相同,对回归系数的最大似然估计也是采用Fisher得

分法及Newton-Raphson算法。

但是,该程序可以配合复杂抽样的分层,整群以及不等抽样概率的特点进行方差估计,并且用泰勒级数线性法估计复杂抽样设计的抽样误差。

一般在抽样设计中,存在着基础抽样权重。

基础抽样权重:

在单阶段抽样设计下为抽样概率的倒数;在多阶段抽样中,最终的基础抽样权重则为各阶段抽样单位抽样权重的乘积。

基础抽样权重包含了分层、整群及不等抽样概率的信息,因此,在做统计分析时可就这些信息进行相应的调整。

另外,有些调查需要事后调整人口学上的某些因素（如年龄,而涉及到事后的调整权重。

那么,总的抽样权重就为这两部分的乘积。

surveylogistic的估计方程为:

h=1i=1

;而关

于数据的不独立问题,则可应用广义线性混合效应模

型进行统计分析。

本研究将这2种方法与多因素logistic回归进行比较,并用实例数据加以说明。

原理和方法

1.固定效应logistic回归模型

此模型可用来分析非分级结构数据的二分类结局变量。

该模型中,结局事件发生概率做了logit转换（logit连接函数,从而成为可处理一组解释变量的线性函数,而形成logistic回归模型

whi

nhmhi

j=1

hij

（yhij-hij=0k

（2

其中,在分层整群抽样中,h=1,2,,H表示层

数,共H层;i=1,2,nh表示第h层第i整群,第h层

共nh个整群;j=1,2,,mhi表示第h层第i整群的第j个个体,该整群内共有mhi个个体;whi表示抽样权重;hij=E（Yhij;hij=logit（hij。

由式（2可得到模型回归系数的估计,其回归系数估计的协方差矩阵为:

QGQ

-1

mhi

。

logit（i=log（=0+

1-i

k=1

kxki

（1

其中,0和k分别为回归截距和不同自变量的斜率系数。

多因素logistic回归模型在对回归系数进行最大似然估计时,采用的是Fisher得分法及Newton-Raph-son算法。

2.Surveylogistic回归

上海市重点学科建设项目资助（项目编号:

B118通讯作者:

林燧恒,E-mai:

lhslynn@shmu.edu.cn

（3

h=1i=1

其中,Q=

^hij（1-^hijDhijDhij

nh（1-fhhG=（ehi.-eh..（ehi.-eh..

n-k-1h=1nh-1i=1

j=1

ehi.=whi

j=1

hijnh

（1-^hijDhij（yhij-^hij

eh..=

ehi.

ChineseJournalofHealthStatistics,Apr2010,Vo.l27,No.2

123

fh表示第h层的抽样率;hijhijhij

Dhij=（,,

01k

由式（3可见,surveylogistic回归的方差计算时考

虑到了抽样权重whi,而当抽样权重whi都相同时,sur-veylogistic的回归系数估计等于多因素logistic的回归系数估计。

3.广义线性混合效应模型（generalizedlinearmixedmodels,GLMMs

GLMM模型是广义线性模型（generalizedlinearmodels,GLM进一步扩展来的,与GLM模型相比,由于GLMM模型允许较高层次或宏观水平的残差,考虑了分级结构数据的组间变异和组内相关问题,也就是本文所指群内个体间的内部相关问题,因此可用于分层整群抽样的数据。

当结局变量为两分类且只有一个随机效应时,其模型与式（1类似,表达如下:

logit（ij=log（

=0+1-ij

求得方差V的估计,模型的固定估计^=（XV^XXV^p,以及模型的随机效应估计U^=^uZV^

实例分析

-1

-1-

r^。

采用香港某年对全港所有注册养老院的护理人员进行了一次有关职业性下背痛的危险因素的调查。

在该调查中,采用的是分层整群抽样设计,即先将养老院分为两层,公立和私立,然后再从这两层中分别进行整群抽样,其中抽取了公立养老院37所,私立养老院16所,共1039名护理人员。

其中,男性22人,女性1017人,男女比例对比悬殊,故本次分析主要针对其中的1017名女性。

也就是说在计算抽样权重的时候,有关性别比的调整权重不用考虑。

7-9

由文献可知:

在个人因素中,年龄、身高以及之前是否有受伤史是影响下背痛的危险因素;职业因素与社会心理因素也是重要的影响因素。

在本研究数据中,经过单因素卡方检验后,职业影响因素主要表现在给院友整理床铺,给院友搬重物以及未使用工具扶一位跌倒院友坐好这些活动的操作次数;而社会心理因素主要表现在:

SF-36活力指数以及SF-36精神指数。

本次实例数据分析的主要目的是研究职业因素对养老院护理人员的下背痛的影响,故分析时主要分析职业因素,其他因素可作为调整因素纳入统计分析模型。

采用以上介绍的3种方法对此数据进行分析,并用SAS程序进行实现:

在多因素logistic回归中,不对分层及整群因素进行调整,但是分层因素养老院性质还是会作为固定效应之一纳入模型,不考虑整群因素各养老院;在surveylogistic回归中,分层因素养老院性质被放入strata选项中,而整群因素各养老院被放入cluster选项中,另外将按抽样设计给予每一个抽样个体的权重放入选项weight中,另外本次实例研究的总体为有限总体,故在分析时应考虑此项,在选项中可加入total=整群总数;在GLMM中,分层因素养老院性质作为固定效应纳入模型,整群因素各养老院作为随机效应纳入模型进行分析。

分析主要比较模型回归系数的标准误的变化以及

k=1

kxkij+ui（4

其中,i表示第i整群;j表示第i整群内第j个个体;ij=E（Yij|ui;结局变量Yij的分布是在给定随机

效应ui的条件下的独立二项分布;随机效应ui~N（0,u独立同分布。

其模型k的估计一般通过最大似然法来获得,但由于有额外的随机效应ui,所以比较复杂。

本研究采用线性化法将随机效应消除出去以获得似然函数的最大化,从而求得模型的参数估计,即SAS软件提供的glimmix程序所使用的算法,来估计模型参数。

根据RussWolfinger和MichaelOConnell于1993年提出的有关GLMMs的伪似然方法

采用一

阶泰勒级数在,U展开连接函数的逆函数,可得到下式:

-1

（g

-1

（+X（-+Z（U-U（5

其中,=diag{ij（1-ij},一个以ij（1-ij为矩阵元的对角矩阵;=X+ZU,X和Z分别为固定

效应和随机效应U（即式（4中的k和ui的设计矩阵。

式（5经整理后为:

（-g

-1

（+X+ZUX+ZU

（6

若式（6左边定义为虚拟变量P的期望值,则可得一个线性混合模型:

P=X+ZU+

-1

OR值及其95%可信区间的变化,结果如下:

由表1的结果可见,各职业危险因素的OR值及其95%可信区间在应用surveylogistic与glimmix后较多因素logistic回归都发生了改变,95%可信区间都有所增宽。

由表2的结果可见,surveylogistic与glimmix中回归系数的标准误都比多因素logistic回归的系数标准误要大,可见这两种方法都根据各自模型的特点对模型的方差估计进行了调整。

（7

其边际方差V=uZZ+,由于glimmix默认使用限制虚拟似然法,则该模型中

11-11-1

lR-log|V|-rVr-log|XVX|222

其中r=p-X（XV

-1

（8

XXV

--1

p,由式（8可以

124

表1各职业危险因素的OR值及95%可信区间比较

近1年内是否有下背痛

中国卫生统计2010年4月第27卷第2期

因素

有（人

给院友整理床铺（次/天01~45~910

给院友搬重物（次/天01~4

5~91001~45~910

148238*********3148193

138********1987121102

1.01.01（0.8~1.41.02（0.6~1.71.60（1.04~2.4

1.01.02（0.7~1.51.19（0.8~1.71.70（1.2~2.5

1157248324

1174853210

1.01.4（0.8~2.20.8（0.5~1.31.3（0.9~1.8

否（人

logistic

OR值95%可信区间

surveylogistic

1.01.3（0.7~2.30.7（0.4~1.31.2（0.8~1.9

1.01.1（0.7~1.7

0.98（0.5~1.91.8（0.95~3.3

1.01.01（0.7~1.51.18（0.8~1.81.66（1.1~2.6

glimmix1.01.4（0.8~2.30.9（0.5~1.51.4（0.97~2.0

1.01.1（0.8~1.5

1.1（0.6~1.81.6（1.01~2.5

1.01.08（0.7~1.71.18（0.8~1.81.82（1.2~2.7

未使用工具扶一个跌倒的院友坐好（次/天

该表调整了年龄,身高,社会心理因素,养老院性质以及工作中的受伤史,且各因素之间的交互作用未予考虑,下同。

表2各模型回归系数的标准误比较

回归系数的标准误

因素

logisticsurveylogisticglimmix

给院友整理床铺2

34给院友搬重物234

未使用工具扶一个跌倒的院友坐好234

0.21050.19160.1904

0.21440.19560.2299

0.22180.20470.2061

0.16330.25850.2159

0.22240.33650.3186

0.17660.27880.2323

2.在分层整群抽样中,每个整群内的观察个体间

会因为时间与空间的相似因素而产生组内相关,当各群之间的变异越大,也就意味着各群内各个个体具有更高的同质性。

如果在做统计分析时,不考虑这种组内同质性,将造成传统线性模型的显著性检验过于宽松。

也就是说即使一个很小的内部相关系数（ICC也会导致较大的第类错误

0.24380.26100.1777

0.28780.31320.2245

0.26040.27580.1882

。

而GLMMs可以通过

在模型中纳入随机效应来解释数据间的这种相关,且

适用于反应变量为分类或者离散型的。

其可通过SAS中的glimmix和nlmixed两个过程实现。

3.由本文实例可见,surveylogistic回归与GLMM中回归系数的标准误都比多因素logistic回归的系数标准误要大,且各危险因素的OR值及其95%可信区间都有所增宽。

这一点与有关文献中的报道相符合。

同时也验证了,多因素logistic回归在分析分层整群抽样数据时,模型回归系数的标准误是被低估的,使得其显著性检验过于宽松。

综上所述,在分层整群抽样中,为减少模型系数标准误估计的向下偏倚以及第类错误的发生,survey-logistic回归与GLMM都是比较适用的,不建议使用多因素logisitic回归。

另外,在对surveylogistic回归与GLMM这两种方法进行比较时,从原理上看GLMM的似然估计较复杂,可能出现耗时且估计不能收敛的情况

412

2,以0次/天为对照组,1-4次/天组与之相比较;3,以0次/天为对照组,5~9次/天组与之相比较;4,以0次/天为对照组,10次/天组与之相比较。

本表罗列了表1中三个职业因素在三个模型中的回归系数的标准误

讨论

1.在分层整群抽样中,二分类结局变量可能是社会科学研究中最常见的结局变量,其广泛存在于社会学、公共卫生学等领域。

因此,logistic回归模型和logit模型被广泛应用于此类数据的分析。

但是,抽样调查研究中所获得的样本通常不符合独立同分布的假设,而多因素logisitic回归的前提假设是各观察个体独立,且基本上不考虑抽样权重。

那么,如果在数据分析时没有考虑到这一点的话,可能会导致总体的方差的低估

10,11

并且该法在分析分层整群抽样数据时,前提

假设是无限总体,而surveylogistic回归则可在分析中将有限总体的条件纳入进来。

同时,由本文实例分析

结果可见,surveylogistic回归在对模型回归系数标准误进行调整时,调整的幅度均较大。

那么这种调整对分层整群抽样数据分析的影响如何,则是需要进一步的数据模拟研究,才可以下结论。

（下转第128页

。

因此,如果我们有必要在分析时将因为

抽样设计导致的不同抽样权重纳入到统计分析中。

SAS91及以上版本出现的survey模块可以针对分层整群抽样这种复杂抽样数据的抽样特点将抽样权重纳入到统计分析中,而其中的surveylogistic过程则可以专门分析应变量为分类变量的分层整群抽样数据。

128

ChineseJournalofHealthStatistics,Apr2010,Vo.l27,No.2

看,多重填充方法较均值填充法和热平台填充法更适合处理1990~2004年全国血吸虫病监测资料中缺失

比例较少的缺失值。

ComparisonoftheThreeImputatonMethodsofMissingVa-luesfortheSchistosomiasisSurveillanceDatainChinaZhaoFei,ZhangZhijie,LiuJianxiang,etal.DepartmentofEpidemiolo-gy,SchoolofPublicHealth,FudanUniversity;KeyLaboratoryonPublicHealthSafety,MinistryofEducation（200032,ShanghaiAbstractObjectiveTocomparethethreeimputationmeth-odsofmissingvaluesandprovidescientificbasisforthebestimputationmethodsofmissingvaluesfortheschistosomiasissurveillancedatainCh-ina.Methods

Themean,hotdeckandmultipleimputationtechniqueswere

usedtoimputethehypothesizedmissingvalueswhichwereselectedrandomlyfromtheschistosomiasissurveillancedatawith10%,20%,30%,40%and50%,respectivelyandtheresultsofimputationwerecomparedbasedonthreeaspectsofdistributioncharacteristic,accuracyandprecision.ResultsTherewerenosignificantdifferenceamongtheresultsofthethreeimputationmeth-odsandtheoriginalvalues.Forthemultiple-imputationmethod,ithadbetteraccurancyanddistributioncharacteristiccomparedwithothermethods.Con-

参考文献

1.ZhaoGM,ZhaoQ,JiangQW,eta.lSurveillanceforschistosomiasisja-ponicainChinafrom2000to2003.ActaTropica,2005,96:

288-295.2.赵根明,王立英,赵琦,等.2000~2004年全国血吸虫病监测点疫情分析.中国寄生虫学与寄生虫病杂志,2006,24:

4-9.

3.岳勇,田考聪.数据缺失及其填充方法综述.预防医学情报杂志,2005,21:

683-685.

4.姜庆五,郝阳,杨维中.中国世纪血吸虫病.香港:

香港文汇出版社,2007.5.PrezA,DennisRJ,GilJF,eta.lUseofthemean,hotdeckandmult-ipleimputationtechniquestopredictoutcomeinintensivecareunitpa-tientsinColombia.StatMed,2002,21:

3885-3896.

6.赵根明,王立英,赵琦,等.2000~2004年全国血吸虫病监测点疫情分析.中国寄生虫学与寄生虫病杂志,2006,24:

4-9.

7.LittleRJ,YosefM,CainKC,eta.lAho-tdeckmultipleimputationpro-cedureforgapsinlongitudinaldataonrecurrentevents.StatMed,2008,27:

103-120.

8.周艺彪,赵根明,姜庆五.多重填充方法评估日本血吸虫病感染率.中国公共卫生,2004,20:

286-288.

9.PatricianPA.Multipleimputationformissingdata.ResearchinNursing&Health,2002,25:

76-84.

10.HarelO,ZhouXH.Multipleimputation:

reviewoftheory,implementa-tionandso

展开阅读全文