分层整群随机抽样数据的不同分析方法及结果比较陈丹萍解析.docx-资源下载

分层整群随机抽样数据的不同分析方法及结果比较陈丹萍解析.docx

1、分层整群随机抽样数据的不同分析方法及结果比较陈丹萍解析122中国卫生统计2010年4月第27卷第2期分层整群随机抽样数据的不同分析方法及结果比较复旦大学公共卫生学院卫生统计和社会医学教研室(200032*陈丹萍赵耐青林燧恒提要目的探讨分层整群抽样数据应用S A S 9. 1分析时, 不同分析方法对结果的影响。方法比较多因素log i stic 回归, surveylog i stic 回归以及广义线性混合效应模型(g li m m i x 在分层整群抽样数据中的统计分析, 并用实例加以说明。结果不同的方法所产生的结果是有差别的。survey l og isti c 回归与广义线性

2、混合效应模型对模型中各回归系数的标准误进行了调整, 使得其比多因素log i sitic 回归中的标准误大。在实例分析中各危险因素的OR 值也发生了变化, 其95%可信区间都有不同程度的增宽。结论在分层整群抽样中, 为减少模型系数标准误估计的向下偏倚以及第类错误的发生, survey log isti c 回归与广义线性混合效应模型都是比较适用的, 不建议使用多因素l og isiti c 回归。关键词分层整群随机抽样 survey l og istic 回归广义线性混合效应模型在抽样调查中, 为了减少抽样误差, 多采用多阶段的抽样方式; 而另一方面为了方便调查回收问卷, 多采用整群抽

3、样, 故多阶段整群随机抽样在抽样调查中经常被使用。分层整群抽样在多阶段整群抽样中应用较为广泛, 尤其是在流行病学调查及其相关研究中, 而在这些研究中常会出现结局变量为分类变量, 大多数人在统计分析时常常会直接采用多因素log istic 回归。但是, 分层整群抽样的数据可能会因为抽样的复杂性而造成各群体的抽样权重不同; 再者, 该类数据存在着群内各个个体的内部相关问题, 也就是调查个体间的不独立性。针对不同的抽样权重, 可采用survey log isti c 回归来将不同的抽样权重纳入到统计分析1, 2Survey l o g istic 是SA S 9 1及以上版本出现的专门针对抽样数据分

4、析的程序模块, 其回归模型与式(1 相同, 对回归系数的最大似然估计也是采用Fis her 得分法及N e w ton -Raphson 算法。但是, 该程序可以配合复杂抽样的分层, 整群以及不等抽样概率的特点进行方差估计, 并且用泰勒级数线性法估计复杂抽样设计的抽样误差。一般在抽样设计中, 存在着基础抽样权重。基础抽样权重:在单阶段抽样设计下为抽样概率的倒数; 在多阶段抽样中, 最终的基础抽样权重则为各阶段抽样单位抽样权重的乘积。基础抽样权重包含了分层、整群及不等抽样概率的信息, 因此, 在做统计分析时可就这些信息进行相应的调整。另外, 有些调查需要事后调整人口学上的某些因素(如年龄, 而涉

5、及到事后的调整权重。那么, 总的抽样权重就为这两部分的乘积。survey log istic 的估计方程为:h =1i =1; 而关于数据的不独立问题, 则可应用广义线性混合效应模3型进行统计分析。本研究将这2种方法与多因素log istic 回归进行比较, 并用实例数据加以说明。原理和方法1. 固定效应l o g istic 回归模型此模型可用来分析非分级结构数据的二分类结局变量。该模型中, 结局事件发生概率做了l o g it 转换(log it 连接函数, 从而成为可处理一组解释变量的线性函数, 而形成l o g istic 回归模型4Hw h in h m hij=1h ij(y h

6、ij - h ij =0k5(2其中, 在分层整群抽样中, h =1, 2, , H 表示层数, 共H 层; i=1, 2 , n h 表示第h 层第i 整群, 第h 层共n h 个整群; j=1, 2, , m hi 表示第h 层第i 整群的第j 个个体, 该整群内共有m h i 个个体; w h i 表示抽样权重; h ij =E (Yh ij ; h ij =log it( h ij 。由式(2 可得到模型回归系数的估计, 其回归系数估计的协方差矩阵为:Q G Q-1-1Hn hm hi。ilog it ( i =l o g ( = 0+1- iKk =1k x ki(1其中, 0和 k

7、分别为回归截距和不同自变量的斜率系数。多因素l o g isti c 回归模型在对回归系数进行最大似然估计时, 采用的是Fisher 得分法及New ton -Raph -son 算法。2. Survey log istic 回归*:上海市重点学科建设项目资助(项目编号:B118 通讯作者:林燧恒, E-m ai:l hslynn sh m u . edu. cn(3h =1i=1其中, Q =wh ih ij (1- h ij D h ij D h ijHn h (1-f h h G =(e hi. -e h. . (ehi. -e h . . n -k -1h =1n h -1 i=1m

8、j=1ne hi. =w h ij=1hih ij n h(1- h ij D hij (y h ij - h ij e h. . =e h i.h 1C h i nese Jou rnal of H ealth Statisti cs , A pr 2010, V o. l 27, N o . 2123f h 表示第h 层的抽样率; h ij h ij h ijD h ij =(, , 01k由式(3 可见, survey l o g istic 回归的方差计算时考虑到了抽样权重w hi , 而当抽样权重w h i 都相同时, sur -vey l o g istic 的回归系数估计等于多因

9、素log istic 的回归系数估计。3. 广义线性混合效应模型(generalized linear m i x ed m ode ls , GLMM sGLMM 模型是广义线性模型(generalized linear m ode ls , GLM 进一步扩展来的, 与GLM 模型相比, 由于GLMM 模型允许较高层次或宏观水平的残差, 考虑了分级结构数据的组间变异和组内相关问题, 也就是本文所指群内个体间的内部相关问题, 因此可用于分层整群抽样的数据。当结局变量为两分类且只有一个随机效应时, 其模型与式(1 类似, 表达如下:l o g it( ij =l o g (ij= 0+1- i

10、j求得方差V 的估计, 模型的固定估计 =(X V X X V p, 以及模型的随机效应估计U = u Z V 实例分析-12-1-1-r 。采用香港某年对全港所有注册养老院的护理人员进行了一次有关职业性下背痛的危险因素的调查。在该调查中, 采用的是分层整群抽样设计, 即先将养老院分为两层, 公立和私立, 然后再从这两层中分别进行整群抽样, 其中抽取了公立养老院37所, 私立养老院16所, 共1039名护理人员。其中, 男性22人, 女性1017人, 男女比例对比悬殊, 故本次分析主要针对其中的1017名女性。也就是说在计算抽样权重的时候, 有关性别比的调整权重不用考虑。7-9由文献可知:在个

11、人因素中, 年龄、身高以及之前是否有受伤史是影响下背痛的危险因素; 职业因素与社会心理因素也是重要的影响因素。在本研究数据中, 经过单因素卡方检验后, 职业影响因素主要表现在给院友整理床铺 , 给院友搬重物以及未使用工具扶一位跌倒院友坐好这些活动的操作次数; 而社会心理因素主要表现在:SF -36活力指数以及SF -36精神指数。本次实例数据分析的主要目的是研究职业因素对养老院护理人员的下背痛的影响, 故分析时主要分析职业因素, 其他因素可作为调整因素纳入统计分析模型。采用以上介绍的3种方法对此数据进行分析, 并用SA S 程序进行实现:在多因素l o g istic 回归中, 不对分

12、层及整群因素进行调整, 但是分层因素养老院性质还是会作为固定效应之一纳入模型, 不考虑整群因素各养老院 ; 在sur v ey log istic 回归中, 分层因素养老院性质被放入strata 选项中, 而整群因素各养老院被放入c l u ster 选项中, 另外将按抽样设计给予每一个抽样个体的权重放入选项w e i g h t 中, 另外本次实例研究的总体为有限总体, 故在分析时应考虑此项, 在选项中可加入to tal=整群总数; 在GLMM 中, 分层因素养老院性质作为固定效应纳入模型, 整群因素各养老院作为随机效应纳入模型进行分析。分析主要比较模型回归系数的标准误

13、的变化以及Kk=1k x kij +u i (4其中, i 表示第i 整群; j 表示第i 整群内第j 个个体; ij =E (Yij |ui ; 结局变量Y ij 的分布是在给定随机效应u i 的条件下的独立二项分布; 随机效应u i N(0, u 独立同分布。其模型 k 的估计一般通过最大似然法来获得, 但由于有额外的随机效应u i , 所以比较复杂。本研究采用线性化法将随机效应消除出去以获得似然函数的最大化, 从而求得模型的参数估计, 即SAS 软件提供的g li m m i x 程序所使用的算法, 来估计模型参数。根据Russ W o lfinger 和M ichae l O Conn

14、e ll 于1993年提出的有关GLMM s 的伪似然方法62, 采用一阶泰勒级数在 , U 展开连接函数的逆函数, 可得到下式:g-1( g-1( + X ( - + Z (U-U (5其中, =dia g ij (1- ij ,一个以 ij (1- ij 为矩阵元的对角矩阵; =X +ZU, X 和Z 分别为固定效应和随机效应U (即式(4 中的 k 和u i 的设计矩阵。式(5 经整理后为: ( -g-1-1( +X +ZU X +ZU(6若式(6 左边定义为虚拟变量P 的期望值, 则可得一个线性混合模型:P =X +ZU+2-1OR 值及其95%可信区间的变化, 结果如下:由表1的结

15、果可见, 各职业危险因素的OR 值及其95%可信区间在应用survey l o g istic 与g li m m ix 后较多因素l o g isti c 回归都发生了改变, 95%可信区间都有所增宽。由表2的结果可见, surv ey log istic 与g li m m i x 中回归系数的标准误都比多因素log istic 回归的系数标准误要大, 可见这两种方法都根据各自模型的特点对模型的方差估计进行了调整。(7其边际方差V = u ZZ + , 由于g li m m i x 默认使用限制虚拟似然法, 则该模型中11-11-1l R -l o g |V |-r V r -log |X

16、 V X |222其中r =p -X (X V-1(8X X V-1p, 由式(8 可以124表1 各职业危险因素的OR 值及95%可信区间比较近1年内是否有下背痛中国卫生统计2010年4月第27卷第2期因素有(人给院友整理床铺(次/天 0 14 59 10给院友搬重物(次/天 0 1459 10 0 14 59 10148238*3148193138*19871211021. 01. 01(0. 81. 4 1. 02(0. 61. 7 1. 60(1. 042. 41. 01. 02(0. 71. 5 1. 19(0. 81. 7 1. 70(1. 22. 511572483241174

17、8532101. 01. 4(0. 82. 2 0. 8(0. 51. 3 1. 3(0. 91. 8否(人l og isti cOR 值95%可信区间s urvey l og i sti c1. 01. 3(0. 72. 3 0. 7(0. 41. 3 1. 2(0. 81. 91. 01. 1(0. 71. 70. 98(0. 51. 9 1. 8(0. 953. 31. 01. 01(0. 71. 5 1. 18(0. 81. 8 1. 66(1. 12. 6g li m m ix 1. 01. 4(0. 82. 3 0. 9(0. 51. 5 1. 4(0. 972. 01. 01.

18、1(0. 81. 51. 1(0. 61. 8 1. 6(1. 012. 51. 01. 08(0. 71. 7 1. 18(0. 81. 8 1. 82(1. 22. 7未使用工具扶一个跌倒的院友坐好(次/天*:该表调整了年龄, 身高, 社会心理因素, 养老院性质以及工作中的受伤史, 且各因素之间的交互作用未予考虑, 下同。表2 各模型回归系数的标准误比较回归系数的标准误因素l og isti c survey l og isti c g li m m i x给院友整理床铺 23 4给院友搬重物 2 3 4未使用工具扶一个跌倒的院友坐好 2 3 40. 21050. 19160. 1904

19、0. 21440. 19560. 22990. 22180. 20470. 20610. 16330. 25850. 21590. 22240. 33650. 31860. 17660. 27880. 2323*2. 在分层整群抽样中, 每个整群内的观察个体间会因为时间与空间的相似因素而产生组内相关, 当各群之间的变异越大, 也就意味着各群内各个个体具有更高的同质性。如果在做统计分析时, 不考虑这种组内同质性, 将造成传统线性模型的显著性检验过于宽松。也就是说即使一个很小的内部相关系数(I CC 也会导致较大的第类错误130. 24380. 26100. 17770. 28780. 3132

20、0. 22450. 26040. 27580. 1882。而GLMM s 可以通过在模型中纳入随机效应来解释数据间的这种相关, 且3适用于反应变量为分类或者离散型的。其可通过SA S 中的g li m m i x 和n l m i x ed 两个过程实现。3. 由本文实例可见, survey log istic 回归与GLMM 中回归系数的标准误都比多因素log istic 回归的系数标准误要大, 且各危险因素的OR 值及其95%可信区间都有所增宽。这一点与有关文献中的报道相符合。同时也验证了, 多因素log istic 回归在分析分层整群抽样数据时, 模型回归系数的标准误是被低估的, 使得其

21、显著性检验过于宽松。综上所述, 在分层整群抽样中, 为减少模型系数标准误估计的向下偏倚以及第类错误的发生, survey-l og istic 回归与GLMM 都是比较适用的, 不建议使用多因素log isitic 回归。另外, 在对survey l o g istic 回归与GLMM 这两种方法进行比较时, 从原理上看GLMM 的似然估计较复杂, 可能出现耗时且估计不能收敛的情况4 12*:2, 以 0次/天为对照组, 1-4次/天组与之相比较; 3, 以 0次/天为对照组, 59次/天组与之相比较; 4, 以 0次/天为对照组, 10次/天组与之相比较。本表罗列了表1中三个职

22、业因素在三个模型中的回归系数的标准误讨论1. 在分层整群抽样中, 二分类结局变量可能是社会科学研究中最常见的结局变量, 其广泛存在于社会学、公共卫生学等领域。因此, l o g istic 回归模型和l o g it 模型被广泛应用于此类数据的分析。但是, 抽样调查研究中所获得的样本通常不符合独立同分布的假设, 而多因素log isitic 回归的前提假设是各观察个体独立, 且基本上不考虑抽样权重。那么, 如果在数据分析时没有考虑到这一点的话, 可能会导致总体的方差的低估10, 11, 并且该法在分析分层整群抽样数据时, 前提假设是无限总体, 而surv ey log istic 回归则可在

23、分析中将有限总体的条件纳入进来。同时, 由本文实例分析结果可见, survey log istic 回归在对模型回归系数标准误进行调整时, 调整的幅度均较大。那么这种调整对分层整群抽样数据分析的影响如何, 则是需要进一步的数据模拟研究, 才可以下结论。(下转第128页。因此, 如果我们有必要在分析时将因为12抽样设计导致的不同抽样权重纳入到统计分析中。SA S9 1及以上版本出现的survey 模块可以针对分层整群抽样这种复杂抽样数据的抽样特点将抽样权重纳入到统计分析中, 而其中的survey log istic 过程则可以专门分析应变量为分类变量的分层整群抽样数据。128C h i nes

24、e J ourna l of H ealt h S tatistics , Ap r 2010, V o. l 27, No . 2看, 多重填充方法较均值填充法和热平台填充法更适合处理19902004年全国血吸虫病监测资料中缺失比例较少的缺失值。Co mparison of the Three I m putaton M e thod s of M issi ng Va-l ue s for the Sch istoso m iasis Surveill ance Da ta i n Ch i na Zhao F ei , Z hang Zh ijie, L iu Jianxiang, et

25、 a l. D epa r t m ent o f Ep i de m i o l o-gy, Scho o l o f P ub lic Hea lth, Fudan U n i v ersity; K ey L abo ra to ry on P ub lic Hea lth Sa fety,M i n istry o f Educa tion (200032, Shangha i Abstract O bjective To com pare t he t h ree i m pu tati on m et h -ods o f m issi ng va l ues and p rovi

26、de sci en tifi c basis for t h e b est i m pu tati on m et hod s of m issi ng val ues for t he s ch istos om ias i s surveillance dat a i n Ch -i na . M e thodsTh em ean, hot deck and m ulti p l e i m putati on techn i ques w ereused t o i m pu t e t he hypot hesi z ed m is si ng val ues wh ic h w e

27、re s elected rando m l y fro m t h e schist o s o m i asis s urveilla n ce dat a w it h 10%,20%, 30%,40%and 50%, res pecti vel y and t he res u lts of i m put ation w ere com pared bas ed on t hree as pects of d i stri buti on charact eris ti c , accuracy and precisi on . R esu lts There w ere no si

28、 gn ifi can t difference a m ong t he res u lts of t he t hree i m putati on m et h -ods and t he ori gi nal val ues . For t he mu lti p l e -i m pu t ati on m et hod , i t had bett er accurancy and d is tri buti on characteristi c com pared w i th other m et hods . Con -参考文献1. Zhao GM , Zhao Q,

29、Ji an g QW, et a. l Surv eill an ce fo r s ch istoso m iasis ja -pon i ca i n C hina from 2000to 2003. A ct a Trop ica , 2005, 96:288-295. 2. 赵根明, 王立英, 赵琦, 等. 20002004年全国血吸虫病监测点疫情分析. 中国寄生虫学与寄生虫病杂志, 2006, 24:4-9.3. 岳勇, 田考聪. 数据缺失及其填充方法综述. 预防医学情报杂志, 2005, 21:683-685.4. 姜庆五, 郝阳, 杨维中. 中国世纪血吸虫病. 香港:香港文汇出版

30、社, 2007. 5. P rez A, D enn is RJ , G il J F , et a. l U se of t he m ean , ho t deck and m u l t-i p le i m putati on t echn iques to pred ict ou t com e i n i n t en si ve care un it pa -tien ts i n C o l o m bia . S tatM ed, 2002, 21:3885-3896.6. 赵根明, 王立英, 赵琦, 等. 20002004年全国血吸虫病监测点疫情分析. 中国寄生虫学与寄生虫

31、病杂志, 2006, 24:4-9.7. L i ttl e R J , Yo s efM , C ai n KC, et a. l A ho -t deck m u ltiple i m putati on pro -cedure for gaps i n l ong it ud i nal dat a on recurrent events . Stat M ed , 2008, 27:103-120.8. 周艺彪, 赵根明, 姜庆五. 多重填充方法评估日本血吸虫病感染率. 中国公共卫生, 2004, 20:286-288.9. Patrici an P A. M ulti p l e i m pu t ati on for m issi ng dat a . Res earch i n N ursi ng &H ealt h, 2002, 25:76-84.10. Hare lO, Zhou XH. M u lti p le i m putation:revie w of t h eory, i m p l e m en ta -tion and s o

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？