二级整群随机抽样法说明doc 10页.docx

资源描述

二级整群随机抽样法说明doc 10页.docx

《二级整群随机抽样法说明doc 10页.docx》由会员分享，可在线阅读，更多相关《二级整群随机抽样法说明doc 10页.docx（5页珍藏版）》请在冰豆网上搜索。

二级整群随机抽样法说明doc 10页.docx

二级整群随机抽样法说明doc10页

二级整群随机抽样法说明（doc10页）

快速调查中的二级整群随机抽样

在社区健康服务研究中,快速流行病学评估（rapidepidemiologicalassessment）是常用的方法。

尤其当人力、物力及其它资源有限时,这是一种简单、经济而快速地获取信息的有效方法。

该方法可及时提供实时调查结果作为制定决策的依据,当应急事件发生、需要在短时间内对人群健康作出评价时,更显出其独特的作用。

在快速流行病学调查中,仍然须注意质量控制,比如,做好调查员的培训和组织工作,制定明确、客观的检测标准和详细、严格的资料收集方法等。

计算机的应用可加快调查和分析进程,在可能的情况下,随机电话和网络电话采访等都是有用的技术。

快速流行病学调查评估中常采用多级抽样,二级整群随机抽样（twostageclustersampling）是一种行之有效、值得推荐的人群调查抽样技术。

在第一阶段采用概率比率抽样（probabilityproportionatetosize,PPS）方法,即根据各群的规模按比例分配样本量,从目标人群中抽取若干“群组”;第二阶段再从第一阶段所抽到的各群组中抽取相同人数组成样本。

也可以“户”为抽样单位,从第一阶段抽到的各群组中随机抽取相同户数,再进行第二阶段的调查。

这两种方法分别用不同的公式计算率、均数及相应的可信区间。

下面以调查某地人群吸烟行为（吸烟率和平均每日吸烟量）的两个小规模研究为例进行介绍。

1研究A（群内观察单位数相等）

1.1方法先采用PPS法从目标人群中抽取3个“群组”,再用单纯随机抽样（SPS）从每个群组中抽取7人组成样本（图1）。

为示例方便,在此仅选择3个群组,实际调查应不少于25个群组,否则将可能产生偏倚。

若抽取30个群组,则与世界卫生组织扩大免疫规划（expandedprogramonimmunization,EPI）的抽样设计相同。

1.2率的计算

吸烟率P为:

P=am（式1）

ni=1ai=∑ni=1∑mj=1aij（式2）

P=∑ni=1ainm（式3）

公式（式4）中:

P为吸烟率,a为吸烟者数,m为调查人数,n为群组数,ai为各群组中吸烟者数,m为每群组的平均人数。

aij表示第i群组,第j个观察对象,如第一群组的第一个观察对象a1,1是吸烟者,则a1,1＝1;第一群组的第四个观察对象a1,4是不吸烟者,则a1,4＝0。

群组吸烟率Pi为:

Pi=∑mj=1m（式4）

Pi=1+1+1+0+0+0+07=0.43

P2=0+0+0+0+0+1+17=0.29

P3=0+1+1+1+1+1+17=0.86

该样本人群吸烟率p=3+2+63×7=0.52,即调查对象吸烟率为52％。

或p=∑ni=1pin,p=0.43+0.29+0.863=0.52,必须注意此公式适用于各群组抽样人数相同时的样本率估计。

1.3率的可信区间计算

方差:

v（p）=∑ni=1（pi-p）2n（n-1）（式5）

率的标准误:

se（p）=v（p）=∑ni=1（pi-p）2n（n-1）（式6）

CI90%（p）=p±1.64se（p）

CI95%（p）=p±1.96se（p）

CI99%（p）=p±2.58se（p）

该人群吸烟率的95％可信区间计算如下:

v（p）=（0.43-0.52）2+（0.29-0.52）2+（0.86-0.52）23

（2）=0.029

se（p）=0.029=0.17

CI95%（p）=0.52±（196×0.17）=0.52±0.34,该地人群吸烟率及95％可信限为0.52（0.19,0.86）。

1.4样本均数的计算

平均吸烟量y:

观察对象中的吸烟者每日吸烟量在0～2包,平均1.5包。

y为平均每日吸烟量,yij表示第i群组第j个观察对象（图3）。

Yi为样本第i群内观察值之和,T为各Ti的均数。

y=∑ni=1∑mi=1nm（式7）图3调查对象（同时作为抽样单位和观察单位）每日吸烟量（包/日）

Fig3Packssmokedperdayamongpersonsservingasbothsamplingunitsandelementaryunits

y=（1.5+1.5+0.5+0+0+0+0+）+（0+0+0+0+0+2.0+0.5）+（0+1.0+2.0+0.5+1.5+1.5）3（7）

y=3.5+2.5+7.021=1321=0.62

由于各群组抽取的人数相同,故可用下式估计y:

y=∑ni=1yn（式8）

各群组吸烟者平均每日吸烟量计算如下:

y=∑mj=1yijm（式9）

y1=1.5+1.5+0.5+0+0+0+07=0.50

y2=0+0+0+0+0+2.0+0.47=0.36

y3=0+1.0+2.0+0.5+0.5+1.5+1.57=1

y=0.50+0.36+1.003=0.62,结果同上式。

1.5均数的可信区间计算

样本均数的方差和均数的标准误分别为

v（y）=∑ni=1（yi-y）2n（n-1）（式10）

se（y）=v（y）=∑ni=1（yi-y）2）n（n-1）（式11）

代入数据计算:

v（y）=（0.50-0.62）2+（0.36-0.62）2+（1.00-0.62）23

（2）=0.038

se（y）=0.038=0.19

CI95%（y）=0.62±（1.96×0.19）=0.62±0.38,0.62（0.24,1.00）

如果排除了偏倚和混杂,可认为该人群平均每日吸烟量有95％的可能是0.24～1包。

2研究B（群内观察单位数不等）

2.1方法第一阶段的抽样方法与研究A相同,采用PPS法从目标人群中抽取3个“群组”,而第二阶段是从所抽取的每群组中随机抽取2户进行调查。

以“家庭户”为抽样单位可以收集有住户的信息,如每户报刊订阅情况,家庭收入,家庭常用的洗洁剂品牌等。

但多数研究还希望获得有关个人的信息,因此可对所抽中的“户”内的观察对象再进行调查,这时的观察单位是“人”,但每户被调查的人数不尽相同（图4）。

图4第一阶段PPS抽样;第二阶段简单随机抽样（SPS）,抽取相同户数

Fig4PPSsamplingatfirststageandSRsamplingofequalnumberofhouseholdsatsecondstage

研究B所抽取的家庭户,每户有1～3人,6户共有13人。

以m表示该对象是否居住本地,本地居民,m=1;非本地居民m=0（非本地居民不作为该研究的调查对象）。

aijk表示第i群组第j户第k个调查对象,如a1,1,1＝1表示第1群组第1户第1个调查对象是吸烟者;a3,2,2＝0表示第3群组、第2户、第2个调查对象是不吸烟者（图5）。

图5以住户为抽样单位,调查对象（即观察单位,人）的吸烟状况

Fig5Packssmokedperdaywithhouseholdsservingassamplingunitsandpersonsaselementaryunits

由于各群组抽取的户数相同（2户）,可合并以简化分析。

如图6的第1群组第2户第2个调查对象是不吸烟者.a1,2,2＝0,m1,2,2＝1,可表示为a1,5＝0和m1,5＝1（图6）。

图6各群吸烟人数（抽样单位:

户;观察单位:

人）

Fig6Tallyofsmokerspercluster-householdsserveassamplingunitsandpersonsaselementaryunits

2.2率的计算

由于各户观察人数mi不同,a,m和吸烟率P计算公式为

a=∑ni=1ai=∑ni=1∑mij=1mij（式12）

m=∑ni=1mi=∑ni=1∑mij=1mij（式13）

P=∑ni=1∑mj=1aij∑ni=1∑mj=1mij（式14）

代入数据计算:

p=（1+1+0+0+0）+（1+0+1）+（1+1+0+1+0）（1+1+1+1+1）+（1+1+1）+（1+1+1+1+1）

p=2+2+35+3+5=713=0.54,即样本人群中54％是吸烟者。

2.3率的可信区间计算

v（p）=∑ni=1（ai-pmi）2n（n-1）m2（式15）

se（P）=v（p）+∑ni=1（ai-pmi）2n（n-1）m2（式16）

代入数据计算:

v（p）=［2-（0.54×5）］2=［2-（0.54×3）］2+［3-0.54×5）

］23×2×4.32=0.0064

se（p）=0.0064=0.08

CI95%（p）=0.54±（1.96×0.08）=0.54±0.16,0.54（0.38,0.70）。

估计该人群吸烟率的95％可信区间为38％～70％。

2.4样本均数的计算

平均吸烟量y:

研究B抽取的3个群组（共6户）的调查人数及吸烟量如图7所示,第1群组第1户的3人中有2人吸烟,其中1人平均每天吸烟0.5包（y1,1,1=0.5）,另1人平均每天吸烟2包（y1,1,2=2）。

图7调查对象（抽样单位:

户;观察单位:

人）的每日吸烟量（包/日）

Fig7Packssmokedperdaywithhouseholdsservingassamplingunitsandpersonsaselementaryunits

y=∑ni=1∑mij=1yij∑ni=1∑mij=1mij（式17）

以y表示样本人群平均每日吸烟量,yij表示第i群组第j个观察对象的平均每日吸烟量,n表示群组数,mi表示群组i中的观察对象数,mij＝1为本地居民,mij＝0为非本地居民。

依公式17计算:

y=（0.5+2.0+0+0+0）+（1.0+0+1.0）+（1.0+0.5+0+1.5+0）（1+1+1+1+1）+（1+1+1）+（1+1+1+1+1）

y=（2.5）+（2.0）+（3.0）5+3+5=7.513=0.58,即该样本人群平均每日吸烟量0.58包。

若计算吸烟者平均每日吸烟量,式6-19的分母以7取代13;

y=（0.5+2.0）+（1.0+1.0）+（1.0+0.5+1.5）（1+1）+（1+1）+（1+1+1）

y=（2.5）+（2.0）+（3.0）2+2+3=7.57=1.07

即该样本人群中的吸烟者平均每日吸烟量大于1包。

2.5样本均数可信区间计算v（y）=∑ni=1（yi-ymi）2n（n-1）m2（式18）

se（y）=v（y）=∑ni=1（yi-ymi）2n（n-1）m2（式19）

代入数据计算样本人群平均每日吸烟量的95％可信区间为:

v（y）=［2.5-（0.58×5）］2+［2.0-（0.58×3）］3+［（3.0-（0.58×5）］23

（2）4.332=0.002

se（y）=0.002=0.005

CI95%（y）=0.58±（1.960.05）=0.58±0.09,0.58（0.49,0.67）

该样本人群中的吸烟者平均每日吸烟量的95％可信区间为:

vy=［2.5-（1.07×2）］2+［2.0-（1.07×2）］2+［（3.0-（1.07×3）］23

（2）2.332=0.006

se（y）=0.006=0.08

CI95%（y）=1.07±（1.96×0.08）=1.07±0.15,1.07（0.92,1.22）

3小结

上述介绍的两种二级整群随机抽样法中,第一种方法（研究A）中观察对象既是随机抽样单位也是调查的基本单位,计算方法较简单,但不能提供亚组（subgroup）资料;第二种方法（研究B）以户作为抽样单位,从各群组中随机抽取的住户数相同,但各群组的观察人数不同,采用以户内的观察对象作为调查的基本单位,该方法所得信息较丰富,不仅可对研究人群也可对各亚组资料进一步进行分析。

二级整群随机抽样是一种行之有效、值得推荐的人群快速调查抽样技术,在实际操作中应根据研究目的和可行性而选用。

展开阅读全文