抽样方法案例.docx
《抽样方法案例.docx》由会员分享,可在线阅读,更多相关《抽样方法案例.docx(19页珍藏版)》请在冰豆网上搜索。
抽样方法案例
附件二:
国家卫生服务总调查样本地区和样本个体的抽取方法
一、概述
1.1国家卫生服务总调查抽查的原则是既要兼顾调查设计的科学性即样本地区和样本个体对全国和不同类型地区有足够的代表性,又不致于过多增加样本量而加大调查的工作量,即经济有效的原则。
1.2抽样的方法是多阶段分层整群随机抽样法。
第一阶段分层是以县(市或市区)为样本地区;第二阶段分层是以乡镇(街道)为样本地区;第三阶段分层以村为样本地区;最后是住户为样本个体。
二、第一阶段分层整群抽样
2.1第一阶段抽样着重解决两个基本问题:
一是由于全国各县、市差异极大,如何确定第一阶段分层的基准;二是抽样比例,多大的县、市样本量能经济有效地代表全国和不同类型的地区。
2.2第一阶段分层基准的确定
第一阶段分层的指标是通过专家咨询法和逐步回归法筛选的10个与卫生有关的社会经济、文化教育、人口结构和健康指标。
10个指标的主成份分析结果如表1。
表⒈主要社会经济和人口动力学指标的主成份因子模型
变量单位主成份1主成份2主成份3
第一产业就业率%0.82*-0.490.17
14岁人口比例%0.80*-0.10-0.49
文盲率%0.69*0.320.22
粗出生率‰0.69*0.35-0.10
粗死亡率‰0.67*0.510.33
婴儿死亡率‰0.67*0.60*-0.02
人均工农业产值(元)-0.65*0.53*0.12
第二产业就业率%-0.84*0.45-0.10
初中人口比例%-0.92*0.02-0.04
65+人口比例%-0.10-0.190.93*
从主成份分析中可以看出主成份1与绝大多数变量有十分显著的关联,意义十分明确,而且代表10个变量整体信息的51.22%。
其值的大小可以综合反映一个地区社会经济、文化教育、人口及其健康的发展。
因此,确定主成份1为分层的基准称它为分层因子。
2.3第一阶段的聚类分层
在计算各县、市分层因子的得分后,用K-Means聚类分析方法将总体分为组间具有异质性和组内具有同质性的五类地区即五层。
聚类分层的结果第一层有201个县(市或市区),占整个县(市或市区)的8.2%;第二层有650个县(市或市区),占26.5%;第三层有698个县(市或市区),占28.5%;第四层有691个县(市或市区),占28.2%;第五层有212,占8.6%。
表⒉显示了各层因子得分和选择的社会经济等变量的均值,可见各层呈明显的梯度。
可以认为,第一层所在的市县,是社会经济、文化教育和卫生事业发展以及人群健康状况好的地区,第二层是比较好的地区,第三层是一般性地区,第四层是比较差,第五层是差的地区。
表2主要社会经济和人口动力学指标的主成份因子模型
市县因子得分社会经济和人口动力学指标
层别数均数距离GNPAEPILLITCDRIMR
1
201
-2.4354
3210.28
3330
15.7
19.7
5.1
17.5
2
650
-0.6638
2164.66
835
64.6
23.7
5.7
26.2
3
698
0.0692
1655.00
450
83.5
32.4
6.3
31.4
4
691
0.5776
1264.57
341
88.1
43.6
7.4
49.1
5
212
1.7457
539.61
319
90.0
66.8
11.7
121.4
2.4第一阶段分层等概率多种样本容量的抽样
用经济有效的样本代表总体是抽样调查的精髓。
样本量的确定基于以往的经验和其他国家抽样调查样本的设计,首先给定一个样本量大小的范围,确定抽取样本量为120,90,60,45,30五个大小不等的样本。
为了保证各层每一个县(市或市区)都有同等被抽取为样本的概率,必须考虑不同大小样本量的样本在各层的分配,即按比例的分层抽样。
见表⒊。
表⒊不同大小样本量样本在各层的分配
层数全国不同大小样本量样本的分配:
合计(%)12090604530
第一层
201
(8.2)
10
8
5
4
2
第二层
650
(26.5)
32
23
16
11
8
第三层
698
(28.5)
34
26
17
13
9
第四层
691
(28.2)
34
25
17
13
8
第五层
212
(8.6)
10
8
5
4
3
按系统随机抽样方法,每个不同大小样本量的样本抽取6次。
同一样本量的6次抽样,通过计算每次抽样样本各变量的统计量,分别与总体各变量参数进行比较,从中筛选出与总体参数最为接近的那个样本,作为该样本量的最佳抽取样本。
2.5第一阶段最佳样本量样本的选择与评价
⑴不同样本量样本各变量均值与总体均数的比较:
如果将不同样本量样本各变量的均值与总体各变量的均数绝对误差,绝对误差与总体均数之比为相对误差,同一样本各变量的相对误差具有可加性,其均数称为该样本各变量的平均相对误差。
平均相对误差可作为判断不同大小样本量样本对总体代表性的一个尺度。
同时,用“1-平均相对误差”作为精确度。
表⒋显示了不同样本量样本各变量的均数,与总体各变量比较的相对误差、平均相对误差和精确度。
从不同样本量样本来看,平均相对误差随着样本量的减少而增大。
如样本量从120减少到60,平均相对误差由1.4%增加到2.7%,增加了62%,而样本量从60减少到30,平均相对误差从2.7%增加到5.6%,增加了一倍以上。
样本量为120,90,60的样本精确度均大95%,也就是说样本量大于60就可对总体有较好的代表性。
⑵不同样本量样本各变量的分布与总体分布的比较:
样本变量的分布与总体分布是否吻合也是衡量样本对总体代表性的一个尺度。
表⒌列出了不同样本量各变量分布与总体分布卡方检验的结果。
从不同样本各变量分布与总体分布的结果,平均卡方值小于9.49这一差异有显著性水平的样本量为120,90和60。
鉴于上述分析,故可认为,样本量大于60的样本,各变量的分布大多与总体分布相拟合,对总体有较好的代表性。
见表5。
⑶不同样本量样本分散度的评价:
样本分散度指样本中各层的变量统计量对总体各层的代表性。
在第一层中,样本量为120和90的样本,平均每个指标的精确度均大于95%;样本量为60的样本,精确度为89.4%。
从第二层到第四层,样本量为120和90的各个样本,平均每个指标的精确度都大于95%;第五层样本量为120,90和60的各样本,精确都分别为94.1%,92.5%和93.9%,与上述四层相比,精确度略差一些。
也就是说,要对总体各层有较好的代表性,样本量至少为90。
详见表6。
2.6考虑到经济有效的原则和对全国、不同类型的地区和上述每个指标的代表性,国家卫生服务总调查的县(市或市区)样本容量取90。
具体抽出的县、市或市区见附件5。
三、第二阶段整群随机抽样
3.1在上述抽取的90个“样本县(市或市区)”中,以乡镇(街道)为第二阶段整群系统随机抽样单位。
全国每个乡镇(街道)被抽取为“样本乡镇(街道)”的概率是1∶160。
第二阶段整群系统随机抽样全国共抽取450个乡镇(街道)。
平均每个“样本县(市或市区)”抽5个乡镇(街道)。
第二阶段分层整群抽样具体由各样本县(市或市区)按下述方法抽取。
3.2第二阶段整群随机抽样的基准
由于一个县(市或市区)内社会经济、文化教育和卫生状况的差异远小于全国各县、市之间的差异,因而确定县(市或市区)的抽样基准相对容易。
根据我国各县(市或市区)的基本特征、实际的可操作性和以往抽样调查常用的指标,确定采用人口数(或人均收入)作为分层基准。
3.3第二阶段整群随机抽样的的方法
①将样本县(市或市区)所有的乡镇(街道)按人口数的多少(或人均收入的大小)由多到少依次排序;
②由多到少依次计算人口数(或人均收入)的累计数;
③计算抽样间隔,用累计的人口总数(或人均收入累计总数)除于抽取的样本数(累计总数/5);
④用纸币法(随便拿出一张人民币,看人民币的号码与最初累计数哪一个数接近,取这个数为开始数)随机确定第一个样本乡镇(街道),然后加上抽样距离确定第二个样本乡镇(街道),依次类推确定第三至五个样本乡镇(街道)。
3.4第二阶段整群随机抽样实例
某个样本县共有18个乡、镇,要从该样本县抽取5乡镇作为样本。
根据抽样方案的要求,第一步人口数的多少由大到小排序,并计算累计数(该县人口累计数即人口总数为210100),见表6;
第二步计算抽样间隔,用人口总数除于抽样的样本数,248600/5=49720,该县乡镇整群抽样的抽样间隔为49720;
第三步确定第一个随机数,取一张人民币,其编号的为FP59243854,取后5位数是43854,所取的后5为数不能大于抽样间隔数,如大于再取一张人民币.该后5位随机数接近第2编号即平湖镇后面的累计数,因此确定第2号平湖镇为第一个样本;
第四步用第一个样本的累计数加抽样间隔,即43000+49720=92720,
该数接近第5编号即新龙乡的累计数,确定第5号新龙乡为第二个样本。
第五步用第二个样本的累计数加抽样间隔,即100900+49720=142920,该数接近第8编号新原乡的累计数,确定第8号新原乡为第三个样本;同样的方法确定第⒔号和第⒙号即桐连乡和四顶乡。
这样,五个样本乡镇就确定了。
表6.第二阶段整群随机抽样的实例
编号乡镇
人口数
累计
编号乡镇
人口数
累计
编号乡镇
人口数
累计
⒈城关镇
22000
22000
⒎平原乡
16400
134900
⒔新店镇
10000
205500
⒉平湖镇
21000
43000
*⒏新原乡
15000
149900
*⒕定安乡
9500
215000
⒊玉阳镇
20000
63000
⒐古农乡
14000
163900
⒖五岖乡
8900
223900
⒋五一乡
19500
82500
⒑王店乡
11000
174900
⒗五庙乡
8500
232400
*⒌新龙乡
18400
100900
*⒒双莲乡
10500
185400
⒘双山乡
8200
240600
⒍湖泊乡
17600
118500
⒓桐连乡
10100
195500
*⒙四顶乡
8000
248600
四、第三阶段随机抽样
4.⒈第三阶段随机抽样的基准和样本容量
⑴在同一个乡镇(街道)内,各村(居委会)的经济发展和卫生状况基本上变异不大。
因此,第三阶段不用分层,直接采用随机整群抽样的方法从“样本乡镇(街道)”中抽取样本村(居委会)。
但是,抽样时应按各村人均收入或人口数作为标识进行排序。
第三阶段随机抽样由调查指导员负责。
⑵每个“样本乡镇(街道)”整群随机抽取2个村(居委会),全国共抽取900个村(居委会),全国每村(居委会)被抽为样本的概率为1:
1120。
4.2第三阶段整群随机抽样的的方法
①将样本乡镇(街道)所有的村(居委会)按人均收入的多少(或人口数的大小)由多到少依次排序;
②由多到少依次计算人均收入(或人口数)的累计数;
③计算抽样间隔,用累计总数除于抽取的样本数(累计总数/2);
④用纸币法(随便拿出一张人民币,看人民币的号码与最初累计数哪一个数接近,取这个数为开始数)随机确定第一个样本村(居委会),然后加上抽样距离确定第二个样本村。
4.3.第三阶段随机整群抽样的实例
第一步将所有的村按人均收入的多少由大到小排序,并计算累计数;第二步计算抽样间隔:
7337/2=3669;第三步确定第一个随机数,取一张人民币,其编号的后4位数是2273,这个随机数接近第4编号的累计数,因此确定第4号村为第一个样本;第五步用第二位的累计数加抽样间隔(2805+3669=6474),接近第⒑编号的累计数,确定第⒑号为第二个样本。
表7.第三阶段随机整群抽样实例
编号
村
人均收入
累计数
编号
村
人均收入
累计数
⒈
镇西店村
724
724
⒎
长生庙村
589
4606
⒉
唐家铺村
721
1445
⒏
王甸子村
574
5180
⒊
镇东村
689
2134
⒐
民生村
571
5751
*⒋
镇北村
671
2805
*⒑
清平村
544
6295
⒌
李家店村
610
3415
⒒
老平埠村
534
6829
⒍
湖泊村
602
4017
⒓
高坝村
508
7337
*为随机抽取的样本数。
五、样本个体的抽样
5.1最终的抽样单位是住户。
在每个“样本村(居委会)”中按20%的比例随机抽取住户,平均每个村抽60户,全国共抽取54000户。
全国平均每户被抽取为样本的概率为54000/28000万,约五千户中抽一户。
如果按每户四个人计算,人口抽样比为1:
5000左右。
5.2抽户方法是各样本乡镇(街道)的调查指导员上述抽样比例在样本村(居委会)随机抽取,具体方法:
①按人口普查的编码顺序,按门牌号、楼号、单元号、门号从小到大排列;
②对同一门牌号,同一个大院和楼号的,按门号从小到大排列,对同一门牌号内没有门号的按从左到右、从外到里、从下到上的原则编码。
一经编码不许变动;
③编好住户码列入住户清单表式中:
序号
户主姓名
家庭住址
门牌号码
家庭人口数
累计人口数
抽中住户
1
张三
*村*组
东1
5
5
2
李四
*村*组
东2
4
9
3
王五
*村*组
东3
4
13
*
4
赵六
*村*组
东4
3
17
5
陈七
*村*组
东5
5
22
。
。
300
赵末
*村*组
北6
6
1200
④根据抽样比例计算应抽的户数(一般平均每个样本村60户),然后系统随机抽取。
方法同上:
第一步将所有住户的人口累计数、本村的平均人口数(1200/300=4)和本村应抽取的住户数(300*20%=60);第二步计算抽样距离(1200/60=20);第三步确定第一个随机数(如取一张人民币,其编号的后两位数是12,这个随机数接近第3编号的累计数,因此确定第3号住户为第一个样本;第五步用第3号的累计数加抽样距离(13+20=33),看33最接近第几编号住户,并确定这家住户为第二个样本,同理用第二个样本住户对应的累计数加抽样距离确定第三个样本。
同样确定以后各样本住户。
⑸抽样时可多抽取六户,作为备用。
抽取方法是在上述抽取完毕以后,按上述步骤再从未抽取的住户中抽取6户。
表8.国家卫生服务总调查样本容量和抽样概率
____________________________________________________
单位名称全国总数抽样样本数抽样概率
县/市区
2450
90
1:
27
乡镇/街道
70000
450
1:
160
村/居委会
1000000
900
1:
1120
户
280000000
54000
1:
5000
人
1200000000
216000
1:
5000
全国每一户家庭被抽群为样本的概率模型:
90/2567*450*ST/<(90/2567)*280000000>*2/ST/280*60/280=1:
5000
---------------------------------------------------
↑↑↑↑↑在样本村每户
||||被抽取的概率
||一个乡被抽取为样本的概率一个村被抽取为样本的概率
|样本乡镇(街道)数
一个县(市或市区)被抽取为样本的概率(ST:
乡镇(街道)户数的大小)
表4.不同大小样本社会经济和人口动力学指标的均数以及与总体均数的相对误差
全国不同大小样本的均数
指标均数12090604530
指标均数:
0-14岁人口比例
%
33.6
33.3
33.6
33.5
33.0
31.9
岁人口比例
%
4.9
4.9
4.9
4.9
5.0
5.2
15-49岁妇女比例
%
26.2
26.6
26.9
26.7
25.8
27.6
人均工农业总产值
(元)
806
795
767
702
756
813
第一产业就业率
%
74.4
74.5
75.5
76.4
76.2
75.4
第二产业就业率
%
15.4
15.5
15.2
15.0
16.1
14.0
文盲和半文盲率
%
32.1
33.4
33.4
33.0
33.2
34.6
初中学历人口比例
%
18.2
18.3
18.5
18.2
19.5
18.5
粗出生率
每千人口
22.5
22.7
23.3
22.5
21.3
21.4
粗死亡率
每千人口
6.3
6.3
6.3
6.3
6.0
6.2
婴儿死亡率
每千出生
32.4
30.5
30.2
30.2
26.2
26.9
(二)相对误差
%
0-14岁人口比例
%
0.9
0.0
0.3
1.8
5.1
65+岁人口比例
%
0.0
0.0
0.0
2.0
6.1
15-49岁妇女人口
%
1.5
2.7
1.9
1.5
5.3
人均工农业总产值
(元)
1.4
4.8
13.0
6.2
0.9
第一产业就业率
%
0.1
1.5
2.7
2.4
1.3
第二产业就业率
%
0.6
1.3
2.6
4.6
9.1
文盲和半文盲率
%
4.1
4.1
2.8
3.4
7.8
初中学历人口比例
%
0.6
1.9
0.1
7.1
2.1
粗出生率
每千人口
0.9
3.6
0.0
5.3
4.9
粗死亡率
每千人口
0.0
0.0
0.0
4.8
1.6
婴儿死亡率
每千出生
5.9
6.8
6.8
19.0
17.0
相对误差合计
(%)
16.1
26.5
30.0
58.2
61.2
平均相对误差
(%)
1.46
2.41
2.73
5.29
5.56
精确度
(%)
98.54
97.59
97.27
94.71
94.44
表5.不同大小样本量样本社会经济和人口动力学指标的频数分布
与总体分布的拟合度检验
不同大小样本的卡方值:
指标12090604530
平均人口数/县(市)人口大小0.471.202.835.0714.82**
0-14岁人口数/0-14岁人口比例4.744.367.194.5626.12**
65+岁人口数/65+岁人口比例9.108.8321.7**13.21*20.90**
15-49岁妇女数/15-49岁妇女比例3.793.885.0110.96*32.47**
样本数/人均工农业总产值2.926.276.6912.56*28.39**
第一产业人数/第一产业就业率2.817.199.328.2025.40**
第二产业人数/第二产业就业率3.216.064.2624.24**30.38**
文盲半文盲人数/文盲半文盲率4.374.878.447.2832.62**
初中以上人数/初中以上人口比例3.134.233.746.2318.42**
出生人数/粗出生率2.893.494.214.9429.33**
死亡人数/粗死亡人数1.912.035.7715.16**19.96**
婴儿死亡人数/婴儿死亡率6.7711.6*14.8**45.45**51.02**
卡方值平均数3.615.027.2612.30*25.39**
与总体分布无显著性差异的指标数13121171
*X95%(4)=9.49**X99%(4)=13.2
表⒐不同大小样本社会经济和人口动力学指标的均数以及与各层均数的相对误差
(1)
_____________________________________________________________
变
量
各层均数
120
90
60
第一层
0-14岁人口比%
24.58
25.24
25.42
25.77
65岁及以上人口比%
4.60
4.46
4.43
4.50
人均工农业产值(元)
3330
3378
3505
2463
第一产业就业率%
18.72
20.15
21.48
25.83
第二产业就业率%
55.91
54.21
54.55
51.88
文盲半文盲率%
13.69
14.96
14.95
16.98
初中以上人口比%
32.15
32.50
32.69
31.74
粗出生率‰
16.71
16.30
16.14
14.78
粗死亡率‰
5.11
5.16
5.26
5.25
婴儿死亡率‰
17.45
19.50
20.63
17.25
精确度%
96.8%
95.6%
89.4%
0-14岁人口比%
32.36
32.96
33.72
32.24
65岁及以上人口比%
4.77
4.55
4.47
4.91
人均工农业产值(元)
835
780
777
764
第一产业就业率%
64.62
66.10
66.28
65.56
第二产业就业率%
21.24
20.33
19.88
20.67
文盲半文盲率%
23.69
22.72
22.42
22.35