抽样方法案例.docx
《抽样方法案例.docx》由会员分享,可在线阅读,更多相关《抽样方法案例.docx(22页珍藏版)》请在冰豆网上搜索。
抽样方法案例
附件二:
国家卫生服务总调查样本地区和样本个体的抽取方法
一、概述
1.1国家卫生服务总调查抽查的原则是既要兼顾调查设计的科学性即样本地区和样本个体
对全国和不同类型地区有足够的代表性,又不致于过多增加样本量而加大调查的工作量,即经
济有效的原则。
1.2抽样的方法是多阶段分层整群随机抽样法。
第一阶段分层是以县(市或市区)为样本
地区;第二阶段分层是以乡镇(街道)为样本地区;第三阶段分层以村为样本地区;最后是住
户为样本个体。
二、第一阶段分层整群抽样
2.1第一阶段抽样着重解决两个基本问题:
一是由于全国各县、市差异极大,如何确定第
一阶段分层的基准;二是抽样比例,多大的县、市样本量能经济有效地代表全国和不同类型的
地区。
2.2 第一阶段分层基准的确定
第一阶段分层的指标是通过专家咨询法和逐步回归法筛选的10个与卫生有关的社会经济、
文化教育、人口结构和健康指标。
10个指标的主成份分析结果如表1。
表⒈ 主要社会经济和人口动力学指标的主成份因子模型
变量单位主成份1主成份2主成份3
第一产业就业率%0.82*-0.490.17
14 岁人口比例%0.80*-0.10-0.49
文盲率%0.69*0.320.22
粗 出 生 率‰0.69*0.35-0.10
粗 死 亡 率‰0.67*0.510.33
婴儿死亡率‰0.67*0.60*-0.02
人均工农业产值 (元)-0.65*0.53*0.12
第二产业就业率%-0.84*0.45-0.10
初中人口比例%-0.92*0.02-0.04
65 +人口比例%-0.10-0.190.93*
从主成份分析中可以看出主成份1与绝大多数变量有十分显著的关联,意义十分明确,而
且代表 10 个变量整体信息的 51.22%。
其值的大小可以综合反映一个地区社会经济、文化
教育、人口及其健康的发展。
因此,确定主成份1为分层的基准称它为分层因子。
2.3第一阶段的聚类分层
在计算各县、市分层因子的得分后,用 K-Means 聚类分析方法将总体分为组间具有异质
性和组内具有同质性的五类地区即五层。
聚类分层的结果第一层有 201 个县(市或市区),
占整个县(市或市区)的 8.2%;第二层有 650 个县(市或市区),占 26.5%;第三层有
698 个县(市或市区),占 28.5%;第四层有 691 个县(市或市区),占 28.2%;第五层
有 212,占 8.6%。
1
表⒉显示了各层因子得分和选择的社会经济等变量的均值,可见各层呈明显的梯度。
可以
认为,第一层所在的市县,是社会经济、文化教育和卫生事业发展以及人群健康状况好的地区,
第二层是比较好的地区,第三层是一般性地区,第四层是比较差,第五层是差的地区。
表 2 主要社会经济和人口动力学指标的主成份因子模型
市县因 子 得 分社会经济和人口动力学指标
层别数均 数距 离GNPAEP ILLITCDRIMR
1201-2.43543210.28333015.719.75.117.5
2650-0.66382164.6683564.623.75.726.2
36980.06921655.0045083.532.46.331.4
46910.57761264.5734188.143.67.449.1
52121.7457539.6131990.066.811.7121.4
2.4第一阶段分层等概率多种样本容量的抽样
用经济有效的样本代表总体是抽样调查的精髓。
样本量的确定基于以往的经验和其他国家
抽样调查样本的设计,首先给定一个样本量大小的范围,确定抽取样本量为
120,90,60,45,30 五个大小不等的样本。
为了保证各层每一个县(市或市区)都有同等
被抽取为样本的概率,必须考虑不同大小样本量的样本在各层的分配,即按比例的分层抽样。
见表⒊。
表⒊ 不同大小样本量样本在各层的分配
层数全国不同大小样本量样本的分配:
合计(%)12090604530
第一层201(8.2)108542
第二层650 (26.5)322316118
第三层698 (28.5)342617139
第四层691 (28.2)342517138
第五层212(8.6)108543
按系统随机抽样方法,每个不同大小样本量的样本抽取 6 次。
同一样本量的 6 次抽样,
通过计算每次抽样样本各变量的统计量,分别与总体各变量参数进行比较,从中筛选出与总体
参数最为接近的那个样本,作为该样本量的最佳抽取样本。
2.5第一阶段最佳样本量样本的选择与评价
⑴不同样本量样本各变量均值与总体均数的比较:
如果将不同样本量样本各变量的均值
与总体各变量的均数绝对误差,绝对误差与总体均数之比为相对误差,同一样本各变量的相对
误差具有可加性,其均数称为该样本各变量的平均相对误差。
平均相对误差可作为判断不同大
小样本量样本对总体代表性的一个尺度。
同时,用“1-平均相对误差”作为精确度。
表⒋显示了不同样本量样本各变量的均数,与总体各变量比较的相对误差、平均相对误差
和精确度。
从不同样本量样本来看,平均相对误差随着样本量的减少而增大。
如样本量从 120
减少到 60,平均相对误差由 1.4%增加到 2.7%,增加了 62%,而样本量从 60减少到
30,平均相对误差从 2.7% 增加到 5.6%,增加了一倍以上。
样本量为 120,90,60 的样
本精确度均大 95%,也就是说样本量大于 60 就可对总体有较好的代表性。
⑵不同样本量样本各变量的分布与总体分布的比较:
样本变量的分布与总体分布是否吻
合也是衡量样本对总体代表性的一个尺度。
表⒌列出了不同样本量各变量分布与总体分布卡方
检验的结果。
从不同样本各变量分布与总体分布的结果,平均卡方值小于9.49 这一差异有
显著性水平的样本量为 120,90 和 60。
鉴于上述分析,故可认为,样本量大于 60 的样本,
2
各变量的分布大多与总体分布相拟合,对总体有较好的代表性。
见表5。
⑶不同样本量样本分散度的评价:
样本分散度指样本中各层的变量统计量对总体各层的
代表性。
在第一层中,样本量为 120 和 90 的样本,平均每个指标的精确度均大于 95%;
样本量为 60 的样本,精确度为 89.4%。
从第二层到第四层,样本量为 120 和 90 的各个
样本,平均每个指标的精确度都大于 95%;第五层样本量为120,90 和60 的各样本,精
确都分别为 94.1%,92.5%和 93.9%,与上述四层相比,精确度略差一些。
也就是说,要
对总体各层有较好的代表性,样本量至少为 90 。
详见表6。
2.6考虑到经济有效的原则和对全国、不同类型的地区和上述每个指标的代表性,国家卫
生服务总调查的县(市或市区)样本容量取90。
具体抽出的县、市或市区见附件5。
三、第二阶段整群随机抽样
3.1在上述抽取的90个“样本县(市或市区)”中,以乡镇(街道)为第二阶段整群系
统随机抽样单位。
全国每个乡镇(街道)被抽取为“样本乡镇(街道)”的概率是 1∶160。
第二阶段整群系统随机抽样全国共抽取 450 个乡镇(街道)。
平均每个“样本县(市或市区)”
抽5个乡镇(街道)。
第二阶段分层整群抽样具体由各样本县(市或市区)按下述方法抽取。
3.2第二阶段整群随机抽样的基准
由于一个县(市或市区)内社会经济、文化教育和卫生状况的差异远小于全国各县、市之
间的差异,因而确定县(市或市区)的抽样基准相对容易。
根据我国各县(市或市区)的基本
特征、实际的可操作性和以往抽样调查常用的指标,确定采用人口数(或人均收入)作为分层
基准。
3.3 第二阶段整群随机抽样的的方法
①将样本县(市或市区)所有的乡镇(街道)按人口数的多少(或人均收入的大小)由
多到少依次排序;
② 由多到少依次计算人口数(或人均收入)的累计数;
③计算抽样间隔,用累计的人口总数(或人均收入累计总数)除于抽取的样本数(累计
总数/5);
④用纸币法(随便拿出一张人民币,看人民币的号码与最初累计数哪一个数接近,取这
个数为开始数)随机确定第一个样本乡镇(街道),然后加上抽样距离确定第二个样本乡镇
(街道),依次类推确定第三至五个样本乡镇(街道)。
3.4 第二阶段整群随机抽样实例
某个样本县共有 18 个乡、镇,要从该样本县抽取5乡镇作为样本。
根据抽样方案的要求,
第一步人口数的多少由大到小排序,并计算累计数(该县人口累计数即人口总数为 210100),
见表6;
第二步计算抽样间隔,用人口总数除于抽样的样本数,248600/5 = 49720,该县乡镇
整群抽样的抽样间隔为 49720;
第三步确定第一个随机数,取一张人民币,其编号的为 FP59243854,取后5位数是
43854,所取的后5为数不能大于抽样间隔数,如大于再取一张人民币.该后5位随机数接近
第2编号即平湖镇后面的累计数,因此确定第2号平湖镇为第一个样本;
第四步用第一个样本的累计数加抽样间隔,即 43000 + 49720 = 92720,
该数接近第5编号即新龙乡的累计数,确定第5号新龙乡为第二个样本。
第五步用第二个样本的累计数加抽样间隔,即 100900+49720=142920,该数接近第8
编号新原乡的累计数,确定第8号新原乡为第三个样本;同样的方法确定第⒔号和第⒙号即桐
连乡和四顶乡。
这样,五个样本乡镇就确定了。
3
表6. 第二阶段整群随机抽样的实例
编号乡镇人口数累计编号乡镇人口数累计编号乡镇 人口数累计
⒈城关镇2200022000 ⒎平原乡16400134900⒔新店镇10000 205500
⒉平湖镇2100043000*⒏新原乡15000149900 *⒕定安乡9500 215000
⒊玉阳镇2000063000 ⒐古农乡14000163900⒖五岖乡8900 223900
⒋五一乡1950082500 ⒑王店乡11000174900⒗五庙乡8500 232400
*⒌新龙乡18400100900*⒒双莲乡10500185400⒘双山乡8200 240600
⒍湖泊乡17600118500 ⒓桐连乡10100195500 *⒙四顶乡8000 248600
四、 第三阶段随机抽样
4.⒈第三阶段随机抽样的基准和样本容量
⑴在同一个乡镇(街道)内,各村(居委会)的经济发展和卫生状况基本上变异不大。
因此,第三阶段不用分层,直接采用随机整群抽样的方法从“样本乡镇(街道)”中抽取样本
村(居委会)。
但是,抽样时应按各村人均收入或人口数作为标识进行排序。
第三阶段随机抽
样由调查指导员负责。
”
⑵每个“样本乡镇(街道) 整群随机抽取2个村(居委会),全国共抽取 900 个村
(居委会),全国每村(居委会)被抽为样本的概率为 1:
1120。
4.2第三阶段整群随机抽样的的方法
①将样本乡镇(街道)所有的村(居委会)按人均收入的多少(或人口数的大小)由多
到少依次排序;
② 由多到少依次计算人均收入(或人口数)的累计数;
③ 计算抽样间隔,用累计总数除于抽取的样本数(累计总数/2);
④用纸币法(随便拿出一张人民币,看人民币的号码与最初累计数哪一个数接近,取这
个数为开始数)随机确定第一个样本村(居委会),然后加上抽样距离确定第二个样本村。
4.3.第三阶段随机整群抽样的实例
第一步将所有的村按人均收入的多少由大到小排序,并计算累计数;第二步计算抽样间隔:
7337/2=3669 ;第三步确定第一个随机数,取一张人民币,其编号的后 4 位数是
2273,这个随机数接近第4编号的累计数,因此确定第4号村为第一个样本;第五步用第二
位的累计数加抽样间隔(2805 + 3669 =6474),接近第⒑编号的累计数,确定第⒑号为第
二个样本。
表 7. 第三阶段随机整群抽样实例
编号村人均收入累计数编号村 人均收入 累计数
⒈ 镇西店村724724⒎ 长生庙村5894606
⒉ 唐家铺村7211445⒏ 王甸子村5745180
⒊镇东村6892134⒐民生村5715751
*⒋镇北村6712805*⒑清平村5446295
⒌ 李家店村6103415⒒ 老平埠村5346829
⒍湖泊村6024017⒓高坝村5087337
* 为随机抽取的样本数。
五、样本个体的抽样
5.1 最终的抽样单位是住户。
在每个“样本村(居委会)”中按 20%的比例随机抽取住户,
平均每个村抽 60 户,全国共抽取 54000 户。
全国平均每户被抽取为样本的概率为
4
序号
户主姓名
家庭住址
门牌号码
家庭人口数
累计人口数
抽中住户
1
张三
*村*组
东 1
5
5
2
李四
*村*组
东 2
4
9
3
王五
*村*组
东 3
4
13
*
4
赵六
*村*组
东 4
3
17
5
陈七
*村*组
东 5
5
22
。
。
300
赵末
*村*组
北 6
6
1200
54000/28000 万,约五千户中抽一户。
如果按每户四个人计算,人口抽样比为 1:
5000左
右。
5.2抽户方法是各样本乡镇(街道)的调查指导员上述抽样比例在样本村(居委会)随机
抽取,具体方法:
① 按人口普查的编码顺序,按门牌号、楼号、单元号、门号从小到大排列;
②对同一门牌号,同一个大院和楼号的,按门号从小到大排列,对同一门牌号内没有门号
的按从左到右、从外到里、从下到上的原则编码。
一经编码不许变动;
③编好住户码列入住户清单表式中:
④根据抽样比例计算应抽的户数(一般平均每个样本村60户),然后系统随机抽取。
方
法同上:
第一步将所有住户的人口累计数、本村的平均人口数(1200/300=4)和本村应抽取
的住户数(300*20%=60);第二步计算抽样距离(1200/60=20);第三步确定第一个随机数
(如取一张人民币,其编号的后两位数是12,这个随机数接近第3编号的累计数,因此确定
第3号住户为第一个样本;第五步用第3号的累计数加抽样距离(13+20=33),看 33
最接近第几编号住户,并确定这家住户为第二个样本,同理用第二个样本住户对应的累计数加
抽样距离确定第三个样本。
同样确定以后各样本住户。
⑸抽样时可多抽取六户,作为备用。
抽取方法是在上述抽取完毕以后,按上述步骤再从
未抽取的住户中抽取6户。
表 8. 国家卫生服务总调查样本容量和抽样概率
____________________________________________________
单位名称全国总数抽样样本数抽样概率
县/市区2450901:
27
乡镇/街道700004501:
160
村/居委会10000009001:
1120
户280000000540001:
5000
人12000000002160001:
5000
全国每一户家庭被抽群为样本的概率模型:
90/2567 * 450 * ST/<(90/2567)*280000000> * 2/ST/280 * 60/280 =
1:
5000
---------------------------------------------------
↑↑↑↑↑ 在样本村每户
||||被抽取的概率
||一个乡被抽取为样本的概率一个村被抽取为样本的概率
5
|样本乡镇(街道)数
一个县(市或市区)被抽取为样本的概率( ST:
乡镇(街道)户数的大小)
6
表4. 不同大小样本社会经济和人口动力学指标的均数以及与总体均数的相对误差
全 国不 同 大 小 样 本 的 均 数
指标均 数12090604530
指标均数:
0-14 岁人口比例%33.633.333.633.533.031.9
岁人口比例%4.94.94.94.95.05.2
15-49 岁妇女比例%26.226.626.926.725.827.6
人均工农业总产值(元)806795767702756813
第一产业就业率%74.474.575.576.476.275.4
第二产业就业率%15.415.515.215.016.114.0
文盲和半文盲率%32.133.433.433.033.234.6
初中学历人口比例%18.218.318.518.219.518.5
粗出生率每千人口22.522.723.322.521.321.4
粗死亡率每千人口6.36.36.36.36.06.2
婴儿死亡率每千出生32.430.530.230.226.226.9
(二)相对误差%
0-14 岁人口比例%0.90.00.31.85.1
65+岁人口比例%0.00.00.02.06.1
15-49 岁妇女人口%1.52.71.91.55.3
人均工农业总产值(元)1.44.813.06.20.9
第一产业就业率%0.11.52.72.41.3
第二产业就业率%0.61.32.64.69.1
文盲和半文盲率%4.14.12.83.47.8
初中学历人口比例%0.61.90.17.12.1
粗出生率每千人口0.93.60.05.34.9
粗死亡率每千人口0.00.00.04.81.6
婴儿死亡率每千出生5.96.86.819.017.0
相对误差合计(%)16.126.530.058.261.2
平均相对误差(%)1.462.412.735.295.56
精确度(%)98.5497.5997.2794.7194.44
7
表5. 不同大小样本量样本社会经济和人口动力学指标的频数分布
与总体分布的拟合度检验
不 同 大 小 样 本 的 卡 方 值 :
指标12090604530
平均人口数/县(市)人口大小0.471.202.835.0714.82**
0-14 岁人口数/0-14 岁人口比例4.744.367.194.5626.12**
65+ 岁人口数/65+ 岁人口比例9.108.8321.7** 13.21*20.90**
15-49 岁妇女数/15-49 岁妇女比例 3.793.885.0110.96*32.47**
样本数/人均工农业总产值2.926.276.6912.56*28.39**
第一产业人数/第一产业就业率2.817.199.328.2025.40**
第二产业人数/第二产业就业率3.216.064.2624.24** 30.38**
文盲半文盲人数/文盲半文盲率4.374.878.447.2832.62**
初中以上人数/初中以上人口比例3.134.233.746.2318.42**
出生人数/粗出生率2.893.494.214.9429.33**
死亡人数/粗死亡人数1.912.035.7715.16**19.96**
婴儿死亡人数/婴儿死亡率6.7711.6*14.8** 45.45**51.02**
卡方值平均数3.615.027.2612.30*25.39**
与总体分布无显著性差异的指标数13121171
*X 95%(4)=9.49** X 99%(4)=13.2
8
表⒐不同大小样本社会经济和人口动力学指标的均数以及与各层均数的相对误差
(1)
_____________________________________________________________
变量各层均数1209060
第一层
0-14 岁人口比%24.5825.2425.4225.77
65 岁及以上人口比%4.604.464.434.50
人均工农业产值(元)3330337835052463
第一产业就业率%18.7220.1521.4825.83
第二产业就业率%55.9154.2154.5551.88
文盲半文盲率%13.6914.9614.9516.98
初中以上人口比%32.1532.5032.6931.74
粗出生率‰16.7116.3016.1414.78
粗死亡率‰5.115.165.265.25
婴儿死亡率‰17.4519.5020.6317.25
精确度%96.8%95.6%89.4%
0-14 岁人口比%32.3632.9633.7232.24
65 岁及以上人口比%4.774.554.474.91
人均工农业产值(元)835780777764
第一产业就业率%64.6266.1066.2865.56
第二产业就业率%21.2420.3319.8820.67
文盲半文盲率%23.6922.7222.4222.35
初中以上人口比%21.6522.3822.3422.80
粗出生率‰19.9020.0919.4718.45
粗死亡率‰5.715.645.535.92
婴儿死亡率‰26.2025.3425.7223.82
精确度%96.9%96.2%95.8%
9
表⒐不同大小样本社会经济和人口动力学指标的均数以及与各层均数的相对误差
(2)
变量不 同 样本 容 量
各层均数1209060
第三层
0-14 岁人口比%35.4834.5434.6034.65
65 岁及以上人口比%4.865.115.115.03
人均工农业产值(元)450429410437
第一产业就业率%83.5084.9586.2085.21
第二产业就业率%8.187.756.837.25
文盲半文盲率%32.4132.5932.0330.57
初中以上人口比%16.5516.6816.7016.40
粗出生率‰21.7320.9021.2221.84
粗死亡率‰6.286.236.106.28
婴儿死亡率‰3