抽样方法案例Word格式.docx

上传人:b****5 文档编号:21508190 上传时间:2023-01-30 格式:DOCX 页数:19 大小:28.03KB
下载 相关 举报
抽样方法案例Word格式.docx_第1页
第1页 / 共19页
抽样方法案例Word格式.docx_第2页
第2页 / 共19页
抽样方法案例Word格式.docx_第3页
第3页 / 共19页
抽样方法案例Word格式.docx_第4页
第4页 / 共19页
抽样方法案例Word格式.docx_第5页
第5页 / 共19页
点击查看更多>>
下载资源
资源描述

抽样方法案例Word格式.docx

《抽样方法案例Word格式.docx》由会员分享,可在线阅读,更多相关《抽样方法案例Word格式.docx(19页珍藏版)》请在冰豆网上搜索。

抽样方法案例Word格式.docx

5.7

26.2

3

698

0.0692

1655.00

450

83.5

32.4

6.3

31.4

4

691

0.5776

1264.57

341

88.1

43.6

7.4

49.1

5

212

1.7457

539.61

319

90.0

66.8

11.7

121.4

2.4第一阶段分层等概率多种样本容量的抽样

用经济有效的样本代表总体是抽样调查的精髓。

样本量的确定基于以往的经验和其他国家抽样调查样本的设计,首先给定一个样本量大小的范围,确定抽取样本量为120,90,60,45,30五个大小不等的样本。

为了保证各层每一个县(市或市区)都有同等被抽取为样本的概率,必须考虑不同大小样本量的样本在各层的分配,即按比例的分层抽样。

见表⒊。

表⒊不同大小样本量样本在各层的分配

层数全国不同大小样本量样本的分配:

合计(%)12090604530

第一层

(8.2)

10

8

第二层

(26.5)

32

23

16

11

第三层

(28.5)

34

26

17

13

9

第四层

(28.2)

25

第五层

(8.6)

按系统随机抽样方法,每个不同大小样本量的样本抽取6次。

同一样本量的6次抽样,通过计算每次抽样样本各变量的统计量,分别与总体各变量参数进行比较,从中筛选出与总体参数最为接近的那个样本,作为该样本量的最佳抽取样本。

2.5第一阶段最佳样本量样本的选择与评价

⑴不同样本量样本各变量均值与总体均数的比较:

如果将不同样本量样本各变量的均值与总体各变量的均数绝对误差,绝对误差与总体均数之比为相对误差,同一样本各变量的相对误差具有可加性,其均数称为该样本各变量的平均相对误差。

平均相对误差可作为判断不同大小样本量样本对总体代表性的一个尺度。

同时,用“1-平均相对误差”作为精确度。

表⒋显示了不同样本量样本各变量的均数,与总体各变量比较的相对误差、平均相对误差和精确度。

从不同样本量样本来看,平均相对误差随着样本量的减少而增大。

如样本量从120减少到60,平均相对误差由1.4%增加到2.7%,增加了62%,而样本量从60减少到30,平均相对误差从2.7%增加到5.6%,增加了一倍以上。

样本量为120,90,60的样本精确度均大95%,也就是说样本量大于60就可对总体有较好的代表性。

⑵不同样本量样本各变量的分布与总体分布的比较:

样本变量的分布与总体分布是否吻合也是衡量样本对总体代表性的一个尺度。

表⒌列出了不同样本量各变量分布与总体分布卡方检验的结果。

从不同样本各变量分布与总体分布的结果,平均卡方值小于9.49这一差异有显著性水平的样本量为120,90和60。

鉴于上述分析,故可认为,样本量大于60的样本,各变量的分布大多与总体分布相拟合,对总体有较好的代表性。

见表5。

⑶不同样本量样本分散度的评价:

样本分散度指样本中各层的变量统计量对总体各层的代表性。

在第一层中,样本量为120和90的样本,平均每个指标的精确度均大于95%;

样本量为60的样本,精确度为89.4%。

从第二层到第四层,样本量为120和90的各个样本,平均每个指标的精确度都大于95%;

第五层样本量为120,90和60的各样本,精确都分别为94.1%,92.5%和93.9%,与上述四层相比,精确度略差一些。

也就是说,要对总体各层有较好的代表性,样本量至少为90。

详见表6。

2.6考虑到经济有效的原则和对全国、不同类型的地区和上述每个指标的代表性,国家卫生服务总调查的县(市或市区)样本容量取90。

具体抽出的县、市或市区见附件5。

三、第二阶段整群随机抽样

3.1在上述抽取的90个“样本县(市或市区)”中,以乡镇(街道)为第二阶段整群系统随机抽样单位。

全国每个乡镇(街道)被抽取为“样本乡镇(街道)”的概率是1∶160。

第二阶段整群系统随机抽样全国共抽取450个乡镇(街道)。

平均每个“样本县(市或市区)”抽5个乡镇(街道)。

第二阶段分层整群抽样具体由各样本县(市或市区)按下述方法抽取。

3.2第二阶段整群随机抽样的基准

由于一个县(市或市区)内社会经济、文化教育和卫生状况的差异远小于全国各县、市之间的差异,因而确定县(市或市区)的抽样基准相对容易。

根据我国各县(市或市区)的基本特征、实际的可操作性和以往抽样调查常用的指标,确定采用人口数(或人均收入)作为分层基准。

3.3第二阶段整群随机抽样的的方法

①将样本县(市或市区)所有的乡镇(街道)按人口数的多少(或人均收入的大小)由多到少依次排序;

②由多到少依次计算人口数(或人均收入)的累计数;

③计算抽样间隔,用累计的人口总数(或人均收入累计总数)除于抽取的样本数(累计总数/5);

④用纸币法(随便拿出一张人民币,看人民币的号码与最初累计数哪一个数接近,取这个数为开始数)随机确定第一个样本乡镇(街道),然后加上抽样距离确定第二个样本乡镇(街道),依次类推确定第三至五个样本乡镇(街道)。

3.4第二阶段整群随机抽样实例

某个样本县共有18个乡、镇,要从该样本县抽取5乡镇作为样本。

根据抽样方案的要求,第一步人口数的多少由大到小排序,并计算累计数(该县人口累计数即人口总数为210100),见表6;

第二步计算抽样间隔,用人口总数除于抽样的样本数,248600/5=49720,该县乡镇整群抽样的抽样间隔为49720;

第三步确定第一个随机数,取一张人民币,其编号的为FP59243854,取后5位数是43854,所取的后5为数不能大于抽样间隔数,如大于再取一张人民币.该后5位随机数接近第2编号即平湖镇后面的累计数,因此确定第2号平湖镇为第一个样本;

第四步用第一个样本的累计数加抽样间隔,即43000+49720=92720,

该数接近第5编号即新龙乡的累计数,确定第5号新龙乡为第二个样本。

第五步用第二个样本的累计数加抽样间隔,即100900+49720=142920,该数接近第8编号新原乡的累计数,确定第8号新原乡为第三个样本;

同样的方法确定第⒔号和第⒙号即桐连乡和四顶乡。

这样,五个样本乡镇就确定了。

表6.第二阶段整群随机抽样的实例

编号乡镇

人口数

累计

⒈城关镇

22000

⒎平原乡

16400

134900

⒔新店镇

10000

205500

⒉平湖镇

21000

43000

*⒏新原乡

15000

149900

*⒕定安乡

9500

215000

⒊玉阳镇

20000

63000

⒐古农乡

14000

163900

⒖五岖乡

8900

223900

⒋五一乡

19500

82500

⒑王店乡

11000

174900

⒗五庙乡

8500

232400

*⒌新龙乡

18400

100900

*⒒双莲乡

10500

185400

⒘双山乡

8200

240600

⒍湖泊乡

17600

118500

⒓桐连乡

10100

195500

*⒙四顶乡

8000

248600

四、第三阶段随机抽样

4.⒈第三阶段随机抽样的基准和样本容量

⑴在同一个乡镇(街道)内,各村(居委会)的经济发展和卫生状况基本上变异不大。

因此,第三阶段不用分层,直接采用随机整群抽样的方法从“样本乡镇(街道)”中抽取样本村(居委会)。

但是,抽样时应按各村人均收入或人口数作为标识进行排序。

第三阶段随机抽样由调查指导员负责。

⑵每个“样本乡镇(街道)”整群随机抽取2个村(居委会),全国共抽取900个村(居委会),全国每村(居委会)被抽为样本的概率为1:

1120。

4.2第三阶段整群随机抽样的的方法

①将样本乡镇(街道)所有的村(居委会)按人均收入的多少(或人口数的大小)由多到少依次排序;

②由多到少依次计算人均收入(或人口数)的累计数;

③计算抽样间隔,用累计总数除于抽取的样本数(累计总数/2);

④用纸币法(随便拿出一张人民币,看人民币的号码与最初累计数哪一个数接近,取这个数为开始数)随机确定第一个样本村(居委会),然后加上抽样距离确定第二个样本村。

4.3.第三阶段随机整群抽样的实例

第一步将所有的村按人均收入的多少由大到小排序,并计算累计数;

第二步计算抽样间隔:

7337/2=3669;

第三步确定第一个随机数,取一张人民币,其编号的后4位数是2273,这个随机数接近第4编号的累计数,因此确定第4号村为第一个样本;

第五步用第二位的累计数加抽样间隔(2805+3669=6474),接近第⒑编号的累计数,确定第⒑号为第二个样本。

表7.第三阶段随机整群抽样实例

编号

人均收入

累计数

镇西店村

724

长生庙村

589

4606

唐家铺村

721

1445

王甸子村

574

5180

镇东村

689

2134

民生村

571

5751

*⒋

镇北村

671

2805

*⒑

清平村

544

6295

李家店村

610

3415

老平埠村

534

6829

湖泊村

602

4017

高坝村

508

7337

*为随机抽取的样本数。

五、样本个体的抽样

5.1最终的抽样单位是住户。

在每个“样本村(居委会)”中按20%的比例随机抽取住户,平均每个村抽60户,全国共抽取54000户。

全国平均每户被抽取为样本的概率为54000/28000万,约五千户中抽一户。

如果按每户四个人计算,人口抽样比为1:

5000左右。

5.2抽户方法是各样本乡镇(街道)的调查指导员上述抽样比例在样本村(居委会)随机抽取,具体方法:

①按人口普查的编码顺序,按门牌号、楼号、单元号、门号从小到大排列;

②对同一门牌号,同一个大院和楼号的,按门号从小到大排列,对同一门牌号内没有门号的按从左到右、从外到里、从下到上的原则编码。

一经编码不许变动;

③编好住户码列入住户清单表式中:

序号

户主姓名

家庭住址

门牌号码

家庭人口数

累计人口数

抽中住户

张三

*村*组

东1

李四

东2

王五

东3

13

*

赵六

东4

17

陈七

东5

22

300

赵末

北6

1200

④根据抽样比例计算应抽的户数(一般平均每个样本村60户),然后系统随机抽取。

方法同上:

第一步将所有住户的人口累计数、本村的平均人口数(1200/300=4)和本村应抽取的住户数(300*20%=60);

第二步计算抽样距离(1200/60=20);

第三步确定第一个随机数(如取一张人民币,其编号的后两位数是12,这个随机数接近第3编号的累计数,因此确定第3号住户为第一个样本;

第五步用第3号的累计数加抽样距离(13+20=33),看33最接近第几编号住户,并确定这家住户为第二个样本,同理用第二个样本住户对应的累计数加抽样距离确定第三个样本。

同样确定以后各样本住户。

⑸抽样时可多抽取六户,作为备用。

抽取方法是在上述抽取完毕以后,按上述步骤再从未抽取的住户中抽取6户。

表8.国家卫生服务总调查样本容量和抽样概率

____________________________________________________

单位名称全国总数抽样样本数抽样概率

县/市区

2450

90

1:

27

乡镇/街道

70000

160

村/居委会

1000000

900

1120

280000000

54000

5000

1200000000

216000

全国每一户家庭被抽群为样本的概率模型:

90/2567*450*ST/<

(90/2567)*280000000>

*2/ST/280*60/280=1:

---------------------------------------------------

↑↑↑↑↑在样本村每户

||||被抽取的概率

||一个乡被抽取为样本的概率一个村被抽取为样本的概率

|样本乡镇(街道)数

一个县(市或市区)被抽取为样本的概率(ST:

乡镇(街道)户数的大小)

表4.不同大小样本社会经济和人口动力学指标的均数以及与总体均数的相对误差

全国不同大小样本的均数

指标均数12090604530

指标均数:

0-14岁人口比例

33.6

33.3

33.5

33.0

31.9

岁人口比例

4.9

5.0

5.2

15-49岁妇女比例

26.6

26.9

26.7

25.8

27.6

人均工农业总产值

(元)

806

795

767

702

756

813

第一产业就业率

74.4

74.5

75.5

76.4

76.2

75.4

第二产业就业率

15.4

15.5

15.2

15.0

16.1

14.0

文盲和半文盲率

32.1

33.4

33.2

34.6

初中学历人口比例

18.2

18.3

18.5

19.5

粗出生率

每千人口

22.5

22.7

23.3

21.3

21.4

粗死亡率

6.0

6.2

婴儿死亡率

每千出生

30.5

30.2

(二)相对误差

0.9

0.0

0.3

1.8

65+岁人口比例

2.0

6.1

15-49岁妇女人口

1.5

2.7

1.9

5.3

1.4

4.8

13.0

0.1

2.4

1.3

0.6

2.6

4.6

9.1

4.1

2.8

3.4

7.8

7.1

2.1

3.6

1.6

婴儿死亡率

5.9

6.8

19.0

17.0

相对误差合计

(%)

26.5

30.0

58.2

61.2

平均相对误差

1.46

2.41

2.73

5.29

5.56

精确度

98.54

97.59

97.27

94.71

94.44

表5.不同大小样本量样本社会经济和人口动力学指标的频数分布

与总体分布的拟合度检验

不同大小样本的卡方值:

指标12090604530

平均人口数/县(市)人口大小0.471.202.835.0714.82**

0-14岁人口数/0-14岁人口比例4.744.367.194.5626.12**

65+岁人口数/65+岁人口比例9.108.8321.7**13.21*20.90**

15-49岁妇女数/15-49岁妇女比例3.793.885.0110.96*32.47**

样本数/人均工农业总产值2.926.276.6912.56*28.39**

第一产业人数/第一产业就业率2.817.199.328.2025.40**

第二产业人数/第二产业就业率3.216.064.2624.24**30.38**

文盲半文盲人数/文盲半文盲率4.374.878.447.2832.62**

初中以上人数/初中以上人口比例3.134.233.746.2318.42**

出生人数/粗出生率2.893.494.214.9429.33**

死亡人数/粗死亡人数1.912.035.7715.16**19.96**

婴儿死亡人数/婴儿死亡率6.7711.6*14.8**45.45**51.02**

卡方值平均数3.615.027.2612.30*25.39**

与总体分布无显著性差异的指标数13121171

*X95%(4)=9.49**X99%(4)=13.2

表⒐不同大小样本社会经济和人口动力学指标的均数以及与各层均数的相对误差

(1)

_____________________________________________________________

各层均数

120

60

0-14岁人口比%

24.58

25.24

25.42

25.77

65岁及以上人口比%

4.60

4.46

4.43

4.50

人均工农业产值(元)

3378

3505

2463

第一产业就业率%

18.72

20.15

21.48

25.83

第二产业就业率%

55.91

54.21

54.55

51.88

文盲半文盲率%

13.69

14.96

14.95

16.98

初中以上人口比%

32.15

32.50

32.69

31.74

粗出生率‰

16.71

16.30

16.14

14.78

粗死亡率‰

5.11

5.16

5.26

5.25

婴儿死亡率‰

17.45

19.50

20.63

17.25

精确度%

96.8%

95.6%

89.4%

32.36

32.96

33.72

32.24

4.77

4.55

4.47

4.91

780

777

764

64.62

66.10

66.28

65.56

21.24

20.33

19.88

20.67

23.69

22.72

22.42

22.35

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 小学教育 > 语文

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1