抽样技术6二阶及多阶抽样.pptx
《抽样技术6二阶及多阶抽样.pptx》由会员分享,可在线阅读,更多相关《抽样技术6二阶及多阶抽样.pptx(61页珍藏版)》请在冰豆网上搜索。
第六章二阶及多阶抽样,初级单元大小相等时的二阶抽样初级单元大小不等时的二阶抽样样本量的确定和多阶段抽样的问题,8.1概述,一.什么是多阶段抽样1.概念:
设总体由N个初级单元组成,每个初级单元又由若干次级单元组成,若在总体中按一定方法抽取n个初级单元,对每个被抽中的初级单元再抽取若干次级单元进行调查,这种抽样称为二阶抽样,或二级抽样(two-stagesampling)。
一些记号:
初级单元(PSU)-PrimarySamplingUnit二级单元(SSU)-Second-stageSamplingUnit三级单元(TSU)-Third-stageSamplingUnit最终单元(USU)-UltimateSamplingUnit,2.实施步骤:
(1)从总体中抽初级单元,称为第一阶抽样;
(2)从每个被抽中的初级单元中抽二级单元,称为第二阶抽样,以此类推。
3.与其他几种抽样方法的关系:
整群抽样可以看成是二阶抽样的特殊情形,即最后一阶抽样是100%的抽样;分层抽样也可看作是多阶抽样的特例,每个初级单元即是层,第一阶抽样是100%抽样,而层内抽样则是第二阶抽样。
4.抽样方法:
多阶抽样中每一个阶段的抽样可以相同,也可以不同,它通常与分层抽样、整群抽样、系统抽样结合使用。
一般来说,当初级单元大小相同时,第一阶段的抽样采用简单随机抽样;当初级单元大小不同时,第一阶段的抽样采用不等概抽样。
二、多阶段抽样特点1.构造抽样框相对容易。
分级准备抽样框,即每次只需要对被抽中的单元准备下一级抽样单元的抽样框;2.节省人力、物力。
3.行政上便于组织。
4.可用于散料的抽样。
所谓“散料”,是指连续松散的、不易区分的个体或抽样单元的材料。
例如一堆土,一车水泥和粮食等。
对于散料,抽样单元可以人为划分,也可以取其自然的单位。
进行散料抽样时,例:
对土壤中有机磷的测定,一级单元是自然或人为划分的分装(例如10份土样),二级单元则是从分装中抽取一定数量(如一千克)的份样作调查。
5.划分阶段不宜过多。
例:
某个新开发区拥有相同户型的15个单元的楼盘,居民已经陆续搬入新居,每个单元住有12户居民,为调查家庭装潢情况,准备利用二阶段抽样法,从180户居民户抽取20户进行调查。
初级单位有15个,每个初级单元拥有的二级单元为12个,先从初级单元简单随机抽5个单元,然后在每个单元中简单随机抽取4户。
(属于等概抽样?
),初级单元大小相等时的二阶抽样,一、总体均值的估计量:
假定总体由N个初级单元组成,每个初级单元都含有M个次级单元,简称初级单元规模相等的两阶段抽样。
否则称为初级单元规模不相等的两阶段抽样。
现对第一种情况:
从N个初级单元中按简单随机抽样抽取n个初级单元,再从每个被抽中的初级单元中按简单随机抽样抽取m个次级单元。
二、常用符号,性质l:
对于两阶抽样,有,式中,E2,V2为在固定初级单元时对第二阶抽样求均值和方差;E1,V1为对第一阶抽样求均值和方差。
两阶段抽样估计量的均值和方差,推导过程,三、估计量及其性质,
(一)总体均值的估计:
对于初级单元大小相等的二阶抽样,如果两个阶段都是简单随机抽样,且对每个初级单元,第二阶抽样是相互独立进行的,则对总体均值的无偏估计为:
其方差为:
的无偏估计为:
类似的,可以构造三阶抽样,的估计方差,证明:
例:
某部门欲研究某农药在叶面上的残留量,第一步先从一块棉田1000株里简单随机抽取4株,然后从每株上简单随机抽取4片叶子(假定每株共200片叶子),数据如下表,试估计每片叶子农药的平均残留量,并计算抽样误差。
例:
欲调查4月份100家企业的某项指标,首先从100家企业中抽取了一个含有5家样本企业的简单随机样本,由于填报一个月的数据需要每天填写流水账,为了减轻样本企业的负担,调查人员对这5家企业分别在调查月内随机抽取3天作为调查日,要求样本企业只填写这三天的流水帐。
调查结果如下:
要求根据这些数据推算100家企业该指标的总量,并给出估计的95%的置信区间。
解:
利用二阶抽样,首先将企业作为初级单元,将每一天看作二级单元,每个企业在调查月内都拥有30天(即拥有30个二级单元)。
在这个问题中,调查人员首先在初级单元中抽取了一个n=5的简单随机样本,然后对每个样本单元的二级单元分别独立抽取了一个m=3的简单随机样本,这就是初级单元大小相等的二阶抽样问题。
方差估计式中,第一项是主要的,第二项要小得多,这是因为第二项的分母是第一项的m倍,而且它还要乘以小于1的f1。
影响精度的主要是初级单元,所以抽样设计的原则:
在经费一定时,多抽一些初级单元,少抽一些二级单元比较好。
如果第一阶的抽样比f1可以忽略,则方差估计式可以简单为如下的结果:
这个结果在实际工作中非常有用,因为第二阶抽样采用等距抽样或某些复杂抽样时,方差的无偏估计很难得到,当f1可以忽略时,只需要初级单元指标按次级单元的平均值就可以得到方差的估计。
说明:
2、总体比例的估计,,,,,无偏估计为:
例:
欲调查某个新小区居民户家庭装修聘请专业公司的比例。
在15个单元中随机抽取了5个单元,在每个单元都是12户,从中分别抽取4户,对这20户的调查结果如下:
根据上面的信息推算居民家庭装潢聘请专业装潢公司的比例。
解:
记请专业装潢公司的居民记为“1”,否则记为“0”,这里N=15,M=12,n=5,m=4,f1=5/15,f2=4/12,因此,聘请专业装潢公司的比例为:
例:
某林场有一块苗圃,划分为160块面积相等的小地块,每块中有9棵树苗,现苗圃发现了某种病害,欲用抽样的方法迅速估计已发生病害的苗木占总苗木的比例。
方法:
从160块地中简单随机抽取了40块地,每块地中又随机抽取3棵树苗;检查结果为:
这40块样本地中,有22块抽取的3棵无病害,11块地中有1棵病害,4块地有2棵苗病害,3块样地中3棵苗都有病.试估计已有病害的树苗的比例及其估计标准误。
解:
样本中病树的比例及频率如下:
树苗有病的比例为:
23.2%,一、初级单元大小相等时,最优样本量m与n的确定:
1.m的确定:
线性费用函数:
样本量的确定,例(续前例)若c1/c2=10,=15,试确定最优m,n,解:
首先计算mopt,由上例已知,进一步计算nopt,因此,在实际工作中,对于各级单元大小不相等时的多阶抽样,通常的做法是:
除了最后一阶采用等概率抽样(放回的或不放回的均可),前几阶均采用PPS(samplingwithprobabilitiesproportionaltosizes,简称PPS抽样)抽样,具体放在不等概部分讲解。
初级单元大小不等时的二阶抽样,在实际的抽样中,初级单元的大小很少是相同的,针对大小不同的初级单元,在抽样方法上有等概率抽样和不等概率抽样,在估计方法上有简单估计和比估计。
1、等概抽样实现:
设总体中初级单元数为N,从中等概抽取n个单元,其大小为Mi(i=1,2,n),第二阶段在抽中的初级单元中等比例抽取基本单元,即抽样比相同:
f2i=mi/Mi=f22、也可采用不等概抽样(以后再讲),一、简单估计第一阶抽样按简单随机抽样从N个初级单元中抽取n个,第二阶抽样按简单随机抽样,在抽中的初级单元中分别独立抽取mi,i=1n,个2级单元。
(1)简单估计:
例题:
某居委会欲了解居民健身活动的情况,如果已知该居委会有500名居民,在所居住的10个单元中抽取了4个单元,然后在样本单元中分别抽出若干居民,两阶段的抽样都是简单随机抽样,调查了样本居民每天用于健身活动的时间(10分钟为一单位),估计居民平均每天用于锻炼的时间,并给出估计的标准差。
解:
采用简单估计,由此看出,二阶抽样抽样误差主要是由第一项决定,抽样时尽量多抽一些初级单元,少抽一些次级单元比较好。
(2)比估计:
例题:
某居委会欲了解居民健身活动的情况,如果已知该居委会有500名居民,在所居住的10个单元中抽取了4个单元,然后在样本单元中分别抽出若干居民,两阶段的抽样都是简单随机抽样,调查了样本居民每天用于健身活动的时间(10分钟为一单位),估计居民平均每天用于锻炼的时间,并给出估计的标准差。
例:
某省卫生部欲对城市饮食业的卫生状况做一次抽样调查,在全省32个城市中随机抽选了4个城市,在抽选的城市中抽25%的饮食店进行检查,在检查的各项指标的基础上进行卫生状况是否合格的评估,其评估结果如下,试估计这32个城市中饮食店卫生不合格店占总店数的比例,若样本比例近似正态分布,计算其95%的置信区间。
解:
卫生不合格店占总店数的比例为:
再计算:
三、三阶抽样,设总体中含有N个一阶单元,每个一阶单元又含M个二阶单元,而每个二阶单元中又含有K个三阶单元,各阶样本大小分别为n,m和k。
令yiju(u=1,2,,K)为第i个一阶单元的第j个二阶单元中,第u个三阶单元的观测值,则,若三阶抽样中,每阶抽样都是简单随机的,则总体均值的无偏估计量为,其方差为,方差的无偏估计量为,其中,分层二阶抽样,设总体分成L层,第h层有Nh个一阶单元,每个一阶单元均含Mh个二阶单元。
在第h层随机抽了nh个一阶单元,又从每个被抽中的一阶单元中随机抽了mh个二阶单元。
则均值的估计量为,其中,是按二阶单元的层权;,为第h层的样本均值。
其方差为,方差估计量为,其中,上式乘以,则得的方差及其估计量。
在分层二阶抽样中,若,即总体中每个二阶单元入样的概率都相等,则样本是自加权的。
例:
某县电视台欲对本台所制做的节目在本县的收视率情况进行调查,调查中分为城镇和农村两层,各进行二阶段分层抽样,城镇中第一阶段抽选街道,从10条街道中选4条街道,每条街道再抽取20的住户进行调查;农村第一阶段从20个乡中抽取4个乡作为初级样本,再从每个乡中抽取10的农户进行调查结果如下:
若已知该县城镇和农村的人数比例为3:
7,要求估计该节目在本县的收视比例,并计算抽样标准误。
农村,解可先计算城镇和农村两层分别的收视比例及方差,然后进行加权,多阶段抽样小结,1、初级单元大小相等时的二阶抽样2、初级单元大小不等时的二阶抽样(简单估计和比估计)3、二阶抽样样本量的确定,