抽样技术-分层随机抽样概述.pptx

资源描述

抽样技术-分层随机抽样概述.pptx

《抽样技术-分层随机抽样概述.pptx》由会员分享，可在线阅读，更多相关《抽样技术-分层随机抽样概述.pptx（99页珍藏版）》请在冰豆网上搜索。

抽样技术-分层随机抽样概述.pptx

2024/1/31,1,第三章分层随机抽样,3.1概述3.2简单估计量及其性质3.3比率估计量及其性质3.4回归估计量及其性质3.5各层样本量的分配3.6总样本量的确定3.7分层抽样的其他方面,2024/1/31,2,第一节概述,2024/1/31,3,定义3.3分层随机抽样（stratifiedrandomsampling）：

如果每层中的抽样都是独立地按照简单随机抽样进行的，那么这样的分层抽样称为分层随机抽样，所得的样本称为分层随机样本（stratifiedrandomsample）。

2024/1/31,4,2024/1/31,5,二、作用,由于每层都进行抽样，这就可使样本在总体中分布更加均匀，从而具有更好的代表性。

由于抽样在每一层中独立进行，所以一者允许各层选择不同的适合本层的抽样方法，二则可同时对各子总体（层）进行参数估计，而不单是对整个总体的参数进行估计。

由于各层的总体方差因单元之间差异小而肯定小于整个总体的方差，而抽样精度与此成正比，所以分层抽样可以提高参数估计的精度。

三、符号,2024/1/31,6,所有总体参数的估计量都采用下标“st”以示区别：

2024/1/31,7,2024/1/31,8,第二节简单估计量及其性质,一、对总体均值的估计分层样本，总体均值的估计分层随机样本，总体均值的简单估计,2024/1/31,9,估计量的性质,性质1&2：

对于一般的分层抽样，如果是的无偏估计（），则是的无偏估计。

的方差为：

只要对各层估计无偏，则总体估计也无偏。

各层可以采用不同的抽样方法，只要相应的估计量是无偏的，则对总体的推算也是无偏的。

2024/1/31,10,证明性质1,由于对每一层有因此，估计量的方差由于各层是独立抽取的，因此上式第二项中的协方差全为0，从而有,2024/1/31,11,性质3：

对于分层随机抽样，是的无偏估计，的方差为：

2024/1/31,12,证明性质3：

对于分层随机抽样，各层独立进行简单随机抽样，对每一层有因此，由性质1，有由第二章性质2，得因此,2024/1/31,13,性质4：

对于分层随机抽样，的一个无偏估计为：

2024/1/31,14,证明性质4：

对于分层随机抽样，各层独立进行简单随机抽样，由第二章性质3,得的无偏估计为：

因此，的一个无偏估计为：

2024/1/31,15,二、对总体总量的估计,总体总量的估计为：

如果得到的是分层随机样本，则总体总量的简单估计为：

2024/1/31,16,2.估计量的性质,性质1：

对于一般的分层抽样，如果是的无偏估计，则是的无偏估计。

的方差为：

2024/1/31,17,性质2：

对于分层随机抽样，的方差为：

2024/1/31,18,性质3：

对于分层随机抽样，的一个无偏估计为：

2024/1/31,19,例3.1,调查某地区的居民奶制品年消费支出，以居民户为抽样单元，根据经济及收入水平将居民户划分为4层，每层按简单随机抽样抽取10户，调查获得如下数据（单位：

元），要估计该地区居民奶制品年消费总支出及其95%的置信区间。

2024/1/31,20,同理，求得：

2024/1/31,21,2024/1/31,22,三、对总体比例的估计,总体比例P的估计为：

估计量的性质,性质1：

对于一般的分层抽样，如果是的无偏估计（），则是的无偏估计。

的方差为：

2024/1/31,23,性质2：

对于分层随机抽样，是的无偏估计，,因而的方差为：

2024/1/31,24,性质3：

对于分层随机抽样，的一个无偏估计为：

第三节比率估计量及其性质,先“比”后“加权”，此时所得的估计量称为分别比估计（separateratioestimator）先“加权”后“比”，这样所得的估计量称为联合比估计（combinedratioestimator）,2024/1/31,25,分别比估计,定义3.4总体均值和总体总量的分别比估计为：

2024/1/31,26,定理3.5对于分层随机抽样的分别比估计，若各层的样本量都比较大，则有,2024/1/31,27,证明,根据比估计量的性质，当比较大时，有,2024/1/31,28,联合比估计,2024/1/31,29,2024/1/31,30,分别比估计与联合比估计的比较,2024/1/31,31,1）当，即或分别比估计的精度与联合比估计的精度是一样的。

2）当，即，分别比估计的精度不低于联合比估计的精度。

3）当且，这意味着分别比估计的精度要高于联合比估计的精度。

2024/1/31,32,4）当且，或且，联合比估计的精度要高于分别比估计的精度。

5）当，即比估计量的方差小于简单估计量的方差时，需视具体情况而定。

2024/1/31,33,第四节回归估计量及其性质,与比估计相似，将回归估计的思想与技术用于分层随机样本时，同样有两种可行的办法:

先“回归”后“加权”,此时所得的估计量称为分别回归估计；先“加权”后“回归”,这时所得的估计量称为联合回归估计,3.4.1分别回归估计,定义3.6分别回归估计是指在分层随机抽样中,先在每层中对层均值或层总和做回归估计,然后再对各层的回归估计按总体层权进行加权平均。

1.各层的回归系数h事先给定,2.不能事先设定各层的回归系数h,3.4.2联合回归估计,1.当为事先设定的常数时,2.当回归系数不能事先设定时,3.4.3分别回归估计与联合回归估计的比较,经化简得：

例3.3,已知某公司一般职员（包括办事员和保管人员）及高级管理（经理）人员刚进入公司时的工资总额,欲通过抽样调查估计当前该公司职员的工资总额Y。

抽样按照一般职员层与高管层进行分层随机抽取。

一般职员层抽取n1=15名职员,高管层抽取n2=10名职员。

同时还知道一般职员层人员总数N1=390名,该类职员进入公司时工资总额为X1=5523965元;高管层人员总数N2=84名,该类职员进入公司时工资总额为X2=2541660元。

经过分层随机抽样调查所得的数据如表35所示。

请对上述数据分别按照分别比估计、联合比估计、分别回归估计、联合回归估计以及差估计方法对该公司当前职员工资总额Y做出估计,同时计算出各个估计量的精度。

五种估计方法结果比较,注意：

此时的比估计和回归估计（回归系数采用样本回归系数进行估计）均为有偏估计，并且考虑到各层的样本量都不大，回归估计的偏倚有可能更大，所以此时采用比估计，特别是联合比估计会更保险。

而差估计虽然标准差相对较大，但它却是无偏的，均方误差并不一定大，所以仍然有采用的价值。

3.4.4比率估计与回归估计小结,在分层随机抽样中，当辅助变量可加以利用时，为了提高估计量的精度，可以采用分别比估计、联合比估计、分别回归估计以及联合回归估计等估计方法。

在比估计中，当各层样本量都较大时，分别比估计与联合比估计近似无偏；当某些层的样本量不够大，而总样本量较大时,联合比估计近似无偏。

在回归估计中，少数情况下，回归系数可以是事先设定的常数,其估计量无偏；多数情况下，回归系数需利用样本回归系数进行估计，其估计有偏，但在大样本的情况下近似无偏。

当Y与X高度相关时,分别比估计、联合比估计、分别回归估计以及联合回归估计等估计等产生的估计量都是有效的。

选择估计方法，大致需遵循的原则,在选择估计方法时,大致需遵循下面的原则:

（1）由于分别估计（无论是分别比估计还是分别回归估计）要求各层的样本量都比较大,所以当某些层的样本量不够大时,建议采用联合估计

（2）当回归系数需要由样本进行估计时，回归估计量是有偏的。

在这种情况下，采取比估计尤其是联合比估计也许更保险（3）如果各层的样本量都比较大,同时每层的比估计或回归估计也比较有效（即h均比较大）,而且各层的Rh之间（或h之间）差异较大,则此时分别估计优于联合估计,估计量的方差更小,（4）如果各层的样本量不大,而且各层的Rh之间（或h之间）差异较小,则采用联合估计较为适宜（5）如果各层的Rh之间（或h之间）差别不是太大,而且并不是每层的样本量都相当大,则联合估计可能更保险一些如果各层的回归系数都接近于1,则可以采用差估计。

虽然有时差估计量的方差偏大,但由于它为无偏估计量,所以总的均方误差不一定大,2024/1/31,61,第五节各层样本量的分配,确定样本量：

总的样本量，各层样本量估计量的方差不仅与各层的方差有关，还和各层所分配的样本量有关。

实际工作中有不同的分配方法，可以按各层单元数占总体单元数的比例分配，也可以采用使估计量总方差达到最小、费用最小。

2024/1/31,62,2024/1/31,63,一、比例分配,按各层单元数占总体单元数的比例，也就是按各层的层权进行分配.对于分层随机抽样，这时总体均值的估计是,自加权,2024/1/31,64,总体中的任一个单元，不管它在哪一个层，都以同样的概率入样，因此按比例分配的分层随机样本，估计量的形式特别简单。

这种样本也称为自加权的样本。

总体比例的估计是,2024/1/31,65,二、最优分配,

（一）最优分配在分层随机抽样中，如何将样本量分配到各层，使得总费用给定的条件下，估计量的方差达到最小，或给定估计量方差的条件下，使总费用最小，能满足这个条件的样本量分配就是最优分配。

2024/1/31,66,2024/1/31,67,2024/1/31,68,定理3.7的证明,对所有层成立时，达到极小,常数,2024/1/31,69,简单线性费用函数，总费用由此得出下面的行为准则，如果某一层单元数较多内部差异较大费用比较省则对这一层的样本量要多分配一些。

2024/1/31,70,三Neyman（内曼）最优分配,如果每层抽样的费用相同，最优分配可简化为这种分配称为Neyman分配。

这时，达到最小。

2024/1/31,71,例3.4,某市有甲、乙两个地区,现要进行家庭收入的调查。

令n=500,已知甲地区共有20000户居民,乙地区共有50000户居民;甲地居民和乙地居民年收入标准差估计分别为S1=2500,S2=2000;同时对甲地和乙地每户的平均抽样费用之比为23,请分别计算出在甲地和乙地进行比例分配、一般最优分配（考虑费用因素）以及内曼分配（不考虑费用因素）的样本量。

2024/1/31,72,2024/1/31,73,2024/1/31,74,四、某些层要求大于100%抽样时的修正,按最优分配时，有时抽样比f较大，某个层的又比较大，则可能出现按最优分配计算的这个层的样本量超过的情况。

实际工作中，如果第k层出现这种情况，最优分配是对这个层进行100%的抽样，即取，然后，将剩下的样本量按最优分配分到各层。

五、偏离最优分配时对精度的影响,2024/1/31,75,例3.6,2024/1/31,76,2024/1/31,77,2024/1/31,78,第六节总样本量的确定,令当方差给定时,2024/1/31,79,当按比例分配时，实际工作中，n的计算可以分为两步，先计算：

然后进行修正：

2024/1/31,80,当按Neyman分配时，,2024/1/31,81,2、精度要求是以的绝对误差限d（在给定的置信水平1-下）的形式给出的,2024/1/31,82,2024/1/31,83,3.精度要求以的相对误差限r（在给定的置信水平1-下）的形式给出,2024/1/31,84,2024/1/31,85,例3.7,2024/1/31,86,2024/1/31,87,2024/1/31,88,2024/1/31,89,二、总费用给定时总样本量的确定,给定V时,2024/1/31,90,给定C时,2024/1/31,91,第七节分层抽样的其他方面,一、多重分层定义当调查指标与两个或多个辅助变量x1,x2,都存在相关关系时,为了提高分层的效益,需要按每一个辅助变量进行分层,通常的做法是先按最主要的变量分成大层,在大层中再按第二主要变量分成子层,从而形成交叉分层。

当存在多个分层变量时,这种分层方式即称为多重分层（multiplestratification）。

对于多重分层,当“子层”划分好以后,就要考虑样本量在各子层的分配问题。

最简单常用的样本量分配方法是按照与每一子层大小成比例的原则进行分配。

在多重分层中,有时会出现这样一个问题:

当总样本量n相对于子层总数RC不够大时,会出现某些子层分配不到样本的情况。

若nmax（R,C）,则此时应当考虑重新确定分层变量或者不采用分层抽样,否则这种分层的效益是很难保证的。

若nRC,同时还满足nmax（R,C）,就可以考虑用试验设计的思想来进行样本量的分配。

2024/1/31,92,2024/1/31,93,二、事后分层,实际工作中，有时进行事先分层会存在一定的困难各层的抽样框无法得到几个变量都适合于分层，要进行事先的交叉分层比较困难，并且我们并不需要交叉分层后每个子层的估计一个单位到底属于哪一层要等到样本数据收集到以后才知道总体规模N太大,事先分层太费事等,事后分层技术要求层权Wh已知或者可以通过某种途径获得,当层权Wh未知而需要进行估计时,应当确保层权的估计值与实际的层权相差甚小,否则将达不到提高估计量精度的目的。

同时,在使用事后分层技术时还应该注意“事后层”的数目不宜太多。

2024/1/31,94,事后分层的具体实施办法,2024/1/31,95,2024/1/31,96,2024/1/31,97,简单随机样本，事后分层落到第层的样本量nh,nh固定并都大于0的条件下,n足够大时，为无偏估计,2024/1/31,98,第一项就是按比例分配分层抽样估计量的方差，第二项表示因事后分层而非事先按比例分配分层引起的方差增加量只要样本量足够大，事后分层的精度与按比例分配事先分层的精度相当,2024/1/31,99,如果样本是按某一个辅助指标分层后抽取的，只要这个事先分层抽样是严格按比例分配进行的，则这个样本是自加权的，总体中每个单元被抽中的概率相同，我们可以将这个样本看作简单随机样本，分别对其它指标进行事后分层估计。

展开阅读全文