07第七章整群抽样.docx

资源描述

07第七章整群抽样.docx

《07第七章整群抽样.docx》由会员分享，可在线阅读，更多相关《07第七章整群抽样.docx（17页珍藏版）》请在冰豆网上搜索。

07第七章整群抽样.docx

07第七章整群抽样

第七章整群抽样

第一节整群抽样概述

一、難群抽样的概念

整群抽样是先将总体各单元划分成若干群（组），然后以群为单位，从中随机抽取一部分群，对中选群内的所有单元进行全面调査。

确切地说，这种抽样组织形式应称为单级整群抽样。

如果总体中的单元可以分成多级，则可以对前几级单元采用多阶抽样，而在最后一阶中对该阶抽样单元所包含的全部个体（最基本单元）进行调查，这种抽样称作多级整群抽样。

本章只讨论单级整群抽样。

设总体被划分为N群，第i群含有M"、次级单元，全部总体次级抽样单元数记为M。

，即M0=EMlo当谙都相等时，称为等群；否则，称为不等群。

采用整群抽样的两个理由：

-抽选群能大大降低数据收集的费用，当总体的分布比较广且调査采用面访

时更是如此；

-从总体中直接抽选个体在实际中并不总是可行的（没有关于个体的抽样

框）；有时，抽选单元组成群体组更简便易行（如整个住户）。

整群抽样包括两步：

首先，总体被分为群；然后，在总体中抽取群的样本并访问群中的所有单元。

如果总体单元是自然分成组或群的，创建一个这种关于群的抽样框并对它们进行抽样比创建总体中所有单元的名录框更为容易。

或者，无法得到关于总体中所有单元的名录框，但却有这些单元分布地域的地图，因而可以创建地域框。

群的抽取可以采用简单随机抽样、系统抽样或WS抽样等各种不同的方法。

二、群的划分间题

蠡群抽样策略的统计效率取决于群内单元的相似程度有多大,每个群中有多少单元，及抽中群的数畳。

同分戻抽样一样，整群抽样的前提是先要对总体进行分群。

关于群的划分，有两个问题：

一是如何定义群，即当群并非是一个自然形成的单位时，确定每个群的组成；二是如何确定群的规模即群的大小。

分层抽样是在各层都进行随机抽样，“戻是缩小了的总体”，抽样单元仍然是总体基本单元。

这决定了分层的原则是：

尽量缩小层内差异，而扩大层间差异。

而整群抽样只是在各群之间抽取一部分群进行调査，并在抽中的群内作全面调査。

因此，群间差异的大小直接影晌到抽样误差的大小，而群内差异的大小则不影晌抽样误差。

在这里抽样单元是各个不同的群体，所以“群实际上是扩大了的总体单元”。

所以，对于前一个问题，群的划分应该是:

尽量扩大群内差异，而缩小群间差异。

按此原则分群，则能保证每个群对总体都具有足够好的代表性。

作为极端情况，假定各群之间总体单元的分布完全相同，即群间不存在任何差异,那么只需抽取一个群进行调査就能充分满足抽样估计精确度的要求，整群抽样的效率就很高。

这就是说，整群抽样特别适合于群内差异大、而群间差异小的情况。

这样，每个群都具有足够好的代表性。

如果所有的群都相似，那么抽少数群就可获得相当好的精度；反之，若群内的单元比较相似，而群与群之间的差别较大，则整群抽样的效率就低。

所以分群的原则使“群内差异大、群间差异小”与分层的原则使“层内差异小，层间差异大”是恰好相反的。

然在使用自然群时，同一个群内的单元通常非常相似，从而导致这种抽样策略的效率比简单随机抽样低。

下图直观表明了理想的分群与分层，其中同一字母表示观测值相近的单元。

至于群的规模的选择，一是取决于精度与费用之间的平衡，二是从抽样实施

的组织管理等因素来考虑。

当相邻单元相似时，抽数量较多的小群比抽少量较大的群的统计效率高。

然而，如果采用面访，样本的分布越广，调查的费用越高。

这表明：

群的规模选得大，则费用省而精度差；群的规模选得小，则精度高而费用大。

所以，需要选择最优的群数量和大小，同时使总费用最小。

这方面除了依靠实践经验外，还可对假定的方差函数与费用函数作理论上的最优选择。

整群抽样可能有一些具体的困难。

如果用地图作为地域框，可能很难决定某个住所是否在一个特定的群内。

必须建立一个基本的原则以决定哪些单元在一个群内。

例如，规定“住所属于它的正门所在的群”这么一条原则，就能解决大多数问题。

如果一个住所似乎平等地跨越两个群，则采用掷硬币的方法来确定，以避免产生任何抽选的偏差。

三、難群抽样的特点

同其他抽样组织形式相比较，整群抽样具有如下特点：

1•在大规模抽样调查中,常常没有或很难编制出包括总体所有次级单元在内的抽样框,而整群抽样则不需要编制庞大的抽样框。

当总体单元自然聚合成群（例如：

住户、学校）时，整群抽样比简单随机抽样或系统抽样更容易。

2.在样本单元数相同的条件下，整群抽样与简单随机抽样相比，样本单元的分布相对较集中，虽然样本的代表性较差，但调查组织实施过程更加便利，同时还可以大大地节省调查费用。

因此，实际工作中，在权衡费用和精度之后，有时宁可适当增加一些样本单元数，也采用整群抽样方法。

如果对干调查变量而言，群内单元差异较大，而不同群的差异较小，整群抽样策略比简单随机抽样的统计效率更高。

（例如为估计性别比采用按户的整群抽样）。

3.整群抽样的随机性体现在群与群间不重叠，也无遗漏，群的抽选按概率确定。

4•如果把每一个群看作一个单位，则整群抽样可以被理解为是一种特殊的简单随机抽样。

5•整群抽样也是多阶段抽样的前提和基础。

6•整群抽样有特殊的用途。

有些现象的研究，如果直接调查作为基本单元的个体，很难说明问题，必须以一定X围所包括的基本单元为群体，进行整群抽样，才能满足调查的目的。

如人口普查后的宣查、要想估计出普查的差错率，只有通过对一定地理区域内的人口群体作全面调査才行。

类似地谙如人口出生率、流动率等调查都需要采用整群抽样。

7.整群抽样要求分群后各群所含次级单元数目应该确知，否则矣给抽样推断带来不便。

整群抽样的缺点有：

-对调查变量，若群内单元有趋同性，则整群抽样的统计效率比简单随机抽样低，（这正是通常遇到的情况），但对此项效率的损失可通过増加群的抽取个数来弥补；-通常无法提前知道调查总样本量，因为在进行调査前，我们通常不知道一个群内到底有多少个单元；-调査的组织比其他方法复杂；-方差估计可能比简单随机抽样更为复杂。

四、关于群大小的计置

整群抽样中，如何有效地对群的大小进行计量，直接关系到抽样估计效率的商低。

研究表明，对群的大小的最优计量尺度是各群在所研究标志上的标志总量大小。

但在实际工作中,它是未知的。

因此通常选择与所研究标志高度线性相关的另一辅助标志作为计量尺度。

为此,要求学握关于辅助标志的更进一步细致的资料，而这又矣带来一系列新的问题，如增加工作量及费用等。

所以，在整群抽样的实际应用中，经常选择以各群所含次级单元数的多少作为群大小的计量尺度。

当各群所含次级单元数相等时，就称群的大小相等；当各群所含次级单元数不相等时，就称群的大小不相等。

整群样本（图示）

。

@©

°1®

OIO

©©

第二节等概率整群抽样的情形

整群抽样中对群的抽取有多种方式，本节只讨论按简单随机抽样抽群，即等概率抽样,也称PPF抽样的情形，下节讨论不等概率的情形。

一、预备知识

（一）有关符号的涵义

N为总体群数；M为各群所含次级单元数；儿为第/群中第_/个次级单元的观则值；

（/=1,2,3-W：

）=1,2,…M）

NM为总体所含次级单元总数；

为样本所含次级单元总数；乙=工九为第，群各次级单元观测值总和;

X=为第j群的均值;

Y=工匕为总体各次级单元观测值总和;

y=工乙为样本各次级单元观测值总和;

Y=DjN=Y/N为总体各群的均值;

工乙ri=y/H为样本各群的均值;

-司2为样本方差;

MN_=1“_

S：

=-F）2=「工&—F）2为总体群间方差;

“一11N—1/-]

A/”_191

4=—一?

）2=—》（乙一y）2为样本群间方差；

八-1台料-1台

1NM

S；=VMfnEE<^—X）2为总俸平均群内方差；

1NM

S討〒下工工（九—/为样本平均群内方差；

"M-1行铝

/=肓为抽样比。

（二）群内、群间差异的定量刻划

正如前面所分析的，整群抽样的精度在很大程度上取决于群内各次级单元间差异程度的大小。

那么如何有效地对分群后各群内次级单元间的差异和各群之间的差异加以测定？

也就是对群内差异和群间差异怎样做定量刻划？

通常有两种不同的思路：

1、离差平方和的分解——群内方差与群间方差的测定

先分析总体的情况：

对于总体，儿对7离差的总平方和可作如下分解：

NM—NM—

工》（y厂门〜工工仇-n巧

/-Ij-1r-]j-1

NMN—

=工工（打一门2+»"（耳一门2

1-1f-1

式中第一项为群内离差平方和，用其除以（N（M-1））即为平均群内方差，也可宜接称之为群内方差，用S：

表示，则:

式中的第二项为群间离差平方和，用其除以N-1即为群间方差，用S”表示，则:

N_=N_=

为M（X—P）2M》（E—P）2S：

=上-j

由此，依总体方差的定义及总体离差平方和分解可以得出：

S，=-4—-1）S；+N（M-1&］NM-1

同理，可得样本的方差及其分解如下：

s=~~［"（M-1）就+（“一1）£；］,

nM一1

$2=

“n（M-1）

fM（耳巧r化-軒

sb=.=jIJ-1n—1

需要注意的是，由干群的抽取是简单随机的，因此，可以证明与叱分别是S：

与S：

的无偏估计。

但从次级单元角度而言，样本并不是简单随机的，因此，疋不是S?

的无偏估计。

的一个无偏估计可构造如下

NM_1

当N充分大时，

石2Sb+（M-1）S：

另一方面，当畀也足够大时，疋可看作是s?

的近似无偏估计。

2、群内相关系数

群内相关系数是反映总体中群内各次级单元间相关程度的一个统计分析指标。

是同一群内不同次级单元的观测值对总体均值离差乘积的平均与总体所有次级单元观测值对总体均值离差平方的平均之比，记作Pc

U丰k）

NM_=

2工工（再-卩）（九-卩）f=lj

久的取值在［Jt7」］X围内。

当pc=0时，表明群完全是随机组成的。

久值愈大,

1-M

表明群内的单元愈相似；/V值愈小，则群内单元的差异愈大。

当Pc<0时，表明这个差

异比随机分组时群内的差异更大。

Qc•也可用群间方差S；与群内方差S；表示，此时

M（N_1）S：

_（7VM_1）S，S：

_S2

pc=27

（M-1）（W一1）S2（M-1）52（MW-l）S2S2

在实际应用中，当群的大小％不等时，可用平均群的大小販代替M,用上式估计久.

二、群的大小相等时

（一）估计量

整群抽样是以群为单位进行抽样，如果群的抽取是简单随机的，则当群的大小都相等时，可以将简单随机抽样理解为是一种待殊的整群抽样，特别当总体分群后的每个群都只包括一个次级单元时，甦群抽样和简单随机抽样一致。

因此，整群抽样的估计量可以比照简单随机抽样方式来构造。

1、总体均值歹的估计

由于总体均值

是各群均值的平均，而

1nM1n

尹希乌A挣

是样本各群均值的平均，所以根据简单随机抽样的基本思路可得此时总体均值的无偏估计量应为样本均值，即：

2♦总体总和丫的估计

同理可得总体总和的无偏估计董为

入_N”N

Y=NM•歹=—工乙=—y

3、总体比例P的估计

令4为第，群中具有所研究特性的次级单元数，则£=e/M表示第j群中具有所研究特性

的次级单元所占的比例，总体中具有所研究特性的次级单元所占的比例为

1N1“

p=—yai=—ypl

如果是按简单随机抽样方式抽群，则有P的无偏估计量为

（二）估计量的方差及其估计

由干群是按简单随机方法抽取的，因此，估计量与P的方差及方差的无偏估计量

可直接按第三章的方法构造，无需专门推导。

结果如下：

（NUNMsVM—1）

11M

v（y）=V（y）=7V2M2eV（y）=

"MU—门S：

V（P）=——上nn-l

三、群的大小不等时

在许多情况下，总体各群的大小M,是不完全相等，或完全不相等的。

若各群的大小相

差不大时，总体参数的估计量可按简单估计或比估计来确定：

（一）简单估计

如果群的抽取是简单随机的，则可将每个群的总和r看作是第i群的指标，干是总体总

和丫=工丫的简单估计可依照简单随机抽样的情形来做，即:

可以证明，Y是Y的无偏估计，其方差为:

方差估计量为:

▽&）=机1-/）若⑴一刃-

▽（£）为V&）无偏估计。

有了总体总和的估计量，则可得出总体均值的无偏估计量为

其中M。

为总体各群次级单元之和，Mo应事先巳知，为第i群所含次级单元

/-I

数；而为总体平均每群所含次级单元数，M=M0/N估计量的方差为:

nM2N

方差的估计量为：

nM^n一1

（1-/）

（二）比估计

=N]N

当群的大小不等时，在对群进行简单随机抽样的情况下，Y=XY^/EMr＞我们注意到它同比率R=YYtyxt形式上完全相同，只不过在这里是将各群的大小作为辅助变量。

因此，可采用比估计的方法得出有关参数的比估计量。

按前面的论述，比估计量是有偏的，但当"充分大时，其偏差可以很小，近似无偏。

所以，P的近似无偏估计量为

/-]//-I

yk的近似无偏估计量为

J-1/r-1

具有某种特性的单元数），这与比率的形式仍然相同。

因此也可用比估计的方法来构造出P的近似无偏估计量：

根据比估计的原理，可相应推导出上述估计量的近似方差为:

1"/

f=l

N_「

l_f+（%_PM,）2咙）疋齐■N-1

._f工M；S—P）2

丄二•

nM2N

其方差估计量为:

业込竺旦（当心）

nn—1

V（^）=^=U*

fX（D

77-1

从上面的分析来看，当群的大小不等时，简单估计量没有利用关千群大小M,的信息，如果群的大小与群的研究指标之间具有较高的相关性，则简单估计的效率就不如比估计。

貝有当群大小与群的研究指标间无关时，简单估计才比比估计效果好，但这种情况在实际问题中是很少见到的。

第三节不等概率整群抽样的情形

前面介绍的是按简单随机抽样方式抽取各群的整群抽样，即各个群不论大小如何，被抽到的概率都是相等的。

如果群的大小悬殊很大，这样做就不大合适了。

此时，可按群的大小比例采用不等概率抽样，即各个群被抽中的机矣不尽相同，群大的，被抽到的机矣大一些。

不等概率抽样有放回的，也有不放回的。

下面分两种情况分别加以讨论。

（需要说明的是，不等概率抽样不仅可用干整群抽样，也可用于多阶抽样等其它抽样技术之中，本节只讨论整群抽样的情形。

）

一、放回的不等概率抽样不等概率抽样通常是按与群的大小成比例进行抽样。

当采用放回（重童）抽样时，叫做PPS抽样（samplingwithprobabilityproportionaltosize）。

（一）PPS抽样的入样概率和实施方法

1、入样概率

设总体由N个群组成，第：

个群包含个次级单元，按PPS抽样，抽到第j群的概率

与该群的大小M「成正比，即其概率为。

有时，群的大小只是约略知道或这个“大小”并不是用群所含的次级单元数来表示的，而是用其它有关尺度来计量。

此时，设第，群的大小的计量尺度为M：

则有：

Z,=M；/M5（M：

=》M；）

r-i

这时的PPS抽样也称作PPZ抽样。

2、实施方法

1）代码法（累计和法，由汉森一赫维茨提出）

设“不太大，且（或M：

）都为整数，则赋干第：

群个代码，分别与各次级单元对应，由此可得到与总体所有次级单元一一对应的个代码。

每次抽样产生一个[1，M。

]之间的随机数字加，则代码加所在的群入样，重宣抽样〃次，就可抽到所需的"个群。

PPS抽样时，群的代码如下表：

12…，M]

••

Mj+M2

A/j+LAf|+2,…，M）+M>

M。

jV-1N-i

YM’+l,…，工

/=>J=l

2）拉希里法

代码法在N不太大时是适用的，但当N很大时，就很不方便。

此时可用Lahiri（拉希里）1951年提出的方法。

令M*=max{M,}每次抽取一个X围内的随机数j及[hM*]X围内的随机数加，若

ISiWN

＞///,则第j群入样；否则，重抽（几〃2）。

重負这一过程，直到抽够所需的川个群。

另外实际工作中也常采用各群单元累计等距抽样法，下一章中对此要专门进行介绍（见累计和等距抽样）。

（二）PPS抽样的估计量

对干PPS抽样，其估计量可按汉森一赫维茨1943年提出的方法构造。

即

其中丘〃与亢〃分别为7与Y的无偏估计。

估计量的方差为：

A1NyMN—

v（YHH）=-Ezi（^-y）2=—

士陆（耳―彷

/-I

方差的无偏估计量为：

…1j*y.-0丄一一？

v（r//z/）=y（-L^yy=一工（匕一刃-,

咻-1）台Z,・77（/7-1）]7/（/7-1）

至此，巳经讨论了当群的大小不等时，估计总体总和的三种方法，即：

按等概率抽样时的简单估计BY.比估计＞Yr,以及PPS抽样时的估计＞Yhh0科克伦曾对这三种方法

的精度作过比较研究，结论是：

如果当M,增大时，F；没有显示趋势或只有不大的趋势，则

要比V精确一些；如果Y,与无关，则P较好；而通常是比较精确的；当力"•较大时，力"•项就给估计量P和九帮了忙。

二、不放回的不誓概率抽样

进行放回的不等概率抽样时，有的群可能被重复抽中，一旦被重負抽中将导致他个单元重复，因此对样本的代表性影响较大，实际中通常都采用无放回的不等概率抽样。

按不放回的不等概率抽样时，可以有几十种不同的情况（有人曾总结出了50种）。

当〃固定时，对不放回抽样，如果总体每个群的入样概率与其群的大小M「严格成比例，则称之为严格的沖S抽样。

却S抽样有多种类型。

若群的抽取是用严格的衣S抽样方法进行的，则丫的估计应该用霍维茨一汤普森（Horvitz-Thompson）方法。

即:

八八NNYYa

y（yllT）=）（--—）固定时）

i=lj>i叫兀j

…兀厲：

一兀yy；.

v（r//T）=工工一（丄一丄尸⑺固定时）

|=1j>i兀ij兀i兀j

是Y的无偏估计；V（Yht）是V（VHt）的无偏估计，其中，兀"为第F群和第j群同

时入样的概率；码为第j群入样的概率，在〃固定时，

NNN

=«E勺=⑺一1）码工工=7?

（n一1）

/-Ij>i乙

貝有当n=2时，严格的；zPS抽样才有一些比较简单且实用的方法。

若用布鲁尔或德宾方法抽取n=2个群，群和分别为y「y2,群的

相对大小分别为z2,则Y的估计为

其中

4z&2（1一勺一6）

（1-2可）（1-2?

2）[1+》

（=1

第四节设计效应和样本容量的确定

在这里，我们只考虑群大小相等的情形。

若群的大小不等，但相近，则用而代替M；若群的大小不等且差异较大，则可通过适当的拆拼，组成新的大小相近的群。

_、设计沁

仍用总体均值估计量的方差进行讨论，并且考虑等概率抽样的情形。

由前面的分析可知,〒的估计量孑的方差为

v（y）-^-s2[i+（M-i）Pc]nM

如果按简单随机抽样从总体中抽取nM个次级单元，则:

V（y）=—S2泊*nM

所以，整群抽样的设计效应为：

1-f9V（V）—S2[l+（M-l）pc]Deff=—lhL«_nMVsrs（y）Izls2nMa1+（M—l）Qc

当Qc>0时，Deff<1，则整群抽样的精度较简单随机抽样在相同样本量时要差一些。

当

亿V0时，Deff<1,则整群抽样的精度较相同样本量的简单随机抽样要高。

可见，整群抽样的设计效应大小（即精度的好坏）主要取决于总体中群内各次级单元间相关程度（在此主要是离散的程度）的大小。

这也进一步证明了分群时遵循前述分群原则是十分必要的。

二、最佳群大小的确定

如果样本大小固定，虽然调查费用随着群大小的增加和群数的减少而变小，但从前面的结果看出，抽样误差将随着群大小的增加和群数的减少而变大。

因此，就要考虑求得最佳的群数或群的大小以便在给定费用条件下便抽样误差最小，或在给定抽样误差条件下使费用最省。

为此，需要先分析整群抽样的方差函数和费用函数。

根据前面的讨论，整群抽样的方差是总体群数N、总体方差V、群内相关系数Qc、群的大小M以及样本群数n的一个函数，其费用函数可以简单地表示为

C=C（）+nC[+nMC?

其中CC0,CHC2分别为总费用、固定费用、平均每个群的调查费用和平均每个单元的调查费用。

在一般情况下，C?

矣比G小得多。

如果总费用C固定为C',则由费用函数可得c，_c

n=—ct+mc2

代入方差函数得

v（y）=―s2n+（m-i）&1M

C,+MC2

当N比n大得多或以放回方式抽样时，上式可进一步整理成

由此可知，使方差V®）得极小值的最佳M值可用方括号内的项对M的图形来决定。

各种不同M值下的久.值，可由对研究变量与其它的辅助变量作部分事先普查或试查得到，C,和

C2的值也通过试调查得到。

同理，当误差控制要求确定时，也可以导出使费用极小化的最佳M值。

三、样本容量n的确定

确定整群抽样的样本量n一般有两种思路°

K根据设计效应来定

设总体由N个群组成，每个群含M个次级单元。

若从中随机抽n个群，则:

如果按简单随机抽样抽取个次级单元，即相当干抽取m；）个群，此时

Vr.（y）=-1—^S2（〃=空=山）存"nzMNMN

若抽样比很小，则l-f可以忽略。

要使整群抽样的精度与简单随机抽样一致，即v（y）=vsrs（y）

I.、la——s2[1+（M—1）p严——s2nMcnM

故

〃a*[l+（M-l）pc]=nfDeff

依精度要求来定

依精度要求确定样本量,通常是以允许最大绝对方差形式来确定，此时根据V（孑八

v（V）、v（P）的计算公式可以直接推导出在不同估计目标下样本量的计算公式，这一过程比较简单，所以在此不再一一列举了。

需要说明的是，在此所讨论的样本容量指的是样本所含群的数目，而非次级单元的数目。

在确定了样本群数后，即可根据各群的大小推算出样本次级单元数目。

展开阅读全文