企业抽样调查(ppt 84).pptx

资源描述

企业抽样调查(ppt 84).pptx

《企业抽样调查(ppt 84).pptx》由会员分享，可在线阅读，更多相关《企业抽样调查(ppt 84).pptx（84页珍藏版）》请在冰豆网上搜索。

企业抽样调查(ppt 84).pptx

企业抽样调查,1,主要内容,抽样调查基本知识服务业抽样调查概况企业抽样调查实例,2,抽样调查基本知识,3,主要内容,抽样调查的基本概念抽样调查的基本理论基本抽样方法抽样方法的选择对抽样调查的基本认识,4,一、抽样调查的基本概念,抽样调查概率抽样与非概率抽样总体与样本目标总体与抽样总体抽样框调查单位与抽样单位误差误差限与置信度抽样效率与设计效果,5,抽样调查,统计调查分为全面调查与非全面调查两类。

抽样调查是非全面调查中的一种重要方法，它是从所研究对象的全体（总体）中抽取一部分（样本）进行调查，获取数据，并以此对总体目标量作出推断（估计）。

这是广义的抽样调查概念。

根据样本抽取方法的不同，抽样可分为概率抽样和非概率抽样。

6,概率抽样,概率抽样（probabilitysampling）也称随机抽样。

概率抽样是严格地按照给定的概率来抽取样本的。

特点：

按一定的概率以随机原则抽取样本。

随机不等与随便。

随机有严格的科学定义，可用概率来描述，而随便带有人为或主观因素，它不是一个科学的概念。

7,概率抽样（续）,每个单位被抽中的概率是已知的，或可计算出来。

当用样本对总体目标量估计时，要考虑到该样本抽中的概率，也就是说，估计量不仅与样本观测值有关,也与被抽中的概率有关。

通常所提到的抽样调查实际上指的就是概率抽样。

国际交流：

企业抽样调查包括本行业所有规模的企业。

8,非概率抽样,非概率抽样（non-probabilitysampling）是相对于概率抽样而言，并无严格的定义，不是按随机原则来抽选的。

这种抽样效果的好坏在很大程度上依赖于抽样者的主观判断能力和经验，而且不能计算抽样误差，不能从概率意义上控制误差并以此来保证推断的准确性。

此外，即使经验可能已表明某种非概率方法过去曾有较好效果，但这并不能保证该方法一直如此。

不过尽管有其理论上的弱点，各种形式的非概率抽样仍在实践中广泛采用，主要原因是节省费用和方便。

9,非概率抽样（续1）,通常我国的典型调查和重点调查,西方国家称为的有目的抽样或判断抽样等都属于非概率抽样。

如果调查的目的是用样本数据推断总体的目标量，并以一定的把握程度保证总体目标量落在目的范围，这时非概率抽样是不合适的。

10,总体和样本,总体（population）：

总体就是全部被研究的单位,也称研究总体。

按研究的总体不同，总体单位可以是人、户或企业。

在服务业抽样调查中，总体就是这些行业的企业和个体户。

样本（sample）：

是总体的一部分，从总体中按一定程序抽得的那部分个体或抽样单位。

样本量n对总体总单位数N的比称为抽样比（samplingfraction）：

11,目标总体与抽样总体,目标总体（targetpopulation）：

是真正作为研究对象的全体。

如要研究山西省居民服务业的情况，目标总体就是所有从事居民服务业的企业和个体户。

抽样总体（samplingpopulation）：

是用作抽样的总体，也就是抽样框。

二者应一致，实际难做到。

如目标总体是2006年所有从事居民服务业的企业和个体户，但很难做到对在调查时（2007年1月）已消亡的单位的调查，尽管在调查时消亡，但可能在2006年全年营业。

先定义目标总体，再根据条件进行修订得到抽样总体。

12,总体参数与样本统计量,无论对总体还是样本，统计中通常使用平均数和标准差等这样一些数量关系进行描述，它们被用于描述总体特征时，称为总体参数，用于描述样本特征时，称为样本统计量。

如：

居民服务业抽取800家企业，调查结果计算出企业平均营业收入400万元（样本统计量），总体平均营业收入（总体参数）未知。

抽样目的是样本（样本统计量）推断总体（总体参数）。

如用800家的平均营业收入作为总体平均营业收入的估计值。

13,抽样框,抽样框（samplingframe）：

抽样框是指包含所有抽样单位的名单或名册。

由于抽样方法不同,可有目录框和区域框,分级抽样框。

名单中的每个单位都有可识别的基本信息；名单的范围应是完整的，不重不漏。

现实中使用的抽样框并不十分完备，一方面，要改进和完善，如更新和维护；另一方面调查的设计者要认真分析抽样框的状况，以评价框的不完整对调查结果产生的影响，并尽可能采取一些补救的办法。

14,调查单位与抽样单位,调查单位（surveyunit）：

抽样调查要通过对样本单位的观察或调查来取得有关数据或记录有关特征，这些单位称为调查单位。

如企业和个体户。

抽样单位（samplingunit）：

抽样单位是指将总体划分成不重叠的有限多个部分的每个部分。

区域、企业和个体户。

15,误差,抽样误差（samplingerror）：

是由于用样本估计总体而产生的误差，也叫代表性误差。

非抽样误差（nonsamplingerror）：

是指除抽样误差以外的，由于各种原因而引起的误差，在各种方式的调查中都存在。

16,抽样框误差,遗漏单位与新增单位；重复；辅助信息是否准确。

17,无回答误差,单位无回答；项目无回答；部分无回答。

18,设计误差,问卷设计引起的误差；抽样设计（选用的方法、分层合理性）及抽选过程（随机）引起的误差。

19,调查员引起的误差,调查员的责任心和态度；调查员水平。

20,被调查者引起的误差,无意识回答误差；有意识回答误差。

21,处理误差,编码；编辑录入；加权；做表。

22,点估计和区间估计,点估计：

抽样调查用样本统计量直接作为总体参数的估计值，称点估计。

如用样本计算得到的企业平均营业收入作为总体企业的平均营业收入的估计值，就是点估计。

区间估计：

是对总体参数可能落入的一个数值范围作出的估计，估计值的取值范围称“置信区间”，与置信区间估计相联系的概率称“置信度”，表示置信区间估计包含了总体参数的可靠程度有多大。

23,抽样效率与设计效果,抽样效率（samplingefficiency）：

是指两个抽样方案的抽样方差之比；当某个估计量的方差比另一估计量的方差小时，则称方差小的估计量效率比较高。

设计效果（designeffect,，简写为Deff）：

就是把一个设计方案的方差与简单随机抽样的方差进行比较。

Deff小于1时，表示设计方案的效率高于简单随机抽样，反之，效率低于简单随机抽样。

24,三种性质的分布,总体分布（populationdistribution）：

是指研究对象这一总体的各个单位标志值的分布状况。

样本分布（sampledistribution）：

样本单位标志值的的分布，就称为样本分布。

随着样本的增多，样本分布逐渐接近总体分布。

抽样分布：

是指样本估计量的分布。

如采用同样的抽样方法和同等的样本量，在居民服务业企业中抽取多套样本，每套样本都能计算出一个估计量，所有可能的估计量形成的分布就是抽样分布。

25,永久随机数,随机数就是按随机方法而生成的数码。

即0，1，29这十个数字出现的机会是等概率的，但排列的顺序是随机的。

永久随机数（PermanentRandomNumbers）则是指长久使用、不改变的随机数。

比如一个企业一旦被赋予了一个随机数，则在以后的调查中都使用这个随机数，它类似企业法人代码，具有唯一和终身性。

对于样本轮换和不同调查中共享样本非常有用。

首先对每个单位赋予一个随机数，然后按随机数大小顺序排队，抽取所需要的样本量。

26,概率,概率是指用来测定样本被抽中可能性大小的一个非负的数值。

27,权数,在概率抽样中，每个样本单位都代表调查总体中的一些未被抽中单位，通常，将一个样本单位所代表的总体单位的数量即样本单位抽中概率的倒数称为这个样本单位的设计权数或基础权数。

28,权数（续1）,100个企业中抽10个企业，每个企业被抽中的概率就是10/100=1/10，权数就是100/10=10，即一个样本企业代表了总体中的10个企业。

分层抽样中，要在层内计算权数。

如企业分成大、中、小3层。

29,分层抽样基础权数计算方法,30,权数（续2）,最终权数与基础权数之间的关系最终权数等于基础权数：

如果一项抽样调查不存在无回答或涵盖不全等情况，基础权数等于最终权数，可以直接用于估计。

最终权数在基础权数基础上进行调整：

存在无回答情况（无回答多与少）；范围涵盖不全；企业分开；企业重复。

31,权数（续3）,不同的抽样方法，权数是不一样的，即推算方法是不一样的。

目录抽样：

基础权数=N/n，最终权数在基础权数基础上进行调整（无回答、范围涵盖不全）。

二阶段目录抽样：

基础权数等于两个阶段权数之积。

最终权数在基础权数基础上进行调整（无回答、范围涵盖不全），在两个阶段分别调整。

如服务业个体抽样，第一阶段抽居村委会，基础权数等于层内居村委会个数样本居村委会个数；,32,权数（续4）,第二阶段抽部分个体户，基础权数等于样本居村委会中个体户总数抽取的个体户数。

为了避免权数调整，调查中可规定：

PSU和个体户不允许无回答；合并和分开的PSU，维持原状；对样本PSUs维护个体户数。

fgtybn37.xls,33,权数（续5）,整群抽样：

与目录抽样方法类似，只不过是将一个群当作一个样本单位对待。

基础权数=N/n，最终权数在基础权数基础上进行调整（无回答、范围涵盖不全）。

为了避免权数调整，调查中可规定：

PSU和个体户不允许无回答；合并和分开的PSU，维持原状；对样本PSUs维护个体户数。

34,总量估计方法,各种抽样方法都有自己的总量估计计算方法，一些复杂抽样的总量估计计算公式比较复杂，但利用权数，各种抽样方法总量估计计算公式可统一、简单地表述为样本权数与指标值乘积的关系。

为回答单位的最终权数，是样本单位的指标值。

35,二、抽样调查的基本理论,两个极限定理估计量的优良性不用怀疑要遵守抽样原则,36,两个极限定理,大数定理：

随机事件的规律总是在对大量随机现象的观察中才能显现出来，随着观察次数的增大，随机影响将相互抵消，而使规律性有稳定的性质。

中心极限定理：

由于正态分布在数理统计中具有特别重要的地位，因此关于寻找在什么条件下将趋于正态分布，这类定理统称为中心极限定理。

37,估计量的优良性,无偏性：

，的平均值（期望值），满足这个关系的称为是无偏的。

相合性：

当时，以为极限，满足这个性质的估计量称为是相合的。

有效性（方差小）：

方差小的估计量比方差大的估计量有效。

可用性：

若趋于零的速度比均方误差的平方根趋于零的速度更快，则称是可用的。

38,三、基本抽样方法,简单随机抽样（simplerandomsampling）等距（系统）抽样（systematicsampling）分层抽样（stratifiedsampling）二阶与多阶抽样（twostageormultistagesampling整群抽样（clustersampling））不等概率抽样（samplingwithunequalprobabilities）二重抽样（doublesampling）或双相抽样（twophasesampling）,39,简单随机抽样,方法:

1到N编号，抽取n个，每一个样本都有同样的机会被抽中。

条件：

必须有包含全部单位的抽样框。

优点：

简单方便，不需要辅助信息。

缺点：

若样本分散，不好组织或调查成本高；N大时抽样框不容易编制。

企业调查中，通常有某些用于分层的辅助信息，很少直接采用简单随机抽样，通常只是用于其他方法的某些过程，如分层抽样中层内样本的抽取。

40,等距（系统）抽样,方法:

先将总体单位按某种顺序排队，随机确定一个起点抽取第一个样本单位，然后每隔（=N/n）个单位抽取其余单位。

如果抽样间距不是整数，可四舍五入。

条件：

总体单位的一个确定的排列。

优点：

实施简单。

缺点：

精度估计比较困难。

通常采用简单随机抽样的方差公式替代。

如企业调查中按某规模大小排队，有利于提高精度，在某种程度上获得比例分层的效益，但此时采用简单随机抽样的方差公式可能偏于保守，高估了抽样误差。

41,分层抽样,方法:

将总体分成若干独立层，各层内的样本量是独立抽取的，通常采用简单随机或等距抽样，不同层的样本量可以不同，抽选样本的方法可以不同。

条件：

总体中每个单位都能够分入其中一个层，需要有相应的辅助信息分层依据。

优点：

组织实施方便，样本散布均匀，精度较高。

一是将单位差异较小的单位放在同一层，减少层内方差；二是在总样本量不变的情况下，控制各层中的样本量，方差大层多分配样本，减少抽样误差。

企业调查中，分布呈现偏态，分层效果非常明显。

42,二阶与多阶抽样,方法:

先将总体划分为若干个群，随机抽取一部分，然后在每个抽中的群中随机抽取要调查的单位。

这是二阶抽样，可以在群内进一步分群，每个群内进行二阶段抽样，形成三阶或多阶抽样。

前提条件：

没有企业名录；调查组织机构出于组织管理和成本方面的考虑，如相对于样本量小但很分散，愿意选择数量大但相对集中的样本。

优点：

样本相对集中，不需要包含所有单位的抽样框。

缺点：

抽样时较为麻烦，而且从样本对总体的估计比较复杂。

效率低。

43,整群抽样,是二阶段抽样的一种特殊情况，方法:

先将总体划分为若干个群，随机抽取一部分，然后在每个抽中的群中抽取所有的单位。

条件：

必须有全部群单位的名录。

优点：

不要求有每个二级单位的抽样框；便于实施。

缺点：

精度较差，效率不高。

44,不等概率抽样,方法：

抽选的概率与群的大小成比例。

大单位被抽到的概率大，小单位抽到的概率小。

PPS，目录抽样中，按每个单位规模（营业收入、从业人数）占总体规模的比重成比例的概率抽取样本。

条件：

必须有全部群单位规模的辅助信息，且规模指标与估计指标相关程度高。

优点：

群单位大小不相等时，精度较高，数据处理也不复杂。

45,二重抽样,方法:

抽样时分两次抽取样本。

先从总体中抽取一个较大样本，称第一重样本，对一重样本进行调查搜集某些信息，然后从中抽取一部分样本第二重样本，对抽中的第二重样本再次进行调查，进一步搜集有关信息。

前提条件：

抽样框缺乏辅助信息，需要对总体进行分层。

优点：

提高抽样效率。

缺点：

在抽取一重样本时需要增加一定的费用，只有当利用这些信息进行分层抽样，所提高的精度的得益大于所增加的费用时，采用二重抽样才是合算的。

46,二重抽样与两阶段抽样,两阶段抽样是先从总体中抽取一定规模的样本（初级抽样单位PSUs），并不对初级抽样单位中的所有二级单位都调查，而是在其中再抽出若干个二级单位进行调查；二重抽样则不同，要对第一重样本进行调查以获取总体的某些辅助信息，并且要利用这些辅助信息进行分层或估计。

两阶段抽样中二级抽样单位与一级抽样单位是不同的，如一级抽样单位是居委会，二级抽样单位是个体户；而二重抽样两次的抽样单位是相同的。

47,四、抽样方法的选择,确定抽样方法的原则有效原则：

在样本量一定的前提下，误差要小；或在一定精度前提下，样本量要少。

如分层抽样，效率高。

经济原则：

费用要低。

精度与费用是评价抽样设计优劣的准则。

最优的抽样设计：

在费用一定的前提下，达到精度最高；或在满足精度的要求下，调查费用最少。

易操作原则：

容易组织实施。

适应抽样框的原则：

充分利用抽样框及已有的信息实际中，原则不能同时兼顾，权衡利弊，选择抽样方法。

48,抽样方法的选择（续1）,企业抽样方法的选择目录抽样经济普查建立了名录库，每年两次的维护更新制度；目录抽样设计简单，进行分层后，效率高样本量确定的前提下，分层提高精度；或在精度确定的前提下，分层能减少样本量；缺点：

以省为总体进行抽样，样本分布分散。

49,抽样方法的选择（续）,世界先进国家对产业活动单位调查,基本都采用目录抽样，具备及时更新维护的名录库。

为减轻小企业回答负担，采用税务数据替代的方法。

如加拿大Royce-Maranda界限方法，分层后每个单元格单位收入-以下的单位不发表调查，采用税务数据。

借鉴经验,权衡利弊，企业选择目录抽样。

注意：

选择目录抽样方法，就要发挥其方法的优势时，接受其弊端样本分散。

（把样本集中到有调查队的县或地市）。

50,抽样方法的选择（续）,个体抽样方法的选择二阶段整群抽样（第一阶段）：

以省为总体，第一阶段抽取县区，第二阶段抽取样本县区内的村/居委会，对抽中村/居委会中的个体户全部进行调查。

个体户无名录；建立个体户名录难度大；个体户变动频繁。

51,抽样方法的选择（续）,二阶段抽样（目前）：

首先在由村/居委会构成的一阶段抽样框中抽取村/居委会，在抽中的村/居委会中（利用经济普查时清查的所有在调查范围内的个体户的名单，维护后采用简单随机方式从中）抽取个体户样本进行调查。

对于个体户数多的的群（居村委会）采用二阶段抽样。

解决调查量大的问题。

通过一阶段整群，将大群划小，也能解决调查量大的问题。

省里更愿意使用二阶段抽样。

52,五、对抽样调查的基本认识,关于对抽样调查准确性的认识准确（accuracy）：

客观的真值精确（precision）：

大量计量结果的均值，多次调查结果的摆动愈小就愈精确。

关于样本对总体代表性问题的认识只要抽样是概率抽样，抽得的样本对总体的代表性都是有保证的。

53,对抽样调查的基本认识（续）,关于概率抽样局限性的认识“抽样调查不能满足分级管理需要的认识”通过扩大各级样本量来满足；可行性问题。

54,服务业抽样调查概况,55,主要内容,企业抽样设计个体抽样设计,56,抽样设计,调查范围和总体行业范围：

装卸搬运和其他运输服务业、仓储业、计算机服务业、软件业、租赁业、商务服务业、科技交流和推广服务业、居民服务业、其他服务业、社会福利业、体育和娱乐业12个行业大类。

调查对象：

法人企业和个体户。

调查总体划分为企业子总体和个体子总体。

57,抽样设计（续1）,目标总体：

2007年1至11月正常营业的法人企业和个体户。

在调查期（2007年12月）正常营业的法人企业和个体户。

抽样总体：

2006年营业、停业和筹建的法人企业；2004年经济普查时的所有居/村委会。

58,抽样设计（续2）,估计精度要求：

以省12个服务员行业为总体控制抽样精度，在95的概率保证程度下，营业收入的cv控制在5以内。

59,抽样设计（续3）,基本抽样方法企业：

目录抽样，直接从企业名录库中抽取样本企业。

个体二阶段抽样第一阶段抽取样本村/居委会；第二阶段在样本村/居委会中抽取个体户。

个体一阶段整群抽样，直接抽取样本村/居委会，对抽中的样本村/居委会中的个体户全部进行调查。

60,抽样设计（续4）,调查目标估计全省（市）总体总量指标；估计全省（市）企业子总体和个体子总体总量指标。

61,企业抽样设计,搜集整理抽样框抽样框使用普查中心维护后的名录库。

由总队到省统计局普查中心去搜集。

然后整理为国家要求的格式。

样本量类似调查的经验；相关测算；人力、物力、时间和精度等因素。

62,企业抽样设计（续1）,2006年1至11月调查为例，国家首先确定14000个企业样本；行业：

按每个行业大类的差异大小分配样本；地区：

参考收入比重（某省营业收入/全国营业收入）确定各省样本量；迭代方法：

将样本量分配到各省的各行业。

63,企业抽样设计（续2）,分层和分配样本量（省级）按行业大类分层；在行业大类中划分必调查层和抽样调查层。

国家标准必调查层界限.xls抽样层按营业收入分层（累积平方根2-4层）分配样本（大企业层抽样比高）按行业小类进一步分层在行业小类内等比例分配样本,64,企业抽样设计（续3）,抽取样本采用永久随机数技术样本抽取方法.xls,65,利用随机数在层内抽取5个样本,66,企业抽样设计（续4）,区分有效和无效样本有效样本:

调查时点仍然属于服务业抽样调查统计范围的样本单位;无效样本:

调查时点已经不属于服务业抽样调查统计范围的样本单位。

未完成报表的样本企业原因说明.doc,67,企业抽样设计（续5）,加权基础权数:

一个样本单位所代表总体单位的数量，样本单位抽中概率的倒数。

无回答加权调整:

基础权数乘以无回答加权调整因子。

总量和方差估计：

stata软件,68,企业抽样设计（续6）,新增企业的处理由于抽样框中资料的时点与调查时点存在差异，在调查时会遇到新增企业问题。

新增企业指企业没有列入抽样框，但在调查时已经产生，如新建企业或由其他行业改行而来的企业。

从普查中心搜集相关信息,计算企业个数净增速,调整非必调查层。

69,个体抽样设计,二阶段抽样整理抽样框一阶段抽样框:

2005年试点调查时在经济普查基础上整理的居/村名录（个体户数或收入信息）。

二阶段抽样框:

抽中居/村内个体户名单,70,个体抽样设计（续1）,确定一阶段样本量一阶段抽样框分层与分配样本分层:

按收入或户数。

分配样本：

规模大层抽样比要高。

抽取一阶段整群样本：

随机数确定二阶段样本量：

所承受的工作量抽取二阶段样本,71,个体抽样设计（续6）,加权和估计加权：

基础权数等于一阶段权数和二阶段权数之积。

估计：

Stata软件。

72,企业抽样调查实例,73,确定调查总体,调查范围和总体（以一个省为例）行业范围：

租赁和商务服务业、居民服务和其他服务业目标总体：

2005年正常营业的法人企业和个体户。

在调查期（2006年3月）正常营业的法人企业和个体户。

抽样总体：

2004年营业、停产和筹建的法人企业；2004年所有的居/村委会，无论是否有个体户。

74,估计精度要求,按行业门类营业收入控制精度在95%概率保证程度下，租赁和商务服务业营业收入的最大相对误差控制在10%以内在95%概率保证程度下，居民服务和其他服务业营业收入的最大相对误差控制在10%以内,75,整理抽样框,按行业范围整理：

按抽样总体整理：

营业状态中包括当年关闭和破产的企业，要剔除检查是否有重复、一对多或多对一的情况，要进行处理新增企业要单独考虑：

使用2004年经济普查库，不能反映2005年新增企业部分,76,确定样本量,经验：

租赁和商务服务1000800居民服务业和其他服务560500测算：

样本量测算bj.xls承受的工作量非单一指标,77,分层与分配样本量,确定必调查层（经验）北京切割点bj.xls按营业收入分层（累积平方根）分配样本（大企业层抽样比高,层间抽样比相差不要太大）分层结果bj.xls,78,分层与分配样本量,按行业进一步分层（观察小类分布）等比例分配样本分层结果bj.xls按营业收入再分层（如果必要）等比例分配样本分层结果bj.xls,79,抽取样本,永久随机数技术永久随机数（PRN）概念与作用产生方法产生随机数.xls检验分布的合理性随机数分布bj.xls抽取样本方法,80,加权方法,权数：

一个样本单位代表的总体单位数量，样本单位抽中概率的倒数设计权数分层结果bj.xls加权调整（无回答）有效样本：

数据收集期内属于调查范围有效无回答样本加权调整：

设计权数有效样本数/回答样本个数无效样本：

数据收集期内不属于调查范围无效有效样本分布bj.xls无效样本参加方差计算,81,企业总量与方差估计,总量估计方差估计:

Stata软件泰勒级数法估计结果调查结果bj.xls,82,新增企业的处理,搜集新增企业名单（法人代码和企业名称）；与抽样框核对，确定实际新增企业单位数；假定：

限下新增企业单位数分布与抽样框中的企业单位数分布一致；调整权数：

7374与8283分别调整权数权数乘以企业发展速度估计结果推算汇总4bj.xls,83,谢谢！

84,

展开阅读全文