小区域估计方法在政府统计中的应用研究.docx
《小区域估计方法在政府统计中的应用研究.docx》由会员分享,可在线阅读,更多相关《小区域估计方法在政府统计中的应用研究.docx(7页珍藏版)》请在冰豆网上搜索。
小区域估计方法在政府统计中的应用研究
小区域估计方法在政府统计中的应用研究
摘要:
我国大型统计调查一般以省为单位展开,造成市县级的样本量不足甚至为零的情况,难以满足政府多级决策的需求。
本文围绕多级决策的需求难题,介绍了基于设计推断的方法和基于模型估计的方法,同时分析了二者的本质区别,最后认为基于模型的小区域估计方法摆脱了对样本量的依赖,一定程度上解决了多级需求难题,具有重要的理论和实践意义。
关键词:
统计调查;多级需求难题;基于设计推断;基于模型估计
一、引言
在我国,抽样调查一直都被认为是有效而节约的掌握调查信息的手段。
随着经济的日益发展,需要更细致地把脉经济动向,传统的抽样调查面临新的挑战。
我国经济管理体制在以前偏向集权式管理,即上级政府决策,下级政府执行,抽样调查也基本采用从各县、市、省层层往上汇总的模式。
目前,这种方式渐渐地开始转向分级管理和决策,各个决策层都有各自的决策权和管理权,从而都要求相应的统计信息来支持其决策和管理。
这就造成一个现象:
决策信息的扩散与调查信息的反馈悖逆而行,一个自上而下一个则相反。
在这种信息需求多级化的情况下,如果政府统计系统的经常性抽样只考虑国家级和省级的需求,那么市、县级的决策需求就不能满足。
从专业的角度讲,一次统计调查中,人们不仅仅对总体目标量感兴趣,对于具有某种特征的子总体也要进行估计。
例如,在全国人口普查中,人们除了对各省人口总数进行调查外,往往也对某市县各个性别、种族、老龄化人口数目等进行调查,如何基于省级总体目标的调查数据推出市县级目标总体的信息成为亟待解决的问题,即既要估计大总体,又要基于这个大总体推断其中小区域的信息,归纳起来就是统计调查如何解决小区域估计以满足政府多级需求的难题。
二、概念的界定及理论
本文说一个区域是大的,是指这个区域的样本量能够满足调查的精度。
这里的小区域同样也与样本量有关,而不是单指地理上的小。
本文对小区域的界定如下:
如果样本量不足以支持直接估计所要求的精度,那么称之为小区域。
小区域在一些文献中也被称为“小域”、“次级域”。
另外,在一些应用中,一些所要调查的小区域的样本量可能为零。
在一次统计调查中,通常根据预先设置的总体目标量来确定精度要求,但抽样调查所服务的对象在当今呈多元化趋势,这就要求利用一次统计调查尽可能多地满足多级的需求。
这时出现了小区域样本量不足与抽样调查要满足多层面需求之间的矛盾。
按照解决这个矛盾的方法不同,可以分为传统的基于设计推断(design-basedmodeofinference)的方法、模型辅助推断(model-assistedinference)的方法及近年来兴起的基于模型估计(model-dependentestimates)的方法。
需要说明的是,在模型辅助推断方法中,模型只用来协助产生估计量,之后的推断仍然是基于随机化推断并不依赖于模型,因此本质上模型辅助推断仍是基于设计推断。
三、基于设计推断的方法
基于设计推断方法的特点是以传统调查抽样设计为基础,总体不做假定视为固定,样本的选取是概率抽样,推断是基于反复抽样的随机化推断且与总体的结构无关,仅仅是在调查过程中对总体做一些相当宽松的假设来帮助选择合理的抽样设计和估计量。
常见的基于设计的方法有直接估计法(directestimation)。
直接估计法采用尽可能满足精度的样本量做估计,这种“大区域大样本”的方法在过去很长一段时间内得到充分的关注,以至于在估计小区域的时候,人们常常从样本量出发,扩大样本量或改进估计量进行推断,如“层层抽样”及“ABC三级一套样本兼容方法”。
这两种方法有一个共同点,就是先从最低层开始抽取样本,逐级往上。
层层抽样与事先分层抽样类似,先在最低层次进行抽样,然后逐级往上抽取并进行汇总。
该方法在一定程度上满足了各决策层的需求,但是由于最底层原始数据需要量大且质量难以保证,从而总的抽样误差较大。
“ABC三级一套样本兼容”是王光鹏等(1999)在工业、畜牧业等领域的实践中探索出的一种新方法。
该方法的思路是:
先划分为省、市、县三个层,以各省为总体并设为A级样本,各市为次总体并设为B级样本,各县为子总体并设为C级样本,然后对县按照目录抽样的原理划分为全面调查总体和抽样调查总体,对抽样调查总体进行第一重抽样;第二重抽样是对市级样本的选取,以第一重抽样的样本单位(县级样本)组成新的总体,从中抽取样本,按同样的方法进行第三级省级样本的抽取。
该方法有效克服了层层抽样中样本浪费的缺点,降低了调查成本,较好地解决了小区域估计满足政府多层次需求的问题。
上述两种方法都是先从最低层进行抽样,然后逐级往上。
这种方法一定程度上可以满足低层级的决策需求。
但是,在实际中决策一般是自上而下的模式,需要先满足上一层决策需求。
为了克服这种矛盾,冯士雍和秦振怀(2001)提出了样本追加策略。
其思想是在以估计上一层目标量为目的而抽取的样本基础上,通过追加样本来满足估计下一层目标量的需要,两级样本相互兼容,当估计下一级目标量时,同时用到上一级落在本域的样本和本域的追加样本。
追加样本的目的不仅仅是因为需要增加样本量,而主要是因为上一级样本中落在本域的这些样本对本域并没有代表性。
样本追加策略的另一个优点是利用下级追加样本,还可以进一步提高上级目标量的估计精度。
以上阐述的几种解决多级需求难题的方法,都需要在抽样设计的基础上增大样本量,增大样本量有时会超出调查本身的费用约束。
一种改进的方法是利用辅助信息改进估计量。
合成估计方法和组合估计法就是这种模型辅助推断方法。
合成估计法(syntheticestimationmethod)是一种间接估计方法,它的基本思想是用上一层的总体的估计量协助产生本层的估计量。
其假定上一层与本层有某些共同的特征。
假设每个样本单元k∈S,记
月赞=(xkxk′/πkck)-1(xkyk/πkck) 其中,Xd是每个小区域总量的辅助信息,ck为已知常数,yk为感兴趣指标,向量xk是辅助信息。
则合成估计量的形式为
再赞d;s=Xd′月赞
可以看出,合成估计量的方差仅仅依赖于上一层总体的估计量的方差,与直接估计相比,合成估计量的方差要小得多。
但是,其均方误差的估计相对困难。
组合估计(compositeestimator)是直接估计与合成估计的加权平均。
其数学形式为
再赞d;c=d再赞d+(1-?
d)再赞d;s
其中,再赞d是直接估计,再赞d;s是合成估计,0
d<1为权数。
可以看出,组合估计要比直接估计的方差小,同时也考虑到了合成估计中假定条件不满足时容易出现较大的偏差,一定程度上提高了估计的效率。
组合估计的关键在于权数的选择,一般情况下,当落入小区域的样本量非常小时,直接估计的方差会很大,这时?
d应取的小些;而当小区域样本与上一层样本单元特征差异较大时,?
d应取得大些。
具体的计算一般是对MSE(再赞d;c)关于?
d求导得出极小值得到最优权重。
四、基于模型估计的方法
无论是直接估计还是利用辅助信息进行估计量的改进后进行估计,其对多级需求难题的解决都离不开样本量的支持。
实际情况是一些小区域的样本量可能为零,这有可能使调查无法进行,无法彻底解决小区域估计难题。
基于模型估计的方法正是针对这些不足而产生的一种新的方法。
它的主要思路是摒弃基于设计推断方法对样本量的依赖,利用辅助信息对总体进行假设并建立模型,用相对较少的或非概率抽样的样本就可以进行模型的估计。
根据所利用的辅助信息的层次,小区域估计模型可以分为域层次模型和单元层次模型。
(一)域层次模型
假设θi是感兴趣的指标,其可以是小区域的总值或均值,对于已知函数g(g),有θi=g(Y),且假设与其相关的辅助信息xi=(xi1,xi2,…,xip)′之间有如下线性关系
兹赞i=xi′β+biui+ei
其中,bi>0是已知常数,β=(β1,…,βp)′是p×1维回归向量系数,是ui独立同分布的小域随机效应,它满足E(ui)=0,V(ui)=σ2,ei是相互独立的抽样误差,且满足ei:
N(0,ψi),其参数估计可由极大似然估计求得。
Fay和Herriot(1979)利用小域层次模型校正了较小行政区收入低估的问题。
(二)单元层次模型
设每个小域内的每个单元都有辅助信息可以用,设为xij=(xij1,…,xijp)′,i代表第i个小区域,j代表小区域内的第j个单元,则yij与xij之间有如下模型
yij=xij′β+ui+ei
其中,ui:
N(0,σ2u),eij:
N(0,σ2e)且二者相互独立。
上式为基本单元层次模型,它相对域层次模型出现要晚,但辅助信息具体到每个单元,故估计效果相对较好。
基于模型的估计优于传统的合成估计和组合估计还基于以下几点。
1.模型可以从样本数据进行验证。
2.基于模型的方法可以对复杂的数据进行处理,比如横截面数据和时间序列数据。
3.基于模型的方法允许小域模型中含复杂的误差结构,故而使得其针对具体情况应对局部变化成为可能。
4.可以对某区域的稳健的估计量变异性进行测定。
赵建华等(2012)利用单元层次模型和域层次模型对河北省蔚县小品种农作物播种面积做了模拟仿真,表明基于模型的小区域估计方法得到的估计要比直接估计的标准差要小,估计精度要高。
五、小结与展望
本文围绕抽样调查中小区域样本量不足与政府多级需求的矛盾,分析了基于设计的方法和基于模型的方法。
直接估计的方法可以减少间接估计这道程序。
层层抽样、三级一套样本兼容及样本追加策略采取了扩大样本量的方法,在实际工作中取得了一定成效。
但实际应用中,有些小区域的样本量较小甚至为零,难以满足直接估计所要求的精度。
面对各级政府多层次需求难题缺乏经济性和实效性,难以解决小区域估计问题。
本文提出,面对自上而下的决策模式及从上级总体出发对下级感兴趣目标量进行估计,应从传统的基于设计的方法转向利用模型辅助法和基于模型的推断法。
模型辅助法充分挖掘辅助信息并建立模型,其综合了基于设计的方法和基于模型的方法,有效地降低了估计误差。
基于小域模型的推断方法彻底摆脱了对样本量的依赖,为解决了多级推断难题提出了一种新思路。
由于基于模型的方法对辅助信息的获取及质量都有很高的要求,所以针对我国目前的统计现状,一方面要加强理论的研究,尤其是小区域模型的研究;另一方面要加强数据系统的完善,各个政府层次间的数据应该互通有无,同时要合理有效利用网络数据,以使我国统计工作走上一个新台阶。
参考文献:
[1]王光鹏,缪盛鸿,巩镇肃.用ABC三级一套样本满足多层次需要问题的研究[J].统计研究,1999(02).
[2]冯士雍.中国抽样调查应用中的若干问题[J].中国统计,2001(11).
[3]秦振怀.抽样调查中托干理论与实际问题的研究[M].北京:
中国统计出版社,2003.
[4]国家统计局农村司课题组,赵建华.域估计方法在小品种农作物播种面积统计中的应用[J].计研究,2012(09).
[5]FayRE,HerriotR.Estimationofincomeforsmallplaces:
AnapplicationofJamesSteinprocedurestocensusdata[J].J.Am.Statist.Ass.,1979(74).
[6]RaoJNK.SmallAreaEstimation[M].NewYork:
Wiley,2003.
[7]金勇进,赵雪慧.对抽样调查解决多层次估计问题的探讨[J].统计研究,2003(12).
[8]冯士雍,倪加勋,邹国华.抽样调查理论与方法[M].北京:
中国统计出版社,2012.
[9]胡玉琴.域与小域估计理论的综述[J].统计与决策,2009(14).
[10]吕萍.小域估计的理论和最新进展[J].统计与信息论坛,2009(05).
[11]GhoshM,RaoJNK.Smallareaestimation:
anappraisal(withdiscussion)[J].StatisticalScience,1994(09).
(作者单位:
江苏大学财经学院)