缺失数据的插补调整重点.docx
《缺失数据的插补调整重点.docx》由会员分享,可在线阅读,更多相关《缺失数据的插补调整重点.docx(12页珍藏版)》请在冰豆网上搜索。
缺失数据的插补调整重点
缺失数据的插补调整重点
文章编号:
1002-1566(200106-0047-07缺失数据的插补调整
ΞΞΞ
金勇进
(中国人民大学统计学系,北京100872
摘要:
插补是另一类对缺失数据进行调整,以减小估计偏差的方法估计,均值插补,随机插补,回归插补和多重插补。
关键词:
缺失数据;插补调整中图分类号:
O212;C81
一种被称为“单位无回答”,它是指入选择本单位由于各种原因没有接受调查,可以说这些样本单位交的是一份白卷。
另一种被称为“项目无回答”,它是指被调查单位虽接受调查,但在某些调查项目上没有提供有效回答。
与单位无回答相比,项目无回答或多或少地提供了一些被调查单位的信息。
上一讲中介绍的加权调整法虽然也可以应用于“项目无回答”,
但主要是对“单位无回答”进行的调整。
而本文将要介绍的插补调整法虽然也可以应用于“单位无回答”,但主要是对“项目无回答”进行调整的方法。
所谓插补是指,采用一定的方式,为调查中的缺失数据确定一个合理的替补值,插补到原缺失数据的位置上。
插补可以达到二个调整的目的:
一个是减小由于数据缺失可能造成的估计量偏差,为此,
中Zi是第i个单位目标变量缺失值的估计值(替补值,Xi是第i个单位已知的辅助变量值。
例如美国在一项关于医疗设备使用和费用的调查中,多处使用演绎估计法对缺失值进行插补。
1.对种族缺失值的插补函数式为Zi=Xi,即如果某人种族数据缺失,可采用其配偶的种族;如果某家庭成员种族资料缺失,可使用户主的种族。
2.如果年龄项目数据缺失,则利用出生年份资料进行估计。
若调查是在1990年进行,令Xi为出生年份,则Zi=1990-Xi。
3.
若就业收入的数据缺失,则利用其它4个相关的辅助变量信息推算。
令X1i、X2i分别为该被调查者的主要职业和第二职业的周工资率,X3i、X4i分别为其在主要职业和第二职业上的工作周数入的估计值为Zi=X1i.X3i+X2i.X4i。
由此看出,f(Xi可假定为许多不同的形式Y与关系,且X值已知。
实践中,。
三,使组内各单位的主要特征相似。
然后分别计算各
将各组均值作为组内所有缺失项的替补值。
均值插补法的特点是操作简便,并且对均值和总量这样的单变量参数可以有效地降低其点估计的偏差。
但它的弱点也比较突出。
一个是插补的结果歪曲了样本单位中Y变量的分布,因为同组中缺失数据的替补值都由该组的平均值充当,使得其分布状况受到由各组回答单位数据计算出的组均值的制约,其次,插补结果将导致在均值和总量估计中对方差的低估,因为同一组内样本单位的离差将由于同一个数值的多次出现而偏低,因此均值插补适用的场合是仅仅进行简单的点估计,而不适用于需要方差估计等比较复杂的分析。
四、随机插补法
为避免均值插补中替补值过于凝集的弱点,随机插补应运而生。
这种方法是指,采用某种
概率抽样的方式,从回答单位的资料中抽取缺失数据的替补值。
为便于说明,令某项目回答数据个数为n1,缺失数据个数为n0,则n=n1+n0,现从n1个数据中随机抽取n0个替补值,则样本构成为:
样本={y1,y2,…,yn1,y3n1+1,y3n1+2,…,y3n}
此时,目标变量的均值估计为:
yhD=n
(n1y1+n0y3
式中,y3
=∑n
1
i=1
Hiyi/n0,如果采用不重复抽样,Hi=0或1;如果采用重复抽样,则H为多项
式分配,若h1+…+hn1=n-n1,则
P[H=(h1,h2,…,hn1]=
(h1!
h2!
hn1!
否则上面所定义的概率为0,由此得出
E(Hi=
n1
84
数理统计与管理 20卷 5期 2001
年
Var(Hi=(n-n1(1-n1n1
Cov(Hi,Hj=-n21
(i≠j若假设i与j独立,由上面结果可以导出E(yHD=YVar(yHD=(
n1-NS2+(1-n1(1-n
S2式中,S2为总体方差。
可以看出,随机插补法估计量yHD,第一项是仅用回答单位数据进行估计的方差,即
Var(y1=(N2n1=(n1-N
S2,量方差增加项。
变量分布的弱点,,这就使随机插补法在估计与样本分布,,将样本单位进行事后分层,然后在各层中使用,。
五、回归插补法
回归插补的基本思想是利用辅助变量Xk=(k=1,2…k与目标变量Y的线性关系,建立
回归模型,利用已知的辅助变量的信息,对目标变量的缺失值进行估计。
于是第i个缺失值的估计值可以表示为:
Zi=β0+∑
K
k=1βkXki+ei式中的β是回归系数。
若辅助变量是定性变量时,可以采用虚拟变量的处理方法:
若目标
变量Y是定性变量,则考虑通过Logit变换,进行Logistic线性回归。
与随机插补和均值插补的不同点在于:
Zi不是取自回答单位的实际值,也不是由回答单位数据计算的均值,而是利用目标变量与辅助变量的线性关系,采用标准方法(如最小平方法计算出的估计值。
上面的回归模型可以有不同的演变形式。
例如,对于连续性固定样本调查中的缺失值,令β0=ei=0,并指定前期调查数据为唯一的辅助变量,则上式变成:
Zi=β
Xi,这便是简单比率插补,即用时间的变化,对前一期的回答数据进行调整,并做为本次调查缺失值的替补值。
应用回归插补法中一个讨论的问题是ei的处理,因为经过回归后,Zi的估计为^Zi=^β0+
∑K
k=1
^βkXki,对于相同的Xk(k=1,2,…k,得到的替补值是相同的,这就会和均值插补一样,存在
样本分布扭曲的问题。
为此需要构造随机残差e的数据集。
构造的方法有多种,比较典型的一种方法是,根据辅助变量Xk将样本单位分层,在各层中将回答单位数值与其均值的离差视为残差e,在用回归法得到^Zi后,在该层的残差集中随机抽取^Zi的残差项,并将其和作为缺失值的替补,即:
Zi=^Zi+ei。
最后,由回答数据yi和回归替补值Zi,得到目标变量的估计值为
Y—
∧=
∑n
1
yi+∑n
Zi
n
9
4
缺失数据的插补调整
六、处理缺失数据的多重插补法
(一什么是多重插补法
在上面介绍的插补方法均是单一差补法,即对每个由于无回答造成的缺失值只构造一个插补值。
单一插补法存在这样或那样的局限,如均值插补容易扭曲样本分布,随机插补的稳定性不够,等等。
能否有一种方法综合起单一插补法的各自特长,而将其弱点降低到最小程度?
多重插补法就是在这个背景下提出的。
美国哈佛大学统计系的Rubin教授70出多重插补的思想,80年代中与其他学者一起进一步扩展,。
90年代许多学者对这种方法继续研讨,多重插补的主要思想是,>,m个完全数据集,m个处理结果,最后再综合这m处理结果,m个插补值的目的是模拟一定条件下的估,,,研究人员可以借此估计目标量的实际后验分布(二多重插补法的理论证明来源于贝叶斯理论,它由Rubin在80年代初期以一系列的论文提出,其基本的理论架构被他整理在一本书中(Rubin“MultipleImputationforNonresponsein
Surveys”
这里仅对其推断理论做一简要介绍,假定我们的目标是从一个有缺失的调查数据集中推断目标总体,并且缺失值的后验分布(给定回答值的条件分布可以获得,那么目标总体的后验分布由下式给出:
h(θ\Yobs=∫g(
θ\Yobs,Ymisf(Ymis\YobsdYmis式中,Yobs表示回答数据的集合,Ymis表示缺失数据的集合,h(・
表示目标变量θ的后验密度函数,g(・
为θ的完全数据后验密度,f(・为缺失数据的后验密度。
目标变量θ通常是k维列向量,如果调查数据集是理想的,即不存在缺失值,对θ的推断将有如下形式:
(θ-^θ~N(0,μ
这里,^θ是θ的一个统计量,μ是(θ-^θ的方差估计量(通常是一个k×k的协方差阵,N(0,μ是有着均值为0和方差为μ的k元正态分布。
假定由于出现缺失数据,n个样本单位中只有n1个单位提供了回答,即Y=(Y1,…,Yn1被记录下来,Yobs是n1记录值的向量,Ymis是
n0个缺失值的向量(n=n1+n0。
又假定在一个给定的贝叶斯模型里,采用适当的方法,对每个缺失值构造了m个插补值,由此产生了m套完
全数据。
于是对θ和μ而言,有^θ1,^θ2…^θm和μ1,μ2…
μm。
将m套经过插补的数据集合并,得到θ的多重插补估计值为θmi=∑m
i=1^θi/m
多重插补的方差估计包括两部分,插补数据集内的方差和插补数据集间的方差。
插补数据集内的方差为μ^
=∑m
iμi/m
插补数据集间的方差为
05
数理统计与管理 20卷 5期 2001年
B=∑m
i=1(^θi-θmi2/(m-1
于是多重插补的方差估计Tmi表示为
Tmi=^μ+(1+
m
B可以把调整系数(1+m-1看成^θ的模拟误差。
当m足够大时,对θ的统计推断为:
(θ-θmi~N(0,Tmi
即θ的95%的置信区间是θmi±1.96T1/2mi
当m比较小时,对θ的推断则建立在t分布基础上θmi±tdf(α/2T1/2mi
此时的自由度df为df=(m-1(1+
(,请参阅Rubin的书(见参考文献[1]。
NORMΞ,SOLAS(2.0版本,SAS(8.0版本ΞΞ,AMELIA(三一个例子
这里用一个例子来说明多重插补法的使用,例子取自于Rubin的书(19-22页。
此例展示了多重插补法的三个步骤:
插补、分析、合并。
假定从一总体N=1000中采用简单随机抽样,抽取n=10的一个样本,目标变量Y,辅助变量X,调查中无回答率为20%,即y4,y6缺失,具体数据如下:
表一有缺失的数据集xi4689
1113
16182025yi
4
20
10
14
16
15
18
22
步骤—插补
由上数据知,目标变量Y与辅助变量X存在相关关系,假定采用简捷的最近距离法为每个缺失值插补两次,即m=2。
第一个缺失值的辅助变量x=9,与其最近距离的有x=8和x=11,故取与之对应的y=10和y=14为第一个缺失值的插补值。
同样的方法,第二个缺失值的
插补值为y=16和y=14,由此形成两个完全数据集。
表二完全数据集
xi4689111316182025y(1i420101416151822
y(2
i4
20
10
14
16
15
18
22
在三个步骤中,插补这个步骤甚为关键,实际处理中需要根据具体情况,选择适当的插补模型。
步骤二 分析
现在我们感兴趣的是比估计量。
根据比估计公式
1
5缺失数据的插补调整
ΞΞΞWww.statsolusa.com
(J.LSchafer
数理统计与管理 卷 期 2052001年52 ∧—YR=y∑X∑xii=RX^将第一个数据集数据带入,且已知X=12,故YR1=∧—∑y112∑x(ii=13.38将第二个数据集数据代入,可求出YR2=∧—∑y212∑x(ii=13.57由此估计方差估计量公式v=1-fn(s2+R2s2x-2Rssy^^ynn式中,f=n/N,s2=yn∑(yi-y2/(n-1,s2x=∑(xi-x2/(n-1,sxy=∑(xi-x(yi-y/(n-1由表二数据可以计算出,v1=2.965,v2=3.157步骤三 合并将步骤二的结果加以合并,也即mθmi=i=1θ∑/im=1(13.38+13.57=13.482B=Tmi=μ+(1+^=1m1m(v1+v2+(1+1m∑(Yi-θi2/(m-1m∧—11(2.965+3.157+(1+0.018=3.07322由此便可以对Y的置信区间进行估计。
七、总结插补调整常用于对项目缺失数据的处理。
造成项目数据缺失的原因有多种,比较常见的有项目无回答,此处缺失值还产生异常值的剔除。
虽然这些异常值是回答者实际提供的,但由于它们是极端值,把它们修正为正常值对分析可能更有利。
当然,在数据审核中,把明显的,不会逻辑的数据删去,用插补法进行调整,也是一种补救措施。
与花费很高费用去寻找正确数值相比,或与用可疑数据进行分析相比,采用插补法对可数据进行修正是可以考虑的选择。
多重插补法提出了处理缺失数据的一个新思路。
这种方法采用模拟数据的方式,尽可能地提取调查中的有效信息。
与单一插补法相比,多重插补法具有一些明显的优点:
首先,该方法利用多个插补值之间的变异性反映缺失值的不确定性,进而为估计抽样误差提供了依据;其次,多重插补可以保持研究变量之间的相关性,不像单一插补那样容易扭曲变量间的关系,这样,它的应用范围就更加广泛。
例如,如果调查中的无回答率较高,单一插补的估计效率会受到很大影响,而多重插补所受影响则相对小得多;最后,插补的效果与构造插补值的模型有关,多重插补数据可以模拟特定方法下估计值的分布以及总体参数的贝叶斯后验分布,这就为更好地理解和进一步改进插补方法提供了发展空间。
缺失数据的插补调整53当然,多重插补法的操作比较复杂,工作量大,与单一插补法相比,成本增加许多,因此有些学者置疑,估计质量的提高能否补偿增大的成本;还有,在多重插补的理论与应用方面,有些学者也持有疑议。
看来,对多重插补的理论与应用研究还会继续下去。
插补法的运用离不开辅助信息。
相对于目标变量的缺失值而言,辅助信息既可以来自于同一次调查,也可以取自于以前的调查或其它有关资料。
显然,辅助信息的质量越高,与目标变量的统计关系越密切,使用插补法的效果就越好。
但即便如此,在使用调整后的数据集时都应时刻注意,毕竟此“完全数据集”非彼完全数据集,在使用分析结果时对该结果抱一种客观而谨慎的态度。
[参考文献][1] T・seeler,D・LKalsbeek。
《调查中的非抽样误差》M〕北京:
中国统计出版社,1997,12.〔.[2] 金勇进《非抽样误差分析》M〕北京:
中国统计出版社,1996,2..〔.[3] 金勇进,朱琳《不同插补方法的比较》J〕数理论统计与管理,2000,(4..〔.[4] DonaldB.Rubin.MultipleImputationforNonresponseinSurveysM〕JohnWiley,1987.〔.[5] DonaldB.Rubin,NathanielSchenkerMultipleImputationinHealthcareDatabasesJ〕Statisticsinmedicine,〔.1991,10:
585-598.[6] Rao.DevelopmentsinSampleSurveytheory:
anAppraisal〔〕TheCanadianjournalofstatistics,vol25,No1,J.1997,25(1:
1-21.[7] 赵民德,谢邦昌.探索真相———抽样理论和实务〔〕台北:
晓园出版社,1999.M.ImputationadjustmentmethodformissingdataJINYong2jin(TheDepartmentofStatistics,RenminUniversityofChina,Beijing,100872Abstract:
Imputationisanothersortofadjustmentmethodstoreducethebiasofestimationundermissingdata.Thispaperintroducesseveralimputationmethods:
thosemethodsinclude:
Deductiveimputation,Mean2valueimputation,RandomizedimputationRegressionmethodandMultipleimputation.Keywords:
missingdata;imputationadjustment上接第36页OnesortOfstochasticprogramminginintervalsforensurenceprobabjlityofcomplexsystemsMALiang2he,DUANHong2mei(CollegeOfAirForceLogistics,XuZhou221006,ChinaAbstract:
Byinvestegatingtheensurenceprobabilityofcomplexsystems,twosortsofstochasticprogrammingareformulatedinwhichtheretargetsareminimumcostsandmaximumensurenceprobabilityrespectively,andtheaproximatecalculationsarealsogiventothesetwokindsofproblems.KeyWords:
complexsystems;ensurenceprobability;cost;stochasticprogramming.