贝叶斯变量选择及模型平均的研究.docx

资源描述

贝叶斯变量选择及模型平均的研究.docx

《贝叶斯变量选择及模型平均的研究.docx》由会员分享，可在线阅读，更多相关《贝叶斯变量选择及模型平均的研究.docx（9页珍藏版）》请在冰豆网上搜索。

贝叶斯变量选择及模型平均的研究.docx

贝叶斯变量选择及模型平均的研究

李佳蓓，朱永忠，王明刚

【摘要】摘要：

对多元线性回归问题中的变量选择进行研究，改进现有的贝叶斯自适应抽样（BAS）方法，在实现整体不放回抽样的前提下，局部引进放回抽样的方法，通过数据仿真发现，同样进行贝叶斯模型平均（BMA），改进后的方法预测效果比改进前的BAS预测效果更好。

【期刊名称】统计与信息论坛

【年（卷）,期】2015（000）008

【总页数】5

【关键词】贝叶斯变量选择；贝叶斯模型平均；贝叶斯自适应抽样；放回抽样

一、前言

在多元线性回归问题中，模型选择是其核心环节，之前常用的做法是对已有样本数据进行处理，得出一个最优模型，再用这个模型去进行后期的预测判断。

但是，Leamer等人指出单个的所谓最优模型其预测效果并不是最好的，这种方法忽略了模型的不确定性,试验者不能准确地估计感兴趣的量，甚至会得出不科学的结论[1]77-79[2]。

另外，在建立一个线性回归模型的过程中必须要保证其所含自变量的准确性，多选与漏选自变量都会影响模型后期的预测能力。

目前处理多元线性回归常用的方法是充分利用模型参数的先验信息，然后进行变量选择，最后使用模型平均进行后期预测[3]。

在先验分布的选择方面已有多种方法，其中g先验是一种很常用的方法[4]。

而在变量选择方面，当自变量个数较少时，不放回抽样方法通常可以遍历整个模型空间，但是当自变量个数较多时，遍历整个模型空间就比较困难。

因此，就变量选择问题，统计学家们进行了大量的研究，如比较容易实施的随机搜索变量选择（简称SSVS）、马尔科夫链蒙特卡罗模型组合（简称MC3）以及子集选择法和系数压缩法等[5]。

后期又有统计学家在现有的马尔科夫链蒙特卡罗（简称MCMC）算法上进行改进，有自适应的MCMC、Swendsen-Wang和进化后的蒙特卡罗。

但是，当边缘似然P（Y|Mγ）可以算出的时候，往往选择P（Y|Mγ）代替MCMC方法的模型频率来进行模型选择和模型平均，因为它在比较两个模型的时候能够提供更为精确的贝叶斯因子，而且对于一组有限的模型，它能够给出更加精确的模型概率。

Clyde指出，如果在估计时不考虑蒙特卡罗访问模型的频率，那么从模型空间中进行不放回抽样要比有放回抽样更加有效。

之后，他提出一种新型的变量选择方法——贝叶斯自适应抽样，简称BAS，该方法可在模型空间基数较大的情况下进行不放回抽样，而且进行模型平均后可得到优于其他抽样方法的预测效果[6]。

由于BAS方法在更新变量后验包含概率时需要将所有已抽取模型的各个变量的条件概率更新一次，所以BAS方法需要进行大量的计算。

鉴于此，本文在BAS方法的基础上引入放回抽样方法，实现混合抽样，并充分利用变量后验包含概率的渐进稳定性质，减少抽样次数，提高抽样效率。

仿真结果表明当抽样次数较大时，本文所给方法既能减少抽样时间，也能取得比之前更优的预测效果。

二、预备知识

（一）贝叶斯模型平均

Raftery等人于1997年给出线性回归模型的贝叶斯模型平均的详细介绍。

如果M={M1,M2,…，MK}表示所有考虑的模型，Δ是试验者感兴趣的量，在给定数据D的前提下，Δ的后验分布可以表示为：

（1）

在式

（1）中模型Mk的后验概率表达式如下：

（2）

这里

（3）

在式（3）中，P（D|Mk）是模型Mk的边缘似然概率，θk是模型Mk中的所有参数，P（θk|Mk）是θk在模型Mk条件下的先验密度函数，P（D|θk,Mk）是似然概率，P（Mk）是模型Mk的先验概率。

这种处理方法称为贝叶斯模型平均[7]。

由广义KL距离的非负性和对数测量准则有：

（4）

即模型平均之后的预测效果更好。

（二）不放回抽样

现在考虑有p个候选的预测因子的线性回归问题，设p个候选的预测因子分别为X1,X2,…,Xp，每一个模型形式为：

Y=β0+β1X1+β2X2+…+βpXp+ε=Xβ+ε

（5）

其中Y是n维的响应变量，X为该模型的n×（p+1）维的设计矩阵[8]。

假设ε服从正态分布N（0,σ2），且εi,i=1,2,3,…，n，是相互独立的，这里β0,β1,…,βp和σ2均未知。

在此基础上，建立一个p维的二进制变量γ，则有γ=（γ1,γ2,…,γp）T∈{0,1}p≡Γ,这里γi是Xi的指示变量，即如果Xi包含在模型Mγ的n×（pγ+1）维的设计矩阵Xγ中，那么γi=1，此时βi≠0，否则γi=0[9]。

因此，在整个模型空间Γ中γ共有2p种可能的选择，并且一个γ代表一种变量的选择，即代表一个模型。

这样，便可把变量选择问题转化成γ的抽样问题。

在多元线性回归模型中，任何一个模型的概率f（γ），γ=（γ1,γ2,…,γp）均可表示成如下等式：

（6）

这里γ

当j=1,f（γ1|γ<1）≡f（γ1）是γ1的边缘分布。

因为γj是二进制变量，只有0和1两种取值，所以上面式（6）也可以表示成如下形式：

（7）

这里，ρj|

ρ表示当前ρj|

当进行一次抽样之后，剩下来的模型的分布依然满足式（7）所表示的这种形式，但是抽样概率ρ的取值有所改变，Clyde基于此提出，不放回抽样中前一次被抽取到的模型的各个条件概率更新表达式如下[6]：

（8）

同时其他分支上的值保持不变，即这里表示上一次的γj的条件概率，这样可令已抽取过的模型f（γ|ρ（t））的值为0，保证了不放回抽样的进行。

（三）贝叶斯自适应抽样方法

BAS方法由Clyde提出，其本质是根据{ρj|

（9）

其中δt表示到第t次为止所有被抽取的模型[6]。

BAS计算具体步骤如下：

1.选取首次抽样的初始值ρ（0），其选择通常有平均概率方法、P值校验法、MCMC估计法等[12-13]。

2.从模型空间中进行不放回抽样，且每次抽样后需更新条件概率直至U次。

3.根据更新ρ（0），如果对于给定的某个数δ有那么令否则ρ（0）取值不变。

重复步骤2直到达到所需抽样次数。

需要注意的是，当已被抽取的模型中γj一直是1或0的时候，相应πj的估计值就会为1或0，所以为了限制ρ不等于0和1，令这样所有的模型都能具备有效的抽样概率，通常令ε=0.025，δ=ε2。

三、引入放回抽样的BAS

现有的BAS方法虽然预测效果很好，但是代价很大。

要节约时间，必须使每次抽取的模型尽可能是后验概率较高的模型，以减少抽样次数。

在BAS的整个抽样过程中，随着抽取的模型数量的增加的更新次数越多，其准确度越高，这样所抽取的模型的后验概率也就越高。

但是，前期由于的误差较大，因此不能保证所抽取模型的后验概率足够高，本文主要针对这一点引进放回抽样对其进行改进。

当预测因子个数p较小时，穷举整个模型空间是比较容易的，试验者可以得出每个变量真实的边缘后验包含概率πj；当P较大时，每隔U次将已抽取的模型全部放回，然后进行新一轮的不放回抽样，而非在剩下来的模型空间里进行不放回抽样，即如果δT=δit表示第T次抽样时已经被抽取的模型，ΓT=Γit表示第T次抽样时模型空间Γ里剩下的未被抽取的模型，这里，T=iU+t,t=1,2,…,U。

当抽样次数T=nU（n为非负整数）时，有δ（n-1）U=Φ，Γ（n-1）U=Γ，第T+1次抽样在Γ（n-1）U=ΓT里进行，依次往后进行不放回抽样。

在此方面，改进后方法的优点在于保证了每次更新之后，进行不放回抽样所得到的模型是在整个模型空间里后验概率相对较高的模型，即得到的均是较为精准的模型，这样每次更新的相较于之前的BAS方法也会更加有效。

同时，在实施的过程中也并未比先前增加代价。

另一方面，随着T的增加，每个变量的边缘后验包含概率估计值将越来越逼近于真实值πj,即每隔U次得到的更新值将会越来越稳定。

所以，当趋于稳定的时候，也可以在一定程度上说明已经趋近于真实值πj。

但是，BAS中并未充分利用这一性质，本文在此方面进行改进。

在抽样过程中，每隔U次更新一次当而且满足时，通常令ε=0.025，δ=ε2,此时停止对的更新，用最新的初始值估计值在整个模型空间中进行不放回抽样得到一定数量的模型，进行后期模型平均。

这种方法的优点在于，当抽样次数较大时稳定后即刻停止自适应抽样，可以节约大量时间。

理论上，改进后的方法其初始值的更新次数应该比BAS方法更新次数少，但是抽样具有随机性，若改进后，当初始值的更新达到稳定之后，其更新次数已经超过BAS方法所需更新次数，那么也保留超过的那部分的更新。

因为当初始值还未稳定，说明与真实值之间还是有一定误差的，而BAS方法中忽略了这种由抽样随机性所引起初始值估计值误差较大的情况，在这种情况下，即使BAS能节省一部分时间也是不可取的。

四、数据仿真

这一部分将以两个不同的例子，分别选用不同的先验分布来证明改进后方法的优越性，第一个例子取n=100,p=15,选择Zeller的g先验，并采用Clyde的数据，直观上展示BAS改进前后的区别[14]。

第二个例子取n=50,p=15,选用Cripps的先验分布和Raftery及Fernandez等人的相似的模型结构对随机产生的一组数据进行数据仿真[15-17]。

（一）g先验

设多元线性回归模型如下：

Y=β0+Xβ+ε,ε～N（0,σ2）

（10）

给出15个预测因子和100组数据，即p=15,n=100，这样，|Γ|=215=32768，穷举所有模型虽麻烦，但可以实现。

每个变量数据均由标准正态分布产生，其中第二个变量和第九个变量相关性达0.99，其余均相互独立。

另外，式（5）中的回归系数选择为：

β=[2,-0.48,8.72,-1.76,-1.87,0,0,0,0,4.00,0,0,0,0,0,0]，σ=1

参数的先验分布选择Zellner的g先验:

（11）

式（11）中φ=1/σ,Xγ表示Mγ的设计矩阵，Pγ表示Xγ的秩。

模型的边缘似然有如下表达式：

（12）

这里是判定系数。

另外，模型先验分布选择平均先验分布，即P（Mγ）=1/2P，首次抽样的概率初始值ρ（0）选用平均概率方法，参数估计使用的是最小二乘方法（LSM）。

改进后的BAS方法经计算T=2000时趋于稳定，所以共进行2000次抽样。

为直观进行比较，BAS方法也进行2000次抽样。

表1为改进后方法对于初始值的更新及BAS方法下的取值及真实值π的比较。

表1中改进后的里，为方便直观比较误差的大小，T=500时对应的是具体的的取值，后面三项均是当前的取值与前面一次的误差。

从误差的数量级上容易得出，第一次的更新值与真实值和第二次比较相差均是比较大的，但随后进行的三次更新便逐渐趋于稳定。

满足改进方法中抽样停止的条件，所以取第四次的初始值进行最后的不放回抽样，在整个模型空间中抽取2000次后再更新一次初始值。

虽然改进后时间上的优势并不是很明显，但改进后最后的各变量的边缘后验包含概率明显更逼近于真实值。

表2是BAS改进前后的更加直观的预测效果的比较表示抽样次数表示δ中所有模型的模型后验概率的总和是估计得到的y的平均值是边缘后验包含概率的估计值与真实值的比较。

从表2可以看出，当|δ|=2000时，改进后BAS的预测效果明显提高，在时间上，改进后方法虽并未占很大优势，但当|δ|=3000时，无论改进后方法抽样次数是取2000还是3000，时间和效果上都明显优于改进前。

图1中表示用改进后方法进行100次重复试验，每次试验都是从模型空间中抽取2000个模型，分别记录T=500,T=1000,T=1500,T=2000时ΓT中的模型的真实后验概率之和。

图1显示，第一次ΓT=500中真实模型后验概率总和接近于1，而后期成指数形式减少，尤其是T=1500,T=2000时，尽管初始值的选取不一样，但是ΓT中模型后验概率之和是很接近的，PΓT=1500（Mγ|Y）=0.26,而同时PΓT=2000（Mγ|Y）=0.24，这也在一定程度上证明了用初始值的稳定性来判定抽样次数是可行的。

（二）Gamma先验

为展现改进后方法的普遍性，这里选用Cripps的gamma先验：

（13）

这里

（14）

（15）

其中c1=n2，c2=n，k=7。

此处考虑的例子与Raftery及Fernandez所使用的例子的数据设置相似，取n=50，p=15。

x1～x10服从独立同标准正态分布，x1～x10由x1～x5产生，且满足下式：

[x11,x12,…,x15]=[x1,x2,…,x5]×[0.3,0.5,0.7,0.9,1.1]'×[1,1,1,1,1]+E

（16）

其中E是50×5的矩阵，且每个元素都服从标准正态分布。

响应变量y由如下表达式产生：

y=4+2x1-x5+1.5x7+x11+0.5x13+ε

（17）

其中ε～N（0,2.52I）。

模型空间中共有模型215个，取U=200,改进后BAS经过六次初始值的更新趋于稳定，所以取T=1200,结果详见表3，显然改进后预测效果更佳。

五、总结

本文的创新点共有两点，第一,在BAS方法中引入了放回抽样，实现混合抽样，提高抽样效率；第二，充分利用了更新过程中的稳定性。

仿真结果显示，改进后的方法其预测效果比改进前更加精确，而且当抽样次数较多时能够节省时间。

当然，改进后方法也存在一些问题，抽样次数是由初始值的稳定性来决定的，但是更新值稳定只能说明在某种程度上接近于真实值，并不能达到在试验者所要求的精度上逼近于真实值，故在此方面还需要进行更深入的研究。

参考文献：

[1]LeamerEE.SpecificationSearches:

AdHocInferencewithNonexperimentalData[M].NewYork:

Wiley，1978.

[2]DraperD.AssessmentandPropagationofModelUncertainty[J].JournaloftheRoyalStatisticalSociety,1995，57

（1）.

[3]王大荣,张忠占.线性回归模型中变量选择方法综述[J].数理统计与管理,2010,29（4）.

[4]LiangF,WongWH.EvolutionaryMonteCarlo:

ApplicationstoCpModelSamplingandChangePointProblem[J].StatisticaSinica,2000（10）.

[5]李扬,朱建锋,谢邦昌.变量选择方法及其在健康食品市场研究中的应用探究[J].统计与信息论坛,2013,28（10）.

[6]ClydeM,GhoshJ,LittmanM.BayesianAdaptiveSamplingforVariableSelectionandModelAveraging[J].JournalofComputationalandGraphicalStatistics,2011,20

（1）.

[7]RafteryAE,MadiganD,HoetingJA.BayesianModelAveragingforLinearRegressionModel[J].JournaloftheAmericanStatisticsAssoiciation,1997,437（92）.

[8]朱钰.线性、非线性与广义线性回归模型[J].统计与信息论坛,1996（3）.

[9]SmithM,KohnR.NonparametricRegressionUsingBaysianVariableSelection[J].JournalofEconomics,1996,75

（2）.

[10]BarbieriM,BergerJ.OptimalPredictiveModelSelection[J].TheAnnalsofStatistics,2004,32（3）.

[11]CarvalhoLE,LawrenceCE.CentroidEstimationinDiscreteHigh-DimensionalSpaceswithApplicationsinBiology[J].ProceedingsoftheNationalAcademyofSciences,2008,105（9）.

[12]HorvitzDG,ThompsonDJ.AGeneralizationofSamplingWithoutReplacementfromaFiniteUniverse[J].JournaloftheAmericanStatisticalAssociation,1952,47（12）.

[13]SellkeT,BayarriMJ,BergerJO.Calibrationofp-ValuesforTestingPreciseNullHypotheses[J].TheAmericanStatistician,2001,55

（1）.

[14]ZellnerA.OnAssessingPriorDistributionsandBayesianRegressionAnalysiswithg-priorDistributions[C].inBayesianInferenceandDecisionTechniques:

EssaysinHonorofBrunodeFinetti,Amsterdam:

North-Holland,1986.

[15]NottDJ,KohnR.AdaptiveSamplingforBayesianVariableSelection[J].Biometrika,2005,92（3）.

[16]RafteryAE.ApproximateBayesFactorsandAccountingforModelUncertaintyinGeneralizedLinearModels[J].Biometrika,1996,83

（2）.

[17]FernandezC,LeyE,SteelMFJ.BenchmarkPriorsforBayesianModelAveraging[J].JournalofEconometrics,2001,100

（2）.

（责任编辑：

崔国平）

基金项目：

国家自然科学基金项目《气垫调压室体型优化与运行控制研究》（51379064）

展开阅读全文