有色噪声下基于Unscented粒子滤波的语音增强方法精.docx

资源描述

有色噪声下基于Unscented粒子滤波的语音增强方法精.docx

《有色噪声下基于Unscented粒子滤波的语音增强方法精.docx》由会员分享，可在线阅读，更多相关《有色噪声下基于Unscented粒子滤波的语音增强方法精.docx（22页珍藏版）》请在冰豆网上搜索。

有色噪声下基于Unscented粒子滤波的语音增强方法精.docx

有色噪声下基于Unscented粒子滤波的语音增强方法精

第24卷　第3期电　波　科　学　学　报Vol.24,No.32009年6月　　　　　　　　　　　　CHINESEJOURNALOFRADIOSCIENCE　　　　　　　　June,2009　　　　　文章编号　100520388（2009）0320476206

有色噪声下基于Unscented粒子

滤波的语音增强方法3

尹　伟1　易本顺1　沈小丰2

（1.武汉大学电子信息学院,湖北武汉430079;2.湖北大学物理学与电子技术学院,湖北武汉430062）摘　要　针对含有色噪声的语音,提出了一种基于Unscented粒子滤波的单通道语

音增强方法。

采用时变自回归模型（TVAR）对干净语音建模,通过Unscented粒子

滤波器估计AR模型的参数并滤除有色噪声。

与大多数常用的粒子滤波选择的建议

分布不同,Unscented粒子滤波器采用Unscented卡尔曼滤波器生成粒子滤波的建

议分布。

由于在粒子的更新过程中考虑了最近的观测值,Unscented粒子滤波器能

够在粒子数少于传统粒子滤波算法所需粒子数目的基础上改善估计的性能。

仿真实

验结果表明,在有色噪声背景下该算法具有良好的语音增强效果。

关键词　语音增强;Unscented粒子滤波;中图分类号　TN912.3　　　　文献标志码　A

filter

2gaussiannoises

YINWei1　YIBenΟshun1　SHENXiaoΟfeng2

（1.SchoolofElectronicInformation,WuhanUniversity,WuhanHubei430079,China;

2.SchoolofPhysics&Eleetronics,HubeiUniversity,WuhanHubei430062,China）

Abstract　Consideringspeechsignalswithcolornoises,anovelspeechenhance2

menttechniqueisproposedbasedonunscentedparticlefilter（UPF）.Thetech2

niquemodelsspeechsignalswithtimeΟvaryingautoregressive（TVAR）models.

UnscentedparticlefilterisappliedtoestimatetheparametersofARmodelandfil2

tercolornoises.Insteadofmostpopularchoiceofproposaldistribution,Unscented

particlefilterusesanUnscentedKalmanfilter（UKF）togeneratetheimportance

proposaldistribution.Itallowstheparticlefiltertoincorporatethelatestobserva2

tionsintoapriorupdatingroutinesoastoimproveestimationperformancegreatly

withfewerparticles.Simulationresultsdemonstratethattheproposedalgorithm

possessesgoodperformancewithcolornoises.

Keywords　speechenhancement;Unscentedparticlefilter;timeΟvaryingautore2

gressivemodels;UnscentedKalmanfilter

收稿日期:

2008209201.　　　　基金项目:

中国博士后基金（No.20070411054）;江苏省博士后基金（No.0701017B）;国家自然科学基金（No.60871013,No.60701005）;高等学校博士学科点专项科研基金（No.20070288043）　　　联系人:

沈小丰E2mail:

sxfcn@4763

第3期　　　　　　　尹　伟等:

有色噪声下基于Unscented粒子滤波的语音增强方法

477

引　言

语音增强技术无论是在复杂环境下的语音通信还是在语音编码或语音识别的预处理中都有着很广泛的应用。

它通过对带噪语音进行语音增强处理来改善语音质量、提高语音可懂度,因而具有非常重要的意义。

在众多语音增强方法中,谱减法[1,2]是最常用的。

但是其处理后的语音会产生音乐噪声,而且在信噪比较低时残留噪声较大,不能得到很好的增强效果。

另一类常见的语音增强算法是基于语音生成模型的方法,如卡尔曼滤波[3]。

卡尔曼滤波的语音增强方法通过线性预测系数获得干净语音参数,并通过无语音帧获得噪声特性。

当噪声是高斯过程时,卡尔曼滤波给出了对干净语音的最小均方差估计。

但是卡尔曼滤波假设语音满足高斯分布,因此在对实际非高斯分布的语音的建模方面有其局限性。

近年来一种新的非线性滤波方法———结合贝叶斯原理和蒙特卡罗的粒子滤波器,获得成功的应用。

问题,音增强。

]模型（TVAR）,提出一种基于RaoΟBlack2wellized粒子滤波的语音增强方法。

金乃高等人在Vermaak算法的基础上通过子带分解降低了Rao-Blackwellized粒子滤波中采样空间的维数,达到减

x（n）可以描述为一个由白噪声信号驱动、全极点线

性自回归过程,即

x（n）=

i=1

∑a（i）x（n-

i）+u（n）

（1）

式中,p为AR模型的阶数;{a（i）}ip=1为AR模型的

系数;{u（n）}为零均值且方差为σu的高斯白噪声。

激励源参数和声道模型参数即使在短时间间隔内仍然是时变的,因此,为了更有效地描述语音信号的非平稳特性将式

（1）改写为TVAR模型,即

xt=

i=1

∑a（i）x

t-i

+ut

（2）

在此引入一个对数域偏差

变化规律满足高斯随机移动模型,则激励噪声的似然函数为

μσ（3）p（

2σ在此μ

对TVAR系数a（i）pat|a1）at-1,a）

（4）

就是确保TVAR模型所有瞬时极点位于单位圆内。

为了确保系统模型的稳定,文中采用另一种参数建模的方法,对TVAR模型采用时变反射系数（TVΟPARCOR）[6]来重新参数化。

采用TVΟPARCOR模型原因在于其能更容易地验证模型的

少计算量的目的。

上述的两种方法在语音增强上获得了不错效果,但是它们在建立语音的TVAR模型时未考虑模型的稳定性。

此外,将附加噪声假设为高斯白噪声,采用对数域偏差来模拟噪声的时变特性,这样的设定对于高斯白噪声能有比较好的效果,但是对有色噪声就不一定。

而且在选择重要性采样时将状态的先验分布作为建议分布进行状态估计,不能很好地逼近实际的后验分布,影响了估计精度,同时也导致粒子的退化。

为此,文中采用Unscent2ed粒子算法来进行语音增强,通过TVAR模型对语音建模,为了确保模型的稳定,对TVAR模型采用TVΟPARCOR系数来重新参数化,引入Un2scented卡尔曼滤波器方法来产生建议分布。

仿真

稳定性和对模型进行评估,而且其对语音信号的特性有很好的描述。

采用标准的Levinson递归式可以将at转换成时变反射系数ρPARCOR模t。

TVΟ型的稳定性可以通过每个反射系数ρt保证。

当系数ρt的值在（-1,+1）范围内时表明系统稳定,则时变ρt的受限的移动模型为

2σN（ρmax{|ρt,aI）t,i|}<1

2iσp（ρt|ρt-1,a）∝

0,otherwise

（5）

ρ在此ρPARCORt=[t

（1）,…,ρt（p）]。

文中TVΟ

模型设定前向反射和后向反射系数定相同。

这是考虑到人的声道形状由于物理特性的限制是随时间缓慢变化的,前向反射系数可以近似认为等于后向反射系数。

则AR系数ai和反射系数ρi可用如下的

实验表明,针对有色噪声,在计算量相近时文中算法能在采用少量粒子数的情况下获得更好的性能。

1　语音和噪声模型

假设语音和噪声信号相互无关,干净语音信号

非线性可逆的映射关系进行转换

（aj=1（i）-ρaj（i）=j+1aj+1（j-i+1））21-ρj+1

j=p-1,…,1　　i=1,…,j

（6）

在这个递归式中ρp=ap（p）且ρj=aj（j）。

478电　波　科　学　学　报

第24卷

在只考虑加性噪声的条件下,带噪语音yt的模型可以表示为

yt=xt+vt

（7）

i=1

∑

wt=1

（15）

在此vt为与干净语音无关的附加噪声。

为了描述附加噪声对vt采用AR过程来建模有

而X0:

t=（Xj,j=0,…,t）表示到t时刻系统所有状

态的集合,所以t时刻的后验密度可以近似表示为

　　p（Xt|y1:

t）≈

（8）

i=1

t-i

∑wδ（X

-Xt）

（16）

vt=

i=1

∑b（i）v

+et

式中,et是方差为σ对b（i）采用高e的高斯白噪声。

斯随机移动模型,则有

　　　p（bt|bt-1）=N（bt-1,σbI）

（9）

在此引入一个已知分布且容易采样的重要性分布函

数q（Xt|y1:

t）,通过对重要性函数的采样粒子点进行加权来近似p（Xt|y1:

t）。

对系统的转态转移函数f（Xt）有

　　由此干净语音和带噪信号的模型可以通过一个参数向量θt来描述,θt=（at,

式

（1）与式

（2）描述的语音信号TVAR转化为依赖于参数θt

E（f（Xt））=

i=1

∑

f（X）q（Xt|y1:

t）

p（y1:

t）

（17）

的状态空间的描述形式,即

θxt=At（θt）xt-1+Bt（t）ut

θθyt=Ct（θt）xt+Dt（t）vt+Et（t）et式中,

At（θt）=

Ip-1　0p-1式中,

　　w∝i

q（Xt|y1:

t）

（10）（11）

（18）

θ,Bt（t）=

0p-1×若在t-1时刻已经得到t-1p

i（X0:

t-|y1:

t-1）,且语音参数,itw∝w

it-1

Ct（θt）=1　01Dt（θt）t

10q-1,t（θt）e0q-1×ii

q（Xt|Xt-1,yt）

iii

（19）

式中,

q（Xt|Xt-1,yt）=q（Xt|X0:

t-1,y1:

t）

q（X0:

t-1|y1:

t-1）

（20）

2　基于粒子滤波器的语音增强算法

粒子滤波算法是求解贝叶斯概率的实用算法,通过非参数化的蒙特卡罗模拟方法来实现贝叶斯滤波。

而贝叶斯滤波原理的实质是用所有已知信息来构造系统状态变量的后验概率密度。

选取语音模型状态为

（12）Xt=（xt:

t+p-1,θt）=（xt:

t+p-1,at,

p（Xt|Xt-1,Xt-2,…,X0）=p（Xt|Xt-1）（13）

[7]

由权值wit即可得到t时刻的后验概率密度p（Xt|

y1:

t）。

状态Xt包含了对纯净语音xt的估计,直接提取Xt中的xt可获得语音增强的结果。

由于粒子的选取和估计重要性权值wit与q（Xt|y1:

t）的选取密切相关。

为获得较好的估计效果,重要性分布应接近真实状态后验分布,且应包含大部分最近的观测值。

但是为了方便实现大多数算法,在重要性分布的选择上采用重要性分布为系统的先验演化模型,即

q（Xt|Xt-1,yt）=p（Xt|Xt-1）

（21）

则状态变量的转移概率密度为

σp（Xt|Xt-1）=p（xt|xt-1:

t-p,at,σu）p（at|at-1,a）・

σp（

（14）

采用粒子滤波算法进行语音增强的核心在于从带噪语音y1:

t中估计t时刻语音的后验概率密度p（Xt|

y1:

t）。

由于直接得到真实的后验概率密度很困难,

则式（19）简化为

（22）　　　wit∝wit-1p（yt|Xit）

这样的简化不能合并大部分最近的观测值,因此估计的效果并不理想。

为此构造一个基于样本的后验概率密度函数,用

{Xt,wt}i=1表示系统后验概率密度函数p{Xt|y1:

3　基于Unscented粒子语音增强算法

基本粒子滤波算法的一个主要问题是退化问题,即经过几步迭代以后,除了极少数粒子外,其他粒子的权值小到可以忽略不计的程度。

在粒子滤波

的粒子集合。

其中{X:

i=1,…,N}是支持样本集,相应的权值为{wit:

i=1,…,N},且满足

第3期　　　　　　　尹　伟等:

有色噪声下基于Unscented粒子滤波的语音增强方法算法中抑制粒子退化的一般方法是增加粒子数和再采样。

但是再采样会降低粒子的多样性;而大量增加粒子数,将大大增加计算量。

为了解决粒子退化及算法中没有合并大部分最近的观测值的问题,文中采用Unscented粒子算法[8]来进行语音增强,通过Unscented卡尔曼滤波器（UKF）方法引入最新观测值来产生建议分布。

使用Unscented卡尔曼滤波器方法产生建议分布的原因在于语音信号实际具有非线性的特征,用传统卡尔曼滤波不合适。

推广卡尔曼滤波（EKF）将卡尔曼滤波应用到非线性情况,但EKF不能说是卡尔曼滤波的完全推广,它只是一个用线性去近似非线性的粗糙方法,不能很好地描述系统的非线性性质,且只能得到一阶的精度。

UKF也是一种递归式贝叶斯估计方法,它利用Un2scented变换（UT）方法,用一组确定的取样点来近似后验概率。

但是UKF不必线性化非线性状态方程和观测方程,它直接利用非线性状态方程来估算状态向量的概率密度函数,对任何非线性系统都可精确到泰勒级数展开的二阶精度,由它产生的支撑集更加逼近后验分布,的信息,更容易,UT性变换后的概率密度分布。

对于L维的随机变量x,其均值和方差分别为^x和Px。

为了得到^y和Pyy,将x用2L+1个加权sigma点χ表示

χ（23）x0=^

χx+（i=^

L+λ）Px）ii=1,…,L

L+λ）Px）

j-L

479

ξ用来合并x分布的先验知识。

式中,i=1,…,2L。

这些sigma点俘获到的均值和协方差不会因不同的平方根方法而改变。

因此可以采用效率高、数值稳定的Cholesky方法,用标准的向量和矩阵运算来计算均值和协方差,实现速度很快。

由此,将基于Unscented粒子滤波的语音增强方法的具体步骤描述如下:

（1）初始化:

t=0时刻,设置粒子总数N,指定

N个初始权重,从p（X0）中抽取粒子X0,其中

222

μσσp（X0）=N（a0,σaI）N（

（i）

由式（30）求出计算增广状态变量的均值X0ia和方差P0i

（）a

（）

X0=E（X0）

iiiiiT）（X0）]P0=E[（X0-X0-X0

X0P0

i,ai,a

=E[X0]=[（X0）,0,0]=E[（X0

i,a

i,aiTT

（30）

i,ai,ai,aT

）（X0）]-X0X0

　=ag（（t=2,…

）KF更新粒子状态,先对粒子由UT变换

（i）a

生成sigma点χt-1,然后通过时间和测量更新得到

（i）各个粒子的均值Xt（i）和方差^Pt。

由此将建议分布

定义为

q（XtX^t

（i）

（i）（）（i）

|X0:

t-1,y1:

t）=N（Xti,^Pt）

（31）

从建议分布中抽取粒子

（）（）（）（i）

～q（Xti|X0i:

t-1,y1:

t）=N（Xti,^Pt）

（24）（25）

χj=^x-（

（32）

j=L+1,…,2L

　　2）计算粒子的权值

（i）

（）（i）（i）

i∝（i）（i）

q（Xt|X0:

t-1,y1:

t）

λ=α（L+κ）-L是一个比例参数。

常数α决式中,

-4

α定^x周围sigma点的分布范围,一般来说取e≤

≤1。

另一比例参数κ用来调节高阶矩的作用减小

预测误差,且当L+κ=E[（x-^x）]时,预测误差最

）Px）i是矩阵（L+λ）Px的平方根的第小。

（L+λ

）后得到i列。

这些sigma点经过非线性函数f（・

一系列变换点,这些变换点的均值和方差如下

（33）

　　3）对权值归一化

（i）

（i）t

∑

（i）

-1

（34）

　　4）重采样

消除权值较小的粒子,复制权值较大的粒子,获

i得N个随机样本X0:

t,近似服从分布p（X0:

t|y1:

t）,

　　　　^y≈

i=0

∑

Wiyi

（26）为每个再采样之后的样本粒子赋以相同的权值,对

i=1,…,N,有wt=1/N。

Pyy≈

i=0

W∑

i（yi-^y）（yi-^y）（27）

5）马尔可夫链蒙特卡罗（MCMC）计算

式中,加权系数Wi为

（m）

）W0=λ/（L+λ

W0Wi

（c）（m）

为了增加粒子的多样性,由固定不变的分布p

（i）（i）（i）

（X0:

t|y1:

t）采用马尔可夫转换核获得（X0:

t,P0:

t）。

）+（1-α）=λ/（L+λ+ξ

（28）6）输出

=Wi

（c）

）]=1/[2（L+λ用采样值近似后验分布

480

p（X0:

t|y1:

t）≈^p（X0:

t|y1:

t）=电　波　科　学　学　报NN第24卷i=1δ∑X0:

t（i）（dX0:

t）

（35）

4　实验仿真

为了验证文中算法的有效性,文中采用2种不同的干扰噪声测试算法的增强效果。

实验语音数据来自国外著名TIMIT语料库的时长为2s、采样率为16kHz语音,通过软件CoolEditPro重采样为8kHz。

加入的噪声类型包括有色噪声和类似语音的Babble噪声。

在MATLAB中将语音与噪声按比例线性相加,生成不同信噪比的带噪语音,其信噪比（SNR）范围为0dB至10dB。

在实验中,TVAR模型的阶数p为10,噪声的AR模型的阶数q为5。

UT参数设置为α=1,κ=0,ξ=2。

为了验证文中提出算法的语音增强效果,将文中算法与文献[4]中算法进行比较。

考虑到Unscented粒子滤波算法中由于Unscented卡尔曼滤波器的引入大大增加了计算量。

非常大。

,实验时30,文献[4]中算法的粒子数为200。

此时两种算法的运算量基本接近。

1）有色噪声下语音增强实验

文中有色噪声取自噪声库NOISEXΟ92B。

图1所示为有色噪声下两种算法语音增强效果的语谱图对比。

横坐标表示时间,单位为秒;纵坐标表示频率,其单位为赫兹。

图1（a）中为原始的干净语音的语谱图;图1（b）为含噪语音信号混入了很强的有色噪声干扰,其语谱特征很模糊;图1（c）为文献[4]中算法处理后语音的语谱图,可以可看到背景噪声得到很大程度的抑制;图1（d）为文中算法处理后语音,其语谱图相对于图1（c）语谱特征更加清晰。

在不同输入信噪比下,文中方法与文献[4]语音增强方法的比较结果,如表1所示。

可以看出对有色噪声,文中算法相对于文献[4]中算法性能有一定程度提高。

表1　有色噪声下不同信噪比的增强效果比较

输入信噪比/

0.17

2.14

5.36

2NOISEX292B。

其能量集中在低频段,也可视作是一类有色噪声。

如图2所示为Bab2ble噪声下两种算法语音增强效果的语谱图对比

。

文献[4]输出5.567.218.72文中算法输出6.328.139.34

　　图2（a）中为原始的干净语音的语谱图;图2（b）为含噪语音信号混入了Babble噪声干扰;图2（c）为文献[4]中算法处理后语音的语谱图;图2（d）为文中算法处理后语谱图。

通过比较图2（c）和图2（d）

第3期　　　　　　　尹　伟等:

有色噪声下基于Unscented粒子滤波的语音增强方法的语谱图可以很清楚地看出,对于含Babble噪声的语音去噪,文中的算法要好于文献[4]中的算法。

表2为文中方法与文献[4]语音增强方法的Babble噪声下不同信噪比的增强效果比较结果,同样可以看出对Babble噪声文中算法效果好于文献[4]中算法。

表2　Babble噪声下不同信噪比的增强效果比较输入信噪比/

dB0.233.746.048.31

481

[4]　VERMAAKJ,ANDRIEUC,DOUCETA.Particle

methodsforbayesianmodelingandenhancementofspeechsignals[J].IEEETransactionsonSpeechandAudioProcessing,2002,10（3）:

1732185.

[5]　金乃高,殷福亮,等.基于子带粒子滤波的一种语音

增强方法[J].通信学报,2006,27（4）:

23228.

JINNaigao,YINFuliang,etal.Subbandparticlefil2teringforspeechenhancement[J].JournalonCommu2nications,2006,27（4）:

23228.（inChinese）

[6]　DOUCETA,GODSILLSJ,WESTM.MonteCarlo

filteringandsmoothingwithapplicationtotime2var2yingspectralestimation[C]//IEEE

Int.

Conf.

Acoust.,Speech,SignalProcess,2000:

7012704.[7]　CAPPEO,GODSILLSJ,MOULINESE.Anover2

viewofexistingmethodsandrecentadvancesinse2quentialMonteCarlo[J].ProceedingsoftheIEEE,2007,99（5）:

8992924.

[8]　MERWEVDR,DOUCEA,ND,etal.

Univer2[]　JULIERSJ,UHLMANNJK.Anewmethodforthe

nonlineartransformationofmeansandcovariancesinfiltersandestimators[J].IEEETrans.A.C.,2000,45（3）:

4772482.

[10]　JULIERSJ,UHLMANNJK.Unscentedfiltering

andnonlinearestimation[J].IEEE,2004,92（3）:

4012

422.

Proceedingsofthe

2INFENG/

Press,2000:

文献[4]输出信噪比/dB

4.255.918.7210.23

文中算法输出信噪比/dB

5.677.029.3410.68

5　结　论

在采用TVAR模型对语音信号建模的基础上,

提出了一种针对有色噪声单通道语音增强算法。

它将Unscented粒子滤波器应用于语音增强,由于其合并大部分最近观测值的信息,计性能上有很大提高。

同时,Unscented,,文中算法在增强效果方面好于同类算法。

在实际应用时可采取一些措施减少计算量,比如减少sigma点

展开阅读全文