完整word版语音信号特征参数提取方法.docx

资源描述

完整word版语音信号特征参数提取方法.docx

《完整word版语音信号特征参数提取方法.docx》由会员分享，可在线阅读，更多相关《完整word版语音信号特征参数提取方法.docx（11页珍藏版）》请在冰豆网上搜索。

完整word版语音信号特征参数提取方法.docx

完整word版语音信号特征参数提取方法

语音信号特征参数提取方法

阮雄飞微电子学与固体电子学

摘要：

在语音技术的发展过程中使用了大量的语音信号特征参数,好的语音信号特征参数能对语音识别起至关重要的作用。

本文对语音信号特征参数提取方法以及国内外研究现状进行了介绍，最后介绍了Hilbert—Huang这一新兴理论成果以及在特征提取中的应用.

关键词：

语音技术特征提取HHT

1引言

语音信号是一种短时平稳信号,即时变的，十分复杂，携带很多有用的信息，这些信息包括语义、个人特征等，其特征参数的准确性和唯一性将直接影响语音识别率的高低，并且这也是语音识别的基础［1］。

特征参数应该能够比较准确地表达语音信号的特征具有一定的唯一性。

上世纪40年代，potter等人提出了“visiblespeech”的概念，指出语谱图对语音信号有很强的描述能力,并且试着用语谱信息进行语音识别，这就形成了最早的语音特征，直到现在仍有很多的人用语谱特征来进行语音识别［2]。

后来，人们发现利用语音信号的时域特征可以从语音波形中提取某些反映语音特性的参数，比如：

幅度、短时帧平均能量、短时帧过零率、短时自相关系数、平均幅度差函数等.这些参数不但能减小模板数目运算量及存储量而且还可以滤除语音信号中无用的冗余信息。

语音信号特征参数是分帧提取的,每帧特征参数一般构成一个矢量,所以语音信号特征是一个矢量序列。

我们将语音信号切成一帧一帧,每帧大小大约是20—30ms.帧太大就不能得到语音信号随时间变化的特性，帧太小就不能提取出语音信号的特征，每帧语音信号中包含数个语音信号的基本周期。

有时希望相邻帧之间的变化不是太大,帧之间就要有重叠，帧叠往往是帧长的1/2或1/3.帧叠大，相应的计算量也大[3］。

随着语音识别技术的不断发展时域特征参数的种种不足逐渐暴露出来，如这些特征参数缺乏较好稳定性且区分能力不好。

于是频域参数开始作为语音信号的特征比如频谱共振峰等。

经典的特征提取方法主要有LPCC（线性预测倒谱系数）、MFCC（美尔频率倒谱系数）、HMM（隐马尔科夫模型）、DTW（动态时间规整）等。

2语音信号特征参数提取方法

对语音信号的大量分析表明，语音信号中包含着持续的准谐波成分和瞬变的迁越成分［4］，即语音信号是一种多分量、非线性、非平稳信号.诸如声门、声道以及辐射等影响因素很多，使得语音信号特征参数的准确提取和修正较为困难。

这就需要一种精确的时频表示方法[5，6],来准确表现语音信号的各种特征。

传统的语音信号处理都是基于语音信号的两个基本假设[7]，即人的发声系统是线性的及语音信号是短时平稳的.这两个假定导出了各种“短时”处理方法，如：

短时傅里叶变换、倒谱分析和线性预测分析等。

这些“短时”处理方法虽然引入了时频局部化思想，但它们的“短时窗口”大小是固定不变的[8］，不能敏感地反映信号的突变，从而忽略了语音信号的时变特征，所以提取出来的参数往往不够精确。

随着小波分析理论［9］的发展，小波分析也逐渐应用于语音信号的分析和处理。

虽然小波分析具有可调的时频窗口,但是也存在一定的局限性，主要表现在以下几个方面［9,10]：

⑴难以选择的小波基。

在小波分析中，可以根据不同的要求构造不同的小波基.但是对某一信号，依据什么原则、用什么判据选择小波基在理论上和实际应用中还是一个难点。

⑵固定的基函数。

小波基一旦选定就不能再更改，而小波基的选择往往是根据特定的语音信号特征,所以它不具有自适应性。

⑶恒定的多分辨率.小波变换的多尺度特性使小波具有“数学显微镜”的特性和多分辨率分析功能。

然而，一旦选择了小波基函数和变换尺度，分辨率的大小也就确定了，并不会随信号的改变而改变,因此小波变换可以实现多分辨率分析，但其分辨率是恒定的.

LPCC是基于声道模型,它是目前应用最多的一种倒谱特征提取方法.线性预测系数LPC用线性预测法分析语音信号相邻样值之间的关系，得到一组相关的参数。

由此语音特派生的声学特征还有线谱对LSP、PARCOR系数（反射系数）、对数面积比系数等.LPCC为LPC的倒谱参数，它的原理和计算都较为简单，容易实现.算的快速有效使得现在的很多商用化的语音识别系统都是用LPCC作为特征提取方法的。

基于人类听觉模型的MFCC，它所采用的mel频率是人耳听到声音的高低和实际频率的非线性映射得到的一个频率尺度。

MFCC是继LPCC之后语音识别领域中又一大创新理论,计算过程如图1。

相比于LPCC它的识别性能有明显的改进，只是算量大于LPCC，用C语言在算机上做模拟时其运算时间是LPCC的近十倍。

由于它是一种基于听觉模型的特征提取方法,在有信道噪声和频谱失真的情况下，仍具有较高的识别精度，特别是对噪声情况下的识别具有定的鲁棒性。

更随着DSP技术的发展以及它对FFT算的支持，使得MFCC的参数提取速度也很快.结合LPC与MFC的后来提出的一种特征提取的方法PLP（感知线性预测参数），用durbin法计算LPC参数，而在算自相关时用类似MFC的方法。

PLP性能类似MFCC，甚至在某些特征提取结果上要好于MFCC［11］。

王彪［12]提出了一种改进的语音信号特征参数提取算法，即在MFCC参数的基础上加入了语音信号的短时能量和短时平均过零率信息，结果如表1，说明此改进的MFCC方法是有效的。

图1MFCC计算过程

1998年，由美籍华人黄锷（N.E。

Huang）等人提出的Hilbert-Huang变换（Hilbert-HuangTransform,HHT）[13，14］具有精确的时频表示，它不仅适合于非平稳信号也适合于非线性信号.它通过经验模态分解（EmpiricalModeDecomposition,EMD）把信号分解成一族固有模态函数（intrinsicmodefunction，IMF），然后将每个固有模态函数与它的Hilbert变换构成一个复解析函数,并由此导出作为时域函数的瞬时幅度（能量）和瞬时频率，从而给出被分析信号幅度（能量）的时间—频率分布，称为信号的Hilbert谱（Hilbertspectrum）。

这种Hilbert谱具有精确的时频表示［15]。

3语音特征提取的研究现状概述

3.1基音检测和共振峰提取研究现状概述

语音信号的特征参数［7]主要指的是语音信号的基音频率和共振峰频率，语音特征参数的提取也主要是指语音信号的基音检测和共振峰提取。

（一）基音检测

自从进行语音分析研究以来,基音检测一直是一个重点研究的问题，很多方法已被提出，然而这些方法都有它们的局限性。

迄今为止，尚未找到一个完善的可以适用于不同说话人、不同环境要求的基音检测方法。

其原因主要有以下几个方面［16]:

（a）基音周期受声道易变性、说话人的情感、声调等因素的影响;（b）基音周期变化范围很大；（c）受说话人的发音习惯的影响.基音周期的提取方法一般可以分为两个大类[17］：

基于分段的方法和基于事件的方法.基于分段的提取方法一般都先将语音信号分成长度一定的语音帧,然后对每一帧语音数据求取平均基音周期。

这些方法主要有：

⑴自相关法；⑵倒谱法；⑶平均幅度差法；⑷简化逆滤波器法［18，19]等。

它们的共同优点是计算简单。

然而，由于它们都是建立在语音信号是线性和短时平稳的假设上，因此，从本质上说,这些方法都无法检测帧内基音周期的非平稳变化，检测精度不高。

相比而言,基于事件[20]的基音周期提取方法并不多见。

己有的几种方法都是通过定位声门关闭（声门的一次关闭称为一个事件）的瞬时时间，然后确定两个相邻的事件的时间间隔来确定基音周期。

显然，确定声门关闭的瞬时时间是决定被提取的基音周期精度高低的关键所在。

文献[21]通过计算给定信号的自协方差矩阵行列式的极大值来确定事件发生的时刻。

该方法对部分元音有很好的检测精度,但它不适合所有元音,也不适合基音周期发生非平稳性变化时的情况,并且，计算十分复杂。

文献[22,23］利用声门关闭时声门气流的导数不连续这一性质来确定事件发生的时刻，获得了比较满意的检测精度。

但是，它们对噪声太敏感，不适合用于带噪语音数据基音周期的提取。

文献[24］将最大似然关键点判别技术用于检测声门关闭事件，结果表明,该方法对大部分元音、带噪语音都有很高的检测精度，但不适合用于高音调语音基音周期的提取。

文献［25,26]用小波方法来检测声门关闭引起的语音信号的导数不连续事件，实验表明它们能适应于很宽的基音周期变化,并且也具有较好的抗噪能力.这些方法有一个共同的假设是在声门关闭的瞬时声门激励是瞬时中断的,由此将导致语音信号在这一时刻其导数不连续。

显然,对于声门关闭很好的元音它们会有很好的结果，但是对于声门关闭比较缓慢的元音检测精度将会受到很大的影响.

（二）共振峰提取

与基音检测类似，共振峰提取表面上看起来很容易,而实际上又为许多问题所困扰，这些问题［27]是:

⑴虚假峰值，⑵共振峰合并,⑶高音调语音。

传统的共振峰提取方法主要有倒谱法和线性预测法，这些方法是建立在语音信号是线性和短时平稳的假设上。

随着对语音发生机理研究的深入，在理论分析与实验分析中都证实了在语音产生过程中存在非线性，语音信号的这种非线性特性是传统的线性共振峰参数估计方法的准确性受到影响的主要原因。

另一方面，随着对语音信号处理要求的不断提高，共振峰参数随时间快速变化的动态信息也越来越受到语音研究者们的重视，但由于传统分析方法的局限性，对快速变化的共振峰的提取无能为力.近年来，尽管也提出了一些新的共振峰提取算法,如文献［28］采用了基于逆滤波器的共振峰提取方法,文献［29］将语音信号分解为调制成分并采用频域线性预测算法的共振峰估计方法，但这些方法只是在处理方法和算法上作了一些改进,本质上还是属于线性分析方法的范畴，而且分析过程复杂，许多参数需要根据人的主观经验确定，会造成人为的不确定误差和数据的不稳定性。

随着语音信号非线性模型的发展，近年来也提出了许多采用非线性处理方法提取共振峰的算法，其中最具有代表性的算法是文献［30—32]中的基于多频带能量分离的共振峰提取算法，它以语音信号的调频-调幅非线性产生模型为基础，用一组带通滤波器把各个共振峰分量分离开来，再用能量分离算法求取各共振峰的瞬时频率和瞬时幅度，但在滤波前,仍须用短时傅里叶变换粗略估计各个共振峰频率和带宽,依然存在受虚假峰值、共振峰合并和高音调语音的影响.

3.2Hilbert-Huang变换研究现状概述

由于HHT具有自适应性而且是分析非线性、非平稳数据的有效工具，从1998年公开发表到现在九年多时间里一直受到国内外学者的广泛关注。

到目前为止HHT已被应用于很多数据的分析，向世人展现了其强大的分析能力：

黄本人将其应用于[13，14]非线性系统分析、水波分析风速分析、潮汐和海啸分析、海洋环流分析和地震信号分析中,别人将其应用到了医药学[33，34］、结构土木工程[35］及机械故障诊断[36］等领域。

国内等高校均有学者着手对该算法进行研究：

大连理工大学的张海勇[37］将HHT与WVD结合起来，提出了一种交叉信号分析方法；重庆大学的谭善文[38]提出了多分辨希尔伯特-黄变换;钟佑明［39］强调了局瞬量的意义，提出了希尔伯特—黄变换局瞬信号分析方法；青岛海洋大学的蒋济同［40]将HHT应用于海洋平台损伤诊断;浙江大学的胡劲松[41］等人将HHT应用于旋转机械振动信号。

另外国内的许多研究所及其下属科室例如国家海洋局的第一及第三海洋研究室、中科院遥感应用研究所等也对该算法进行了研究和初步的应用，并且得到了较好的应用效果。

在语音分析处理方面，国内学者也对其进行了大量的研究：

湘潭大学的李凌[42］、浙江大学的许艳红［43］把它应用到说话人识别，哈尔滨工业大学的申丽然［44]等把它应用到语音增强，在语音特征提取方面，文献[45，46］把它应用到基音检测，文献［47］把它应用到共振峰的提取。

大量的事实表明，HHT以其独特的优点在各种领域得到了广泛成功的应用，证明了其优越性。

事实也证明HHT在语音分析处理领域，特别是在语音特征提取中，有很多不同于传统方法的优点:

（1）不需要对语音信号作短时平稳性假设，可以一次性地分析和处理任意长度的语音数据,因此，用于分帧和拼合的开销减少，帧间拼合痕迹也减小；

（2）检测精度高,适应范围广。

这种高的检测精度和强的适应能力在理论上可以解释为由于HHT的高时频分辨能力和对信号的自适应能力所致.在实际中也被来自于不同性别、年龄、语音采集环境等的实际语音信号的检测结果所证实；（3）具有跟踪语音信号变化的能力.传统方法大都是建立在语音信号短时平稳性假设的基础上，因而提取出来的语音特征是一个语音帧内的平均值。

HHT方法打破了这一基本假设，从本质上就是把语音数据看成是非线性、非平稳的数据,因而，提取结果更加符合客观实际.因此，语音信号作为一种典型的非平稳信号,研究应用HHT处理语音信号，无疑是一项很有意义的工作。

4结论

本文主要介绍了语音信号处理中的特征提取的方法，总结和展望了特征提取的各个常规方法以及一些研究成果。

最后介绍了HHT在特征提取中的优点及应用,并指出这个新兴理论的研究前景.

参考文献

［1]汤子瀛。

计算机操作系统[M］.西安西安电子科技大学出版社，1996.

［2]郭皞岩。

Windows程序设计教程[M］.北京人民邮电出版社，2009.

[3］石海燕.语音信号特征参数研究［J]。

电脑知识与技术,2008,4.

[4]陈亮，张雄伟.语音信号非线性特征的研究[J].解放军理工大学学报，2000，1

（2）:

11—17。

［5]张贤达。

现代信号处理[M]。

北京：

清华大学出版社，2002.349-492.

[6］科恩L著。

时频分析:

理论与应用［M].白居宪译.西安：

西安交通大学出版社，1998.121—159.

［7]韩纪庆，张磊，郑铁然.语音信号处理［M].北京:

清华大学出版社，2004.11—94,160—189.

[8]PatrickJLoughlin，LeonCohen.Theuncertaintyprinciple：

Global，Local，orBoth?

［J］。

IEEETransactionsSignalProcessing。

2004，52（5）,1218-1227.

［9］梁学章,何甲兴，王新民等.小波分析［M].北京:

国防工业出版社，2004。

1—162.

［10]MasoudKarimi-Ghartemani,AlireraKZiarani.Anonlineartime-frequencyanalysismethod[J].IEEETransactionsonSignalProcessing，2004，52（6）：

1585-1595.

[11]阎福智.语音信号处理中特征提取方法研究［J]。

中国新通信,2013,21:

127—128。

[12]王彪。

一种改进的语音信号特征参数提取算法研究［J]。

电子设计工程，2011，21：

59—61.

［13］HuangNE，ZhengShen。

TheEmpiricalModeDecompositionandtheHilbertSpectrumforNonlinearandNon—StationaryTimeSeriesAnalysis[J］。

ProceedingsoftheRoyalSocietyofLondonSeries,1998，454:

903-995.

［14］HuangNE，ShenZheng，LongSR.Anewviewofnonlinearwaterwaves:

theHilbertspectrum[J］.AnnuRevFluidMech,1999，31

（1）:

417-457.

［15］MessinaAR，VittalV。

Nonlinear，non-stationaryanalysisofinterareaoscillationsviaHilbertspectralanalysis[J]。

IEEETransactionsonPowerSystems，2006,21（3）：

1234-1241。

[17］ReschB,NilssonM，EkmanA,KleijnWB。

EstimationoftheInstantaneousPitchofSpeech[J]。

IEEETransactionsonAudio，SpeechandLanguageProcessing，2007,15（3）:

813-822.

［18]LaneauJ，WoutersJ.Pitchperceptionincochlearimplantswithdifferentfilterbankdesigns［C］.the25thAnnualInternationalConferenceoftheIEEEonEngineeringinMedicineandBiologySociety,2003，3:

1995—1998。

[19］SalorO,DemireklerM，OrgunerU.AnEfficientAlgorithmforPitchDeterminationofSpeechSignals—KalmanFilterApproach［C].SignalProcessingandCommunicationsApplications，2006.1-4.

[20]BoLi，Ying-YingLi,Cheng—YouWang,etc。

Anewefficientpitch-trackingalgorithm[C］.IEEEInternationalConferenceonRobotics，IntelligentSystemsandSignalProcessing,2003，2:

1102-1107.

[21]YongDukCho，HongKookKim,MooYoungKim，SangRyongKim.Pitchestimationusingspectralcovariancemethodforlow-delayMBEvocoder[C］.IEEEWorkshoponSpeechCodingForTelecommunicationsProceeding,1997。

21—22。

[22］AnanthapadmanabhaTV,YegnanarayanaB.Epochpredictionresidualforidentificationofclosedglottisinterval［J]。

IEEETransactionsonSignalProcessing，1979,27（4）：

309—319.

［23］ChengYM，ShaughnessyDO。

Automaticandreliableestimationofglottalclosureinstantandperiod[J］.IEEETransactionsonSignalProcessing，1989,37（12）：

1805-1814。

[24］DeshmukhO,SinghJ，Espy-WilsonC。

Anovelmethodforcomputationofperiodicity,aperiodicityandpitchofspeechsignals[C］。

IEEEInternationalConferenceonAcoustics,Speech，andSignalProcessing，2004，1:

117—120.

[25]KadambeS，Boudreaux—BartelsGFaye.Applicationofthewaveletstransformforpitchdetectionofspeechsignals［J].IEEETransactionsonInformationTheory,1992,38

（2）:

917—924.

[26]LIJing，BAOChangchun.Apitchdetectorbasedonthedyadicwavelettransformandtheautocorrelationfunction［C］.InternationalConferenceonSignalProcessing，2002，1：

414—417.

［27］YanQ，VaseghiS,RentzosD,etc。

AnalysisandSynthesisofFormantSpacesofBritish，Australian，andAmericanAccents［J].IEEETransactionsonAudio，SpeechandLanguageProcessing，2007,15

（2）:

676-689.

[28］WATANABEA.Formantestimationmethodusinginversefiltercontrol［J]。

IEEETransactionsonSpeechandAudioProcessing,2001,9（4）:

317—326.

[29］RAOP,BARMANAD.Speechformantfrequencyestimation:

evaluatinganonstationaryanalysismethod[J].SignalProcessing,2000，80（8）：

1655—1667。

[30］MaragosP，JamesFKaiser,ThomasFQuatieri.OnAmplitudeandFrequencyDemodulationUsingEnergyOperators［J］。

IEEETransactionsonSignalProcessing，1993，41（4）:

1532-1550.

［31］PotamianosA，MaragosP。

Speechformantfrequencyandbandwidthtrackingusingmultibandenergydemodulation[C]。

InternationalConferenceonAcoustics,Speech，andSignalProcessing,1995。

784—787。

［32］MaragosP,KaiserJF,QuatieriTF.EnergySeparationinSignalModulationswithApplicationtoSpeechAnalysis［J]。

IEEETransactionsonSignalProcessing，1993,41

（2）:

3024-3051.

[33］HuiFangChen.HeartRateVariabilityAnalysisofOrthostaticFaintinginSpinalCordInjuryTreatmentbyHilbertHuangTransform［D]。

［MasterDegreeThesis].Singap

展开阅读全文