听觉特性与鲁棒语音识别算法研究图文精.docx
《听觉特性与鲁棒语音识别算法研究图文精.docx》由会员分享,可在线阅读,更多相关《听觉特性与鲁棒语音识别算法研究图文精.docx(44页珍藏版)》请在冰豆网上搜索。
听觉特性与鲁棒语音识别算法研究图文精
10二069二
分类号:
坠1212:
34密级:
公珏UDC:
§21:
38学号:
Q212塑⑨
东南大学
博士学位论文听觉特性与鲁棒语音识别算法研究
研究生姓名:
孙睥
导师姓名:
昱筻扬夔撞
申请学位级别王堂熊±
学科专业名称焦曼皇焦皇矬理论文提交日期至QQ墨笙!
呈且
论文答辩日期呈旦鱼鱼生墨且学位授予单位奎密友生
学位授予日期至Q生旦
答辩委员会主席评阅人2005年12月
摘要
摘要
语音识别技术了开创人机交互的新纪元,它被广泛应用于工业、军事、商业、金融、服务、医疗、日常生活等很多领域。
在实际应用中,由于环境不匹配,导致识别系统的性能急剧恶化。
因而,语音识别的环境鲁棒性成为目前鲁棒语音识别研究的热点和难点。
论文先后研究了目前语音识别以及鲁棒语音识别技术、入耳的听觉特性、语音识别中采用的估计准则、噪声环境对语音识别影响的途径,并根据人耳的感知特性、不同频带信号及噪声的功率谱差异,以及噪声对不同频带识别模型影响的不同,先后采用不同的模型框架、估计准则、匹配方法、可信度信息分析,提出多种鲁棒语音识别算法,改进了现有的鲁棒语音识别算法。
模型分析与补偿技术是目前噪声环境下鲁棒语音识别研究的重要途径。
在大量的理论分析与研究的基础上,论文研究了基于Fletcher--Allen规则的子带框架下的语音识别算法。
提出了并行子带HMM最大后验概率自适应非线性类估计算法和非线性最大后验统计匹配鲁棒语音识别算法。
在并行子带HMM最大后验概率自适应非线性类估计算法中提出了MAP估计、环境映射以及BP网络联合做非线性映射分类的方法。
该算法在信号信息可信度上采用了佶噪比分析,算法中还提出了有效反映噪声环境的先验信息估计方法。
在非线性最大后验统计匹配算法中,提出了依信噪比进行MAP统计匹配并联合非线性映射进行分类的算法。
实验表明,研究获得了不同程度识别性能的改进。
基于听觉特性流组合的研究,论文研究了基于噪声污染假定的多带鲁棒语音识别算法。
论文研究了多带异步处理模式下的鲁棒语音识别算法。
首先,论文提出了多带最大似然鲁棒语音识别算法。
该算法提出基于多带模式进行最大似然估计以及线性判别分析或联合信噪比及模型近似度判决分析的鲁棒语音识别方法。
论文根据多带分析的特点,还提出了判决多带最大后验多变换算法以及它的简化算法(平均估计和JamesStein估计)。
该算法采用多带处理、判别分析、MAP估计,以及信息多变换等,从多种角度提取识别信息获得了非常好的性能。
论文还提出了联合信噪比和模型近似度判别分析的思想和具体处理方法,并对提出的几种可靠信息合并准则进行了比较实验。
研究表明,鲁棒语音识别应该是基于可信信息抽取的,也就是说不同频带信号的处理模式应该是同步、异步交织进行。
为此,论文在前面多带异步处理的基础上,提出了多带同步鲁棒语音识别算法,可以看到同步信息的利用可以大大简化模型。
然后综合同步、异步问题的研究,提出了同步一异步语音识别模型,_并联合对语音信号随机删除下语音识别性能的分析,研究了时变一频变噪声环境下的基于信噪比可信度判决的迭代识别结构。
论文中大量的理论分析和仿真实验比较表明,根据听觉感知中表现的频率特性、信号及
摘要
噪声的功率谱差异,以及噪声对不同频带识别模型影响的不同,采用可信信息抽取,以及根据环境影响的特点针对性地对识别模型进行补偿的方法,能够非常有效地提高噪声环境下语音识别系统的性能。
关键词:
语音识别,听觉分析,隐马尔可夫模型,估计准则同步分析,异步分析,环境映射,判决函数
ABSTRACT
ABSTRACT
Thetechnologyofspeechrecognitioninauguratesaneweraofthecommunicationbetween
humanandmachine.Thespeechrecognitionsystemscanbeappliedinawidelyfield,such
asindustry,military,business,finance,service,medicaltreatment,dailylife,etc.Forthe
environmentalmismatch,theperformanceoftherecognitionsystemsisdramaticallydeteriorated.Sotherobustnessbecomesthefocusoftheresearchofspeechrecognition.Here,thecurrenttechnologyofspeechrecognitionandrobustspeechrecognition,theauditorycharacteristicsofhuman,theestimationprinciplesappliedin
sfieechrecognition,theapproachesbywhichnoiseaffectstherecognitionperformanceareresearchedindetail.Accordingtotheauditory
characteristics,thespectraldifferencebetweenspeechsignalsandnoise,thedifferenteffects
onspeechrecognitionmodelscausedbynoiseindifferentbands,severalkindsoftherobustspeechrecognitionalgorithmshavebeenpresentedtoimprovetheperformanceofthespeechrecognitionsystemsinnoisyenvironmentwiththedifferentmodelschemes.thedifferentprinciplesofestimation,thedifferentmatchmethods,thedifferentanalysisofthereliabilityoftheinformation,
Thetechnologyofmodelanalysis
andcompensationisanimportantwayofrobustspeechrecognition.Accordingtoamountofthetheoreticalanalyses
andresearches,basedonFletcher-Allenprinciple,thenonlinearclassestimationalgorithmusingparallelsub-bandHMMmaximumaposterioriprobabilityadaptationandthenonlinearsub-bandmaximumaposterioristatisticalmatchingalgorithmhavebeenproposed.Thenonlinearclassestimationalgorithmadopts
MAPprinciple,linearmapping,BPnetworktorecognizethespeechsignal.Therdiabilityanalysis
oftheinformationutilizesthesignaltonoiserateinthealgorithm.Andanewprior
informationestimationmethodispresented,whichefficientlyreflectsthenoisyenvironment.ThenonlinearststistiealmatchalgorithmisanewalgorithmwhichcombinesMAPstatisticalmatchwithnonlinearmapping.Theexperimentsshowtheseresearchesevidentlyimprovethe
performanceofspeechrecognitioninnoisyenvironment.
Basedonthephenomenaoftheauditorystreamgrouping,themulti—bandrobustspeechrecognition
algorithmsaccordingtonoisecorruptionassumptionhavebeenresearchedhere.Themulti—band
asynchronousmodeisresearchedfirstly.Themulti—bandmaximumlikelihoodrobustspeechrecognition
algorithmisbasedonthemulti—band
asynchronousmode,whichutilizesthemaximumlikelihoodlinearmapping,linearanalysisordiscriminativeanalysis,Accordingtothespecialtyofthemulti—bandanalysis,thediscriminativemulti—bandmaximum
aposteriori111——
ABSl’RACT
iiiii-i-————————————————————————————iiiiiiiiiiiiiiiiiiiiiiiiiiiiiimulti—transformationalgorithmwithitssimplifiedalgorithms(averageestimationandJamesSteinestimation)isalsopresented.Itisbased0i"1multi,bandasynchronousmodetoo.Andthemulti-band
processing,discriminativeanalysis,MAPprinciple,multi—transformationareunitedtoachieve
superiorperformance.TheexperimentsprovetheeffectivenesSoftheaboveresearches.Inthispart,theestimationmethodcombiningsignal
tonoiseratewithmodelapproximatedegreeisproposed,andseveralcombiningmethodsarecompared.
Theresearchesshowthespeechrecognitioninnoisyenvironmentisbasedonthereliable
informationextraction.Thatistosay,synchronousmodeandasynchronousmodearecrossamong
thedifferentfrequencybandsinspeechrecognition.Sothemulti-bandsynchronousmodeisalsoresearched.Accordingtotheresearch,synchronousinformationisbeneficialtosimplifytherecognitionmodelsofspeechsignal.Then,basedontheresearchofthesynchronymodeandtheasynchronymode,thesynchrony—asynchronymodelispresented.And,consideringtherecognitionperformanceanalysisinwhichs