听觉特性与鲁棒语音识别算法研究图文精.docx

资源描述

听觉特性与鲁棒语音识别算法研究图文精.docx

《听觉特性与鲁棒语音识别算法研究图文精.docx》由会员分享，可在线阅读，更多相关《听觉特性与鲁棒语音识别算法研究图文精.docx（44页珍藏版）》请在冰豆网上搜索。

听觉特性与鲁棒语音识别算法研究图文精.docx

听觉特性与鲁棒语音识别算法研究图文精

１０二０６９二

分类号：

坠１２１２：

３４密级：

公珏ＵＤＣ：

§２１：

３８学号：

Ｑ２１２塑⑨

东南大学

博士学位论文听觉特性与鲁棒语音识别算法研究

研究生姓名：

孙睥

导师姓名：

昱筻扬夔撞

申请学位级别王堂熊±

学科专业名称焦曼皇焦皇矬理论文提交日期至ＱＱ墨笙！

呈且

论文答辩日期呈旦鱼鱼生墨且学位授予单位奎密友生

学位授予日期至Ｑ生旦

答辩委员会主席评阅人２００５年１２月

摘要

语音识别技术了开创人机交互的新纪元，它被广泛应用于工业、军事、商业、金融、服务、医疗、日常生活等很多领域。

在实际应用中，由于环境不匹配，导致识别系统的性能急剧恶化。

因而，语音识别的环境鲁棒性成为目前鲁棒语音识别研究的热点和难点。

论文先后研究了目前语音识别以及鲁棒语音识别技术、入耳的听觉特性、语音识别中采用的估计准则、噪声环境对语音识别影响的途径，并根据人耳的感知特性、不同频带信号及噪声的功率谱差异，以及噪声对不同频带识别模型影响的不同，先后采用不同的模型框架、估计准则、匹配方法、可信度信息分析，提出多种鲁棒语音识别算法，改进了现有的鲁棒语音识别算法。

模型分析与补偿技术是目前噪声环境下鲁棒语音识别研究的重要途径。

在大量的理论分析与研究的基础上，论文研究了基于Ｆｌｅｔｃｈｅｒ－－Ａｌｌｅｎ规则的子带框架下的语音识别算法。

提出了并行子带ＨＭＭ最大后验概率自适应非线性类估计算法和非线性最大后验统计匹配鲁棒语音识别算法。

在并行子带ＨＭＭ最大后验概率自适应非线性类估计算法中提出了ＭＡＰ估计、环境映射以及ＢＰ网络联合做非线性映射分类的方法。

该算法在信号信息可信度上采用了佶噪比分析，算法中还提出了有效反映噪声环境的先验信息估计方法。

在非线性最大后验统计匹配算法中，提出了依信噪比进行ＭＡＰ统计匹配并联合非线性映射进行分类的算法。

实验表明，研究获得了不同程度识别性能的改进。

基于听觉特性流组合的研究，论文研究了基于噪声污染假定的多带鲁棒语音识别算法。

论文研究了多带异步处理模式下的鲁棒语音识别算法。

首先，论文提出了多带最大似然鲁棒语音识别算法。

该算法提出基于多带模式进行最大似然估计以及线性判别分析或联合信噪比及模型近似度判决分析的鲁棒语音识别方法。

论文根据多带分析的特点，还提出了判决多带最大后验多变换算法以及它的简化算法（平均估计和ＪａｍｅｓＳｔｅｉｎ估计）。

该算法采用多带处理、判别分析、ＭＡＰ估计，以及信息多变换等，从多种角度提取识别信息获得了非常好的性能。

论文还提出了联合信噪比和模型近似度判别分析的思想和具体处理方法，并对提出的几种可靠信息合并准则进行了比较实验。

研究表明，鲁棒语音识别应该是基于可信信息抽取的，也就是说不同频带信号的处理模式应该是同步、异步交织进行。

为此，论文在前面多带异步处理的基础上，提出了多带同步鲁棒语音识别算法，可以看到同步信息的利用可以大大简化模型。

然后综合同步、异步问题的研究，提出了同步一异步语音识别模型，＿并联合对语音信号随机删除下语音识别性能的分析，研究了时变一频变噪声环境下的基于信噪比可信度判决的迭代识别结构。

论文中大量的理论分析和仿真实验比较表明，根据听觉感知中表现的频率特性、信号及

摘要

噪声的功率谱差异，以及噪声对不同频带识别模型影响的不同，采用可信信息抽取，以及根据环境影响的特点针对性地对识别模型进行补偿的方法，能够非常有效地提高噪声环境下语音识别系统的性能。

关键词：

语音识别，听觉分析，隐马尔可夫模型，估计准则同步分析，异步分析，环境映射，判决函数

ＡＢＳＴＲＡＣＴ

Ｔｈｅｔｅｃｈｎｏｌｏｇｙｏｆｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｉｎａｕｇｕｒａｔｅｓａｎｅｗｅｒａｏｆｔｈｅｃｏｍｍｕｎｉｃａｔｉｏｎｂｅｔｗｅｅｎ

ｈｕｍａｎａｎｄｍａｃｈｉｎｅ．Ｔｈｅｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍｓｃａｎｂｅａｐｐｌｉｅｄｉｎａｗｉｄｅｌｙｆｉｅｌｄ，ｓｕｃｈ

ａｓｉｎｄｕｓｔｒｙ，ｍｉｌｉｔａｒｙ，ｂｕｓｉｎｅｓｓ，ｆｉｎａｎｃｅ，ｓｅｒｖｉｃｅ，ｍｅｄｉｃａｌｔｒｅａｔｍｅｎｔ，ｄａｉｌｙｌｉｆｅ，ｅｔｃ．Ｆｏｒｔｈｅ

ｅｎｖｉｒｏｎｍｅｎｔａｌｍｉｓｍａｔｃｈ，ｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｔｈｅｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍｓｉｓｄｒａｍａｔｉｃａｌｌｙｄｅｔｅｒｉｏｒａｔｅｄ．Ｓｏｔｈｅｒｏｂｕｓｔｎｅｓｓｂｅｃｏｍｅｓｔｈｅｆｏｃｕｓｏｆｔｈｅｒｅｓｅａｒｃｈｏｆｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ．Ｈｅｒｅ，ｔｈｅｃｕｒｒｅｎｔｔｅｃｈｎｏｌｏｇｙｏｆｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎａｎｄｒｏｂｕｓｔｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ，ｔｈｅａｕｄｉｔｏｒｙｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｈｕｍａｎ，ｔｈｅｅｓｔｉｍａｔｉｏｎｐｒｉｎｃｉｐｌｅｓａｐｐｌｉｅｄｉｎ

ｓｆｉｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ，ｔｈｅａｐｐｒｏａｃｈｅｓｂｙｗｈｉｃｈｎｏｉｓｅａｆｆｅｃｔｓｔｈｅｒｅｃｏｇｎｉｔｉｏｎｐｅｒｆｏｒｍａｎｃｅａｒｅｒｅｓｅａｒｃｈｅｄｉｎｄｅｔａｉｌ．Ａｃｃｏｒｄｉｎｇｔｏｔｈｅａｕｄｉｔｏｒｙ

ｃｈａｒａｃｔｅｒｉｓｔｉｃｓ，ｔｈｅｓｐｅｃｔｒａｌｄｉｆｆｅｒｅｎｃｅｂｅｔｗｅｅｎｓｐｅｅｃｈｓｉｇｎａｌｓａｎｄｎｏｉｓｅ，ｔｈｅｄｉｆｆｅｒｅｎｔｅｆｆｅｃｔｓ

ｏｎｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｍｏｄｅｌｓｃａｕｓｅｄｂｙｎｏｉｓｅｉｎｄｉｆｆｅｒｅｎｔｂａｎｄｓ，ｓｅｖｅｒａｌｋｉｎｄｓｏｆｔｈｅｒｏｂｕｓｔｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎａｌｇｏｒｉｔｈｍｓｈａｖｅｂｅｅｎｐｒｅｓｅｎｔｅｄｔｏｉｍｐｒｏｖｅｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｔｈｅｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍｓｉｎｎｏｉｓｙｅｎｖｉｒｏｎｍｅｎｔｗｉｔｈｔｈｅｄｉｆｆｅｒｅｎｔｍｏｄｅｌｓｃｈｅｍｅｓ．ｔｈｅｄｉｆｆｅｒｅｎｔｐｒｉｎｃｉｐｌｅｓｏｆｅｓｔｉｍａｔｉｏｎ，ｔｈｅｄｉｆｆｅｒｅｎｔｍａｔｃｈｍｅｔｈｏｄｓ，ｔｈｅｄｉｆｆｅｒｅｎｔａｎａｌｙｓｉｓｏｆｔｈｅｒｅｌｉａｂｉｌｉｔｙｏｆｔｈｅｉｎｆｏｒｍａｔｉｏｎ，

Ｔｈｅｔｅｃｈｎｏｌｏｇｙｏｆｍｏｄｅｌａｎａｌｙｓｉｓ

ａｎｄｃｏｍｐｅｎｓａｔｉｏｎｉｓａｎｉｍｐｏｒｔａｎｔｗａｙｏｆｒｏｂｕｓｔｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ．Ａｃｃｏｒｄｉｎｇｔｏａｍｏｕｎｔｏｆｔｈｅｔｈｅｏｒｅｔｉｃａｌａｎａｌｙｓｅｓ

ａｎｄｒｅｓｅａｒｃｈｅｓ，ｂａｓｅｄｏｎＦｌｅｔｃｈｅｒ－Ａｌｌｅｎｐｒｉｎｃｉｐｌｅ，ｔｈｅｎｏｎｌｉｎｅａｒｃｌａｓｓｅｓｔｉｍａｔｉｏｎａｌｇｏｒｉｔｈｍｕｓｉｎｇｐａｒａｌｌｅｌｓｕｂ－ｂａｎｄＨＭＭｍａｘｉｍｕｍａｐｏｓｔｅｒｉｏｒｉｐｒｏｂａｂｉｌｉｔｙａｄａｐｔａｔｉｏｎａｎｄｔｈｅｎｏｎｌｉｎｅａｒｓｕｂ－ｂａｎｄｍａｘｉｍｕｍａｐｏｓｔｅｒｉｏｒｉｓｔａｔｉｓｔｉｃａｌｍａｔｃｈｉｎｇａｌｇｏｒｉｔｈｍｈａｖｅｂｅｅｎｐｒｏｐｏｓｅｄ．Ｔｈｅｎｏｎｌｉｎｅａｒｃｌａｓｓｅｓｔｉｍａｔｉｏｎａｌｇｏｒｉｔｈｍａｄｏｐｔｓ

ＭＡＰｐｒｉｎｃｉｐｌｅ，ｌｉｎｅａｒｍａｐｐｉｎｇ，ＢＰｎｅｔｗｏｒｋｔｏｒｅｃｏｇｎｉｚｅｔｈｅｓｐｅｅｃｈｓｉｇｎａｌ．Ｔｈｅｒｄｉａｂｉｌｉｔｙａｎａｌｙｓｉｓ

ｏｆｔｈｅｉｎｆｏｒｍａｔｉｏｎｕｔｉｌｉｚｅｓｔｈｅｓｉｇｎａｌｔｏｎｏｉｓｅｒａｔｅｉｎｔｈｅａｌｇｏｒｉｔｈｍ．Ａｎｄａｎｅｗｐｒｉｏｒ

ｉｎｆｏｒｍａｔｉｏｎｅｓｔｉｍａｔｉｏｎｍｅｔｈｏｄｉｓｐｒｅｓｅｎｔｅｄ，ｗｈｉｃｈｅｆｆｉｃｉｅｎｔｌｙｒｅｆｌｅｃｔｓｔｈｅｎｏｉｓｙｅｎｖｉｒｏｎｍｅｎｔ．ＴｈｅｎｏｎｌｉｎｅａｒｓｔｓｔｉｓｔｉｅａｌｍａｔｃｈａｌｇｏｒｉｔｈｍｉｓａｎｅｗａｌｇｏｒｉｔｈｍｗｈｉｃｈｃｏｍｂｉｎｅｓＭＡＰｓｔａｔｉｓｔｉｃａｌｍａｔｃｈｗｉｔｈｎｏｎｌｉｎｅａｒｍａｐｐｉｎｇ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔｓｓｈｏｗｔｈｅｓｅｒｅｓｅａｒｃｈｅｓｅｖｉｄｅｎｔｌｙｉｍｐｒｏｖｅｔｈｅ

ｐｅｒｆｏｒｍａｎｃｅｏｆｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｉｎｎｏｉｓｙｅｎｖｉｒｏｎｍｅｎｔ．

Ｂａｓｅｄｏｎｔｈｅｐｈｅｎｏｍｅｎａｏｆｔｈｅａｕｄｉｔｏｒｙｓｔｒｅａｍｇｒｏｕｐｉｎｇ，ｔｈｅｍｕｌｔｉ—ｂａｎｄｒｏｂｕｓｔｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ

ａｌｇｏｒｉｔｈｍｓａｃｃｏｒｄｉｎｇｔｏｎｏｉｓｅｃｏｒｒｕｐｔｉｏｎａｓｓｕｍｐｔｉｏｎｈａｖｅｂｅｅｎｒｅｓｅａｒｃｈｅｄｈｅｒｅ．Ｔｈｅｍｕｌｔｉ—ｂａｎｄ

ａｓｙｎｃｈｒｏｎｏｕｓｍｏｄｅｉｓｒｅｓｅａｒｃｈｅｄｆｉｒｓｔｌｙ．Ｔｈｅｍｕｌｔｉ—ｂａｎｄｍａｘｉｍｕｍｌｉｋｅｌｉｈｏｏｄｒｏｂｕｓｔｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ

ａｌｇｏｒｉｔｈｍｉｓｂａｓｅｄｏｎｔｈｅｍｕｌｔｉ—ｂａｎｄ

ａｓｙｎｃｈｒｏｎｏｕｓｍｏｄｅ，ｗｈｉｃｈｕｔｉｌｉｚｅｓｔｈｅｍａｘｉｍｕｍｌｉｋｅｌｉｈｏｏｄｌｉｎｅａｒｍａｐｐｉｎｇ，ｌｉｎｅａｒａｎａｌｙｓｉｓｏｒｄｉｓｃｒｉｍｉｎａｔｉｖｅａｎａｌｙｓｉｓ，Ａｃｃｏｒｄｉｎｇｔｏｔｈｅｓｐｅｃｉａｌｔｙｏｆｔｈｅｍｕｌｔｉ—ｂａｎｄａｎａｌｙｓｉｓ，ｔｈｅｄｉｓｃｒｉｍｉｎａｔｉｖｅｍｕｌｔｉ—ｂａｎｄｍａｘｉｍｕｍ

ａｐｏｓｔｅｒｉｏｒｉ１１１——

ＡＢＳｌ’ＲＡＣＴ

ｉｉｉｉｉ－ｉ－————————————————————————————ｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｍｕｌｔｉ—ｔｒａｎｓｆｏｒｍａｔｉｏｎａｌｇｏｒｉｔｈｍｗｉｔｈｉｔｓｓｉｍｐｌｉｆｉｅｄａｌｇｏｒｉｔｈｍｓ（ａｖｅｒａｇｅｅｓｔｉｍａｔｉｏｎａｎｄＪａｍｅｓＳｔｅｉｎｅｓｔｉｍａｔｉｏｎ）ｉｓａｌｓｏｐｒｅｓｅｎｔｅｄ．Ｉｔｉｓｂａｓｅｄ０ｉ＂１ｍｕｌｔｉ，ｂａｎｄａｓｙｎｃｈｒｏｎｏｕｓｍｏｄｅｔｏｏ．Ａｎｄｔｈｅｍｕｌｔｉ－ｂａｎｄ

ｐｒｏｃｅｓｓｉｎｇ，ｄｉｓｃｒｉｍｉｎａｔｉｖｅａｎａｌｙｓｉｓ，ＭＡＰｐｒｉｎｃｉｐｌｅ，ｍｕｌｔｉ—ｔｒａｎｓｆｏｒｍａｔｉｏｎａｒｅｕｎｉｔｅｄｔｏａｃｈｉｅｖｅ

ｓｕｐｅｒｉｏｒｐｅｒｆｏｒｍａｎｃｅ．ＴｈｅｅｘｐｅｒｉｍｅｎｔｓｐｒｏｖｅｔｈｅｅｆｆｅｃｔｉｖｅｎｅｓＳｏｆｔｈｅａｂｏｖｅｒｅｓｅａｒｃｈｅｓ．Ｉｎｔｈｉｓｐａｒｔ，ｔｈｅｅｓｔｉｍａｔｉｏｎｍｅｔｈｏｄｃｏｍｂｉｎｉｎｇｓｉｇｎａｌ

ｔｏｎｏｉｓｅｒａｔｅｗｉｔｈｍｏｄｅｌａｐｐｒｏｘｉｍａｔｅｄｅｇｒｅｅｉｓｐｒｏｐｏｓｅｄ，ａｎｄｓｅｖｅｒａｌｃｏｍｂｉｎｉｎｇｍｅｔｈｏｄｓａｒｅｃｏｍｐａｒｅｄ．

Ｔｈｅｒｅｓｅａｒｃｈｅｓｓｈｏｗｔｈｅｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｉｎｎｏｉｓｙｅｎｖｉｒｏｎｍｅｎｔｉｓｂａｓｅｄｏｎｔｈｅｒｅｌｉａｂｌｅ

ｉｎｆｏｒｍａｔｉｏｎｅｘｔｒａｃｔｉｏｎ．Ｔｈａｔｉｓｔｏｓａｙ，ｓｙｎｃｈｒｏｎｏｕｓｍｏｄｅａｎｄａｓｙｎｃｈｒｏｎｏｕｓｍｏｄｅａｒｅｃｒｏｓｓａｍｏｎｇ

ｔｈｅｄｉｆｆｅｒｅｎｔｆｒｅｑｕｅｎｃｙｂａｎｄｓｉｎｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ．Ｓｏｔｈｅｍｕｌｔｉ－ｂａｎｄｓｙｎｃｈｒｏｎｏｕｓｍｏｄｅｉｓａｌｓｏｒｅｓｅａｒｃｈｅｄ．Ａｃｃｏｒｄｉｎｇｔｏｔｈｅｒｅｓｅａｒｃｈ，ｓｙｎｃｈｒｏｎｏｕｓｉｎｆｏｒｍａｔｉｏｎｉｓｂｅｎｅｆｉｃｉａｌｔｏｓｉｍｐｌｉｆｙｔｈｅｒｅｃｏｇｎｉｔｉｏｎｍｏｄｅｌｓｏｆｓｐｅｅｃｈｓｉｇｎａｌ．Ｔｈｅｎ，ｂａｓｅｄｏｎｔｈｅｒｅｓｅａｒｃｈｏｆｔｈｅｓｙｎｃｈｒｏｎｙｍｏｄｅａｎｄｔｈｅａｓｙｎｃｈｒｏｎｙｍｏｄｅ，ｔｈｅｓｙｎｃｈｒｏｎｙ—ａｓｙｎｃｈｒｏｎｙｍｏｄｅｌｉｓｐｒｅｓｅｎｔｅｄ．Ａｎｄ，ｃｏｎｓｉｄｅｒｉｎｇｔｈｅｒｅｃｏｇｎｉｔｉｏｎｐｅｒｆｏｒｍａｎｃｅａｎａｌｙｓｉｓｉｎｗｈｉｃｈｓ

展开阅读全文