毕业论文-基于连续隐马尔科夫模型的语音识别文档格式.docx

资源描述

毕业论文-基于连续隐马尔科夫模型的语音识别文档格式.docx

《毕业论文-基于连续隐马尔科夫模型的语音识别文档格式.docx》由会员分享，可在线阅读，更多相关《毕业论文-基于连续隐马尔科夫模型的语音识别文档格式.docx（90页珍藏版）》请在冰豆网上搜索。

毕业论文-基于连续隐马尔科夫模型的语音识别文档格式.docx

绪论 3

第一章语音知识基础 6

第一节语音识别的基本内容 6

第二节语音识别的实现难点 9

第二章HMM的理论基础 10

第一节HMM的定义 10

第二节隐马尔科夫模型的数学描述 10

第三节HMM的类型 12

第四节HMM的三个基本问题和解决的方 15

第三章HMM算法实现的问题 21

第一节HMM状态类型及参数B的选择 21

第二节HMM训练时需要解决的问题 23

第四章语音识别系统的设计 32

第一节语音识别系统的开发环境 32

第二节基于HMM的语音识别系统的设计 32

第三节实验结果 49

第五章结束语 67

致谢 68

参考文献 69

摘要

语音识别系统中最重要的部分就是声学模型的建立，隐马尔可夫模型作为语音信号的一种统计模型，由于它能够很好地描述语音信号的非平稳性和时变性，因此在语音识别领域有着广泛的应用。

隐马尔可夫过程是一个双重随机过程:

一重随机过程用于描述非平稳信号中短时平稳段的统计特征;

另一重随机过程描述了每个短时平稳段如何转变到下一个短时平稳段，即短时统计特征的动态特性。

为了能够对HMM有一个全面的认识并能够将其应用于解决实际问题当中，本文介绍了HMM的基本理论以及其如何将其应用于语音识别中，在解决HMM的三个基本问题以后，还谈论了在具体应用时需要考虑的其他问题，如初始模型参数的选取、数据下溢、HMM之间距离的度量等等，并给出了相应的解决方法。

这个语音识别系统是用HMM模型来实现的，用HMM来做语音识别的识别率是很高的，其中用到了HMM的三个算法。

关键词：

语音识别，HMM

ABSTRACT

Themostimportantpartofarecognitionsystemistheacousticmodelconstruction.Asastatisticmodelforsignal,HMMcandescribethepronunciationsignalnon-stabilityandthevariabilitywell.

ForthesakeofunderstandHMMsystematicallyandapplyittosolvereal-worldproblem,thispaperintroducesthebasictheoryofHMMandhowtouseitinthespeechrecognition.Afterthreebasicproblemsolved,someotherimportantissuesintheapplication,forinstance,selectingparametersoftheinitialmodel,dataover-fittingandthedistancedegreebetweenHMM,arediscussed,thenmethodsforsettlingthoseissuesareputforward.Inaddition,italsoexplainsdesignofthetopologyanditsparameters’optimizationways.

ThisrecognitionsystemuseHMMmodelscometrue.ItiseasierrecognizabletouseHMMrecognize.InthissystemIusethethreearithmeticofHMM.

Keyword:

Speechrecognition,HMM

绪论

计算机技术的飞速发展，使人与机器用自然语言进行对话的梦想逐渐接近现实。

人类的语言在人类的的智能组成中充当着极其重要的角色，人与人之间的交流和沟通70%意商是通过语言的方式有效的完成。

作为人与人之间交流最方便、自然、快捷的手段，人们自然希望它成为人与计算机交流的媒介。

语音识别就是研究计算机听懂人类语言的一门科学。

也是人机交互最重要的一步。

进入九十年代之后，出现了诸多实用化的研究方向。

语音识别技术发展到今天，特别是中小词汇量非特定人语音识别系统识别精度已大于98%，对特定人语音识别系统的识别精度就更高。

这些技术已经能满足通常应用的要求。

由于大规模集成电路技术的发展，这下复杂的语音识别系统也已经完全可以制成芯片，大量生产。

在西方经济发达国家，大量的语音识别产品已经进入市场和服务领域。

一些电话机、手机已经包含了语音识别拨号的功能，是有语音记事本、语音智能玩具等产品也包括了语音识别与语音合成的功能。

人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息，并且取得很好的结果。

调查统计表明多达85%意商的人对语音识别信息查询服务系统的性能表示

满意。

可以预测在近五十年内，语音识别系统的应用将更加广泛。

各种各样的语音识别系统产品将出现在市场上。

人们也将调整自己的说话方式以适应各种各样的识别系统。

在短期内还不可能造出具有和人相比拟的语音识别系统，我们只能朝着改进语音识别系统的方向逐渐地前进。

我国语音识别研究工作起步于五十年代，但近年来发展很快。

研究水平也从实验室走向实用。

从1987年开始执行国家863计划后，国家863智能计算机专家组为语音识别技术研究专门立项，在汉语语音识别技术上还有自己的特点与优势，并达到国际先进水平。

第一章语音识别基础

第一节语音识别的基本内容

语音识别是一种集声学、语音学、计算机、信息处理、人工智能等于一身的综合技术，可广泛的应用在信息处理、通信与电子系统、自动控制等领域。

语音识别主要包括语音单元的选取，特征提取技术，模式匹配准则及模型训练技术三方面内容。

语音识别的原理框图如图1-1所示：

图1-1语音识别的原理框图

一、识别单元的选取

选择识别单元是语音识别研究的第一步。

语音识别单元有单词、音节和音素三种，具体选哪种，由具体的研究任务决定。

单词单元广泛应用于中小词汇语音识别系统，但不是和大词汇系统，原因在于模型库规模太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。

音节单元多

见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，数量相对较少，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。

因此，对于大、中词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的；

音素单元以前多见于英语语音识别系统的研究中，但目前大、中词汇量汉语语音识别系统也在越来越多地采用。

原因在于汉语音节仅由声母和韵母构成，且声韵母的声学特性相差很大。

实际应用中常把声母的不通而构成细化声母。

由于协同发音的影响，音素单元的不稳定，所以如何获得稳定的音素单元，还有待研究。

二、特征参数提取技术

语音信号中含有丰富的信息，但如何从中提取出对语音识别有用的信息是由特征提取完成的。

特征参数提取的目的是对语音信号进行分析处理，提取对语音识别有用的信息，同时对语音信号进行压缩。

在实际应用中，语音信号的压缩率介于10-100之间。

语音信号包含了大量各种不同的信息，提取哪些信息，用哪种方式提取，需要综合考虑个方面的因素，如成本、性能、响应时间、计算量等。

非特定人语音识别系统一般侧重提取反应语义的特征参数，尽量去除说话人的个人信息；

而特定人语音识别系统则希望在提取反映语义的特征参数的同时，尽量也包含说话人的个人信息。

线性预测分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。

但线性预测模型是纯数学模型没有考虑人类听觉系统对语音的处理特点；

Mel参数和基于感知线性预测分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。

实验证明采用这种技术语音识别系统的性能有一定提高。

三、模式匹配和模型训练技术

模型训练是按照一定的准则，从大量已知模式中获取表征该模式本质特征的模型参数，而模式匹配则是根据一定准则，使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术（DTW）、隐马尔科夫模型（HMM）和人工神经元网络

（ANN）。

DTW是较早的一种模式匹配和模型训练技术，它应用动

态归划方法成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良好性能。

但因其不适合连续语音大词汇量语音识别系统，目前已被HMM模型和

ANN代替。

HMM模型是语音信号时变特征的有参表示法。

它由相互关联的两个随即过程共同描述的统计特征，其中一个是隐蔽的具有有限状态的Markov链，另一个是与Markov链的每一个状态相互关联的观察矢量的随即过程。

隐含Markov链的特征要依靠可观测到的信号特征表示。

这样，语音等时变信号某一段的特征就由对应的观察符号的随即过程描述，而信号随时间的变化由隐蔽Markov链的转移概率描述。

模型参数包括HMM拓朴结构、状态转移概率及描述观察符号统计特性的一组随机函数。

按照随机函数的特点，HMM模型可分为离散隐马尔科夫模型和连续隐马尔科夫模型以及半连续隐马尔科夫模型。

一般来说，在训练数据足够是，CHMM优于

DHMM和SCHMM。

HMM，模型的训练和识别都已经研究出有效的算法，并不断完善，以增强HMM模型的鲁棒性。

人工神经元网络在语音识别中的应用是现在研究的又一热点。

ANN本质上是一个自适应非线性动力学系统，模拟人

类神经元活动的原理，具有自学、联想、对比、推理和概括能力。

这些能力是HMM模型不具备的，但ANN又不具有HMM模型的动态时间归正性能。

因此，现在已有人研究如何把二者的优点有机结合起来，从而提高整个模型的鲁棒性。

ANN和DTW的结合以及ANN和HMM的结合是当前语音识别研究的一个方向。

第二节语音识别的实现难点

语音信号的声学特征随与之前后的语音不同而有很大变化，且连续语音流中各种语音单位之间不存在明显的界线。

语音特征随发音人的不同、发音人生理和心理状态的变化而有很大的差异。

环境噪声电和传输设备的差异也将直接影响语音特征的提取。

一个语句所表达的意思与上下文内容、说话时的环境条件及文化背景等因素有关，而语句的语法结构又是多变的，并且语境信息几乎是计算机语音识别无法利用的，所有这些都给语意的理解带来了和大的困难。

第二章HMM的理论基础

第一节HMM的定义

一、信号模型

隐马尔科夫过程是一个双重随机过程：

一重用于描述非平稳信号的短时平稳的统

展开阅读全文