完整版基于Matlab的语音识别系统的设计本科毕业论文设计.docx

资源描述

完整版基于Matlab的语音识别系统的设计本科毕业论文设计.docx

《完整版基于Matlab的语音识别系统的设计本科毕业论文设计.docx》由会员分享，可在线阅读，更多相关《完整版基于Matlab的语音识别系统的设计本科毕业论文设计.docx（44页珍藏版）》请在冰豆网上搜索。

完整版基于Matlab的语音识别系统的设计本科毕业论文设计.docx

完整版基于Matlab的语音识别系统的设计本科毕业论文设计

摘要

语音识别主要是让机器听懂人说的话，即在各种情况下，准确地识别出语音的内容，从而根据其信息执行人的各种意图。

语音识别技术既是国际竞争的一项重要技术，也是每一个国家经济发展不可缺少的重要技术支撑。

本文基于语音信号产生的数学模型，从时域、频域出发对语音信号进行分析，论述了语音识别的基本理论。

在此基础上讨论了语音识别的五种算法：

动态时间伸缩算法（DynamicTimeWarping，DTW）、基于规则的人工智能方法、人工神经网络（ArtificialNeuralNetwork，ANN）方法、隐马尔可夫（HiddenMarkovModel，HMM）方法、HMM和ANN的混合模型。

重点是从理论上研究隐马尔可夫（HMM）模型算法，对经典的HMM模型算法进行改进。

语音识别算法有多种实现方案，本文采取的方法是利用Matlab强大的数学运算能力，实现孤立语音信号的识别。

Matlab是一款功能强大的数学软件，它附带大量的信号处理工具箱为信号分析研究，特别是文中主要探讨的声波分析研究带来极大便利。

本文应用隐马尔科夫模型（HMM）为识别算法，采用MFCC（MEL频率倒谱系数）为主要语音特征参数，建立了一个汉语数字语音识别系统，其中包括语音信号的预处理、特征参数的提取、识别模板的训练、识别匹配算法；同时，提出利用Matlab图形用户界面开发环境设计语音识别系统界面，设计简单，使用方便，系统界面友好。

经过统计，识别效果明显达到了预期目标。

关键词：

语音识别算法；HMM模型；Matlab；GUI

ABSTRACT

SpeechRecognitionisdesignedtoallowmachinestounderstandwhatpeoplesay,andaccuratelyidentifythecontentsofvoicetoexecutetheintentofpeople.Speechrecognitiontechnologyisnotonlyanimportantinternationallycompetedtechnology,butalsoanindispensablefoundationaltechnologyforthenationaleconomicdevelopment.Basedonthemathematicalmodelfromthespeechsignal,thispaperanalyzeaudiosignalfromthetimedomain,frequencydomainproceeding,anddiscussedthebasictheoryofspeechrecognitiontechnology.Fivealgorithmarediscussed:

DynamicTimeWarping（DTW）、Rule-basedArtificialIntelligence,ArtificialNeuralNetwork（ANN）,HiddenMarkovModel（HMM）,HMMcombinedwithANN.ThefocusisputinthetheoreticalstudiesofHiddenMarkov（HMM）modelalgorithm,andtheclassicalHMMalgorithmisimproved.

Speechrecognitionalgorithmisrealizedinvariousprograms,thisarticletakingthemethodistouseMatlabpowerfulmathematicaloperationabilitytorealizetherecognitionofspeechsignalisolation.Matlabisapowerfulmathematicsoftwarewithamassoftoolboxesdealingwithsignalprocessing.Itgivesaterrificshortcuttotheresearchofsignalprocessing,especiallythewaveanalysis.Wecancharacterizethesoundwithkeyparameterssuchasintensity,frequencyetc.Inthispaper,Markovmodel（HMM）recognitionalgorithmusingMFCC（MELfrequencycepstralcoefficients）asthemainvoicecharacteristicparameters,theestablishmentofaChinesedigitalspeechrecognitionsystem,includingthepreprocessingofthespeechsignal,theextractionofcharacteristicparametersthetrainingoftherecognitiontemplate,identifyingmatchingalgorithm;thesametime,theuseofMatlabgraphicaluserinterfacedevelopmentenvironmentdesignedspeechrecognitionsysteminterface,isdesignedtobesimple,easytouse,friendlyinterface.Besides,toofthevoicerecognitionisanothertarget.Afterstatistics,recognitionresultobviouslyismadeoutastheexpectedgoal.

Keywords：

Speechrecognitionalgorithm；HMMmodel；Matlab；GUI

一、前言

1.1语音识别的发展历史

作为智能计算机研究的主导方向和人机语音通信的关键技术，语音识别技术一直受到各国科学界的广泛关注。

以语音识别开发出的产品应用领域非常广泛，有声控电话交换、语音拨号系统、信息网络查询、家庭服务、宾馆服务、旅行社服务系统、订票系统、声控智能玩具、医疗服务、银行服务、股票查询服务、计算机控制、工业控制、语音通信系统、军事监听、信息检索、应急服务、翻译系统等，几乎深入到社会的每个行业、每个方面，其应用和经济社会效益前景非常广泛。

因此语音识别技术既是国际竞争的一项重要技术，也是每一个国家经济发展不可缺少的重要技术支撑。

研究语音识别，开发相应的产品有着广泛的社会意义和经济意义。

语音识别中的说话人辨认的研究始于20世纪30年代。

早期的工作主要集中在人耳听辨试验和探讨听音识别的可能性方面。

Bell实验室的L．G．Kesta目视观察语谱图进行识别，提出了“声纹（Voiceprint）”的概念。

Bell实验室的S．Pruzansky提出了模版匹配和概率统计方差分析的声纹识别方法，形成了声纹识别研究的一个高潮。

60年代末和70年代初语音识别最重要的发展是语音信号线性预测编码（LPC）技术和动态时间规整（DTW）技术，有效地解决了语音的特征提取和时间不等长匹配问题，对特定人的语音识别十分有效。

研究特点是以孤立字语音识别为主，通常把孤立字作为一个整体来建立模板。

80年代，语音识别研究的重点之一是连接词语音识别，开发了各种连接词语音识别和关键词识别算法，如多级动态规划语音识别算法。

另一个重要发展是语音识别算法从模板匹配技术转向基于统计模型技术。

1.2语音识别研究现状

20世纪90年代后，在细化模型的设计、参数提取和优化，以及系统的自适应技术上取得了一些关键进展。

语音识别技术进一步成熟，并开始向市场提供产品。

由于中国的国际地位不断提高，以及在经济和市场方面所处的重要地位，汉语语音识别也越来越受到重视。

IBM、Microsoft、L&H等公司相继投入到汉语语音识别系统的开发中，其投资也逐年增加。

IBM开发的Viavoice和Microsoft开发的中文识别引擎代表了当前汉语语音识别的最高水平。

台湾的一些大学和研究所也开发出大词汇量非特定人连续语音识别演示系统。

日本也先

后在语音识别领域大展头角，还有如Philips公司开发的Speech—Media和SpeechPearl两套软件，涵盖了自然语音识别与理解的对话系统。

我国语音识别研究工作近年来发展很快，同时也从实验室逐步走向实用。

从1987年开始执行863计划后，国家863《智能计算机主题》专家组为语音识别研究立项。

每两年滚动一次，从1991年开始，专家组每一至二年举行一次全国性的语音识别系统测试。

汉语语音识别研究已经走上组织化的道路。

目前我国大词汇量连续语音识别系统的研究已经接近国外最高水平。

语音识别发展到一定阶段，世界各国都加快了语音识别引用系统的研究开发，通常连续语音是含有较完整语法信息的连续语句，最接近于人的自然讲话方式，从非连续语音到连续语音的研究面临着很多完全不同的技术难点，非连续语音的识别是一些孤立的声波片段，连续语音则面临着如何切分声波的问题。

诸如此类的新问题使连续语音识别率的提高比非连续语音更加困难。

经过几十年的发展和摸索，人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍，第一次把这三个特性一起集中于一个系统中，并以此确定了统计方法和模型在语音识别和语音处理中的主流地位。

在声学识别层次，以多个说话人发音的大规模语音数据为基础，以马尔可夫链为基础的语音序列建模方法HMM（隐含马尔可夫模型）比较有效的解决了语音信号短时稳定、长时时变的特性，并且能根据一些基本建模单元构造成连续语音的句子模型，达到了比较高的建模精度和建模灵活性。

目前在语音识别研究领域非常活跃的课题为稳健语音识别、说话人自适应技术、大词汇量关键词识别算法、语音识别的可信度评测算法、基于类的语言模型和自适应语言模型，以及深层次的自然语音的理解。

研究的方向也越来越侧重于口语对话系统。

1.3语音识别系统的分类

语音识别是近年来十分活跃的一个研究领域。

在不远的将来，语音识别技术有可能作为一种重要的人机交互手段，辅助甚至取代传统的键盘、鼠标等输入设备，在个人计算机上进行文字录入和操作控制。

本文介绍了语音识别的基本流程、所用到的语音参数算法、语音识别的训练算法和识别算法做初步的探究，主要运用了特定人孤立词识别的DTW算法和非特定人识别的连续HMM算法的Matlab识别系统。

语音识别按说话人的讲话方式可分为孤立词（IsolatedWord）识别、连接词（ConnectedWord）识别和连续语音（ContinuousSpeech）识别。

孤立词识别是指说话人每次只说一个词或短语，每个词或短语在词汇表中都算作一个词条，一般用在语音电话拨号系统中。

连接词语音识别支持一个小的语法网络，其内部形成一个状态机，可以实现简单的家用电器的控制，而复杂的连接词语音识别系统可以用于电话语音查询、航空定票等系统。

连续语音识别是指对说话人以日常自然的方式发音，通常特指用于语音录入的听写机。

显然，连续非特定人语音识别的难度要大得多，因为不仅有说话人口音的问题，还有协同发音、断字断句

展开阅读全文