基于DTW模型的语音识别Word格式文档下载.docx
《基于DTW模型的语音识别Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《基于DTW模型的语音识别Word格式文档下载.docx(16页珍藏版)》请在冰豆网上搜索。
导师姓名:
导师职称:
二○○四年六月一日
彭丹
(西南林学院计算机及信息科学系,云南昆明650224)
摘要:
语音识别(SpeechRecognition)是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。
在课题中,通过采用DTW(Dynamictimewarping,动态时间伸缩)算法,对实现孤立词的识别进行了初步探讨和研究,实现了在MATLAB软件环境下孤立词语的语音识别,并针对DTW的主要特点及不足做出了总结。
DTW算法基于动态规划(DP)的思想,解决了孤立词发音长短不一的模板匹配问题。
文中还针对动态规划的不足提出了改进。
关键词:
语音识别DTWMATLAB动态规划
Voice-IdentificationBasedonDTWModel
DanPeng
(Dept.ofComputerandInformationScience,SouthwestForestryCollege,Kunming,Yunan,650224,China)
Abstract:
Voice-identificationisakindoftechnologythatisusingcomputertotransferthevoicesignaltoanassociatedtextorcommandbyidentificationandunderstand.Inthispaper,DTWarithmeticisadaptedtostudyandresearchtheimplementtheidentificationofsingle-word,andSpeechrecognitionforsingle-wordisrealizedbyusingMATLAB.Intheend,thispapergetsaconclusiononthefeatureandtheshortageofDTW.
DTWarithmeticbasedonthemethodofDPhassolvedtheproblemthatthevoicehasdifferenttimeduringthetemplatematching.ThispaperalsoputforwardsomeadvisesaboutDP.
Keywords:
Voice-IdentificationDTWMATLABDP
引言
语言是人类特有的功能,声音是人类最常用的工具。
通过语音传递信息是人类最重要、最有效、最常用和最方便的信息交换形式[12]。
语言信号是人类进行思想疏通和情感交流的最主要途径。
让计算机能听懂人类的语言,是自计算机诞生以来人类梦寐以求的想法。
在本课题中,将针对DTW算法,讨论如何实现对个别个体的特定声音进行语音识别的问题。
1开发背景及可行性分析
1.1开发背景
本项目来源于云南省重点项目西双板纳自然保护区系统建设。
在该项目中综合应用传感器技术,数字仿真技术,数据编码及数据压缩技术,DSP技术,无线传输技术等,研究自然保护区视频信号、声音信号以及其他监测信号的采集、传送、处理方案,设备选型方案,二次开发技术,为自然保护区信息系统建设。
研究内容:
1)自然保护区图像及声音等监测信息自动采集技术及专用设备研究。
恶劣的自然环境下,其有低成本,高可靠性,免维护太阳能供电,间歇工作条件,窄带宽,单一功能的信息采集设备的研制。
2)自然保护区监测信息无线传输技术及方法研究。
最佳频点选择,组网方式,图上作业,机站选点,天线类型,实验设备选型等。
3)自然保护区监测信息数据格式及DSP芯片开发技术研究。
及华为等开发商合作进行专用设备的设计及开发等。
4)重点保护动物自动跟踪技术研究。
监测设备之间的配合,待机及激活状态的自动切换等。
5)太阳能电围栏智能化改造
现有太阳能电围栏设备,由于技术太简单,野象很容易适应并能找到对策,本项目拟在进一步研究野象生活习性的基础,引入其他技术,如:
声、光、影像伪装技术和智能技术,改进现有简单、被动的野象防护技术,并对太阳能产品性能作进一步研究。
该课题的目标是基于研究内容的第一点实现野生大象的语音识别。
1.2可行性分析
语音识别有两种特殊形式:
说话人识别和语种辨别,它们和语音识别一样,都是通过提取语音信号的特征和建立相应的模型进行分类判断的[12]。
说话人识别力求找出包含在语音信号中说话人的个性因素,强调不同人之间的特征差异;
而语种辨别则要从一个语音片段中判别它是哪一个语种,所以就要尽可能的找出不同语种的差别特征。
在课题中,我们要实现的是大象声音的识别,即实现在所听到的声音中判别哪个声音发自于大象,或判别听到的一个声音是否发自于大象。
这实际上就是语音的模糊识别,但为了实现方便,只实现了对个别个体的特定语音识别。
个别个体是指因为算法的不完善以及研究对象的相对独立,只能识别某只特定的大象,而对于象群的模糊识别,还未能达到要求。
特定声音是指因为语音数据库的不完善,只能正确的识别大象在特定情绪下的语音。
这部分内容在总结部分将会重点提出。
2语音识别基础
2.1语音识别概述
语音识别:
语音识别(SpeechRecognition)重要是指让机器听懂人说的话,即在各种情况下,准确的识别语音的内容,从而根据其信息,执行人的各种意图或执行特定的任务[12]。
语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人及机器进行自然语言通信。
2.2语音识别系统分类
语音识别系统按照不同的角度,不同的应用范围,不同的性能要求会有不同的系统设计和实现,有以下几种类型:
1)孤立词,连接词,连续语音识别系统以及语音理解和会话系统。
2)大词汇,中词汇和小词汇量语音识别系统。
3)特定人和非特定人语音识别系统。
在我们的课题中由于要实现的是对大象声音的识别,所以可以将其归结为第3类,即特定人和非特定人的语音识别系统。
2.3语音识别技术介绍
语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。
此外,还涉及到语音识别单元的选取。
2.3.1语音识别单元的选取
选择识别单元是语音识别研究的第一步。
语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定[4]。
单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。
音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。
因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的[4]。
音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。
原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。
实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。
由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究[4]。
2.3.2特征参数提取技术
语音信号中含有丰富的信息,如何从中提取出对语音识别有用的信息是语音识别的关键。
特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。
对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。
从信息论角度讲,这是信息压缩的过程。
线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。
但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点[4]。
Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果[4]。
实验证明,采用这种技术,语音识别系统的性能有一定提高。
2.3.3模式匹配及模型训练技术
模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式及模型库中的某一个模型获得最佳匹配。
语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)、概率语法分析法和人工神经元网络(ANN)。
DTW(DynamicTimeWarping动态时间伸缩算法)是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。
DTW是用满足一定条件的时间归正函数描述待识别模式和参考模板的时间对应关系,求解两模板匹配是累计距离最小所对应的归正函数,从而保证了模板间存在的最大的声学相似性。
DTW算法在词汇表较小以及各个词条不容易混淆的情况下具有一定的优越性,但在由于其只是简单的模板匹配,在处理要求更高的语音识别就显得力不从心了。
因为对于连续语音识别系统来讲,如果选择词,词组,短语甚至整个句子作为识别单位,为每个词条建立一个模板,那么随着系统用词量的增加,模板的数量将达到天文数字,而这在实际应用中是不可能被允许出现的情况。
HMM模型是语音信号时变特征的有参表示法。
它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是及Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。
隐蔽Markor链的特征要靠可观测到的信号特征揭示。
这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。
模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。
按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。
一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。
语法分析法:
一方面由于不同的人说同一些语音时,相应的语谱极其变化有种种差异,但总有一些共同的特点足以使他们区分于其他语音,也即语音学家提出的“区别性特征”。
而另一方面,人类的语言要受词法,语法,语义等约束,人在识别语音的过程中充分应用了这些约束以及对话环境的有关信息。
于是,将语音识别专家提出的“区别性特征”及来自构词,句法,语义等语用约束相互结合,就可以构成一个“由底向上”或“自顶向下”的交互作用的知识系统,不同层次的知识可以用若干规则来描述。
人工神经元网络在语音识别中的应用是现在研究的又一热点。
ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。
这些能力是HMM模型不具备的,但ANN