语音端点检测算法的研究及matla程序仿真与实现本科毕设论文.docx

资源描述

语音端点检测算法的研究及matla程序仿真与实现本科毕设论文.docx

《语音端点检测算法的研究及matla程序仿真与实现本科毕设论文.docx》由会员分享，可在线阅读，更多相关《语音端点检测算法的研究及matla程序仿真与实现本科毕设论文.docx（64页珍藏版）》请在冰豆网上搜索。

语音端点检测算法的研究及matla程序仿真与实现本科毕设论文.docx

语音端点检测算法的研究及matla程序仿真与实现本科毕设论文

摘要

语音端点检测是指从一段语音信号中准确的找出语音信号的起始点和结束点，它的目的是为了使有效的语音信号和无用的噪声信号得以分离，因此在语音识别、语音增强、语音编码、回声抵消等系统中得到广泛应用。

目前端点检测方法大体上可以分成两类，一类是基于阈值的方法，该方法根据语音信号和噪声信号的不同特征，提取每一段语音信号的特征，然后把这些特征值与设定的阈值进行比较，从而达到语音端点检测的目的，该方法原理简单，运算方便，所以被人们广泛使用，本文主要对基于阀值的方法进行研究。

另一类方法是基于模式识别的方法，需要估计语音信号和噪声信号的模型参数来进行检测。

由于基于模式识别的方法自身复杂度高，运算量大，因此很难被人们应用到实时语音信号系统中去。

端点检测在语音信号处理中占有十分重要的地位，直接影响着系统的性能。

本文首先对语音信号进行简单的时域分析，其次利用短时能量和过零率算法、倒谱算法、谱熵算法进行语音端点检测，并对这几种算法进行端点检测，并进行实验分析。

本文首先分别用各算法对原始语音信号进行端点检测，并对各算法检测结果进行分析和比较。

其次再对语音信号加噪，对不同信噪比值进行端点检测，分析比较各算法在不同信噪比下的端点检测结果，实验结果表明谱熵算法语音端点检测结果比其他两种方法好。

关键词　语音端点检测；语音信号处理；短时能量和过零率；倒谱；谱熵

Abstract

Endpointdetectionisavoicesignalfromtheaccuratespeechsignaltotheidentifystartandtheendpoints,thepurposeistoenabletoseparatedtheeffectivevoicesignalsandun-usefulnoise.So,inthespeechrecognitionsystem,speechenhancement,speechcoding,echocancellationandothersystemsarewidelyused.

InCurrenttheendpointdetectioncanberoughlydividedintotwocategories,oneisbasedonthethresholdmethodbasedonthedifferentcharacteristicsofspeechsignalandthenoisesignals,avoicesignalforeachextractedfeature,andthensetthevaluesofthesethresholdscomparewiththevaluestoachievetheendpointdetectionpurposes,Thismethodissimple,itconvenientoperation,itiswidelyused,themaininthispaperisbasedonthemethodofthresholdmethod.Anothermethodisbasedonthemethodofpatternrecognition,itneedstoestimatethespeechsignalandthenoisesignalmodelparametersweredetected.Becauseisbasedonthemethodofpatternrecognitionandhighself-complexity,alargeamountofcomputation,soitisdifficulttobeuseinreal-timevoicesignalsystemforpeople.

TheEndpointdetectionistakeaveryimportantpositioninthespeechrecognition,itdirectlyaffectstheperformanceofthesystem.Inthisarticlefirstdomainanalysisinsimplespeechsignaltime,thandualthresholdalgorithm,cepstrumalgorithm,spectralentropyalgorithmforendpointdetection,andthesetypesofendpointdetectionalgorithms,andexperimentalanalysispoints.Firstly,thealgorithmwereusedtotheoriginalspeechsignaldetection,andthealgorithmtoanalyzeandcompareresults.Secondly,thespeechsignalandthenaddingnoise,SNRvaluesfordifferentendpointdetection,analysisandcomparisonofvariousalgorithmsunderdifferentSNRendpointdetectionresults,experimentalresultsshowthatthespectralentropyofspeechendpointdetectionalgorithmresultsbetterthantheothertwomethods.

Keywords　voiceactivitydetection;Signalprocessing;Averageenergyuseofshort-termandshort-timeaveragezero-crossingrat;cepstrum;spectralentropy

毕业设计（论文）原创性声明和使用授权说明

原创性声明

本人郑重承诺：

所呈交的毕业设计（论文），是我个人在指导教师的指导下进行的研究工作及取得的成果。

尽我所知，除文中特别加以标注和致谢的地方外，不包含其他人或组织已经发表或公布过的研究成果，也不包含我为获得及其它教育机构的学位或学历而使用过的材料。

对本研究提供过帮助和做出过贡献的个人或集体，均已在文中作了明确的说明并表示了谢意。

作者签名：

　　　　　日　期：

指导教师签名：

　　　　　日　　期：

使用授权说明

本人完全了解大学关于收集、保存、使用毕业设计（论文）的规定，即：

按照学校要求提交毕业设计（论文）的印刷本和电子版本；学校有权保存毕业设计（论文）的印刷本和电子版，并提供目录检索与阅览服务；学校可以采用影印、缩印、数字化或其它复制手段保存论文；在不以赢利为目的前提下，学校可以公布论文的部分或全部内容。

作者签名：

　　　　　日　期：

学位论文原创性声明

本人郑重声明：

所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。

除了文中特别加以标注引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作品。

对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。

本人完全意识到本声明的法律后果由本人承担。

作者签名：

日期：

年月日

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。

本人授权　　　　大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

涉密论文按学校规定处理。

作者签名：

日期：

年月日

导师签名：

日期：

年月日

指导教师评阅书

指导教师评价：

一、撰写（设计）过程

1、学生在论文（设计）过程中的治学态度、工作精神

□优□良□中□及格□不及格

2、学生掌握专业知识、技能的扎实程度

□优□良□中□及格□不及格

3、学生综合运用所学知识和专业技能分析和解决问题的能力

□优□良□中□及格□不及格

4、研究方法的科学性；技术线路的可行性；设计方案的合理性

□优□良□中□及格□不及格

5、完成毕业论文（设计）期间的出勤情况

□优□良□中□及格□不及格

二、论文（设计）质量

1、论文（设计）的整体结构是否符合撰写规范？

□优□良□中□及格□不及格

2、是否完成指定的论文（设计）任务（包括装订及附件）？

□优□良□中□及格□不及格

三、论文（设计）水平

1、论文（设计）的理论意义或对解决实际问题的指导意义

□优□良□中□及格□不及格

2、论文的观念是否有新意？

设计是否有创意？

□优□良□中□及格□不及格

3、论文（设计说明书）所体现的整体水平

□优□良□中□及格□不及格

建议成绩：

□优□良□中□及格□不及格

（在所选等级前的□内画“√”）

指导教师：

（签名）单位：

（盖章）

年月日

评阅教师评阅书

评阅教师评价：

一、论文（设计）质量

1、论文（设计）的整体结构是否符合撰写规范？

□优□良□中□及格□不及格

2、是否完成指定的论文（设计）任务（包括装订及附件）？

□优□良□中□及格□不及格

二、论文（设计）水平

1、论文（设计）的理论意义或对解决实际问题的指导意义

□优□良□中□及格□不及格

2、论文的观念是否有新意？

设计是否有创意？

□优□良□中□及格□不及格

3、论文（设计说明书）所体现的整体水平

□优□良□中□及格□不及格

建议成绩：

□优□良□中□及格□不及格

（在所选等级前的□内画“√”）

评阅教师：

（签名）单位：

（盖章）

年月日

教研室（或答辩小组）及教学系意见

教研室（或答辩小组）评价：

一、答辩过程

1、毕业论文（设计）的基本要点和见解的叙述情况

□优□良□中□及格□不及格

2、对答辩问题的反应、理解、表达情况

□优□良□中□及格□不及格

3、学生答辩过程中的精神状态

□优□良□中□及格□不及格

二、论文（设计）质量

1、论文（设计）的整体结构是否符合撰写规范？

□优□良□中□及格□不及格

2、是否完成指定的论文（设计）任务（包括装订及附件）？

□优□良□中□及格□不及格

三、论文（设计）水平

1、论文（设计）的理论意义或对解决实际问题的指导意义

□优□良□中□及格□不及格

2、论文的观念是否有新意？

设计是否有创意？

□优□良□中□及格□不及格

3、论文（设计说明书）所体现的整体水平

□优□良□中□及格□不及格

评定成绩：

□优□良□中□及格□不及格

（在所选等级前的□内画“√”）

教研室主任（或答辩小组组长）：

（签名）

年月日

教学系意见：

系主任：

（签名）

年月日

摘要I

AbstractII

第1章绪论1

1.1课题背景1

1.2语音端点检测现状1

1.3相关工作2

1.4本文主要研究内容3

第2章语音信号时频域分析及预处理4

2.1语音信号简述4

2.2语音信号分析4

2.2.1时域分析5

2.2.2频域分析5

2.3语音信号分析处理7

2.3.1预加重7

2.3.2加窗分帧8

2.4本章小结9

第3章语音端点检测算法研究10

3.1语音端点检测10

3.1.1简述10

3.1.2语音端点检测原理10

3.1.3语音端点检测算法及实施方案12

3.2基于短时能量和短时过零率的语音端点检测14

3.2.1短时平均能量14

3.2.2短时过零率16

3.2.3基于短时能量和短时过零率的双门限端点检测17

3.2.4双门限语音端点检测实验19

3.3基于倒谱特征的语音端点检测20

3.3.1倒谱特征20

3.3.2倒谱距离20

3.3.3倒谱距离的检测算法流程23

3.3.4基于倒谱特征的语音端点检测试验分析25

3.4基于谱熵的语音端点检测26

3.4.1谱熵特征26

3.4.2基于谱熵的端点检测流程27

3.4.4基于谱熵特征的语音端点检测试验分析28

3.5算法比较30

3.6本章小结33

结论35

参考文献36

致谢37

附录139

附录245

附录353

附录461

附录569

第1章绪论

1.1课题背景

语音端点检测在语音识别中占有十分重要的地位。

语音信号处理中的端点检测技术,是指从一句简单的话语中检测出每一个字体或字节的两个端点。

是进行其它语音信号处理（如语音识别、讲话人识别等）关键的第一步。

进行有效的语音端点检测能够对语音信号更好的进行分析和训练，这样语音识别才能有好的识别率[1]。

实际运用中，通常要求首先对系统的输入信号进行判断，准确地找出语音信号的起始点和终止点。

这样才能采集真正的语音数据，减少数据量和运算量，并减少处理时间。

目前，语音技术进入了一个相对成熟点，很多厂商和研究机构有了语音技术在输入和控制上令人鼓舞的演示，输入的硬件和软件平台环境也日益向高级化迈进，但语音技术比起人类听觉能力来还相差很远，其应用也才刚刚开始，进一步规范和建设语音输入的硬件通道、软件基本引擎和平台，使语音技术能集成到需要语音功能的大量软件中去。

而且语音产业需要更加开放的环境，使有兴趣和实力的企业都能加入到这方面的研究和开发中，逐步改变。

随着声控电子产品的不断研发，语音识别技术在开发和研究上还有大量的工作需要做。

1.2语音端点检测现状

一个比较好的语音识别或者语音端点检测，不仅仅在其所用到的算法。

大多数的语音识别都是对整个系统影响是非常大的，不仅仅是语音识别，也包括语音端点检测。

平常的用于实验的也许差不多少，但对于一些高精度的检测或者识别则谬以千里。

语音识别都是基于不同算法而进行的，所以每一种识别都要与不同算法相匹配。

因此从信号段中检测出语音信号或者语音端点是语音识别的必要的预先处理过程[2]。

随着科技的进步，技术的发展。

语音识别、语音检测、语音合成都进入了一个跟高的阶段，语音识别在手机电脑上的应用也虽着科技进步而上升。

然而，在一些比较嘈杂的环境下，或者专业一点的技术上的识别，随着信噪比的降低，噪声污染的多样性，噪声环境下的语音识别会大大的降低[4]。

如，在我们身处的环境下，开门声、风扇、水声等等，都算背景噪声。

而语音信号所处理的信号时一些纯语音信号，或者是把一些背景噪声降下去。

而语音端点检测就是在语音中检测出语音信号和非语音信号，并把语音信号的两个端点给标记处理。

语音端点检测是语音识别、语音增强以及语音编码等中的一个非常重要的环节而且必不可少的。

有效的端点检测技术不仅能减少系统的处理时间、提高系统的处理实时性，而且能排除无声段的噪声干扰，从而使后面工作的性能得以较大提高[5],[6]。

随着越来越多的学者对语音端点检测技术的关注,大量的新的语音端点检测算法相继被提出，而基于同一种算法又有不同的方法。

例如对于熵值参数特征的检测算法，有基于信息熵[7],[8]、基于自适应子带谱熵[9]、子带二次谱熵[10]、基于小波能量熵[11]、基于样本熵等的方法[12]。

信息愈来愈趋近多样化。

同样也有检测不同参数特征相结合来进行语音端点检测[13]，比如倒谱的方法[14],[15]和熵谱相结合而形成的算法[16]。

尽管算法和方法多种多样，都是为了更简便、更易于实现、运算量小、鲁棒性好等特点，并且对于不同的信噪比具有较好的效果。

1.3相关工作

随着生活品质的不断提高，对声控产品的要求越来越高。

基于语音端点检测的识别系统则有不可替代的作用，在不同的声控产品语音识别系统中，有效准确地确定语音段端点不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的性能。

通过大量的文献调研与实际研究发现,现有的各种语音信号端点检测技术都存在各自的不足。

对于语音信号在低信噪比时的端点检测的研究有待进一步深入研究。

当前，语音端点检测技术还处于比较初级阶段，许多领域还有待解决，还远远跟不上现代科技发展的脚步。

对于现在噪声污染的环境的加重，还有信噪比的一直变化，语音端点检测还有待更深一步的研究。

我们常常寻求新的方法，新的算法，或者在新算法上研究新的方法，更容易对人类声音的识别，或者更适于人耳听觉系统的算法。

但这些算法都是基于一些旧的理论上研发出来的，因此这种领域是很难有更大的进步，但也正是考验创新的能力[17]。

根据语音信号参数的特点可以从两个较大方向入手。

一个是努力寻求新型的特征参数,再一个就是利用现有的特征参数采用多特征融合。

这两大问题将是以后研究的主要对象[18]。

1.4本文主要研究内容

第2章，简述了语音信号的一些基础知识，包括预处理、分帧、加窗。

分析了语音信号的时域和频域，介绍了几种语音端点检测算法，简述了我的实施方案。

第三章，从每一种算法的方程式入手，以原理简便、运算量小等方面为标准，通过大量的文献调研与实际研究，本课主题要研究语音起点和终点的检测，以短时能量和短时过零率相结合的双门限语音端点检测算法以及倒谱分析和谱熵技术等进行语音端点检测，并分析各算法在低信噪比和高信噪比条件下的检测效果进行对比。

对这种信号进行Matlab进行编程，对于不同信噪比的声音片段，最后用前后的噪声信号进行对比以得出结论。

第2章语音信号时频域分析及预处理

语音信号处理包括语音识别、语音合成、语音编码、说话人识别等方面，但是其前提和基础是对语音信号进行分析。

语音端点检测是语音识别系统的前期处理，而语音信号的分析则是语音端点检测的前期处理。

2.1语音信号简述

通过对人们所说的语音进行研究和对语音频谱的分析，发现人们包括男女老少的语音频谱很集中，大部分都集中在300~3400Hz范围内。

我们可以对语音通过带通滤波器来得到我们所需要的频谱，就可以得到相应频谱所对的语音。

然后对频谱范围内的语音进行采集采样，一般是8kHz左右的采样率，这样我们就可以得到离散时域的语音信号。

如果想要更为精准的采样或者更为完全的采样域，我们可以相应的提高采样率或者提高采样范围，现在的语音检测现状都不在时传统的采样率，而是调整为自适应。

语音信号有另一个非常重要的特性，就是要保持它的短时特点，所有的关于信号处理都是基于它的短时特性而研发的。

因为语音信号只有在短时内才能保持它的稳定和平滑。

就如同我们经常见到的短时能量、短时过零率，还有一些如同短时频谱和短时自相关函数。

我们在进行语音处理过程中，所用到的参数都是短时内的参数特征，因此在预处理过程，必须有使信号保持短时的过程，即分帧，就是分为一个一个的短时。

常常分的帧为几十毫秒，在这几十毫秒内，我们认为语音信号是保持平稳的。

语音信号还有一个比较简单的分类，是基于人类发音的音素所分类的。

一般可以分为清音和浊音两类。

虽然中国与外国人的发音有所不同，但从音素上来说都是一样的。

如果从短时性上来分析，就会很直观的发现清音和浊音的不同，一般来说，浊音在短时能量上拥有较高的波峰，而清音则一般就低一点。

还有一类是无声，而无声是处于波谷。

2.2语音信号分析

平常的语音信号处理包括一些语音识别、语音检测、语音编码、说话人识别等方面，这所有的检测都是基于对语音信号的识别，所以必须先对人们所说语音信号进行分析，则需要对语音信号短时性的特征参数进行提取分析。

参数的提取，方法的创新，这都基于语音科技的发展。

语音信号的处理归根还是对语音短时内的分析，语音端点检测的好坏、语音识别的精准度，这都根据语音信号分析的准确度。

2.2.1时域分析

从一般的语音信号处理仿真来看，横坐标都是为时间，所以说，语音信号是时域信号，经常处理的语音信号也是基于时域来分析的，这种方法一般就是利用仿真的波形来处理。

通常分析方法有基于短时能量、短时频谱、短时过零率、短时自相关函数等，这些短时性参数更为直观的显示语音信号的特性，因此在语音信号数字处理技术占有很重要的地位。

进行语音信号分析时，先接触到并且直观的就是它的时域波形。

时域分析常用于基本的参数分析，语音信号的分割、预处理与检测。

这种分析方法的特点有：

（1）表示语音信号比较直观、物理意义明确；

（2）实现起来比较简单、运算量少；（3）可得到语音的一些重要参数；（4）采用示波器通用设备进行观测等。

取样之后对信号进行量化采样，而量化过程会产生量化误差，即量化后的信号与原信号之间的差值。

2.2.2频域分析

语音信号频域分析，主要是对一些频域参数进行分析，常用一些频域参数的有频谱、功率谱等等，最常用频域分析的方法有傅立叶变换法、线性预测法等。

2.2.2.1傅立叶变换法傅里叶变换是语音信号频域分析中最广泛使用的方法，并且是分析线性系统和平稳信号稳态特性最有力的手段。

对加窗分帧后的语音信号，进行傅里叶变换后再逆傅里叶变换，可以相应的得到频谱、功率谱、倒谱距离、熵谱等特征。

由于语音信号的特性是随着时间变化，所以采用短时傅里叶变换，相应的求得的特征为短时频域特征，这里的窗函数都采用汉明窗。

（1）短时频谱和短时功率谱设信号

经过傅里叶变换后在频域记为

，则

与

关系如公式（2-1）：

（2-1）

语音的频谱为

的幅度，则有：

（2-2）

语音的短时功率谱的是幅度的平方，其公式为：

（2-3）

（2）倒谱距离语音信号的倒谱分析是通过同态处理来实现的。

同态信号处理也称为同态滤波，是将非线性问题转为线性问题进行处理的方法。

由于语音信号可以视为声门激励信号和声道冲击响应进行的卷积，随后可以对语音信号进行解卷。

倒谱能很好表示语音的特征，在噪声环境下，可通过倒谱系数而求得倒谱距离，使用倒谱距离来作为语音端点检测的特征。

信号的倒谱也可以定义为信号的能量谱密度函数的对数的傅里叶级数展开式的系数，见式2-4：

（2-4）

即为倒谱系数，通过倒谱系数求得倒谱距离

为：

（2-5）

（3）熵熵（用

表示）是物质的概率程度的一种反映。

熵

代表

的信息量，当

的分布概率相等时，熵取最大值，也就是说，

的概率分布越随机，越难判断，

值也就越大。

设

是取有限个值的随机变量则

取

的概率函数通常表示为：

（2-6）

则

的熵为：

（2-7）

2.2.2.2线性预测法线性预测

展开阅读全文