基于MATLAB的语音端点Word文件下载.doc
《基于MATLAB的语音端点Word文件下载.doc》由会员分享,可在线阅读,更多相关《基于MATLAB的语音端点Word文件下载.doc(38页珍藏版)》请在冰豆网上搜索。
学生姓名:
学号:
指导教师:
职称:
教授
题目类型:
理论研究实验研究工程设计工程技术研究软件开发
20--年06月10日
桂林电子科技大学毕业设计(论文)第2页共2页
摘要
语音端点检测是指从一段语音信号中准确的找出语音信号的起始点和结束点,它的目的是为了使有效的语音信号和无用的噪声信号得以分离,因此在语音识别、语音增强、语音编码、回声抵消等系统中得到广泛应用。
目前端点检测方法大体上可以分成两类,一类是基于阈值的方法,该方法根据语音信号和噪声信号的不同特征,提取每一段语音信号的特征,然后把这些特征值与设定的阈值进行比较,从而达到语音端点检测的目的,该方法原理简单,运算方便,所以被人们广泛使用,本文主要对基于阀值的方法进行研究。
另一类方法是基于模式识别的方法,需要估计语音信号和噪声信号的模型参数来进行检测。
由于基于模式识别的方法自身复杂度高,运算量大,因此很难被人们应用到实时语音信号系统中去。
端点检测在语音识别中占有十分重要的地位,直接影响着系统的性能。
本文首先对语音信号进行简单的时域分析,其次利用双门限算法、倒谱算法、谱熵算法进行语音端点检测,并对这几种算法进行端点检测,并进行实验分析。
文中比较各算法检测思路:
首先分别用各算法对原始语音信号进行端点检测,并对各算法检测结果进行分析和比较。
其次再对语音信号加噪,对不同信噪比值进行端点检测,分析比较各算法在不同信噪比下的端点检测结果,实验结果表明谱熵算法语音端点检测结果比其他两种方法好。
关键词:
语音信号处理;
语音端点检测;
双门限;
倒谱;
谱熵
Abstract
Endpointdetectionisavoicesignalfromtheaccuratespeechsignaltotheidentifystartandtheendpoints,thepurposeistoenabletoseparatedtheeffectivevoicesignalsandun-usefulnoise.So,inthespeechrecognitionsystem,speechenhancement,speechcoding,echocancellationandothersystemsarewidelyused.
InCurrenttheendpointdetectioncanberoughlydividedintotwocategories,oneisbasedonthethresholdmethodbasedonthedifferentcharacteristicsofspeechsignalandthenoisesignals,avoicesignalforeachextractedfeature,andthensetthevaluesofthesethresholdscomparewiththevaluestoachievetheendpointdetectionpurposes,Thismethodissimple,itconvenientoperation,itiswidelyused,themaininthispaperisbasedonthemethodofthresholdmethod.Anothermethodisbasedonthemethodofpatternrecognition,itneedstoestimatethespeechsignalandthenoisesignalmodelparametersweredetected.Becauseisbasedonthemethodofpatternrecognitionandhighself-complexity,alargeamountofcomputation,soitisdifficulttobeuseinreal-timevoicesignalsystemforpeople.
TheEndpointdetectionistakeaveryimportantpositioninthespeechrecognition,itdirectlyaffectstheperformanceofthesystem.Inthisarticlefirstdomainanalysisinsimplespeechsignaltime,thandualthresholdalgorithm,cepstrumalgorithm,spectralentropyalgorithmforendpointdetection,andthesetypesofendpointdetectionalgorithms,andexperimentalanalysispoints.Thepapercomparedthealgorithmdetectsthemeritsofideas:
Firstly,thealgorithmwereusedtotheoriginalspeechsignaldetection,andthealgorithmtoanalyzeandcompareresults.Secondly,thespeechsignalandthenaddingnoise,SNRvaluesfordifferentendpointdetection,analysisandcomparisonofvariousalgorithmsunderdifferentSNRendpointdetectionresults,experimentalresultsshowthatthespectralentropyofspeechendpointdetectionalgorithmresultsbetterthantheothertwomethods.
Keyword:
Signalprocessing;
voiceactivitydetection;
doublethreshold;
cepstrum;
spectralentropy
目录
第一章绪论 1
1.1研究背景及意义 1
1.2语音端点检测研究现状及存在的问题 3
1.3本文主要研究内容 4
第二章语音信号处理 4
2.1语音信号特点 4
2.2语音信号预处理 5
2.2.1预加重 5
2.2.2加窗分帧 6
2.3语音信号分析 7
2.3.1短时时域分析 7
2.3.2频域分析 8
第三章语音端点检测算法原理及实验仿真分析 9
3.1语音端点检测算法原理 9
3.2基于短时能量和短时过零率的语音端点检测 11
3.2.1短时平均能量 11
3.2.2短时过零率 13
3.2.3基于短时能量和短时过零率的双门限端点检测原理 15
3.2.4双门限语音端点检测实验分析 16
3.3基于倒谱特征的语音端点检测 19
3.3.1倒谱特征 19
3.3.2倒谱距离 19
3.3.3基于倒谱距离的端点检测算法原理 19
3.3.4基于倒谱语音端点检测实验分析 24
3.4基于谱熵的语音端点检测 25
3.4.1谱熵定义 26
3.4.2谱熵特征 26
3.4.3谱熵语音端点检测原理 27
3.4.4谱熵语音端点检测实验分析 28
3.5算法比较 30
第四章总结与展望 32
致谢 34
参考文献 35
桂林电子科技大学毕业设计(论文)第34页共34页
第一章绪论
语音,即语言的声音,是语言符号系统的载体。
它由人的发音器官发出,负载着一定的语言意义,语言依靠语音实现它的社会功能。
语音是人们交流思想和进行社会活动的最基本手段,因此我们要对语音信号进行处理分析,优化人类通信交流。
语音信号处理包括语音通信、语音增强、语音合成、语音识别和说话人识别等方面。
语音信号的好坏、语音识别率的高低,都取决于语音信号处理的好坏。
因此,语音信号处理是一项非常有意义的研究课程,而语音端点检测是语音语音信号处理中非常重要的一步。
语音端点检测是语音分析、合成和识别中的一个重要环节,目的是从包含语音的一段信号中找出语音的起始点及结束点,从而只存储和处理有效语音信号。
有效的端点检测不仅可以减少数据的存和处理时间,而且能排除无声段的噪声干扰。
端点检测的困难在于无声段或者语音段前后人为呼吸等产生的杂音、语音开始处的弱摩擦音或弱爆破音以及终点处的鼻音,这些使得语音的端点比较模糊,需要综合利用语音的各种信号特征,从而确保定位的精确性,避免包含噪音信号和丢失语音信号。
近年来出现了很多种端点检测的方法如短时能量、短时过零率、传统的双门限法、倒谱特征的检测方法、谱熵的检测方法法、分形法等。
本文根据语音和噪声和静音在能量、过零率、倒谱距离、信息熵值、和分形维数等特点的不同来进行语音端点检测,在这些算法中在纯语音和高信噪比的情况下都检测得比较好,但在低信噪比下有些算法检测结果就不尽人意。
尽管语音端点检测技术在安静的环境中已经达到了令人鼓舞的准确率,但是在实际应用时由于声的引入和环境的改变通常会使系统性能显著下降。
研究表明,即使在安静的环境中,语音识别系统一半以上的识别错误来自端点检测器。
因此,作为语音识别系统的第一步,端点检测的关键性不容忽视,尤其是噪声环境下语音的端点检测,实验室的研究结果与复杂的实用环境下的语音端点检测仍存在一定的差距,它的准确性很大程度上直接影响着后续的工作能否有效进行,如何准确地检测出带噪语音的端点至今仍是一个难题。
1.1研究背景及意义
语音是语言的声学表现形式,语言是人类特有的功能,声音是人类常用的信息交流工具,通过声音传递信息是人类最重要、最有效、最准确、最方便、最自然的信息交换的方式。
语音信号处理是一门涉及面很广的交叉科学,包含计算机科学、语音学、语言学、声学、生理学、心理学和数学等诸多领域的内容。
随着现代科学的蓬勃发展,人类社会越来越显示出信息社会的特点,犹如衣、食、住、行对于人类是必要的一样,通信和信息交换也成为了人类社会存在的必要条件,不但在人与人之间,而且在人与机器之间每时每刻都需要进行大量的信息交换。
让计算机听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。
计算机越来越向便携化方向发展,计算环境的日趋复杂化,人们越来越迫切要求摆脱