基于谱减法的语音增强技术研究大学论文Word下载.docx-资源下载

基于谱减法的语音增强技术研究大学论文Word下载.docx

1、2.2 语音特性分析 62.3 噪声分类及其特性 72.4 语音信号的短时处理 82.4.1 语音信号预处理 82.4.2 语音信号加窗分帧 92.4.3 语音信号的短时傅立叶变换 92.5 语音增强性能 102.5.1 语音质量的主观评价 102.5.2 语音质量的客观评价 11第3章基于谱减法的语音增强技术 133.1 谱减法的基本原理 133.2 谱减法建立的假设 153.3 “音乐噪声”的产生 163.4 语音端点检测技术 163.5 基于谱减法的语音增强算法流程 183.6 实验结果与分析 19第4章结论 23 4.1 致谢 24 4.2参考文献 25第1章绪论1.1 课

2、题研究背景人们在语音通信过程中不可避免地会受到来自周围环境、传输媒介引入的噪声、通信设备内部电噪声乃至其他讲话者的干扰。这些干扰最终将使接收者接收到的语音已非纯净的原始语音信号，而是受噪声污染的带噪语音信号1。例如，安装在汽车、飞机或舰船上的电话，街道、机场的公用电话，常受到很强背景噪声的干扰，严重影响通话质量。又如，室内会议电话的交混回响随同语音广播到每个会议地点，影响收听效果。再如深海潜水员在氦-氧面罩内讲话引起的失真，语言障碍残疾人的语音失真，有历史价值的旧唱片、旧录音带的噪声和失真等，都是带噪语音信号的例子。环境噪声污染使许多语音处理系统的性能急剧恶化。例如，语音识别2己取得重大进展，

3、正在步入实用阶段。但目前的识别系统大都是在安静环境中工作的，在噪声环境中尤其是强噪声环境，语音识别系统的识别率将受到严重影响。低速率语音编码，特别是参数编码，也遇到类似问题。由于语音生成模型是低速率参数编码的基础，当模型参数的提取受到混杂在语音中背景噪声严重干扰时，重建语音的质量将急剧恶化，甚至变得完全不可懂。在上述情况下，语音增强作为一种预处理手段，不失为解决噪声污染的一种有效途径。在实际需求的推动下，早在上个世纪60年代语音增强这个研究课题就引起人们的注意，此后40多年人们一直锲而不舍地进行这方面的研究。随着数字信号处理理论的成熟，70年代曾形成一个理论研究高潮，取得了一些基础性成果，并使

4、语音增强发展成为语音信号处理的一个重要分支。进入80年代后，DSP（数字信号处理）技术的发展和成熟为语音增强的实时实现提供了可能。语音增强不但与语音信号数字处理理论有关，而目涉及到人的听觉感知和语音学范畴。再者，噪声的来源众多，随应用场合而异，它们的特性也各不相同。即使在实验室仿真条件下，也难以找到一种通用的语音增强算法能适用于各种噪声环境，所以必须针对不同噪声，采用不同的语音增强对策。目前，某些语音增强算法在实际应用中己经证明是有效的，它们大体上可分为四类2：噪声对消法、谐波增强法、基于参数估计的语音再合成法和基于语音短时谱估计的增强算法。语音增强的一个主要目标是从带噪语音信号中提取尽可能纯

5、净的原始语音。然而，由于干扰通常都是随机的，从带噪语音中提取完全纯净的语音几乎不可能。在这种情况下，语音增强的目的主要有两个：一是改进语音质量，消除背景噪音，使听者乐于接受，不感觉疲劳，这是一种主观度量；二是提高语音可懂度，这是一种客观度量。这两个目的往往不能兼得。目前有一些对低信噪比带噪语音进行语音增强的方法，可以显著地降低背景噪声，改进语音质量，但并不能提高语音的可懂度，甚至略有下降。语音增强是语音信号处理的一个重要分支，该技术已广泛应用于无线电话、电话会议、场景录音和军事窃听等领域。语音增强技术无论在日常生活中，还是在军事领域，或者在语音信号处理技术中都很有应用价值。因此研究语音增强算法

6、有很重要的实用价值。1.2 语音增强的历史和发展现状语音增强方法的研究始于20世纪70年代中期，随着数字信号处理理论的成熟，语音增强发展成为语音信号处理领域的一个重要分支。1978年，Lim和Oppenheim提出了语音增强的维纳滤波方法。1979年，Boll提出了谱减方法来抑制噪声。1980年，Maulay和Malpss提出了软判决噪声抑制方法。1984年，Ephraim和Malah提出基于MMSE短时谱幅度估计的语音增强方法。在近30年的研究中，各种语音增强方法不断被提出，奠定了语音增强理论的基础，并使之逐渐走向成熟。近些年来，随着VLSI技术的发展和高速DSP芯片的出现，使语音增强的实时

7、实现成为可能。语音增强方法逐步走向实用，同时新的语音增强方法又相继涌现，如基于小波变换的方法，基于人耳掩蔽效应的方法3等。目前常用的语音增强算法分为如下几类4：基于谱减法的语音增强算法、基于小波分析的语音增强算法、基于卡尔曼滤波的语音增强算法、基于信号子空间的增强方法、基于听觉掩蔽效应的语音增强方法、基于独立分量分析的语音增强方法、基于神经网络的语音增强方法。语音增强算法可从信号输入的通道数上分为单通道的语音增强算法与多通道的语音增强算法。单通道语音系统在实际应用中较为常见，如电话，手机等。这种情况下语音与噪声同时存在一个通道中，语音信息与噪声信息必须从同一个信号中得出。一般这种语音系统要求噪

8、声要比较平稳，以便在非语音段对噪声进行估计，再依据估计出来的噪声对带噪声的语音段进行处理。如果语音系统是一个多通道的语音系统，各个通道之间存在着某些相关的特性，这些相关特性对语音增强的处理十分有利。如在自适应噪声对消法的语音增强方法中，采用了两个话筒作为输入，一个采集带噪的语音信号，另一个用来采集噪声。从噪声通道所采集的噪声直接当作带噪语音的噪声，并将它从带噪声语音信号中减去就可得到纯净的语音。另一种多通道的语音增强算法是采用阵列信号，这种方法采用多个以一定方式排列的采集设备接收信号。由于不同独立的信号源与各个采集设备之间的距离不同，最后在各个接收设备中的合成信号也会不同，再根据这些信号将各个

9、独立信号分离出来。有关多通道谱减法以及其他消除噪音方法不是本文重点，故不再提及，下面就只简单介绍一下单通道输入的语音增强算法。1）谐波增强算法由于语音中的浊音具有明显的周期性，这种周期性反映到频域中则为一系列分别对应基频（基音）及其谐波的一个个峰值分量，这些频率分量占据了语音的大部分能量，我们自然可以利用这种周期性来进行语音增强。这时可采用自适应梳状滤波器来提取基音及其谐波分量，抑制其他周期性噪声和非周期的宽带噪声。由于语音是时变的，语音的基音周期也是不断变化的，能否准确地估计出基音周期以及能否及时跟踪基音变化，是这种基于谐波增强法的关键。2）基于短时谱估计的语音增强算法基于语音短时谱估计

10、的增强方法种类繁多，如谱减法、维纳滤波法、最小均方误差法等。这种方法力图获得语音信号频谱幅度的最优估计，是从观测序列中以最小均方误差准则估计语音信号正交展开系数的模值。该类方法具有适应信噪比范围大、方法简单、易于实时处理等优点。尽管该方法研究比较早，但仍具有很强的生命力，成为应用最广泛的语音增强方法。3）基于语音生成模型的增强算法语音的发声过程可以建模为一个线性时变滤波器，对于不同类型的语音采用不同的激励源，如对于浊音，激励源为周期与基音相同的周期性脉冲串；而对于清音，激励源为高斯白噪声。在语音的生成模型中，应用最广泛的是全极点模型。基于语音生成模型可以得到一系列语音增强方法，比如时变参数维

11、纳滤波及卡尔曼滤波方法。维纳滤波的背景噪声白化效果很好；卡尔曼滤波能有效消除有色噪声，而且可以进行在线处理。但基于语音生成模型的增强方法运算量比较大，系统性能也有待于进一步提高。4）基于小波分解的增强算法小波分解法是随着小波分解这一新的数学分析工具的发展而发展起来的，随着小波理论研究的不断深入，小波分析的应用范围越来越广。在语音去噪方面，主要有两个算法：一是S.Mallat和S.Zhong于1992年提出的模极大值法；二是由D.L.Donoho和LM.Johnstone于1995年提出的小波阀值去噪法。5）基于听觉屏蔽的增强算法听觉屏蔽法是利用人耳的听觉特性的一种增强算法。人耳可以在强噪声

12、的干扰下分辨出需要聆听的信号，也可以在多个说话者同时发声时分别将它们提取出来。正是由于以上这些原因，人们对听觉屏蔽法寄予了厚望，有理由相信，随着人们对人耳特性了解的加深，听觉屏蔽法会更深入的发展。对于基于人耳掩蔽效应的语音增强方法，主要有两种思路：一种是以对谱减法的改进为出发点，利用估计得到掩蔽门限；另一种是以对噪声的直接掩蔽为基本思路，以估计得到的掩蔽门限建立一种原则。6）两态软判决最大似然包络估计器在实际中语音信号是随机出现于观测信号中的，如果能考虑语音信号存在的不确定性，则应能得到更好的估计器，两态软判决最大似然包络估计就是基于这种考虑得出的，在两态软判决最大似然包络估计器中有体现语音

13、事件发生的概率因子。1.3 本文主要研究内容本文分析采用基于语音激活检测（Voice Activity Detector）噪声估计方法进行噪声估计，并采用了递归平滑的方法更新噪声谱，在此基础上应用谱减法进行语音增强，对谱减后的语音谱进行了递归平滑处理，从而使处理后的语音更为接近纯净语音信号，取得了较好的语音增强效果。本论文用MATLAB语言实现了整个算法的仿真试验，试验结果表明，该算法可以很有效的提高语音听觉质量，其计算复杂度也不高。论文章节安排如下：第一章介绍了语音增强的研究意义，概述了国内外语音增强和谱减法的语音增强的研究概况，最后给出了本文的主要研究内容。第二章对语音增强相关理论基础

14、进行了研究。在这一部分我们首先分析了人耳感知、语音特性和噪声特性，然后介绍了语音增强性能。第三章对谱减法的语音增强技术作了深入分析研究，结合语音激活检测（Voice Activity Detector）噪声估计方法进行噪声估计，给出算法实现流程，使用MATLAB模拟实现了整个语音增强功能。最后对论文进行了总结，并提出了对论文进一步研究的建议。第2章语音增强的理论基础2.1 人耳感知特性因为语音增强效果最终取决于人的主观感受，所以语音感知对语音增强研究有重要作用。人耳对背景噪声有很大的抑制作用，了解其机理大大有助于语音增强技术的发展。语音感知问题涉及到生理学、心理学、声学、和语音学诸多领域，

15、其中有很多问题有待进一步研究。目前已有一些结论可用于语音增强4：*人耳对语音的感知主要是通过其幅度谱获得的，而对相位谱不敏感。*人耳对频率高低的感受近似于该频率的对数值成正比。*人耳具有掩蔽效应，即强信号对弱信号有抑制作用，能够将其掩盖。*共振峰对语音的感知十分重要，特别是第二共振峰比第一共振峰更为重要，因此对语音信号进行一定程度的高通滤波不会对可懂度产生影响。*人耳在两个以上的说话环境中能够分辨出它所需要的声音。*人耳对频谱分量强度的感受是频率与能量谱的二元函数，响度与频谱幅度的对数成正比。2.2 语音特性分析语音是人们讲话时发声器官发出的一种声波，具有声音的物理特性。然而它又是一种特殊的声

16、音，是人们用来交流信息的工具，因此语音是声音和语言的组合体。语音和语言是研究人类话语的一门学科，它具有一定的音色、音调、音强和音长。在研究和分析各种语音信号处理技术之前，必须了解语音信号的一些基本特征。浊音在时域上呈现出明显的周期性；在频域上有共振峰结构，而且能量大部分集中在较低频段内，而清音段没有明显的时域和频域特征，类似于白噪声。人类的发声系统的生理结构的变化速度是有一定限度的，在一段时间内（1030ms）人的声带和声道形状具有相对稳定性，可以认为其特性是不变的，因而语音的短时谱分析也有相对稳定性，在语音增强中可以利用短时谱的这种稳定性。语音信号是非平稳、时变的，但又是准平稳、慢变的，因此

17、短时处理技术是合适的。语音信号的时域特征参数主要有短时能量，短时过零率和短时能量比等。时域分析具有简单、运算量小、物理意义明确等优点，便于我们直观的认识语音信号。时域特征提取简单，但它的缺点是不能压缩维数，且不适于表征幅度谱特性。短时分析应用于频域就是短时傅立叶变换。相应的频谱称为“短时谱”，即有限长度的傅立叶变换。频域参数对于语音识别系统来说更为有效，这是因为频域特征参数能从不同角度反映幅度谱的特征，例如，频谱、频谱包络、倒谱系数、共振峰等。2.3 噪声分类及其特性噪声来源于实际的应用环境，因而噪声特性可以说是千变万化。噪声可以是加性的，也可以是非加性的。对于非加性噪声，有些可以通过变换转变

18、成加性噪声，例如，乘性噪声（或卷积噪声）可以通过同态变换而成为加性噪声。又如，某些与信号相关的量化噪声可以通过伪随机噪声扰动的方法变换成与信号独立的加性噪声。加性噪声大体上可分为以下几种5：白噪声、周期性噪声、脉冲性噪声、宽带噪声和同声道其它语音的干扰等。周期性噪声的特点是有许多离散的窄谱峰，它往往来源于发动机等周期性运转的机械设备。周期性噪声引起的问题可能最少，因为可以通过功率谱发现并通过滤波或变换技术将其去掉。但是，其中交流噪声的抑制很困难，因为其频率成分不是基音（因为它在语音信号有效频率以下），而是谐波成分（它可能以脉冲形式覆盖整个音频频谱）。冲击噪声表现为时域波形中突然出现的脉冲，它通

19、常是放电的结果。消除这种噪声可以在时域进行，即根据带噪语音信号幅度的平均值确定阈值。当信号幅度超出这一阈值时，判别为冲击噪声，在对其进行衰减甚至完全消除。如果干扰脉冲之间不太靠近，还可以根据信号相邻样本数值简单地通过内插法将其从时间函数中去掉。宽带噪声通常可以假定为高斯噪声和白噪声，它的来源很多，包括风、呼吸噪声和一般随机噪声源。量化噪声通常作为白噪声来处理，也可以视为宽带噪声。由于宽带噪声与语音信号在时域和频域上完全重叠，因而消除它最为困难。对于非平稳的宽带噪声，情况更为复杂。干扰语音信号和待传信号同时在一个信道中传输所造成的干扰称为语音干扰。通常人耳可以在两人以上讲话环境中分辩出所需要的声

20、音。这种分辩能力是人体内部语音理解机理具有的一种感知能力，称为“鸡尾酒会效应”。区别有用信号和干扰信号的基本方法是利用它们的基音差别，考虑到一般情况下两种语音的基音不同，也不成整数倍关系，这样可以用梳状滤波器提取基音和各次谐波，再恢复出有用语音信号。2.4 语音信号的短时处理众所周知，语音信号数字化之前，必须先进行防混叠滤波，滤除高于1/2采样频率的信号成分噪声。这种防混叠滤波通常与模数转换器做在一个集成块内，目前语音信号的数字化的质量是有保证的，故我们大可不必在语音信号数字化方面下功夫，而只须直接对数字化后的语音进行处理既可。2.4.1 语音信号预处理语音信号的频率多在4kHz以下，为了滤除

21、50Hz以下的直流噪声和大于 4kHz的高频噪声，首先将语音信号通过一个通带频率为604000Hz的带通滤波器，得到（2-1）式中，是信号的长度；表示卷积。当语音经过口腔和鼻腔辐射出来时，口腔和鼻腔会对语音产生影响，总的来说表现为语音高频部分的衰减。为了对输入语音进行预加重，须先加强高频分量，然后再处理结束时进行去加重，以免对于语音造成失真。加重方式如下：（2-2）去加重方式为：（2-3）其中，为加重因子，一般取。2.4.2 语音信号加窗分帧语音信号是一种非平稳的时变信号，其产生过程与发声器官的运动紧密相关。而发声器官的状态速度较声音振动的速度缓慢的多，因此语音信号可以认为是短时平稳的。

22、研究发现，在550ms的范围内，语音频谱特征和一些物理特征参数基本保持不变。因此可以将平稳过程中的处理方法和理论引入到语音信号的短时处理当中，将语音信号划分为很多短时的语音段，每个短时的语音段称为一个分析帧。这样，对每一帧语音信号处理就相当于对特征固定的持续信号进行处理。帧既可以是连续的，也可以采用交叠分帧，一般帧长取1030ms。取数据时，前一帧和后一帧的交迭部分称为帧移，帧移与帧长之比一般取为01/2。对取出的语音帧要经过加窗处理，即用一定的窗函数与信号相乘，从而形成加窗语音。加窗的主要作用在于减少由分帧处理带来的频谱泄露，这是因为，分帧是对语音信号的突然截断，相当于语音信号的频谱与矩形窗

23、函数频谱的周期卷积。由于矩形窗频谱的旁瓣较高，信号的频谱会产生“拖尾”，即频谱泄露。为此，可采用汉明窗，因为汉明窗旁瓣最低，可以有效地克服泄露现象，具有更平滑的低通特性，得到的频谱比较平滑。汉明（Hamming）窗定义6：（2-4）2.4.3 语音信号的短时傅立叶变换语音信号的频域分析在信号处理中占有十分重要的地位，在频域内研究语音信号，可以使信号某些在时域内无法表现出来的特征变得十分明显，比较常用的是傅立叶变换。传统傅立叶变换是以应用数学为基础建立起来的一门学科，它将信号分解为各个不同频率分量组合，使信号的时域特征与频域特征联系起来成为信号处理的有利工具。但傅立叶变换使用的是一种全局变换，

24、无法表述信号的局部性质，而短时傅立叶变换可以弥补这种缺点。正如前面的分析所述，由于语音信号是短时平稳的，因此，我们可以对语音进行分帧处理，计算某一帧的傅立叶变换，这样得到的就是短时傅立叶变换，其定义为2：（2-5）其中为实数窗函数，取不同值时，窗沿时间轴滑动到不同的位置，取出不同的语音帧进行傅立叶变换。短时傅立叶变换是时间和角频率的函数，它反映了语音信号的频谱随时间变化的特性。2.5 语音增强性能语音质量包括两方面内容：清晰度和理解度。前者是衡量语音中字、单词和句的清晰程度，而后者则是对讲话人的辨识水平。语音质量评价不但与语音学、语言学和信号处理等学科有关，而且还与心理学、生理学等有着密切的

25、联系，因此语音质量评价是一个极其复杂的问题。对此多年来人们不断的努力，提出了许多语音质量评价的方法，总体上看可以将语音质量评价可分为两大类：主观评价和客观评价。2.5.1 语音质量的主观评价 1）MOS得分法MOS得分采用五级评分制，即将重建语音质量分为优（5分）、良（4分）、中（3分）、差（2分）及坏（1分）共5个等级测验，表2-1给出了相应的MOS判分描述。MOS评分中质量优表示重建语音和原始语音只有很少的细节差异，且若不进行对照听比就觉察不出这种差异；质量良表示重建语音的畸变或失真不明显，不注意听意识不到；质量中表示重建语音有比较明显可感知的畸变成失真，但语音自然度和清晰度仍很好，且听起

26、来没有疲劳感；质量差表示重建语音有较强的畸变或失真，听起来已有疲劳感；质量坏表示重建语音的质量极差，听觉无法忍受。2）判断韵字测试判断韵字测试是反映语音清晰度或可懂度的一种测试方法。这种测试方法使用若干对同韵母进行测试，让受试者每次听到一对韵字中的某个音，然后让他判断所听到的音是哪一个字，全体试验者判断正确的百分比就是DRT得分，通常认为DRT为95%以上时清晰度为优，8594%为良，7584%为中，6575%为差，而65%以下为不可接受。表2-1 MOS判分相应描述表MOS得分质量级别失真级别5优无察觉4良刚有察觉3中有察觉且稍觉可厌2差明显察觉，可厌但可忍受1坏不可忍受3）判断满意度测量（

27、DAM）DAM是对语音质量的综合评估，它是在多种条件下对话音质量的接受程度的一种度量。这种评分体系相当全面，也相当复杂，这里就不再叙述。2.5.2 语音质量的客观评价语音质量客观评价是以语音系统的输入信号和输出信号之间的误差大小来判别语音质量的好坏。1）信噪比（Signal-to-Noise Ratio，SNR）SNR一直是衡量针对宽带噪声失真的语音增强算法的常规方法。假设表示带噪信号，表示其中的纯净语音信号，表示相对应的增强信号，经典形式的信噪比定义为：（2-6）在上式中可以看出，要计算信噪比必需知道纯净语音信号，但在实际应用中这是不可能的。因此，上述方法主要用于纯净语音信号和噪声信号都是己知的算法的仿真中。经典信噪比只能给出一个大致的信噪比。因为语音信号是时变的，而噪声的能量是均匀分布的，因而在不同时间段上的信噪比也应不一样。为了改善上面的问题。可采用分段信噪比，它的定义如下：（2-7）表示语音帧数，是语音帧长度，表示语音帧的开始点。为了克服计算出来的信

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？