ImageVerifierCode 换一换
格式:DOCX , 页数:11 ,大小:99.71KB ,
资源ID:7712846      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/7712846.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(基于MATLAB的语音共振峰的估计.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

基于MATLAB的语音共振峰的估计.docx

1、基于MATLAB的语音共振峰的估计毕 业 论 文 (设 计)题 目: 基于MATLAB的语音共振峰的估计 英文题目: MATLABBASED ESTIMATES OF FORMANTS 院 系: 电子工程学院 专 业: 通信工程 姓 名: 年 级: 二零零六级 * * 二零零九年十二 月 摘要语音是人类相互之间进行交流时使用最多最自然最基本也是最重要的信息载体在高信息化得今天,语音处理的一系列技术及其应用几经成为信息社会部可或缺的最重要组成部分。语音编码算法利用语音信号的冗余信息及某些人耳不敏感的信息,可以在低比特率上获得较高质量的重建语音,压缩编码一直是通信中的关键技术。语音信号研究者们一直

2、在寻求一种在保持语音质量不显著下降的情况下使语音信号的编码比特率最小的方法,特别地,低比特率语音编码体制(比特率在4.8 kbs以下)因其广泛的需求而得到研究者的重视。语音编码器的性能常常用比特率、延时、复杂度和质量4个属性来进行衡量,因此,在分析语音编码器的性能时,主要应该考虑这些属性。值得注意的是,这些属性之间不是孤立的,而是相互紧密联系的,例如,低比特率的编码器一般比高比特率的编码器有更大的延时、更高的算法复杂度和较低的语音质量。因此在对各种编码算法进行取舍时,应根据实际应用环境,在这些属性之间进行权衡。 共振峰参数编码算法在低码率的音频编码中应用越来越广泛。与基于时域波形的压缩算法相比

3、,他在传输的过程中只需要传输构造信号所用的基频和共振峰参数,因此可以大大地降低传输的码率,实现低码率下的多媒体通信。而且,基于共振峰参数的算法无须严格限制信号的结构,他可以灵活地描述音频信号的特征。这一灵活性决定了基于共振峰参数的算法,可以满足对音频信号进行方便访问和控制的需要。关键字:共振峰 线性预测 ABSTRACTThe human voice to communicate with each other using the most natural and the most fundamental and most important information carriers in h

4、igh-information that today, a series of voice processing technology and its application several times in the information society available to the Department or the lack of the most important component of the . Speech coding algorithm using speech signals redundant information and some peoples ears a

5、re not sensitive information, you can gain at low bit-rate reconstruction of a high-quality voice compression coding has been the communication of key technologies. Speech Signal researchers have been looking for a way to maintain voice quality in asignificant decline in the case of voice signals in

6、 the smallest bit rate coding methods, in particular, the low bit rate speech coding system (bit-rate of 4.8 kb / s or less) because of its wide range of demands to be researchers attention. The performance of speech coding devices often use bit rate, delay, complexity and quality of the four attrib

7、utes to measure, therefore, in analyzing the performance of speech coder, the main consideration should be given these attributes. It is noteworthy that among these attributes are not isolated, but closely interrelated, for example, low bit rate encoder in general than high bit-rate encoder greater

8、delay, higher algorithm complexity and the lower voice quality. Therefore, various coding algorithms to choose should be based on the actual application environment, in the trade-off between these attributes. Formant parameter coding algorithm at low bit-rate audio coding more and more widely applie

9、d. Time-domain waveform based on the compression algorithm, the process of transmission, he need only transmit the signal structure used for the base frequency and formant parameters, it can greatly reduce the transmission rate, low bit-rate multimedia communication. Moreover, the algorithm based on

10、 formant parameters do not strictly limit the signal structure, he has the flexibility to describe the audio signal characteristics. This flexibility determines the parameters of formant-based algorithms, to meet the audio signal to facilitate access and control needs. KEY WORDS:第一章 语音信号处理基础1.1语音信号处

11、理概述 语音编码算法利用语音信号的冗余信息及某些人耳不敏感的信息,可以在低比特率上获得较高质量的重建语音,压缩编码一直是通信中的关键技术。语音信号研究者们一直在寻求一种在保持语音质量不显著下降的情况下使语音信号的编码比特率最小的方法,特别地,低比特率语音编码体制(比特率在4.8 kbs以下)因其广泛的需求而得到研究者的重视。 语音编码器的性能常常用比特率、延时、复杂度和质量4个属性来进行衡量,因此,在分析语音编码器的性能时,主要应该考虑这些属性。值得注意的是,这些属性之间不是孤立的,而是相互紧密联系的,例如,低比特率的编码器一般比高比特率的编码器有更大的延时、更高的算法复杂度和较低的语音质量。

12、因此在对各种编码算法进行取舍时,应根据实际应用环境,在这些属性之间进行权衡。共振峰参数编码算法在低码率的音频编码中应用越来越广泛。与基于时域波形的压缩算法相比,他在传输的过程中只需要传输构造信号所用的基频和共振峰参数,因此可以大大地降低传输的码率,实现低码率下的多媒体通信。而且,基于共振峰参数的算法无须严格限制信号的结构,他可以灵活地描述音频信号的特征。这一灵活性决定了基于共振峰参数的算法,可以满足对音频信号进行方便访问和控制的需要。 1.2语音信号处理的发展及应用 1.3语音与常用的语音分析方法 1.3.1语音的基本特性 1.3.2常用语音信号分析方法 1.4 语音共振峰估计的现状 第二章语

13、音共振峰估计技术2.1基础知识 在语音信号分析技术中,表征语音信号主要特征的是两个最基本的语音参数,即共振峰和基频。通常,共振峰定义为声道脉冲响应的衰减正弦分量,在经典的语音信号模型中,共振峰等效为声道传输函数的复数极点对。对平均长度约为17cm 声道(男性) ,在3kHz 范围内大致包含三个或四个共振峰,而在5kHz 范围内包含四个或五个共振峰。高于5kHz 的语音信号,能量很小。根据语音信号合成的研究表明,表示浊音信号最主要的是前三个共振峰。一个语音信号的共振峰模型,只用前三个时变共振峰频率就可以得到可懂度很好的合成浊音。共振峰信息包含在语音信号的频谱包络中,谱包络的峰值基本上对应与共振峰

14、频率。因此一切共振峰估计都是直接或间接地对频谱包络进行考察,关键是估计语音频谱包络,并认为谱包络中的最大值就是共振峰。与基音提取,共振峰估计也是表面看很容易但实际上又为许多问题所困扰。包括:虚假峰值、共振峰合并、高基音语音。语音信号共振峰估计,在语音信号合成、语音信号自动识别和低比特律语音信号传输等方面都起着重要作用。 由于实际的语音是准周期信号和实际上是短时间信号的频率分析,其频谱序列不是周期性冲激函数序列的采样,而是近似三角脉冲的采样,所以其傅里叶变换的幅度谱呈现高频衰减性质。从图3中可以观察到频谱序列的幅度谱是周期信号和高频衰减信号的乘积。实际语音分析过程中各时刻频谱序列的傅里叶变换后衰

15、减幅度差异很大,低频部分有时会出现分支脉冲的幅值大于下一个周期主脉冲的幅值,这对信号周期地分辨产生一定的干扰,而无法准确估计基频值。所以本文在确定基频时利用高频部分衰减幅度差异较小的特点,分析其周期特性并用来计算语音基频。共振峰参数包括共振峰频率、频带宽度和幅值,共振峰信息包含在语音频谱的包络中。因此共振峰参数提取的关键是估计语音频谱包络,并认为谱包络中的最大值就是共振峰。利用语音频谱傅里叶变换相应的低频部分进行逆变换,就可以得到语音频谱的包络曲线。依据频谱包络线各峰值能量的大小确定出第1第4共振峰,如图1所示。图1 (根据频谱包络确定共振峰)2.2语音信号的倒谱分析 语音的产生模型实际是一个

16、激励信号与声道冲激响应的卷积。对于浊音,激励信号可以有周期脉冲序列表示;对于清音,激励信号可以有随机噪声序列表示。语音的倒谱是将语音的短时谱取对数后再进行IDFT得到的,所以浊音信号的周期性激励反映在倒谱上是同样周期的冲激。借此,可从倒谱波形中估计出基周期。一般把倒谱波形中第二个冲激,认为即是对应激励源的基频。那如何求倒谱呢?首先计算倒谱.然后在预期的基音周期附近寻找峰值。如果倒谱的峰值超出了预先规定的门限,则输入峰的位置就是基音周期的良好估值.如果投有超出门限的峰值语音段定为浊音,则输入语音段定为清音,如果计算的是一个时变的倒谱,则可估计出激励源模型及基音周期随时间的变化.一般每隔1020m

17、s,计算倒谱一次,这是因为在一般语音中激励参数是缓慢变化的。数作为平滑后的值。为了更好地估计共振峰的频率,通常还要进行平滑处理。常见的平滑处理有线性平滑和中值平滑。中值平滑是将相邻的几个数从大到小排列,(通常取5个或3个),取中间的线性平滑则分别对这几个数进行加权并相加,加权系数之和为1。2.3提取共振峰的方法 2.3.1线性预测用于共共振峰估计 线性预测(Linear Prediction, LP)分析是最有效的语音分析技术之一,在语音编码,语音合成,语音识别等语音处理领域中得到了广泛的应用。语音线性预测的基本思想是:一个语音信号的抽样植可以用过去若干个取样值的线性组合类逼近。通过使实际语音

18、抽样值与线性预测抽样值的均方误差达到最小,可以确定唯一一组线性预测系数。 采用线性预测分析不仅仅能够得到语音信号的预测波形,而且能够提供一个非常好的声道。如果将语音模型看作激励源通过一个线性时不变系统(声道)产生的输出,那么可以利用LP分析对声道参数进行估值,以少量低信息率的时变参数精确地描述语音波形及其频谱的性质。此外,LP分析还能够对共振蜂,功率谱等语音参数进行估计,LP分析得到的参数可以作为语音识别的重要的参数之一。2.3.1.1线性预测的基本原理在语音信号处理中最常用的模型是全极点模型。 线性预测所包含的基本概念是,通过使实际语音抽样和线性预测抽样之间差值的平方和达到最小值,即进行最小

19、均方误差的逼近,能够决定惟一的一组预测器系数。如果一个随机过程用一个p阶全极点系统受白噪声激励产生的输出来模拟,设这个系统的传递函数为: 其中:p是预测器阶数,一般取10;G是声道滤波器增益。由此,语音抽样s(n)和激励信号e(n)之间的关系可用下列差分方程来表示: 即语音样点间有相关性,可以用过去的样点值预测未来样点值。对于浊音,激励e(n)是以基音周期重复的单位冲激;对于清音e(n)是平稳白噪声。在模型参数估计过程中,由于P阶线性预测是将语音信号过去的P个取样值S(n-1), S(n-2), , S(n-p)用线性预测系数a1-ap进行加权求和,从而预测信号的当前取样值S(n),若预测系数

20、值s(n)来表示,则有 预测误差式中:ai称为线性预测系数。我们要提取共振峰必须首先要求出其最佳预测系数ai2.3.2 倒谱法用于共振峰估计 1.倒谱与复倒谱共振峰参数包括共振峰频率、频带宽度和幅值,共振峰信息包含在语音频谱的包络中。因此共振峰参数提取的关键是估计语音频谱包络,并认为谱包络中的最大值就是共振峰。 复倒谱x(n)的Z变换取对数后的逆Z变换,即可表示为X(n)=Z-1LnZx(n)将x(n)进行Z变换后得到X(z),它包含幅度和相位信息。那么取复对数后将得到X(z)=Ln|X(z)|+jargX(z) 如果忽略了X(z)的相位信息,只是考虑其幅度信息,那么立刻可以得到倒谱c(n)的

21、定义,c(n)的定义为x(n)Z变换后的幅度的对数的逆Z变换,即 C(n)=Z-1ln|Z(x(n)|=Z-1ln|X(Z)|倒谱和复倒谱的特征系统D*.的唯一区别是倒谱的第二步运算用Ln|X(z)|代替了lnX(z),其特征系统结构见图2-1 Z。-Ln|.|-Z-1.- 图2-1 倒谱的特征系统结构2.复倒谱与倒谱的计算如果输入信号序列x(n)的Z变换X(z)的收敛域包含了单位圆在内,那么序列的傅里叶变换X(ejw)存在,复倒谱计算中的变换可以用傅里叶变换来替代。这样,就可以用高效的FFT酸法完成相关计算。 DFT-Ln|.|-IDFT-图2-2 复倒谱的计算方法如图2-2所示,若x(n)

22、为长度N的有限序列,首先经过DFT: , k=0-N-1然后X(K)取复对数: X(k)=LnX(k), k=0-N-1X(k)经过IDFT变化得到xp(n):, n=0-N-1这里,xp(n)是x(n)以为N周期进行周期延拓后构成的序列,即由于为无限成序列,故周期延拓后必然产生混叠失真,但由于至少是按的速度衰减,所以当取值较大的时候混叠失真并不是很明显。如果值本身不是太大的话,可以在序列后面添加若干个零来补足所需的长度,从而增加值。这样既可以有效的减少混叠失真,另一方面又可以使它所代表的离散时域频谱具有更佳的频率分辨率。对于倒谱的计算与复倒谱相类似,只是在取对数的时候采用下面的式子,与复倒谱

23、有所区别:C(k)=Ln | X(K) |, K=0-N-1同样,经过IDFT变换得到的Cp(n)是C(n)以N为周期进行周期延拓构成的序列: 一般来说,语音序列x(n)帧长为200左右,故N值一般可以取2n(256.512或1024)这样既具有足够高的分辨率和抗混叠能力,同时还能够使用高效的FFT算法。3.利用倒谱的特征参数提取我们知道只有浊音信号的倒谱中存在峰值,它的出现位置等于该语音段的基音周期。而清音的倒谱中不存在峰值。利用倒谱的这个特点,我们可以进行清浊音的判决,并且可以估计浊音的基音周期。倒谱用于共振峰的估计。对倒谱进行滤波,取出低时部分进行逆特征系统处理,我们就可以得到一个平滑的

24、对数谱函数。这个平滑的对数谱函数显示输入语音段的共振峰结构,同时谱的峰值对应于共振峰频率。通过对此对数谱进行峰值估计检测,我们可以估计出前几个共振峰的频率和强度。这样,对于浊音的声道特性,我们可以采用前三个共振峰来描述,清音不具有共振峰的特点,可以简单的用一个零点和一个极点的模型反映声道的特性,平滑对数谱中最高的峰值的位置定为极点,而零点的位置应使得低频和高频之间相对幅度得以保持。第三章 算法实现与仿真分析3.1具体算法实现 3.2.1线性预测算法实现 3.2.2倒谱算法实现 因此,我们可以利用倒谱计算其频谱,然后估计出其共振峰的位置:具体的程序如下: 首先我们录入一个浊音:S,利用wavre

25、ad从文件中读出次话音信息,并对其加上窗函数。程序如下:%加海明窗的信号幅度谱fs=8000;a,fs=wavread(AA.wav,16200,16600);t=(0:length(a)-1)*1000)/fs;ah=a.*hamming(length(a);figure(1);plot(t,ah);xlabel(t/ms);ylabel(加海明窗的信号幅度谱);hold on;%对数幅度FFTSIZE=8000;duishu=zeros(FFTSIZE,1);z0=fft(ah,FFTSIZE);duishu=20.*log10(abs(z0);figure(2);plot(duishu)

26、;xlabel(f/Hz);ylabel(对数幅度图);hold on;%复倒谱幅度z=fft(ah,400);fln=log10(abs(z);fdp=ifft(fln,400);figure(3);plot(n./fs).*1000,abs(fdp);axis(0,50,-0.1,1.6)xlabel(t/ms);ylabel(复倒谱幅度);hold on;%倒谱幅度dln=log10(abs(z);dp=ifft(dln,400);figure(4);plot(n./fs).*1000,abs(dp);axis(0,50,-0.1,1.6)xlabel(t/ms)ylabel(倒谱幅度图

27、)%倒谱低时部分dpdishi=dp(1:32);figure(5);plot(abs(dpdishi);xlabel(N);ylabel(倒谱低时部分)%倒谱高时部分dpgaoshi=dp(33:400);figure(6);plot(abs(dpgaoshi);xlabel(N);ylabel(倒谱高时部分);%复倒谱低时部分fdpdishi=fdp(1:32);figure(7);plot(abs(fdpdishi);xlabel(N);ylabel(复倒谱低时部分);%复倒谱高时部分fdpgaoshi=fdp(33:400);figure(8);plot(abs(fdpgaoshi);

28、xlabel(N);ylabel(复倒谱高时部分);3.3 仿真分析 图3-1 加海明窗的信号幅度谱图3-2 倒谱幅度分析: 由上面的仿真可以看出,当从文件中读取信号后可以得其幅度谱。用倒谱来估计共振峰,可明显看出起共振峰的位置。参考文献【1】朱勇,张宝富,李玉权码分多址光纤局域网A全国第八次光纤通信暨第九届集成光学学术会议论文集C 武汉,1997【2】朱勇,张宝富,李玉权光正交码的有限射影几何设计方法J通信学报,Vol.20No.1P.28-33【3】万谦多用户光纤CDMA系统性能的研究D南京:通信工程学院,第9期 No.9 September 1998【4】朱勇采用光处理的光纤CDMA系统

29、的实现与应用研究D南京:通信工程学院,1996【5】赵梓森光纤通信工程(修订本)M北京:人民邮电出版社,1994【6】刘忠英多用户光纤CDMA系统的关键技术及性能研究D南京:通信工程学院,1998【7】陈忠平多电平数字光接收机灵敏度计算J光通信技术,2003 Vol.24 No.5 P.79-84【8】张宝富,万谦.光码分多址(OCDMA)系统误码性能研究J.通信学报,2003 Vol.24 No.5 P.79-84【9】陈允,邱昆,张崇富.跳频扩时光码分多址系统误码率上限的研究J.电子科技大学学报,2004 Vol.33 No.6 P.743-745【10】吉建华, 范 戈. MW OCDM

30、A与WDM+OCDMA系统的性能分析. 上海交通大学学报J,2002 Vol.36 No.5 P.690-693【11】刘波,文忠,曾涯.MATLAB信号处理M.2006【12】杨祥林,光纤通信系统M.国防工业出版社,2002【13】李传起,基于2D-OOC的OCDMA 系统的地址码结构研究J.光子学报,2003年第1期【14】顾婉仪,全光通信网M.北京:北京邮电出版社,1999【15】陈怀琛,吴大正,高西全.MATLAB及在电子信息课程中的应用M.电子工出版社,2005【16】楼顺天,李博菡,基于MATLAB的系统分析与设计-信号处理M.西安电子科技大学出版社,1998【17】Habib Fathallah. Passive optical fast frequency-hop CDMA communications system. Journal of Lightwave Technology,1999 Vol.17 No.3 P.397-405致谢

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1