ImageVerifierCode 换一换
格式:DOCX , 页数:14 ,大小:434.15KB ,
资源ID:9688969      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/9688969.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(语音信号的采集与分析文献综述.docx)为本站会员(b****8)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

语音信号的采集与分析文献综述.docx

1、语音信号的采集与分析文献综述注:该文档为原创,仅提供参考语音信号的采集与分析的研究现状与进展 学生姓名:陈静波 指导教师:张石清 班级:11级电子信息2班 学号:*摘要: 语音信号的采集与分析技术是一门涉及面很广的交叉科学,它的应用和发展与语音学、声音测量学、电子测量技术以及数字信号处理等学科紧密联系。其中语音采集和分析仪器的小型化、智能化、数字化以及多功能化的发展越来越快,分析速度较以往也有了大幅度的高。本文简要介绍了语音信号采集与分析的发展史以及语音信号的特征、采集与分析方法,主要运用Matlab以及DSP等一些电脑软件进行仿真分析,最后加入噪声进行滤波处理,比较滤波前后的变化关键词:语音

2、信号,采集与分析,Matlab1.课题背景The speech processing studies have advanced rapidly in recent years spurred on by great progresses in the VLSI technologies and in the digitalization of the networks. This paper offers an overview of the most attractive techniques which have focused the recent researchs and deve

3、lopments in speech coding, recognition and synthesis areas. For speech compression, the emphasis is put on a family of techniques named code-excited linear prediction (CELP) which dominates current studies for rates in the range of 4 to 16 kbit/s. In terms of speech recognition, particular emphasis

4、is placed on the ollowing three elements which are essential in order to increase the robustness of the systems : telephone line adaptation, rejection of parasite noise and out-of- vocabulary words, and keyword spotting. In terms of text-to-speech synthesis, the PSOLA (pitch synchronous overlap and

5、add) technique is outlined herein. This echnique gives rise to a new generation of synthesis systems which produce speech with very natural timbre. The analysis of current tendencies for each area allows to suggest attractive directions for future research.语音信号采集与分析是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性学科

6、,与心理学、生理学、通信与信息科学、计算机科学以及模式识别和人工智能等学科 都有着非常密切的关系。对语音信号进行采集与分析的研究一 直是数字信号处理技术发展的重要推动力量,这是因为许多新 的处理方法的提出,首先是在语音信号处理中获得成功,然后再 推广到其他领域。语音信号的分析与处理作为一个重要的研究 领域,随着通信技术的发展,语音采集和分析仪器的数字化、智 能化、小型化和多功能化的发展越来越快,其分析速度也有了大 幅度的提高。但现在市场上的语音分析系统价格昂贵、操作复 杂,且仅能用于特定的测量分析项目。基于上述不足,设计一款基Maflab的语音信号采集与分析系统1,其具有价格便宜、使用方便、通

7、用性强等优点。 2. 研究现状语音信号的采集与分析作为一个重要的研究领域,已经有很长的研究历史。但是它的快速发展可以说是从1940年前后Dudley的声码器(vocoder)和potter等人的可见语音VisibleSpeech)开始的1。1952年贝尔(Bell)实验室的Davis等人首次研制成功能识别十个英语数字的实验装置。1956年Olson和Belar等人采用8个带通滤波器组提取频谱参数作为语音的特征,研制成功一台简单的语音打字机。20世纪60年代初由于Faut和Steven的努力,奠定了语音生成理论的基础,在此基础上语音合成的研究得到了扎实的进展。20世纪60年代中期形成的一系列数字

8、信号处理方法和技术,如数字滤波器、快速傅里叶变换(FFT)等成为语音信号数字处理的理论和技术基础。在方法上,随着电子计算机的发展,以往的以硬件为中心的研究逐渐转化为以软件为主的处理研究。然而,在语音识别领域内,初期有几种语音打字机的研究也很活跃,但后来已全部停了下来,这说明了当时人们对话音识别难度的认识得到了加深,所以1969年美国贝尔研究所的Pierce感叹地说“语音识别向何处去?”。到了1970年,好似反驳Pierce的批评,单词识别装置开始了实用化阶段,其后实用化的进程进一步高涨,实用机的生产销售也上了轨道2。此外社会上所宣传的声纹(VoicePrint)识别,即说话人识别的研究也扎扎实

9、实地开展起来,并很快达到了实用化的阶段.到了1971年,以美国ARPA(AmericanResearchProjectsAgency)为主导的“语音理解系统”的研究计划也开始起步。这个研究计划不仅在美国国内,而且对世界各国都产生了很大的影响,它促进了连续语音识别研究的兴起。历时五年的庞大的ARPA研究计划,虽然在语音理解、语言统计模型等方面的研究积累了一些经验,取得了许多成果,但没能达到巨大投资应得的成果,在1976年停了下来,进入了深刻的反省阶段。但是,在整个20世纪70年代还是有几项研究成果对语音信号处理技术的进步和发展产生了重大的影响。这就是20世纪70年代初由板仓(Itakura)提出

10、的动态时间规整(DTW)技术,使语音识别研究在匹配算法方面开辟了新思路;20世纪70年代中期线性预测技术(LPC)被用于语音信号处理,此后隐马尔可夫模型法(HNMM)也获得初步成功,该技术后来在语音信号处理的多个方面获得巨大成功;20世纪70年代未,Linda、Buzo、Gray和Markel等人首次解决了矢量量化(VQ)码书生成的方法,并首先将矢量量化技术用于语音编码获得成功。从此矢量量化技术不仅在语音识别、语音编码和说话人识别等方面发挥了重要作用,而且很快推广到其他许多领域。因此,20世纪80年代开始出现的语音信号处理技术产品化的热溯,与上述语音信号处理新技术的推动作用是分不开的。20世纪

11、80年代,由于矢量量化、隐马尔可夫模型和人工神经网络(ANN)等相继被应用于语音信号处理,并经过不断改进与完善,使得语音信号处理技术产生了突破性的进展。其中,隐马尔可夫模型作为语音信号的一种统计模型,在语音信号处理的各个领域中获得了广泛的应用。其理论基础是1970年前后,由Baum等人建立起来的,随后,由美国卡内基梅隆大学(CMU)的Baker和美国IBM公司的Jelinek等人将其应用到语音识别中。由于美国贝尔实验室的Babiner等人在20世纪80年代中期,对隐马尔可夫模型深人浅出的介绍,才使世界各国从事语音信号处理的研究人员了解和熟悉,进而成为一个公认的研究热点,也是目前语音识别等的主流

12、研究途径2。进入20世纪90年代以来,语音信号采集与分析在实用化方面取得了许多实质性的研究进展。其中,语音识别逐渐由实验室走向实用化。一方面,对声学语音学统计模型的研究逐渐深入,鲁棒的语音识别、基于语音段的建模方法及隐马尔可夫模型与人工种经网络的结合成为研究的热点。另一方面,为了语音识别实用化的需要,讲者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题倍受关注。目前语音信号的采集和处理主要基于仿真软件如:MATLAB仿真,以及基于DSP数字化模块处理、小波变换对语音信号的时域和频域的分析处理2.1 基于MATLAB语音信号的采集过程以及分析过程MATLAB中提供了强大的数据采

13、集工具箱3可满足控制声卡对数据进行采集的要求。语音数据采集过程如图1所示 在Matlab环境中,可以通过多种编程方法驱动声卡实现对语音信号的采集与播放4,它的信号处理和分析工具箱为语音信号的分析提供了丰富的功能函数,利用这些功能函数可以快 捷地完成语音信号的分析和处理。使用Matlab语言编程可以将声音文件变换为离散的数据文件,然后利用其强大的矩阵运算能力处理数据,如数字滤波、时域和频域分析、傅里叶变换、各种分析图的呈现和声音回放等。在Matlab环境中,可以通过以下3种方法驱动声卡:一是将声卡作为对象处理采集语音信号;二是调用Wavrecord功能函数采集语音信号;三是运用Audioreco

14、rder对象采集语音信号语音信号是一种非平稳的时变信号,它携带着各种信息。在语音编码、语音识别语音合成和语音增强等一系列语音处理中都需要提取语音信号中包含的各种信息。语音信号分析的目的在于方便而有效地提取并表示语音信号所携带的各种信息。语音信号分析可以分为时域和变换域等处理方法5。信号的频域分析是研究信号特征的重要手段之一,通常是对信号进行傅里叶变换,这一方法在许多领域都发挥了重要的作用。在进行时域分析时,要对输入的信号进行预加重,其目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率。一段语音信号预加重前后的频谱如2图所示。 图2 一段语音滤波前后的频谱对比预加重前和

15、预加重后的语音信号频谱,可以看出,预加重后的频谱在高频部分的幅度得到了提升,信号的频谱变得平坦。语音是一个受准周期脉冲或随机噪声源激励的线性系统的输出,输出频谱是激励源频谱与声道系统频率响应的乘积。激励源和声道系统的频率响应都是随时间变化的,因此一般标准的傅里叶变换虽然适用于周期和平稳随机信号的表示,但不能直接用于语音信号。由于语音信号可以认为在短时间内近似不变,因而可以采用短时分析法。我们将每个短时的语音称为一个分析帧。一般帧长取10 m830 m8。我们采用一个长度有限的窗函数来截取语音信号形成分析帧。通常会采用矩形窗和汉明窗,图3是加不同窗函数时的语音波形及频谱图 图3 加不同窗函数时的

16、语音波形及频谱图通过对比矩形窗和汉明窗及其频谱可知,采用矩形窗时,整个频谱图显得比较破碎,而当加汉明窗时,得到的短时频谱要平滑得多。因而在语音频谱分析中汉明窗用得比较普遍 数字滤波器的设计处理:采用数字滤波器来对语音信号进行去噪处理,可选用窗函数法设计FIR数字滤波器。图4为窗函数法对语音信号进行去噪前后的波形及频谱图,也可选用双线性变换法设计巴特沃斯滤波器,图5为双线性变换法对语音信号进行去噪前后的波形及频谱图 图4 窗函数法去噪前后语音信号波形及频谱图对比 图5 双线性变换法去噪前后语音信号波形及频谱图对比 对比以上两种方法设计的滤波器,可得出以下结论:窗函数法中相位响应有严格的线性,不存

17、在稳定性问题,设计简单。双线性变换法中不会出现由于高频部分超过折叠频率而混淆到低频部分去的现象,但会产生频率混跌现象,使数字滤波器的频响偏移模拟滤波器的频响。在对语音信号进行滤波的时候,由于人的语音信号的能量主要集中在低频部分,双线性低通滤波器的滤波效果最好,滤波后的语音信号失真比较小6。结论:本系统运用Matlab软件实现了对语音的采集与分析7,分别对语音信号的时域与频域进行了分析,对所采集的语音信号加人干扰噪声,对加入噪声的信号进行播放,并进行时域和频域分析。最后设计了滤波器,对有噪的语音信号进行去噪处理,充分利用了Matlab强大的数值计算功能、方便的声卡控制功能和信号分析能力,完成了设

18、计的目的。该系统在语音信号的采集与分析的实际应用中取得了良好的效果,具有较好的应用前景2.2 基于DSP语音信号的采集以及分析过程系统采用1片TMS320VC5402芯片和2片TLC320AD50C的连接电路实现语音信号采集功能,其接口电路如图6所示8-9。 图6音信号采集电路 电路中的DSP工作在被动接收数据模式下,AD50C工作在主动模式下。电路连接中选用TMS320-VC5402处理器的McBSP实现与TLC320AD50C之间的数据传输,由C5402的多通道缓冲串口(McBSP)的接收数据硬中断(BRINTl或BRlNT0)激活中断服务程序来完成数据的接收。7rLC320AD50C的主

19、时钟频率由DSP提供,引脚MCLK接DSP的CLKOUT脚,TLC320AD50C提供可与DSP通信的移位时钟SCLK和帧同步脉冲FS。AD50C的采样频率Z与AD50C控制寄存器4的B位有关。选择TLC320AD50C的INP和INM作为MD变换的语音信号输入端,ADC后的数据通过DOUT引脚传送到McBSP的DR,同时可通过DIN接收来自McBSP的数据。而且通过对MS脚配置高电平输入(依据DSP的电源选择可连接33V),使第一个TLC320AD50C配置为主片,设置第二片TLC320AD50C的MS脚为接地,使其配置为从片,1个主片最多可以带3个从片,并且主片AD50C的FSD脚接至从片

20、的FS脚。整体电路设计中还设置了硬件上电复位功能。因为语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频段(大约在800Hz以上)会按照-6dBoct跌落。在采样和量化后,要增加1个6dBoct的预加重滤波器提升高频部分,使语音信号频谱变得平坦,便于随后频谱分析或者声道参数分析。预加重数字滤波器一般是一阶,其传递函数为H(z)=1-z-1 其中,值一般在092-096之间,系统中=O9410。图6中,ADC后的语音数据经过由电阻R和电容C组成的RC网络就是本系统中所采用的预加重滤波器电路部分,R和C的大小依据加重时间确定。2.3 语音信号数字化及其预处理为了将原始模拟语音信号变为数字信号,必

21、须经过采样和量化两个步骤,从而得到时间和幅度上均为离散的数字语音信号。根据采样定理,当采样频率大于信号的两倍带宽时,采样过程不会丢失信息,利用理想滤波器可从采样信号中不失真地重构原始信号波形。语音信号是随时间而变的一维信号,它所占据的频率范围可达 l0 kHz 以上,但是对语音清晰度和可懂度有明显影响的成分,最高频率约为5.7 kHz。在将语音信号进行数字化前,必须先进行防混叠滤波,滤除高于1/2 采样率的信号成分或噪声。这种防混叠滤波通常与模数转换器做在一个集成块内,目前,市面上购买到的普通声卡在这方面做的都很好,语音声波通过话筒输入到声卡后直接获得的是经过防混叠滤波、A/D 变换、量化处理

22、的离散的数字信号11-12。文中后续研究采用的声音数据的采集就是通过声卡及录音程序将外部声源信号以wave形式存储在系统硬盘上完成的。同样回放是通过语音播放程序将处理后的数据经过声卡输出到外部设备上或直接播放完成的。语音信号是一种典型的非平稳信号,它的均值函数U(x)和自相关函数R(x1 x2 ) 都随时间而发生较大的变化13。但是,语音是由十发声气流冲击发音器官产生物理振动而产生的,发音器官形状的变化与声音的变化速度相比较是很缓慢的过程。因此,在信号处理时,往往将语音信号作为一个短时的平稳过程来处理,即假定在一段时间(2 030 ms) 内,发音器官的形状( 频谱参数和物理特征) 保持不变。

23、实践证明,这种假设与实际情况是相符合的。因此,实际的语音预处理中可以采用平稳过程的分析处理方法:先将连续的语音数据流用一个窗函数序列分割成一些连续段,然后对每一段( 帧) 进行处理。大部分情况下,语音信号处理的帧长都是取20 ms。在取数据时,前一帧和后一帧的交叠部分成为帧移,帧移与帧长的比值一般取为 01/2。 为了避免分帧时产生的截断效应,实际上已取出的一帧语音Sn要经过加窗处理,即用一定的窗函数Wn与Sn相乘,从而形成加窗语音。在语音信号数字处理中常用的窗函数是矩形窗和海明窗The object of the standardization process started by ITU-

24、T in 1988 was to provide a single 16 kbit/s coding algorithm for general use, offering performance at least equal to that of ADPCM speech coding at 32 kbit/s. In addition to quality constraints, ITU-T sets a maximum encoder-decoder time-delay of 5 ms. The ITU-T quality and time-delay targets could b

25、e met only by using digital signal processing techniques both more powerful but more complex than the ADPCM technique, and employing nalysis-by-synthesis with a perceptual criterion and low-delay linear prediction. The LD-CELP coding technique was put forward by AT&T 14nd adopted by ITU-T in Recomme

26、ndation G.728.his article discusses only the major modifications to the basic CELP technique which constitute the innovative features of the LO-CELP coder. - Synthesis filter and its computation. The synthesis filter model does not include a long-term predictor, but the short-term predictor is a 50t

27、h order filter to improve the quality of high-pitched voices. To achieve the low time-delay, the prediction coefficients are no longer transmitted but backward computed every 20 samples by linear prediction 15 on the constructed signal at the coder and at the decoder (by analogy with ADPCM coding, i

28、n which the coder also includes a local decoder)2.3 Application to Automatic Speech RecognitionNext we present the evaluation results for different audi-torily/motivated spectro-temporal features and SEs. The block diagram of the ASR system used in the experimen-tation is depicted in Fig. 16.Feature

29、 ExtractionTo obtain the speech features, a conventional SS was applied first to the noisy signal in order to emphasise the speech signal over the noise. Then auditory filterbank analysis was performed over this (partially) denoised spectrogram.Two different auditory filterbanks were considered: a s

30、et of triangular Mel-scaled filters ( The Mel Scale section) and a set of Gammatone filters ( ERB and ERB-Rate section). For either type, speech was analysed using a frame length of 25 ms and a frame shift of 10 ms after pre-emphasis and Hamming windowing.In order to decorrelate the filterbank log-e

31、nergies obtained in the previous stage, a Discrete Cosine Transform (DCT) was computed over them, yielding MFCC or GTC, respectively. Of these, coefficients C0 to C12 and their corresponding delta ( D ) and acceleration ( DD) coefficients were taken yielding feature vectors of 39 components. The las

32、t step in the feature extraction stage was to apply mean and variance normalisation on either type of coefficient.ISOLET Database and TestbedFor each type of features, we trained and tested different MLP/HMM hybrid speech recognisers following the ISO-LET testbed.ISOLET is a database of letters of the English alphabet spoken in isolation 17. The database consists of 7 800 spoken letters (two productions of each letter by each of 150 different speakers) at a sample rate of 16KHz. Spe-cifically

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1