基于MATLAB的语音处理语音合成.docx

资源描述

基于MATLAB的语音处理语音合成.docx

《基于MATLAB的语音处理语音合成.docx》由会员分享，可在线阅读，更多相关《基于MATLAB的语音处理语音合成.docx（27页珍藏版）》请在冰豆网上搜索。

基于MATLAB的语音处理语音合成.docx

基于MATLAB的语音处理语音合成

基于MATLAB的语音信号处理

摘要：

语音信号处理是目前发展最为迅速的信息科学研究领域中的一个，是目前极为活跃和热门的研究领域，其研究成果具有重要的学术及应用价值。

语音信号处理的研究，对于机器语言、语音识别、语音合成等领域都具有很大的意义。

MATLAB软件以其强大的运算能力可以很好的完成对语音信号的处理。

通过MATLAB可以对数字化的语音信号进行时频域分析，方便地展现语音信号的时域及频域曲线，并且根据语音的特性对语音进行分析。

本文主要研究了基于MATLAB软件对语音信号进行的一系列特性分析及处理，帮助我们更好地发展语音编码、语音识别、语音合成等技术。

本文通过应用MATLAB对语音信号进行处理仿真，包括短时能量分析、短时自相关分析等特性分析，以及语音合成等。

关键词：

语音信号；MATLAB；特性分析；语音合成

VoicesignalprocessingbasedonMATLAB

Abstract:

Voicesignalprocessingisoneofthemostrapidlydevelopmentscienceininformationscienceresearchareas.Itiscurrentlyaveryactiveandhotresearchfield.Theresearchresultsofvoiceprocessinghaveimportantacademicandapplicationvalue.Researchonvoicesignalprocessing,isofvairygreatsignificanceforthemachinelanguage,voicerecognition,voicesynthesisandotherfields.Withitspowerfulcomputingability,MATLABsoftwarecancompletetheprocessingofvoicesignalverywell.ThroughtheMATLAB,thedigitalspeechsignalcanbeanalyzedbycarriedoutintimedomain,frequencydomain,whichconvenientlyshowthecurveofthevoicesignal.Sowecandosomecharacteristicanalysisofthevoicesignalaccordingtotheoscillograph.ThispapermainlystudiesontheanalysisandprocessingofvoicesignalbasedonMATLABsoftware,whichhelpustohaveabetterdevelopmentofvoicecoding,voicerecognition,andvoicesynthesistechnology.TheapplicationofMATLABonsimulation,analysis,includinganalysisofshort-timeautocorrelationanalysis,characteristicsofshort-timeenergyofvoicesignal.voicesynthesiswithMATLAB.

Keywords:

Voicesignal;MATLAB;characteristicanalysis;voicesynthesis

引言

人类交换信息最方便的、最快捷的一种方式是语言。

在高度发达的信息社会中，用数字化的方法进行语音的识别、合成、增强、传送和储存等是整个数字化通信网中最重要、最基本的组成部分之一。

数字电话通信、高音质的窄带语音通信系统、智能机器人、声控打字机、语言学习机、自动翻译机等，都要用到语音信号处理技术，随着现在集成电路和微电子技术的飞速发展，语音信号处理系统逐步走向实用化[1]。

语音信号处理是一个新兴的交叉学科，是语音和数字信号处理两个学科的结合产物。

与认知科学、心理学、语言学、计算机科学、模式识别和人工智能学科有着密切的联系。

语音信号处理技术的发展依赖于这些学科的发展，语音信号处理技术的进步也将促进这些领域的进展。

语音信号处理目的是得到一些语音特征参数，以便高效的传输或存储，或通过某种处理以达到特定目的，如语音合成，辨识出讲话者、识别出讲话的内容等。

随着现代科学技术和计算机技术的发展，除了人与人的自然语言的沟通，人机对话和智能机领域也开始使用语言。

这些人造的语言拥有词汇，语法，语法结构和语义内容等。

语音信号处理的研究可以追溯到1876年贝尔电话的发明，其在真正意义上首次用声电，电声转换技术实现了远距离语音传输。

1939年HomerDudley提出并研制成功第一个声码器，奠定了语音产生模型的基础，其在语音信号处理领域具有划时代的意义。

在20世纪40年代，一种语言声学的专用仪器语谱图仪问世。

它可以让你把语音的时变频谱用语图表示出来，得到一个“可见的语言”。

1984年哈斯金斯实验室研制成功语音回放机，此仪器可以自动转换手工绘制的语谱图成为语言，并进行语音合成。

随着计算机的出现，语音分析技术可以在计算机上进行。

此时语音信号处理无论是在基础研究或在技术应用，都已取得了突破性进展。

现在语音信号可分为三个主要分支，即语音编码，语音识别和语音合成技术[10]。

语音编码技术。

语音编码的目的就是在保证一定语音质量的前提下，尽可能降低编码比特率来节省频率资源。

语音编码技术的研究开始于1939年，HomerDudley提出并实现了在低带宽电话电报上传输语音信号的通道声码器，第一个研制成功了语音编码技术。

到20世纪70年代，国际电联于1972年发布了64kbit/s脉冲编码调制（PCM）语音编码算法的G.711建议，它被广泛应用于数字交换机、数字通信等领域，从而占据统治地位。

在1995年11月ITU-TSG15全会上共轭代数码激励线性预测（CS-ACELP）的8kbit/s语音编码G.729建议被通过，并于1996年6月ITU-TSG15会议上通过G.729附件A：

减少复杂度的8kbit/sCS-ACELP语音编解码器，正式成为国际标准[1]。

语音识别技术。

语音识别的研究开始于20世纪50年代贝尔实验室的Audry系统，它是第一个可以识别10个英文数字的语音识别系统，1959年Fry和Denes等人采用频谱分析和模式匹配来进行识别决策构建音素识别器来辨别9个辅音和4个元音。

20世纪60年代末单语音识别的研究取得实质性进展，并将其作为一个重要的课题。

一方面是因为计算机的计算能力有了迅速的提高，计算机能够提供实现复杂算法的硬件、软件；另一方面，数字信号处理在当时有了蓬勃发展，从而自20世纪60年代末开始引起了语音识别的研究热潮。

语音合成技术。

第一个合成器是在1835年由W.vonKempelen发明，经过Weston改进的机械讲话机。

机器完全模仿人的生理过程，分别应用了特别设计的哨和软管模拟肺部空气动力和口腔。

HomerDudley在1939年发明了第一台电子语音合成器，它不是一个简单的生理过程的模拟，而是在电子电路基础上来实现语音产生源。

本文关于语音信号处理方面主要研究了语音合成。

语音合成已经在许多方面得到了实际应用，方便了人们的生活，创造了很好的经济效益和社会效益，如公共交通中的自动报站、各种场合的自动报警、电话自动查询服务、文本校对中的语音提示等。

综观语言合成技术的研究，语音合成发展方向为提高合成语音的自然度、丰富合成语音的表现力、降低语音合成技术的复杂度等。

第一章语音信号处理基本知识与仿真环境介绍

1.1语音信号处理基本知识

1.1.1语音信号分析技术

语音信号分析是语音信号处理的前提和基础，只有分析出可表示语音信号本质特征的参数，才有可能利用这些参数进行高效的语音通信、语音合成和语音识别等处理。

而且，语音合成的音质好坏，语音识别率的高低，也都取决于对语音信号分析的准确性和精确性。

因此语音信号分析在语音信号处理应用中具有举足轻重的地位。

贯穿于语音分析全过程的是“短时分析技术”。

语音信号从整体来看其本质特征的参数是随时间而变化的，所以它是一个非稳态过程，不能用处理稳态信号的数字信号处理技术对其进行分析处理。

但是，由于不同的语音是由人的口腔肌肉运动构成声道某种形状而产生的响应，而这种口腔肌肉运动相对于语音频率来说是非常缓慢的，所以从另一方面看，虽然语音倍号具有时变特性，但是在一个短时间范围内（一般认为在10～30ms的短时间内），其特性基本保持不变即相对稳定，因此可以将其看作是一个准稳态过程，即语音信号具有短时平稳性。

所以任何语音信号的分析和处理必须建立在“短时”的基础上．即进行“短时分析”，将语音信号分为一段一段来分析其特征参数，其中每一段称为一“帧”，帧长一般取为10～30ms。

这样，对于整体的语音信号来讲，分析出的是由每一帧特征参数组成的特征参数时间序列[4]。

根据所分析参数的性质的不同，可将语音信号分析分为时域分析、频域分析、倒领域分析等；时域分析方法具有简单、计算量小、物理意义明确等优点，但由于语音信号最重要的感知特性反映在功率谱中，而相位变化只起着很小的作用，所以相对于时域分析来说频域分析更为重要。

1.1.2语音信号处理理论依据

采样定理。

在进行模拟/数字信号的转换过程中，当采样频率

大于信号中最高频率

的2倍时，采样之后的数字信号完整地保留了原始信号中的信息，一般实际应用中保证采样频率为信号最高频率的5~10倍。

采样定理又称奈奎斯特定理。

采样位数。

采样位数即采样值或取样值，用来衡量声音波动变化的参数，是指声卡在采集和播放声音文件时所使用数字声音信号的二进制位数。

采样频率。

采样频率是指计算机每秒钟采样多少个声音样本，是描述声音文件的音质、音调，衡量声卡、声音文件的质量标准。

采样频率越高，即采样的间隔时间越短，则在单位时间内计算机得到的声音样本数据就越多，对声音波形的表示也越精确。

采样频率与声音频率之间有一定的关系，根据奈奎斯特理论，只有采样频率高于声音信号最高频率的两倍时，才能把数字信号表示的声音还原成为原来的声音。

这就是说采样频率是衡量声卡采集、记录和还原声音文件的质量标准。

采样位数与采样频率的关系。

采样位数和采样率对于音频接口来说是最为重要的两个指标，也是选择音频接口的两个重要标准。

无论采样频率如何，理论上来说采样的位数决定了音频数据最大的力度，每增加一个采样位数相当于力度范围增加了6dB，采样位数越多则捕捉到的信号越精确，对于采样率来说你可以想象它类似于一个照相机，44.1khz意味着音频流进入计算机时计算机每秒会对其拍照达441000次。

显然采样率越高，计算机提取的图片越多，对于原始音频的还原也越加精确。

1.2实现平台MATLAB7.0介绍

1.2.1MATLAB软件基本介绍

MATLAB产生于1982年，是一种效率高、功能强的数值计算和可视化计算机高级语言，它将信号处理、数值分析和图形显示结合一体，形成了一个极其方便又强大的操作环境，为科学研究、工程设计以及必须进行有效数值计算的众多科学领域提供了一种全面的解决方案，并在很大程度上摆脱了传统非交互式程序设计语言的编辑模式，代表了当今国际科学计算软件的先进水平[7]。

MATLAB7.0是美国MathWorks公司出品的商业数学软件，用于算法开发、数据可视化、数据分析以及数值

展开阅读全文

基于MATLAB的语音处理 语音合成.docx

基于MATLAB的语音处理语音合成.docx