语音信号的盲分离要点.docx-资源下载

语音信号的盲分离要点.docx

1、语音信号的盲分离要点摘要盲源分离（BSS）是一种多维信号处理方法，它指在未知源信号以及混合模型也未知的情况下，仅从观测信号中恢复出源信号各个独立分量的过程。盲源分离已近成为现代信号处理领域研究的热点问题，在通信、语音处理、图像处理等领域具有非常重要的理论意义和广泛的应用价值。本文主要内容如下：首先，介绍了语音信号的产生机理，特性，基本特征及语音信号处理的理论基础，为后文语音信号盲分离奠定了基础。其次，从盲源分离的理论出发，研究了盲分离的数学模型以及基本方法，并对盲分离的目标准则、研究领域以及研究内容进行了探讨。然后，引出了独立分量分析（ICA），并对其的概念以及相关的知识进行了研究，探讨了IC

2、A研究中的主要问题，列出了ICA的3种基本算法：信息极大化、负熵最大化和最大似然估计法。最后，用FastICA对三路语音信号进行了盲分离的仿真并求出了混合矩阵和分解矩阵，再接着进行了频谱，幅度，相位的分析，找出了FastICA的特点。关键词：盲源分离；独立分量分析；频谱分析 AbstractBlind source separation (BSS) is a multidimensional signal processing method, it refers to the unknown source signal and mixed model also unknown cases,

3、only from observation signal in recovering the source signal each independent component of the process. Blind source separation has nearly become modern signal processing to the research of problems, in communication, speech processing, image processing area is very important theoretical significanc

4、e and broad application value. This paper mainly content as follows:First of all, introduced the speech signal generation mechanism, characteristics, basic characteristics and the speech signal processing theory foundation for the blind source separation after the speech signal to lay the foundation

5、.Second, the blind source separation from the theory, the mathematical model of the blind source separation and basic methods, and separation goal standards, research field and the research content are discussed.Then, leads to a independent component analysis (ICA), and the concept and the related k

6、nowledge, this paper analyses the main problems in the study of ICA, lists the three basic ICA algorithm: information maximization, negative entropy maximization and maximum likelihood estimate.Finally, by the use of FastICA three road voice signal the separation of the simulation and get the mixing

7、 matrix and decomposing matrix, and then the spectrum, amplitude, phase analysis, find out the FastICA characteristic.Key words: the blind source separation; Independent component analysis; Spectrum analysis第一章语音信号概述 1.1 忙语音信号分离技术的背景及意义近些年来，混合语音信号分离成为信号处理领域的一个研究热点。在信号处理中我们经常遇到这样的问题，如何从一组未知的随机信号经过一

8、组混合系统得到的观测信号中恢复出这些原始信号，如果重构过程中没有混合系统和原始信号的先验知识，我们就城该过程为盲分离。其理论也不断运用到图像、通讯、医学等领域1.1.1 语音产生机理发声器官分为三部分：肺、喉(声门)和声道。肺的作用相当于一个动力源，将气流输送到喉部。喉将来自肺部的气流调制为周期脉冲或类似随机噪声的激励声源，并送入声道。喉在发声中的作用是控制声带的开启和闭合，使得气流形成一系列脉冲，声带振动的频率决定了声音频率的高低。由声带振动产生的音统称为浊音，而不由声带振动产生的音统称为清音。声道包括口腔、鼻腔和咽腔，它们对声源的频谱进行整形而产生不同音色的声音。声道的谐振频率称为共振峰频

9、率，它与声道的形状和大小有关，每种形状都有一套共振峰频率作为其特征，改变声道的形状就产生不同的语音，因而，当声道形状改变时，语音信号的频谱特性就随之改变。声源经过声道润色频谱后，最后从嘴唇或鼻孔或同时从嘴唇和鼻孔辐射出来，形成可传播的声波，被人感知为语音。综上所述，语音由空气流经过声门激励，经由声道调制，经过嘴辐射出去，完整的语音信号产生的数学模型可以用三个子模型：激励模型、声道模型和辐射模型的串连来表示。图1.1 语音信号产生模型1.1.2 语音的特性(1)短时平稳性根据对语音信号的研究，语音是一种时变的、非平稳的随机过程，但另一方面，由于人类发声系统的生理结构的变化速度是有一定限度的，在

10、一段短时间内(1030ms)人的声带和声道形状基本稳定，并且大部分情况下，激励源参数也是如此，因此可认为短时间内语音特征是不变的，语音的短时性特点是对语音信号进行分析和处理的基础。(2)浊音和清音语音分为浊音和清音两大类，二者从语音产生的机理上有明显的差异，前者由周期性脉冲产生，后者由随机噪声产生，因而在特征上也有明显的区别。浊音在时域上呈现出明显的周期性，在频域上具有共振峰结构而且能量大部分集中在较低频段内。清音则完全不同，它没有明显的时域和频域特征，类似于白噪声。浊音在频谱上有共振峰结构，能量重要集中在低频区(1000Hz)。1.2 语音信号的基本特征（1）语音信号的时域特征由于说话人在不

11、同时刻的说话内容千变万化，而且没有确定的规律性，因此语音信号是时变的。但由于人类的发声器官的变化速率有限，声道在短时间内(5500ms)处于平稳状态，因此语音信号具有短时平稳性。而这种短时平稳性，也是语音处理中许多理论和算法的必要前提。由于人们在说话时，各个音节或单词之间总会存在着时间上的间隔，因此语音信号在时域上存在着有音段和无音段。通过有音段和无音段的检测，可用去除带噪语音中平稳的噪声。此外，无音段所占比例越大，语音的稀疏性越好，利用这一特点，产生了许多基于语音稀疏性的增强算法。（2）语音信号的频域特征语音信号的频谱能量主要集中在300-3400Hz范围内。语音本身由浊音和清音组成，浊音含

12、有语音信号的大部分能量，其频谱分布主要集中在低频段中的基音频率及其各次谐波上，呈现出明显的周期性；清音则表现出随机性，在频谱上类似于白噪声。（3）语音信号的统计特征语音信号可以看作是一个遍历性随机过程的样本函数，其统计特性可用其幅度的概率密度函数来描述。对语音信号的统计特性的研究表明，其幅度分布的概率密度函数可以用两种近似的表达式来较好地描述，其中一种是伽马(Gamma)分布 (1-1)式中k是一个常数，与标准差仃，有下列关系 (1-2) 另一种是拉普拉斯分布(Laplacian)分布 (1-3)式中，口是一个由标准差仃。决定的常数，即 (1-4)相对说来，伽马分布对语音信号的幅度分布描述更为

13、精确一点，而拉普拉斯分布的函数形式则更加简洁。1.3语音信号处理的理论基础进行频谱分析时，在时域数据进行短时FFT处理之前都要进行加窗处理。在FFT处理之后，普通频谱分析可以进行频域上的滤波处理，从而使频谱更加平滑。为了得到各种音频信号的特技效果，也需要对各种变声算法进行研究。（1）窗的选择一般来讲，一个好的窗函数的标准是：在时域因为是语音波形乘以窗函数，所以要减小时间窗两端的坡度，使窗口边缘两端不引起急剧变化而平滑过渡到零，这样可以使截出的语音波形缓慢降为零，减小语音帧的阶段效应；在频域要有较宽的3dB带宽以及较小的边带最大值。另外一方面，不同人的基音周期变化很大，主要集中在 70Hz10

14、00Hz。所以窗一般选择在10ms20ms之间。此外，为了避免在加窗时加入多余的高频信号，应该使用平滑窗，例如汉明窗。（2）变声算法的讨论语声可以分为声带振动的浊音部分、声带不振动的清音部分以及静音部分。在这里，我们主要是改变原始话音的基音频率，以达到变声的目的。第一种方法是不修改采样数据，仅改变Fs 。这种方法操作非常简便。第二种方法是直接乘以一个余弦函数，把语音信号频段搬移到较高频段，以达到变声的目的。第三种方法是插值以后重新抽样。基本过程是这样的：已知当前帧帧长FL（采样）点，采样频率Fs ，目标变换帧频率Fs，则目标变换帧帧长FL=FL*Fs/Fs 。记Rate = Fs/Fs ，

15、那么FL=FL * Rate，其中Rate 为基频变化率。变换开始时，先求得FL 和FL的最小公倍数AL，再将原音频帧插值为AL点，最后将插值后的语音段重新抽样，得到长FL点的变声后的数据。三种方法操作起来都还比较简单，但为了便于分析时域、频域特效，本设计选择了通信中常用的调制方法，即方案二。（3）Matlab基础MATLAB是Matrix Laboratory的缩写，由MathWorks公司于1984年正式推出，内核采用C语言编写。MATLAB是一个包括数值计算，高级图形和可视化的集成科技计算环境，也是一种高级程序设计语言。灵活的MATLAB语言可使工程师和科学家简练地表达他们的思想，其强

16、有力的数值计算方法和图形便于测试和探索新的思想，而集成的计算环境便于产生快速的实时结果。MATLAB得到了各个领域专家学者的广泛关注，其强大的扩展功能为用户提供了强有力的支持；它集数学计算、图形计算、语言设计和神经网络等30多个工具箱于一体，具有极高的编程效率，极大地方便了科学研究和工程应用。语音处理中往往把数字化的语音信号表示为一维或二维（对应于双声道立体声数据）矩阵，因此基于矩阵运算的MATLAB就很自然地应用到语音处理领域。MATLAB提供了语音文件的读写函数以及录音和放音功能，如表1所示，使用时只需按照函数的语法规则正确输入参数即可。通过这些函数可以得到语音的采样频率、量化精度和通道数等参数。同时，MATLAB提供了语

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？