语音信号的盲分离要点.docx

资源描述

语音信号的盲分离要点.docx

《语音信号的盲分离要点.docx》由会员分享，可在线阅读，更多相关《语音信号的盲分离要点.docx（35页珍藏版）》请在冰豆网上搜索。

语音信号的盲分离要点.docx

语音信号的盲分离要点

摘要

盲源分离（BSS）是一种多维信号处理方法，它指在未知源信号以及混合模型也未知的情况下，仅从观测信号中恢复出源信号各个独立分量的过程。

盲源分离已近成为现代信号处理领域研究的热点问题，在通信、语音处理、图像处理等领域具有非常重要的理论意义和广泛的应用价值。

本文主要内容如下：

首先，介绍了语音信号的产生机理，特性，基本特征及语音信号处理的理论基础，为后文语音信号盲分离奠定了基础。

其次，从盲源分离的理论出发，研究了盲分离的数学模型以及基本方法，并对盲分离的目标准则、研究领域以及研究内容进行了探讨。

然后，引出了独立分量分析（ICA），并对其的概念以及相关的知识进行了研究，探讨了ICA研究中的主要问题，列出了ICA的3种基本算法：

信息极大化、负熵最大化和最大似然估计法。

最后，用FastICA对三路语音信号进行了盲分离的仿真并求出了混合矩阵和分解矩阵，再接着进行了频谱，幅度，相位的分析，找出了FastICA的特点。

关键词：

盲源分离；独立分量分析；频谱分析

Abstract

Blindsourceseparation（BSS）isamultidimensionalsignalprocessingmethod,itreferstotheunknownsourcesignalandmixedmodelalsounknowncases,onlyfromobservationsignalinrecoveringthesourcesignaleachindependentcomponentoftheprocess.Blindsourceseparationhasnearlybecomemodernsignalprocessingtotheresearchofproblems,incommunication,speechprocessing,imageprocessingareaisveryimportanttheoreticalsignificanceandbroadapplicationvalue.Thispapermainlycontentasfollows:

Firstofall,introducedthespeechsignalgenerationmechanism,characteristics,basiccharacteristicsandthespeechsignalprocessingtheoryfoundationfortheblindsourceseparationafterthespeechsignaltolaythefoundation.

Second,theblindsourceseparationfromthetheory,themathematicalmodeloftheblindsourceseparationandbasicmethods,andseparationgoalstandards,researchfieldandtheresearchcontentarediscussed.

Then,leadstoaindependentcomponentanalysis（ICA）,andtheconceptandtherelatedknowledge,thispaperanalysesthemainproblemsinthestudyofICA,liststhethreebasicICAalgorithm:

informationmaximization,negativeentropymaximizationandmaximumlikelihoodestimate.

Finally,bytheuseofFastICAthreeroadvoicesignaltheseparationofthesimulationandgetthemixingmatrixanddecomposingmatrix,andthenthespectrum,amplitude,phaseanalysis,findouttheFastICAcharacteristic.

Keywords:

theblindsourceseparation;Independentcomponentanalysis;Spectrumanalysis

第一章语音信号概述

1.1忙语音信号分离技术的背景及意义

近些年来，混合语音信号分离成为信号处理领域的一个研究热点。

在信号处理中我们经常遇到这样的问题，如何从一组未知的随机信号经过一组混合系统得到的观测信号中恢复出这些原始信号，如果重构过程中没有混合系统和原始信号的先验知识，我们就城该过程为盲分离。

其理论也不断运用到图像、通讯、医学等领域

1.1.1语音产生机理

发声器官分为三部分：

肺、喉（声门）和声道。

肺的作用相当于一个动力源，将气流输送到喉部。

喉将来自肺部的气流调制为周期脉冲或类似随机噪声的激励声源，并送入声道。

喉在发声中的作用是控制声带的开启和闭合，使得气流形成一系列脉冲，声带振动的频率决定了声音频率的高低。

由声带振动产生的音统称为浊音，而不由声带振动产生的音统称为清音。

声道包括口腔、鼻腔和咽腔，它们对声源的频谱进行整形而产生不同音色的声音。

声道的谐振频率称为共振峰频率，它与声道的形状和大小有关，每种形状都有一套共振峰频率作为其特征，改变声道的形状就产生不同的语音，因而，当声道形状改变时，语音信号的频谱特性就随之改变。

声源经过声道润色频谱后，最后从嘴唇或鼻孔或同时从嘴唇和鼻孔辐射出来，形成可传播的声波，被人感知为语音。

综上所述，语音由空气流经过声门激励，经由声道调制，经过嘴辐射出去，完整的语音信号产生的数学模型可以用三个子模型：

激励模型、声道模型和辐射模型的串连来表示。

图1.1语音信号产生模型

1.1.2语音的特性

（1）短时平稳性

根据对语音信号的研究，语音是一种时变的、非平稳的随机过程，但另一方面，由于人类发声系统的生理结构的变化速度是有一定限度的，在一段短时间内（10～30ms）人的声带和声道形状基本稳定，并且大部分情况下，激励源参数也是如此，因此可认为短时间内语音特征是不变的，语音的短时性特点是对语音信号进行分析和处理的基础。

（2）浊音和清音

语音分为浊音和清音两大类，二者从语音产生的机理上有明显的差异，前者由周期性脉冲产生，后者由随机噪声产生，因而在特征上也有明显的区别。

浊音在时域上呈现出明显的周期性，在频域上具有共振峰结构而且能量大部分集中在较低频段内。

清音则完全不同，它没有明显的时域和频域特征，类似于白噪声。

浊音在频谱上有共振峰结构，能量重要集中在低频区（<1000Hz），清音没有共振峰结构，能量小且主要集中在高频段（>1000Hz）。

1.2语音信号的基本特征

（1）语音信号的时域特征

由于说话人在不同时刻的说话内容千变万化，而且没有确定的规律性，因此语音信号是时变的。

但由于人类的发声器官的变化速率有限，声道在短时间内（5．500ms）处于平稳状态，因此语音信号具有短时平稳性。

而这种短时平稳性，也是语音处理中许多理论和算法的必要前提。

由于人们在说话时，各个音节或单词之间总会存在着时间上的间隔，

因此语音信号在时域上存在着有音段和无音段。

通过有音段和无音段的检测，可用去除带噪语音中平稳的噪声。

此外，无音段所占比例越大，语音的稀疏性越好，利用这一特点，产生了许多基于语音稀疏性的增强算法。

（2）语音信号的频域特征

语音信号的频谱能量主要集中在300-3400Hz范围内。

语音本身由浊音和清音组成，浊音含有语音信号的大部分能量，其频谱分布主要集中在低频段中的基

音频率及其各次谐波上，呈现出明显的周期性；清音则表现出随机性，在频谱上类似于白噪声。

（3）语音信号的统计特征

语音信号可以看作是一个遍历性随机过程的样本函数，其统计特性可用其幅度的概率密度函数来描述。

对语音信号的统计特性的研究表明，其幅度分布的概率密度函数可以用两种近似的表达式来较好地描述，其中一种是伽马（Gamma）分布

（1-1）

式中k是一个常数，与标准差仃，有下列关系

（1-2）

另一种是拉普拉斯分布（Laplacian）分布

（1-3）

式中，口是一个由标准差仃。

决定的常数，即

（1-4）

相对说来，伽马分布对语音信号的幅度分布描述更为精确一点，而拉普拉斯分布的函数形式则更加简洁。

1.3语音信号处理的理论基础

进行频谱分析时，在时域数据进行短时FFT处理之前都要进行加窗处理。

在FFT处理之后，普通频谱分析可以进行频域上的滤波处理，从而使频谱更加平滑。

为了得到各种音频信号的特技效果，也需要对各种变声算法进行研究。

（1）窗的选择

一般来讲，一个好的窗函数的标准是：

在时域因为是语音波形乘以窗函数，所以要减小时间窗两端的坡度，使窗口边缘两端不引起急剧变化而平滑过渡到零，这样可以使截出的语音波形缓慢降为零，减小语音帧的阶段效应；在频域要有较宽的3dB带宽以及较小的边带最大值。

另外一方面，不同人的基音周期变化很大，主要集中在70Hz~1000Hz。

所以窗一般选择在10ms~20ms之间。

此外，为了避免在加窗时加入多余的高频信号，应该使用平滑窗，例如汉明窗。

（2）变声算法的讨论

语声可以分为声带振动的浊音部分、声带不振动的清音部分以及静音部分。

在这里，我们主要是改变原始话音的基音频率，以达到变声的目的。

第一种方法是不修改采样数据，仅改变Fs。

这种方法操作非常简便。

第二种方法是直接乘以一个余弦函数，把语音信号频段搬移到较高频段，以达到变声的目的。

第三种方法是插值以后重新抽样。

基本过程是这样的：

已知当前帧帧长FL（采样）点，采样频率Fs，目标变换帧频率Fs’，则目标变换帧帧长FL’=FL*Fs’/Fs。

记Rate=Fs’/Fs，那么FL’=FL*Rate，其中Rate为基频变化率。

变换开始时，先求得FL和FL’的最小公倍数AL，再将原音频帧插值为AL点，最后将插值后的语音段重新抽样，得到长FL’点的变声后的数据。

三种方法操作起来都还比较简单，但为了便于分析时域、频域特效，本设计选择了通信中常用的调制方法，即方案二。

（3）Matlab基础

MATLAB是MatrixLaboratory的缩写，由MathWorks公司于1984年正式推出，内核采用C语言编写。

MATLAB是一个包括数值计算，高级图形和可视化的集成科技计算环境，也是一种高级程序设计语言。

灵活的MATLAB语言可使工程师和科学家简练地表达他们的思想，其强有力的数值计算方法和图形便于测试和探索新的思想，而集成的计算环境便于产生快速的实时结果。

MATLAB得到了各个领域专家学者的广泛关注，其强大的扩展功能为用户提供了强有力的支持；它集数学计算、图形计算、语言设计和神经网络等30多个工具箱于一体，具有极高的编程效率，极大地方便了科学研究和工程应用。

语音处理中往往把数字化的语音信号表示为一维或二维（对应于双声道立体声数据）矩阵，因此基于矩阵运算的MATLAB就很自然地应用到语音处理领域。

MATLAB提供了语音文件的读写函数以及录音和放音功能，如表1所示，使用时只需按照函数的语法规则正确输入参数即可。

通过这些函数可以得到语音的采样频率、量化精度和通道数等参数。

同时，MATLAB提供了语

展开阅读全文