麦克风阵列信号处理的研究现状与应用.docx
《麦克风阵列信号处理的研究现状与应用.docx》由会员分享,可在线阅读,更多相关《麦克风阵列信号处理的研究现状与应用.docx(18页珍藏版)》请在冰豆网上搜索。
麦克风阵列信号处理的研究现状与应用
麦克风阵列信号处理的研究现状与应用
罗金玉等:
麦克风阵列信号处理的研究现状与应用
麦克风阵列信号处理的研究现状与应用
罗金玉,刘建平.,张一闻
(1.武警工程学院研究生大队,陕西西安710086;2.武警工程学院通信工程系,陕西西安710086)
摘要:
在回顾麦克风阵列信号处理研究历程的基础上,对麦克风阵列信号处理的特点进行分析,总结了目前的研究热
点问题及现有算法并对各算法的优缺点进行比较,重点阐述了使用最为广泛的声源定位算法,最后介绍几个有价值的应用
领域,为进一步研究麦克风阵列信号处理奠定基础.
关键词:
麦克风阵列信号处理;声源定位;TD0A;应用,
中图分类号:
TN911-34文献标识码:
A文章编号:
1004—373X(2010)23—0080—05
StudyStatusandApplicationofMicrophoneArraySignalProcessing
LUOJin-yu,LIUJian-ping,ZHANGYi—wen
(1.Post—graduateManagingBrigade,EngineeringCollegeofArmedPoliceForce,Xi'an710086,China;
2.DepartmentofC0mmunlcationEngineering,EngineeringCollegeofArmedPoliceForce,Xi'art710086.China)
Abstract:
Theeharacteristicofthemicrophonearraysignalprocessingisanalyzedbasedonthereviewfortheprogressof
microphonearraysignalprocessing.Thehotissuebeingstudiedrecentlyandtheexistingalgorithmscorrespondingtoitare
summerized.Themeritsanddemeritsofthealgorithmsarecompared.Thewidely-usedsoundsourcelocalizationalgerithmis
elaboratedemphatically.Somevaluableapplicationfieldsareintroduced.
Keywords:
microphonearraysignalprocessing;soundsourcelocalization;TDOA;application
0弓l言
阵列信号处理的发展源于2O世纪40年代的自适
应天线组合技术,它使用锁相环进行天线跟踪.
1967年Widrow提出最小均方(LMS)自适应算法,标
志着阵列信号处理取得了显着进展.1969年Capon提
出恒定增益指向最小方差波束形成器,通过增加已知信
息的利用程度提高了对目标的分辨能力.1979年
Schmidt提出多重信号分类(MUSIC)方法,开创了子
空间类阵列信号处理算法研究的先河,是阵列信号处理
发展史上的一个重要里程碑.1986年Roy等人提出的
基于旋转不变技术的信号参数估计方法(ESPRIT),相
对MUSIC算法大大降低了计算量同时降低了算法对
硬件的要求,为阵列信号处理的发展谱写了新的篇章.
麦克风阵列信号处理是阵列信号处理的一个新兴
分支,继承和发展了阵列信号处理理论算法,最早于
8O年代初期用于大型会议室的会议系统uj,证明了其
在语音信号处理方面的独特优势.近年来它已成为现
代信号处理的的重要研究热点之一,很多国际着名的公
司和研究机构,如IBM,BEIL等,都致力于麦克风阵列
收稿日期:
2010—06—18
基金项目:
国家自然科学基金资助项目(6094000)
8O
的研究和产品开发.麦克风阵列正成为越来越流行的
高质量语音拾取工具,预计在不久的将来将取代传统的
桌面或头戴式麦克风].并且由于其在语音信号处理
上具有其他信号处理方法无法比拟的优势,被广泛应用
于军事国防,智能空间,新型人机交互,机器人导航等众
多领域,并且随着研究的不断深化,其研究应用的前景
也不断扩大.
1麦克风阵列信号处理的特点
麦克风阵列信号处理是阵列信号处理的一个新兴
分支.在很长的一段时间里,它的许多算法都是直接借
用或简单修改成熟的传统阵列信号处理算法.这在研
究初期大大推动了麦克风阵列信号处理的发展,但深入
的研究表明,这些算法往往无法应用于实际系统或是算
法性能不理想,这主要是因为麦克风阵列信号处理具备
以下区别于传统阵列信号的特点E~-73:
语音信号是宽带信号麦克风接收的语音信号没
有经过调制,阵元间时延和相位差与信号源的频率密切
相关.且不同类型的语音信号频谱差异很大,传统的窄
带信号处理算法不再适用.
语音信号是短时平稳信号麦克风接收信号为短
时平稳的语音信号,分析处理必须建立在短时的基础
《现代电子技术}2010年第23期总第334期通信与信息技术q
上,特别是当声源移动时,分析处理的难度变大.
应用环境存在高混响在一些非手持式智能语音
通信系统中,麦克风与说话人距离较远,特别是应用于
室内环境时,麦克风接收到的信号除语音直达外,还包
括大量经多次反射后形成的反射波,造成高混响,大大
降低了语音信号的质量.而且造成混响的原因很多,混
响模型很复杂,去混响难度大.
应用环境的噪声大且复杂在麦克风阵列应用中,
背景噪声很复杂且不同应用环境的噪声源也不同,如室
内外的噪声源差异就很大.因此提高信号信噪比难
度大.
2麦克风阵列信号处理的研究内容
2.1声源定位
麦克风阵列声源定位技术利用空间分布的多路麦
克风拾取声音信号,通过对麦克风阵列的各路输出信号
进行分析和处理,得到一个或者多个声源的位置信息.
目前存在的声源定位算法主要包括基于波束形成的方
法,基于高分辨率谱估计方法和基于到达时延差估计方
法,它们分别将声源和阵列结构之间的关系转变为空间
波束,空间谱函数或者多个到达时间差信息,然后通过
估计这些信息进行声源定位.
2.1.1基于波束形成的定位方法
基于波束形成的定位算法是出现较早的定位方法,
通过对麦克风阵列接收到的语音信号进行滤波,加权求
和,然后直接控制麦克风指向使波束有最大输出功率的
方向.
..N
Lbea(q)一『xi(+矗)]dt
(1)Jo一
式中:
L表示波束输出;()表示各麦克风的接收信号.
式
(1)就是一个典型的波束形成估计方程,通过调
整各麦克风接收信号的时延值r使输出信号达到最
大,进而确定声源位置.因为解上述方程确定通常
是一个非线性的优化问题,无法直接计算得到,通常采
用Newton—Raphson算法或最陡下降算法来确定最大
值,而在声源定位系统中,最大值对应的t不是惟一
的,取决于信号的初始值,许多研究人员提出采用峰值
搜索的方法来解决这种问题_8].但目标函数和峰值搜
索的计算量往往很大,这也成为基于波束形成定位方法
最大的弊端.
2.1.2基于高分辨率谱估计的定位方法
基于高分辨率谱估计的定位方法通过求解阵列接
收信号的协方差矩阵获得空间谱函数,再由此信息进行
声源定位,包括自回归模型,最小方差频谱估计,
MUSIC,ESPRIT,子空问拟合等.其中的很多方法只
能适用于远场模型,即要求麦克风阵列与声源的距离较
远,远远大于麦克风阵元间距,并且麦克风是布置成线
形.将其用于近场时,性能会下降很多.同时这种方法
也要进行峰值搜索,但它的峰值通常都比较尖锐].
2.1.3基于到达时延差(TDOA)的定位方法
基于到达时延差的定位方法是利用时延估计算法
求出信号到达阵列不同麦克风的相对时延,再利用这些
时延信息和麦克风阵列的空间位置关系估计声源位置,
是麦克风阵列声源定位方法中应用最为广泛的方法.
基于到达时延差的定位方法已经成功地应用于雷达,声
纳系统中,但是它们处理的信号是窄带信号,信噪比高.
应用于宽带,高混响的麦克风阵列定位系统时,需要添
加一些特殊滤波器并进行预处理.
基于到达时延差定位法的第一步是准确计算时延
差.广义互相关函数(GeneralizedCrossCorrelation,
GCC)是出现最早的方法,可以在时频两个领域进行计
算时延差:
z(£)一口5(£一)+72(£)
(2)
r+..
(rlj)一lz(4-r0)()dt(3)
式中:
-z()是麦克风的接收信号;()是声源信号是
衰减因子是延迟量;()是噪声;Y是两阵元的相关
函数.
相关函数.y最大值对应的r就是所要求的阵元i和
阵元J之间的时延差.为减少计算量,还可以对信号进
行FFT变换,在频域做相关然后搜索峰值:
r+..
n,,(£)一IX(厂)x(厂)edf(4)
式中:
R(£)是两阵元频域的相关函数;x(_厂)是麦克风
接收信号z()的傅里叶变换.
为提高抗噪,抗混响性能,提高时延估计精度,还可
以通过加权函数来改进GCC,例如相位变换法(Phase
Transform,PHAT),平滑变换法(SmoothedCoherence
Transform,SCoT)等[.
r+..
R.(£)一}gt(f)x(-厂)x(厂)edf(5)
式中:
xF(f)为加权函数,PHAT中的(厂)为:
厂
最小均方(LeastMeanSquare,LMS)自适应滤波
和自适应特征值分解(AdaptiveEigenvalueDecompo—
sitionAlgorithm,AEDA)等时延估计算法都在声源定
位中也到了广泛应用_1].但自适应方法依赖于实验
8】
罗金玉等:
麦克风阵列信号处理的研究现状与应用
的初始值并且计算时会产生较大的时延,无法适用于实
时应用.文献[17-203等分别使用广义互相关函数,基
于语音信号模型或产生语音的激励源特征,最小平方和
极大似然估计的方法给出了TDOA的估计或实现声源
定位.
TDOA定位法的第二步是通过计算出的时延差来
确定声源位置.理论上,三个麦克风组成的阵列已经能
确定声源位置,而增加麦克风的数量,即增加TDOA数
据可以减小估计误差.通过TDOA来定位声源的方法
有很多:
例如极大似然法,最小方差法等.极大似然法
认定误差服从高斯分布,试图寻找误差最小点.而最小
方差法是试图找到一个点使期望的TDOA值与实测的
TDOA值的方差和最小.
基于到达时延差TDOA的两步定位法,延时小,适
用于实时的声源定位与目标追踪.但存在的问题是
第一步从原始的麦克风接收数据中提取了时延差这一
中间信息后,丢弃了其他的有用信息,只将TDOA用于
第二步计算,造成信息损失.一种更好的方法是将原始
数据中所有的中间信息保留,并都用于最后一步声源位
置的确定.
2.2噪声抑制
噪声抑制是要去除观测信号中的噪声,获得高质量
的期望信号.由于通信过程中噪声的产生无法避免,并
且严重影响语音信号的质量,因此噪声抑制一直是通信
学研究的热点问题,也出现了许多基于单一接收阵元的
噪声抑制方法.然而这些方法存在的最大问题是在抑
制噪声的同时,往往也影响了期望信号,付出信号可懂
度下降的代价ll2.利用麦克风阵列独特的空间滤波特
性,可以很好地解决这一问题,可以达到抑制噪声的同
时不对期望信号产生任何干扰.
目前,基于麦克风阵列实现噪声抑制的方法主要有
自适应噪声对消和基于空间信息抑制噪声这两类方法,
其中,基于空间信息的方法又可分为两大类:
基于波束
形成原理的方法和基于盲信号分离的方法.而波束形
成方法又可以分为固定波束形成方法和自适应的波束
形成方法,其基本原理是利用阵列的空间信息对目标声
源形成过滤波束避免来自其他方向的噪声干扰.自适
应噪声对消,是实时地在信号静默期获取噪声的参考信
号,来消弱噪声信号.
2.3去混响
混响是室内声源停止发声后,由于房间边界面或其
中障碍物使声波多次反射或散射而产生声音延续的现
象,是对语音质量影响最大的因素之一,会严重降低语
音信息的可懂度,因此,去混响是语音通信研究的一个
重点问题.
82
目前去混响的方法主要分为三类:
基于信源声学模
型去混响,通过同形转化分离混响和基于信道反转均衡
去混响,其中,基于信道反转均衡去混响又分为直接反
转,最小均方误差和多信道反转理论的方法引.
文献[23]应用倒谱预滤波技术来抑制房间混响,
文献[24]通过选取多个峰值进行线性交叉来削弱混响
的影响.但由于这两种方法采用了理想房间模型,因此
时延估计的抗混响性能较差.文献[25-J的自适应特征
值分解算法直接从房间混响模型出发,通过自适应方
法逼近房间冲激响应,进而估计时延,因而该方法在
混响较强的条件下仍有良好的估计性能.但该方法需
要估计矩阵运算,计算量大,难以在实际系统中应用.
2.4声源盲分离
声源盲分离是要通过分析麦克风阵列的接收信号
来区分同一时刻来自不同方向的信号,由于无法获知信
道的具体性能参数和声源信号,称为盲分离.充分利用
信源信号独立性的独立成分分析法(IndependentCorn—
ponentAnalysis,ICA)是声源盲分离使用较广的方法.
但是在高混响的环境下,基于ICA的算法性能下降很
快,有待改进.
2.5鸡尾酒会效应
众所周知,即使在嘈杂的背景环境下,人也能集中
精神去听其中的某一种声音,这种有趣的心理声学现象
被称为鸡尾酒效应.大量研究实验表明人的这种能力
得益于人有两只耳朵.人的大脑只需要根据两只耳朵
听到的声音强度就能有效地跟踪声源,这在麦克风阵列
的应用上具有极大的指导意义,由此引发了一波研究鸡
尾酒效应的热潮.
3麦克风阵列信号处理的应用
麦克风阵列信号处理具有十分广阔的应用前景,在
军事国防,智能化,远程控制,人机交互,电脑游戏,视频
会议,语音监测等许多领域都有重要的科研价值和潜在
的实用价值,已经引起了许多国家学术界,工业界和军
界的高度重视.下面简要介绍麦克风阵列信号处理的
一
些应用.
3.1国防领域应用
麦克风阵列信号处理因其出色的语音信号处理能
力,被广泛应用于军事国防.国外在智能雷弹系统和战
场侦查系统研究中,广泛使用基于麦克风阵列的被动声
探测,近几年还将麦克风阵列声源定位技术应用于飞机
探测,直升机报警,炮位侦查,单兵声测系统,枪声定位
等.AAI公司的PDCue系统将麦克风安装在车辆的
四角,可以提供低轮廓,360.的态势感知能力.在任何
环境下,PDCue系统都可以根据单发,多发和点射枪声
《现代电子技术)2olo年第23期总第334期通信与信息
迅速定位并跟踪枪声来源.
国内近几年也在麦克风阵列信号处理方面进行了
大量研究,受到国防科技重点实验室基金和国家自然科
学基金的支持,并已取得了一定的成果.其中炮用立靶
声定位系统列入国家军用标准,弹头落点定位系统和敞
开型胸环靶系统也已通过鉴定并列入国家军用标准.
3.2智能化领域应用
麦克风阵列信号处理可以自动高效地从接收的语
音信号中提取有用信息,适用于智能化领域.2003年
意大利里雅斯特大学和帕多瓦大学联合研制了智能声
视联合多代理监视跟踪系统,对脚步声之类的声源进行
轨迹跟踪,能实现对博物馆等公共场所的人流进行记
录,或监测在某作品前人们停留的时间长短l2引.
2007年加拿大魁北克的珊不勒凯大学机电学院开发研
制了避障机器人.机器人具有鲁棒的定位性能和通过
使用波束成形和粒子滤波能同时跟踪几个声源.
4结语
麦克风阵列信号处理是数字信号处理的一个新领
域,具备许多传统阵列信号处理无法比拟的优势,是目
前国内外的研究热点.很多国际着名的公司和研究机
构,如IBM,BELL等,正致力于麦克风阵列的研究和产
品开发.相信随着研究的不断深入,麦克风阵列信号处
理也必定会具备越来越广阔的应用前景.
[I]
参考文献
FLANAGANJ,J0HNSTONJ,ZAHNR,eta1.
Computersteeredmicrophonearraysforsoundtransduc—
tioninlargerooms[J].Acoust.Soc.Amer.,1985,78
(5):
1508—1518.
[23FLANAGANJL,SURENDRANA,JANE.Spatially
selectivesoundcaptureforspeechandaudioprocessing[J].
SpeechCommunication,1993,13(1/2):
207—222.
[3]GRENIERY.Amicrophonearrayforcarenviroment
[c]//IEEEProceedingsofICASSP一92.SanFrancisco,
CA,USA:
ICASSP,1992,1:
305—308.
[4]KELLERMANW.Aself-steeringdigitalmicrophonearray
[c]//IEEEProceedingsofICASSP一91.Toronto,Ont,
Canada:
ICASSP,1991,5:
3581—3584.
[5]HERBORDTW,KELLERMANNWIAdaptivebeamforming
foraudiosignalacquisition[c]//AdaptiveSignalProcessing:
[6]
ApplicationstoReal—worldProblems.Berlin,Germany:
Springer—Verlag,2003:
321-325.
COMPERNOLLEDV.Switchingadaptivefiltersforen—
hancingnoisyandreverberantspeechfrommicrophonearray
recordings[c]//Proc.IEEEICASSP,1990.Albuquerque,
NM:
ICASSP,1990:
833—836.
[7]DIBIASEJ.Ahigh—accuracy,low-latencytechniquefor
talkerlocalizationinreverberantenvironmentsrD].Provi
dence,USA:
BrownUniversity,2000.
[83DIBIASEJ,sILVERMANH,BRANDsTEINM.Robust
localizationinreverberantrooms[M]//BRANDsTEIN
Ms,WARDDB(eds.).MicrophoneArrays:
Signal
ProcessingTechniquesandApplications[s.I.]:
Springer,
2001:
208-360.
[9]KROLIKJ.Focusedwide—bandarrayprocessingforspatial
spectralestimation[M].Beijing:
PrenticeHall,1991.
El0]KNAPPcH,cARTERGc.Thegeneralizedcorrelation
methodforestimationoftimedelay[J].IEEETrans.on
Acoust.,Speech,SignalProcessing,1976,ASSP一24:
32O一327.
[11]RuIY,FLORENCIOD.Timedelayestimationinthe
presenceofcorrelatednoiseandreverberationEc]//Pro—
ceedingsofIEEEInternationalConferenceonAeoustics,
Speech,andSignalProcessing(ICASSP04).Redmond,
WA,USA:
MicrosoftRes.,2004:
133—136.
[12]RuIY,FLORENCIODinei.NewdirectapproaChesto
robustsoundsource1ocalizationrC]//Proc.ofIEEE
ICME2003.Baltimore,MD:
ICME,2003:
6-9.
r13]CARTERGC,NUTTALLAH,CABLEPG.The
smoothedcoherencetransform[J].IEEESignal
ProcessingLetters,1973,61:
1497—1498.
r14]HUANGY.Real—timeacousticsource1ocalizationwith
passivemicrophonearrays[D].Atlanta,GA:
Georgia
InstituteofTechnology,2001.
[15]HuANGYi—teng,BENEsTYJ,ELK0Gw.Aneffient
linear—correctionleast—sq0aresapproachtosource1ocaliza一
{ion[c]//2001IEEEWorkshopontheApplicationsof
Signa1ProcessingtoAudioandAcoustics.NY,USA:
LucentTechno1.,2001:
67—7O.
[16]HuANGY,BENESTYJ,ELKOGW.Adaptiveeigen—
valuedecompositionalgorithmforreal—timeacousticsource
localizationsystem[C]//1999IEEEInternational
ConferenceonAcoustics,SpeechandSignalProcessing.
Phoenix,AZ,USA:
ICASSP,1999,2:
937—940.
rl7]BECHLERDirk,KROSCHELKristian.Reliability
criteriaevaluationforTD0Aestimatesinavarietyofre—
alenvironments[C]//20051EEEInt.Conf.onAcous—
tics,SpeechandSignalProcessing(ICASSP).Philadel—
phia,USA:
ICASSP,2005:
985—988.
[18]YEGNANARAYANAB,PRASANNASRM,RAO
KS.Speechenhancementusingexcitationsourceinforma—
tion[C]//Proc.ofIEEEInt.Conf.onAcoustics,
SpeechandSignalProcessing(ICASSP).Orlando,FL:
ICASSP,2002:
541-544.
[19]cHENJc,YA0K,HUDSONRE.Sourcelocalization
83
等:
麦夏阵歹IJ{言号处理的研究现状与应用
andbeamformingⅢJ].IEEESignalProcessingMagazine,
2002,19
(2):
3O一39.
[2o]CHENJC,HUDSONRE,YAOK.Maximum—likelihood
[21]
sour