1、吕明20080501摘要摘要麦克风阵列已广泛应用于音视频会议、语音识别及增强等领域。声源定位技术是基于麦克风阵列的阵列信号处理的关键技术之一,是语音信号处理领域的一个新的研究热点。本论文针对基于麦克风阵列的声源定位技术展开研究,主要做了以下几方面工作:总结归纳了目前基于麦克风阵列的声源定位技术的几类基本方法的原理及优缺点,并利用声线跟踪法建立了混响环境下的房间脉冲响应模型。由于语音信号及室内声场环境的特殊性,提出了语音信号的预处理,包括预滤波、加窗分帧处理、语音端点检测等。在实际应用中,语音信号有可能位于近场,也可能位于远场,所以分别对近场、远场这两种情况下的声源定位技术进行了研究。在近场的情
2、况下研究了近场可控波束定位算法和基于高阶统计量的近场声源定位算法两类。对于近场可控波束定位算法,在传统定点约束波束形成的基础上,推导出了近场定点波束新的表达式,把基于自校正的稳健的自适应波束形成应用于近场。对于基于高阶统计量的近场声源定位算法,把传统的近场源定位方法和3 D 类E S P R I T 算法用于研究声源定位问题,都得到了很好的定位效果。在远场的情况下研究了基于子空间的声源定位算法。基于子空间的远场声源定位分为两个步骤t估计语音信号的二维角度和确定语音信号的位置。2 DM U S I C 算法能够精确的估计基于任意阵列的语音信号的二维角度俯仰角和方位角,然后把基于子空间的测向算法和
3、定位算法结合起来,提出了新的基于麦克风阵列的远场定位算法一一垂心定位法。该方法与传统的测向交叉定位法相比精度更高,抗噪性更好。关键词:麦克风阵列,声源定位,波束形成,高阶统计量,子空间A 8 S T R A C TA B S T R A C TM i c r o p h o n ea r r a y sa r ew i d e l yu s e di na u d i o v i d e oc o n f e r e n c e s,s p e e c hr e c o g n i t i o n s,a n ds p e e c he n h a n c e m e n t se t c S
4、 p e e c hl o c a l i z a t i o nt e c h n o l o g yb a s e do nm i c r o p h o n ea r r a y si so n eo ft h ea r r a ys i g n a lp r o c e s s i n gk e yt e c h n o l o g i e s I ti san e wh o t s p o ti na c o u s t i cs i g n a lp r o c e s s i n gf i e l d F o c u so nt h i st e c h n o l o g y,
5、t h ef o l l o w i n gw o r kh a sb e e nd o n e:n eb a s i ct h e o r i e so fm a i nk i n d so fs p e e c hl o c a l i z a t i o nt e c h n o l o g i e sh a v eb e e ns u m m a r i z e d。Ar e a l i z a t i o nm o d eo fr o o mi m p u l s er e s p o n s ei nr o o mr e v e r b e r a t i o ne n v i r
6、 o n m e n ti sp r o p o s e d,u s i n gr a y-t r a c i n gm e t h o d A c o u s t i cs i g n a lp r o-p r o c e s si sp r o p o s e d,b e c a u s eo ft h ep a r t i c u l a r i t yo ft h ea c o u s t i cs i g n a la n dt h er o o mr e v e r b e r a t i o ne n v i r o n m e n t,i n c l u d i n gp r
7、e-f i l t e r i n g,v o i c ea c t i v i t yd e t e c t i o ne t c I na c t u a lu s e,a c o u s t i cs i g n a li se i t h e ri nn e a rf i e l do ri nf a rf i e l d,S Ow er e s e a r c ht h es p e e c hl o c a l i z a t i o nt e c h n o l o g yi nt h et w oc o n d i t i o n sr e s p e c t i v e l
8、y I nn e a rf i e l d,w eu s en e a r-f i e l da d a p t i v eb e a m f o r m i n ga n ds p e e c hl o c a l i z a t i o nb a s e do nh i g h e ro r d e rs t a t i s t i c s T h ep r e s e n t e dr o b u s tn e a r-f i e l da d a p t i v eb e a m f o r m e ri s d e v e l o p e db yc o m b i n i n ga
9、n e wf o r m u l a t i o no ft h ep o n-c o n s t r a i n e dr o b u s tb e a m f o r m e ra n das e l f-c a l i b r a t i o nt e c h n i q u e 3-DE S P R I Ta l g o r i t h mi su s e dt oe s t i m a t et h es p e e c hl o c a t i o n,a n dc o m p a r e dw i t ht h et r a d i t i o n a ln e a r-f i
10、l e ds o R r c gl o c a l i z a t i o nm e t h o d I nf a rf i e l d,w er e s e a r c h e dt h es u b s p a c em e t h o d I ti Sc o n s i s t so ft w op a r t s,s o u E c ed i r e c t i o nt e c h n i c a la n ds o u r c el o c a t i n gt e c h n i c a l T h es p e e c hl o c a l i z a t i o nt e c
11、 h n o l o g yu s i n go r t h o c e n t e rl o c a l i z a t i o na l g o r i t h mh a sb e e np r o p o s e d As u b s p a c em e t h o d2 一DM U S I Ca l g o r i t h mi sa p p l i e dt oe s t i m a t et h ep l a n ea n g l ea n dt h ep o l a ra n g l e W 髓t h eb e a r i n gr e s u l t so fs u b a
12、r r a y s,m a i n-a r r a yc o n f i r m sap o i n ti nt h et r i a n g l ee n c l o s e db yl o c a t i o nl i n e sa st h et a r g e tp o s i t i o n K e y w o r d:m i c r o p h o n ea r r a y,s p e e c hl o c a l i z a t i o n,b e a m f o r m i n g,h i g l ao r d e rs t a t i s t i c s,s u b s p
13、a c em e t h o dI I独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特多l,J)J n 以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名_ 盖j 兰圈期:年,E lE t关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将
14、学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)签名一兰竣导师签名:蜀期:o第一章引言1 1研究背景第一章引言语言是人类特有的功能,声音是人类常用的工具,是相互传递信息的最主要的手段。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息的形式。因此,语音信号是人们构成思想沟通和感情交流的最主要的途径。并且,由于语音和语音与人的智力活动密切相关,与社会文化和进步紧密相连,所以它具有最大的信息容量和最高的智能水平。现在,人类已开始进入了信息化时代,用现代手段研究语音处理技术,使人们能更加有效地产生
15、、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。麦克风阵列是指由一定的几何结构排列而成的若干个麦克风组成的阵列。相对于单个麦克风而言具有更多优势,它可以电子瞄准的方式从所需要的声源方向提供高质量的声音信号,同时抑制其他人的声音和环境噪声,具有很强的空间选择性,而且不需移动麦克风就可获取移动的声源信号,同时它还可以在一定的范围内实现声源的自适应检测、定位及跟踪,这使得它在诸多领域有着广泛的应用。基于麦克风阵列的声源定位是指用麦克风阵列拾取声音信号,通过对多路声音信号进行分析与处理,在空间域中定出一个或是多个声源的平面或空间坐标,即得到声源的位置,以进一步控制摄像机和麦克
16、风阵列波束对准正在说话的人。传统定位是采用雷达技术,而基于麦克风阵列的定位系统相对于传统的雷达跟踪定位而言具有隐蔽性、不易受干扰。正是由于其独特优势,基于麦克风阵列的应用已经成为一门新型的技术。同时,由于它涉及到阵列信号处理、数字信号处理、模式识别和数据融合等多方面的理论知识,因而成为语音信号处理中难度大、且具有挑战性的研究课题。早在2 0 世纪七八十年代,就已经开始将麦克风阵列应用于语音信号处理的研究中,进入9 0 年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点【I J。1 9 8 5 年F l a n a g a n 将麦克风阵列引入到大型会议的语音增强中,并开发出很多实际产品。1 9 8 7 年S i l v e r m a n 将麦克风阵列引入到语音识别系统,1 9 9 2年又将阵列信号处理用于移动环境下的语音获取,后来将其应用于说话人识别。1 9 9 5 年F l a n a g a n 在混响环境下用阵列信号处理对声音进行捕获。1 9 9
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1