ImageVerifierCode 换一换
格式:DOCX , 页数:8 ,大小:23.11KB ,
资源ID:8352071      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/8352071.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(基于Gammatone滤波器组的听觉特征提取.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

基于Gammatone滤波器组的听觉特征提取.docx

1、基于Gammatone滤波器组的听觉特征提取基于Gammatone滤波器组的听觉特征提取胡峰松;曹孝玉【摘 要】目前主流说话人特征参数在噪声环境中的鲁棒性较差.为此,提出一种可用于说话人识别的听觉倒谱特征系数.分析入耳听觉模型的工作机理,采用Gammatone滤波器组代替传统的三角滤波器组模拟人耳耳蜗的听觉模型,用指数压缩代替固定的对数压缩,模拟人耳听觉模型处理信号的非线性特性.在基于高斯混合模型分类器的识别算法下进行仿真实验,结果表明,该听觉特征具有比梅尔频率倒谱系数和线性预测倒谱系数更好的抗噪声能力.【期刊名称】计算机工程【年(卷),期】2012(038)021【总页数】4页(P168-1

2、70,174)【关键词】说话人识别;特征提取;Gammatone滤波器;听觉模型;倒谱系数;鲁棒性【作 者】胡峰松;曹孝玉【作者单位】湖南大学信息科学与工程学院,长沙410082;北京师范大学管理学院,北京100875;湖南大学信息科学与工程学院,长沙410082【正文语种】中 文【中图分类】工业技术第 38 卷V01.38 第 21期No.21 计算 机 工 程Computer Engineering 2012 年ii月November 2012人工智能及识别技术 文章号t1000-3428(2012)21-0168-03文N 标识码tA 中田分ZIS 号:TP391基 于 Gammaton

3、e滤 波 器 组 的 听 觉 特征提取胡蜂橙 u, 曹孝玉 1 (1 湖南大学信息科学与工程学院, 长沙 410082;2 北京师范大学管理学院, 北京 100875)摘 要: 目前主流说话人特征参数在噪声环境中的鲁棒性较差。 为此, 提出一种可用于说话人识别的听觉倒谱特征系数。 分析人耳听觉模型的工作机理, 采用 Gammatone 滤波器组代替传统的三角滤波器组模拟人耳耳蜗的听觉模型, 甩指数压缩代替固定的对数压缩, 模拟人 耳听觉模型处理信号的非线性特性。 在基于高斯混合模型分类器的识别算法下进行仿真实验, 结果表明, 该听觉特征具有比梅尔频率饲谱 系数和线性预测倒谱系数更好的抗噪声能力

4、。关t请: 说话人识别; 特征提取; Gammatone 滤波器; 听觉模型; 倒谱系数; 鲁棒性 Auditory Feature Extraction Based on Gammatone FilterBank HUFeng-song12,CAOXiao-yul (1. CollegeoflnformationScienceand Engineering,HunanUniversity, Changsha410082,China;2.Schoolof Management,BeijingNormalUniversity, Beijing100875,China)lAbstractJAimi

5、ngat the problemthat speakersfeature coefficientshavepoorrobustnessin noiseenvrronment,thispaperproposesanauditory cepstralcoefficientforspeakerrecognition.Itanalyzesthe workingmechanismofthehumanauditory model,simulates the auditory modelofhuman ear cochleaby Gammatonefilterbanksreplaces the tradit

6、ionaltriangular filterbanks.Basedonthe nonlinearsignal processingcapability of humanauditory model,exponentialcompressionisusedinstead ofthefixed logarithm compression.SimulationexperimentisconductedbasedonGaussianMixedModel(GMM)recognitionalgorithm.Experimentalresults showthat the auditoryfeature h

7、asbetter noiserobustnessthanMelFrequencyCepstral Coefficient(MFCC)andLinearPredictionCepstral Coefficient(LPCC). (Key wordsl speakerrecognition; feature extraction; Gammatonefilter;auditory model;cepstral coefficient;robustness DOI: 10.3969/j.issn.1000-3428.2012.21.045 1 概述 说话人识别是指从说话人的语音中提取说话人的个性特征

8、对说话人身份进行认证的技术 , 其特征参数提取即 提取语音信号中表征说话人的个性特征 , 它是说话人识别 的关键技术之一 。 目前, 在说话人识别中常用的特征参数 有 梅 尔 频 率 倒 谱 系 数 (MelFrequencyCepstralCoeff-icient ,MFCC) 、 线 性 预 测 倒 谱 系 数 (LinearPrediction Cepstrum Coefficient , LPCC) 、 基音周期等。众所周知 , 在有噪声及多个说话人的复杂环境下 , 人 耳仍然能够辨认出说话人的身份。 因此 , 将人耳听觉处理 特性融入到说话人识别系统中可 以极大地提高系统的性 能。近

9、年来的研究发现 , 人耳的听觉系统具有十分优异的 语音识别能力及噪声鲁棒性, 这种优良 特性吸引了众多的 研究者从事入耳听觉模型的研究。 文献1】 提出了基于人类 听觉特性的伽马通滤波器系数和伽马通滤波器倒谱系数。 文献2 利用动态压缩 Gammachirp 听觉滤波器组提取话者 特征参数, 提高了系统的识别率。 文献3 对基于听觉滤波 器模型的特征参数及其历史进行了研究, 分析了各模型的 优缺点。 文献4 对近 30 年听觉外周计算模型的研究及其在语音识别领域的应用进行了评述。 文献5 对听觉系统的 非线性压缩进行了研究, 并论证了 MFCC 提取过程中对 数压缩的缺点。本文在对入耳听觉模型

10、研究的基础上 , 用 Gammatone 滤波器模拟人耳耳蜗的听觉模型 , 用指数压缩代替固定的 对数压缩来模拟人耳听觉模型处理信号的非线性特性 , 提 出了一种基于 Gammatone 滤波器组的听觉特征提取方法。2基于人耳听觉模型的特征参数提取人耳生理学研究表明, 人耳听觉系统主要由外耳、 中 耳和内耳构成。 语音信号在听觉系统中, 依次通过外耳、 中耳和内耳, 在经过耳蜗基底膜的频带分解作用后, 沿听 觉通路进入听觉中枢系统6】。在整个听觉系统中, 耳蜗是非常重要的核心部件。 当外界的语音信号传入到耳蜗基底 膜之后 , 基底膜将产生以行波传递形式的振动 , 且基底膜 振动的听觉响应与受刺

11、激的语音信号频率有关;基底膜的 这种频率分解作用是人耳 听觉系统进行声音信号处理的 重要环节。 在语音识别中, 通常采用一组相互交叠的带通 滤波器组模拟实现耳蜗基底膜的频率分解作用, 本文采用Gammatone滤波器组实现耳蜗模型。作者筒介: 胡蜂松( 1969-) , 男, 副教授、 博士, 主研方向: 语音识别, 人脸识别; 曹孝玉, 硕士研究生收稿日捆: 2012-02-14圄日 期: 2012-03-12 E-mail:cxy131517第38卷 V01.38第 21期 No.21计算机工程 Computer年 ii月 November文N标识码t A中田分ZIS 号:TP391,曹孝

12、玉1 (1湖南大学信息科学与工程学院, 长沙 410082;2 北京师范大学管理学院, 北京 100875)摘要:目前主流说话人特征参数在噪声环境中的鲁棒性较差。 为此, 提出一种可用于说话人识别的听觉倒谱特征系数。 分析人耳听觉模型的工作机理, 采用 Gammatone 滤波器组代替传统的三角滤波器组模拟人耳耳蜗的听觉模型, 甩指数压缩代替固定的对数压缩, 模拟人耳听觉模型处理信号的非线性特性。 在基于高斯混合模型分类器的识别算法下进行仿真实验, 结果表明, 该听觉特征具有比梅尔频率饲谱系数和线性预测倒谱系数更好的抗噪声能力。 FilterBank HU Feng-song12,CAO Xi

13、ao-yul CollegeoflnformationScienceand Engineering,HunanUniversity, Changsha410082,China; 2.Schoolof Management,BeijingNormalUniversity, Beijing100875,China) lAbstractJAimingat the problemthat speakersfeature coefficientshavepoorrobustnessin noiseenvrronment,thispaperproposesanauditory cepstralcoeffi

14、cientforspeakerrecognition.Itanalyzesthe workingmechanismofthehumanauditory model,simulates the auditory modelofhuman cochleaby Gammatonefilterbanksreplaces the traditionaltriangular filterbanks.Basedonthe nonlinearsignal processingcapability of human auditory model,exponentialcompressionisusedinste

15、ad ofthefixed logarithm compression.SimulationexperimentisconductedbasedonGaussian MixedModel(GMM)recognitionalgorithm.Experimentalresults showthat the auditoryfeature hasbetter noiserobustnessthanMelFrequency Cepstral Coefficient(MFCC)andLinearPredictionCepstral Coefficient(LPCC). (Key wordsl speak

16、errecognition; feature extraction; Gammatonefilter;auditory model;cepstral coefficient;robustness 1概述说话人识别是指从说话人的语音中提取说话人的个性特征对说话人身份进行认证的技术 , 其特征参数提取即提取语音信号中表征说话人的个性特征 , 它是说话人识别的关键技术之一 。 目前, 在说话人识别中常用的特征参数有 梅 尔 频 率 倒 谱 系 数 (MelFrequencyCepstralCoeff- icient ,MFCC)、线 性 预 测 倒 谱 系 数 (LinearPrediction众所

17、周知 , 在有噪声及多个说话人的复杂环境下 , 人耳仍然能够辨认出说话人的身份。 因此 , 将人耳听觉处理特性融入到说话人识别系统中可 以极大地提高系统的性能。近年来的研究发现 , 人耳的听觉系统具有十分优异的语音识别能力及噪声鲁棒性, 这种优良 特性吸引了众多的研究者从事入耳听觉模型的研究。 文献1】 提出了基于人类听觉特性的伽马通滤波器系数和伽马通滤波器倒谱系数。文献2 利用动态压缩 Gammachirp 听觉滤波器组提取话者特征参数, 提高了系统的识别率。 文献3 对基于听觉滤波器模型的特征参数及其历史进行了研究, 分析了各模型的优缺点。 文献4 对近 30 年听觉外周计算模型的研究及其

18、在语音识别领域的应用进行了评述。 文献5 对听觉系统的非线性压缩进行了研究, 并论证了 MFCC 提取过程中对数压缩的缺点。本文在对入耳听觉模型研究的基础上 , 用 Gammatone滤波器模拟人耳耳蜗的听觉模型 , 用指数压缩代替固定的对数压缩来模拟人耳听觉模型处理信号的非线性特性 , 提出了一种基于 Gammatone 滤波器组的听觉特征提取方法。 2人耳生理学研究表明, 人耳听觉系统主要由外耳、 中耳和内耳构成。 语音信号在听觉系统中, 依次通过外耳、中耳和内耳, 在经过耳蜗基底膜的频带分解作用后, 沿听觉通路进入听觉中枢系统6】非常重要的核心部件。 当外界的语音信号传入到耳蜗基底膜之后

19、 , 基底膜将产生以行波传递形式的振动 , 且基底膜振动的听觉响应与受刺激的语音信号频率有关;基底膜的这种频率分解作用是人耳 听觉系统进行声音信号处理的重要环节。 在语音识别中, 通常采用一组相互交叠的带通滤波器组模拟实现耳蜗基底膜的频率分解作用, 本文采用作者筒介: 胡蜂松( 1969-) , 男, 副教授、 博士, 主研方向: 语音识别, 人脸识别; 曹孝玉, 硕士研究生 E-mail:cxy131517第38 卷第 21 期 胡峰松, 曹孝玉 : 基于 Gammatone 滤波器组的听觉特征提取 169 2.1Gammatone 滤波器组滤波器是一个标准的耳蜗听觉滤波器 ,其滤波器的时域

20、脉冲响应为: 9i(t)=At-lexp(-27bit)cos(27cf,+pi)U(f),f 0,1 i (1)其中, 4 为滤波器增益 ; ,是滤波器的中心频率; u(r)为阶跃函数; 谚是相位 , 为了简化模型, 本文取 破=o ; n 是 滤波器的阶数, 本文取 n=4 ; 6为滤波器的衰减因子 , 它 决定了脉冲响应的衰减速度, 并与相应的滤波器的带宽有 关,6f =1.019ERB(, ) , ERB(Z) 为等效矩形带宽, 它可 以由式(2) 得到 : ERB( fI)=24.7( 4.37 矗 蒜 钥) (2)其 中 , 为滤波器 个数 , 本文取 Jv=64 , 即由 64

21、个滤波器叠加成的带通滤波器组实现耳蜗模型。各滤波器的中心频率在 ERB 域上等间距分布, 整个滤波 器组的频率覆盖范围为 80Hz8000Hz。 图 1 给出了其频 率响应示意图。5-IO 墨 -is 捌 嚣 -20 耋-25-30-35-40 圈 1Gammatone 蕾披器组昀冲击响应 2.2听觉系统的非线性压缩指数压缩语音信号处理及听觉研究表明, 非线性特性是听觉系统具有抗干扰能力的重要原因之一4实际上听觉系统的非线性特性是“指数压缩”的且 由低频到高频非线性逐渐增强 7】 。 听觉系统的非线性估计的基本方法就是测量语音信号通过听觉系统的输出输入 比, 而输出输入通常采用信号的声压级来表

22、示 , 如式(3) 所示 : 1 嘲吾 ) 五 1(3) Oxlgc考 2 五 ,五=1r 其中,鼻表示输入信号的功率 ; P 表示输出信号的功率 ; P表示参考声音信号的功率 ; 丑表示输出输入信号的比值 。式(3) 可以进一步转换为 :鲁 =c 争 4(4)上式说明听觉系统的非线性是服从指数压缩的。 非线 性压缩具体数值的选择对倒谱系数的性能非常重要, 由于 具体实验方法的不同, 各文献中给出的值也不同。 但 目前 有2点结论在听觉系统领域得到了普遍认可 : (1) 频率在 1kHz以上的信号 , 非线性压缩行为应该比较强, 且具体数值也比较接近 ;(2) 频率在 1kHz 以下的信号 ,

23、 非线性压缩行为随着频率的降低越来越弱。通过对仿真实验结果的多次分析 , 本文对 1kHz 以上 的非线性压缩指数采用常数值 0.2 ; 对 1kHz 以下部分, 规定 500Hz 对应的非线性压缩值为 0.7 , 0Hz 对应的非线 性压缩值为 0.8 , 其他频率处的压缩值由线性插值的方法 获得 ,其压缩值与频率的关系如图 2 所示。 l O0.8 篓 os 出 0.40.20.0000 2 000 频率/Hz 圈2指数压缩值与瓤事的关系 2.3 听觉特征提取 本文采用 Gammatone 滤波器组模拟人耳耳蜗听觉模型 ,同时采用指数压缩来实现人耳听觉系统的非线性特性 ,提出了一种基于 G

24、ammatone 滤波器的听觉模型倒谱 特征参数 , 记为 GFCC(GammatoneFrequencyCepstrumCoefficient) 。 GFCC 特征提取流程如图 3 所示 。叫习爿图 3GFCC 特征提取藏程GFCC特征参数提取算法如下 : (1)预加重、 分帧和加窗。 为加强高频信号, 需要对语音 信号进行预加重处理, 预加重系数为 0.97 。 假设 x(n)是原始 的语音信号, 则其预加重之后的信号 y(n)为: y(n)= x(n)- 0.97x(n -1) (5)根据语音信号的短时平稳特性, 把语音信号分成若干帧,每一帧的帧长为 256 采样点、 帻移为 50% 。

25、 为了减少语音帧的边缘影响, 对语音信号加汉明窗。 汉 明窗的数学公式见式(6), 加窗后 的语音信号 s 。(n)见 式(7):以玎, =: 54 一 o 46xcos ( 号 号 ) , ifH=O,l, ,一1c6 otherwise s 。(”)=y) w ( 胛)(7)快速傅里叶变换(Fast FourierTransform , FFT) 。 对 加窗后的语音信号进行快速傅里叶变换 , 把语音信号由时 域变到频域, 得到语音信号的离散功率谱 (k) 。(3)Gammatone 滤波器组滤波。 对功率谱 x(k) 取平方胡峰松, 曹孝玉 : 基于 Gammatone 滤波器组的听觉特

26、征提取 2.1滤波器组 9i(t)=At-lexp(-27bit)cos(27cf,+pi)U(f),f 0,1 i (1)其中,4为滤波器增益 ; ,是滤波器的中心频率; u(r)为阶跃函数; 谚是相位 , 为了简化模型, 本文取 破=o ; n 是滤波器的阶数, 本文取 n=4 ; 6为滤波器的衰减因子 , 它决定了脉冲响应的衰减速度, 并与相应的滤波器的带宽有关, ERB( fI)=24.7( 4.37 矗 蒜 钥)其 中 ,为滤波器 个数 , 本文取 Jv=64 , 即由 64 个各滤波器的中心频率在 ERB 域上等间距分布, 整个滤波器组的频率覆盖范围为 80Hz8000Hz。 图

27、1 给出了其频率响应示意图。5 -IO墨-is捌嚣-20耋-25 -30 -35 -40圈1Gammatone蕾披器组昀冲击响应增强 7】听觉系统的非线性估计的基本方法就是测量语音嘲吾)五 1 (3)Oxlgc考五,五= r鲁=c争4(4)上式说明听觉系统的非线性是服从指数压缩的。 非线性压缩具体数值的选择对倒谱系数的性能非常重要, 由于具体实验方法的不同, 各文献中给出的值也不同。 但 目前有数值也比较接近 ;(2) 频率在 1kHz 以下的信号 , 非线性压通过对仿真实验结果的多次分析 , 本文对 1kHz 以上的非线性压缩指数采用常数值 0.2 ; 对 1kHz 以下部分,规定 500H

28、z 对应的非线性压缩值为 0.7 , 0Hz 对应的非线性压缩值为 0.8 , 其他频率处的压缩值由线性插值的方法获得 , l O 0.8篓 os出 0.4 0.2 0.0 000 2 000频率/Hz圈2 2.3听觉特征提取本文采用 Gammatone滤波器组模拟人耳耳蜗听觉模提出了一种基于 Gammatone 滤波器的听觉模型倒谱特征参数 , 记为 GFCC(GammatoneFrequencyCepstrum Coefficient) 。 GFCC 特征提取流程如图 3 所示 。图3 GFCC特征提取藏程预加重、 分帧和加窗。 为加强高频信号, 需要对语音信号进行预加重处理, 预加重系数

29、为 0.97 。 假设 x(n)是原始的语音信号, 则其预加重之后的信号 y(n)为: y(n)= x(n)- 0.97x(n -1)每一帧的帧长为 256 采样点、 帻移为 50% 。为了减少语音帧的边缘影响, 对语音信号加汉明窗。汉 明窗的数学公式见式(6), 加窗后 的语音信号 s 。(n)见式(7):以玎, = :54一o46xcos(号if H=O,l, ,一1 c6 s。(”)=y)w胛) (7)快速傅里叶变换(Fast FourierTransform , FFT) 。 对加窗后的语音信号进行快速傅里叶变换 , 把语音信号由时域变到频域, 得到语音信号的离散功率谱 (k) 。 (

30、3)Gammatone 滤波器组滤波。 对功率谱 x(k) 取平方170计 算 机 工 程2012 年 11 月 5 日得到能量谱, 然后用 Gammatone 滤波器组进行滤波处理。 (4)指数压缩。 对每个滤波器的输出进行指数压缩, 得到一组对数能量谱 % ,m :,mP 。川,= 烈x ( 七 ) 2 皿( 七 ) 】 cn(8) t;le( ) 是 2.2 节中介绍的指数压缩值 。离散余弦变换(DiscreteCosineTransform , DCT) 。 对 经过指数压缩的能量谱进行离散余弦变换 , 得到 GFCC , 其计算公式如下 : r- ,CGFCC(f)= 焉 蓍埘,os

31、P( 一o 5) ,扛 1,2, M(9)其中, M 为 GFCC 特征的维数 ; P 为滤波器的个数。 (6)升半正弦倒谱提升。 对经过 DCT 得到的特征进行 升半正弦倒谱提升, 升半正弦窗函数如式(10) 所示 , 倒谱 提升后的特征如式(11) 所示 : w(i)= 0.5+ 0.5 sin( 兀 i N),l f |v (10) COFCC(i)=CGFCC(i),xw(i) (11) 3仿真实验与结果分析 3.1实验数据库简介本文实验采用的数据库为 TIMIT 和 NOIZEUS 语音库。 TIMIT 语音库是语音识别研究中最常用的纯净语音库, 在 TIMIT 语音库中, 每个说话

32、人包含 10 段 3S 6s的语音, 每段语音的内容都不同, 其采样率为 16kHz 。 NOIZEUS是一种噪声语音库, 其中含有 Babblenoise 、 Airportnoise.Carnoise.Restaurantnoise等, 它们的信噪 比分别为 0dB、 5dB、 10dB、 15dB, 有关 NOIZEUS 语 音库的详细介绍见文献8 。 3.2 实验设计 实验 1 测试 GFCC 听觉特征的有效性 , 采用不含噪声的 TIMIT 语音库中的 drl 和 dr6 部分作为 2 个子数据集进行实验。 其中, drl 部分共选取 40 个说话人( 男 26 个, 女14个) ; dr6 部分共有 46 个说话人( 男 30 个, 女 16 个) 。 对于每个说话人 , 分别从 SA 、 SX 和 SI 中各选取一段语 音作为测试语句 , 剩下 的 7 段语音作为训练语句。 实验2 测试 GFCC 听觉特征的抗噪声能力 , 采用语音库 , 分别在 Babblenoise、 Airportnoise、 Carnoise. Restaurantnoise条件下进行实验。在实验中首先对语音信号进行预处理 , 然后对每一帧 语音分别提取 LP

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1