基于声纹的说话人特征识别毕业论文.docx-资源下载

基于声纹的说话人特征识别毕业论文.docx

1、基于声纹的说话人特征识别毕业论文九W竽酩JIU JIANG UNIVERSITY毕业论文（设计）题目基于声纹的说话人特征识别英文题目 Speaker fea ture recogn it ionbased on the voiceprint院系专业姓名年级指导教师2013年6月摘要说话人识别是一项根据语音波形中反映说话人生理和行为特征的语音参数，而自动识别说话人身份的技术。它也常被人们称为声纹识别技术，是生物认证技术的一种，其基本思想就是运用某种匹配方法进行特征识别，从而确定说话人的身份。目前己知的语音特征包括基音周期、语谱图、自相关系数、能量、平均幅度、过零率、共振峰、线谱对、线

2、性预测系数（LPC）、线性预测倒谱（LPCC）、 Mel频率倒谱（MFCC）等。本文介绍了说话人识别的概念、原理及其识别实现的方法，指出了说话人识别技术的应用前景。通过在Matlab7.0平台上对语音的基音周期、线性预测倒谱和 Mel频率倒谱等特征参数进行提取、分析、对比、识别实现一个简单的说话人识别系统，实验结果表明实验正确、有效。关键字：说话人识别；特征参数；基音周期；线性预测倒谱；Mel频率倒谱Speaker feature recognition based on the voiceprintAbstractSpeaker recogmtion is the voice param

3、eters in a speech wavefonn which reflects the speakers physiological and behavioral characteristics, and automatic identification teclmologv to speaker identity. It is also often refened to as the voicepnnt fecogmtion teclmologv, a biometric authentication teclmologv.The basic idea is to use a match

4、ing method fox featxne recognition, in order to detenmne the identity of the speaker.Cuuently known voice features mclude pitch, spectrogram, since the coiTelation coefficient, energy, average magnitude, the zero crossing rate, formant, the line spectmm of the Lmear Prediction Coefficient (LPC), Lme

5、ar Prediction Cepstmm (LPCC), Mel Frequency Cepstral (MFCC)This article descnbes the speaker identification concepts, principles and miplementation methods of identification, and pointed out the prospect of speaker recognition teclmology. By the Matlab7.0 platform, voice pitch, lmear prediction ceps

6、tnim and Mel Frequency mverted spectra chaiactenstic paiametef extraction, analysis, contrast, identify a simple speaker recogmtion system, experimental results show that the expeiunent is conect, effective Key Words: Speaker Recognition； Feature Paiameter； Pitch； Lmear Prediction Cepstral Coefficie

7、nt； Mel Fiequencv Cepstral Coefficient摘要 IAbstract II目录 III引言 1第一章说话人识别研究 31.1说话人识别研究的意义 31.2说话人识别应用领域 31.3说话人识别的技术优势 41.4说话人识别研究的难点和热点 51.4.1说话人识别技术研究的难点 51.4.2说话人识别研究的热点 71.5影响说话人识别性能的因素 71.6论文的内容安排 9第二章说话人识别的基本介绍 102.1语音的基础知识 102.1.1语音的产生原理 102.1.2语音产生模型 102.1.3语音信号的预处理技术 122.2说话人识别的分类 142.3说话

8、人识别的基本原理 162.4说话人识别的常用特征 182.5说话人识别系统的结构框架 182.6说话人识别的主要模型 202.7说话人识别系统评价标准 22第三章特征参数的提取 243.1倒谱 243.1.1同态处理基本原理 243.1.2复倒谱和倒谱 253.2线性预测倒谱(LPCC)的提取 253.2.1LPCC 的介绍 263.2.2LPCC的提取过程 273.2.3Matlab中实现LPCC的提取 273.3 Mel频率倒谱(MFCC)的提取 283.3.1 Mel频率介绍 2833.2 MFCC提取过程 293.3.3Matlab中实现MFCC的提取 313.4基音周期的提取 333

9、.4.1基音周期的介绍 333.4.2短时自相关函数 343.4.3MATLAB中实现基音周期的提取 35第四章说话人识别系统的实现 364.1实验实现的环境 364.2 WAV声音文件格式分析 364.3实验平台的选择 374.4录音 374.5预处理和端点检测 374.6实验所用语音库的建立 384.7系统实验框图和步骤 394.8实验结果和分析 414.8.1实验结果 414.8.2结果分析 464.9小结 46参考文献 47附录 48致谢 62引言语音是人类交流信息的基本手段。随着信息科学飞速发展，如今语音信号处理技术已经拓展为语音学与数字信号处理技术相结合的交叉学科，它和认知科学

10、、心理学、生理学、语言学、计算机科学和模式识别与人工智能等学科联系紧密。语音信号处理技术的发展依赖这些学科发展，而语音信号处理技术的进步也会促进这些学科的进步。因此，语音信号处理成为目前发展最为迅速的信息科学研究领域中的一个重要分支。语音信号的研究一般都基于语音信号的数字表示，因此语音信号的数字表示是进行语音信号数字处理的基础。语音信号的数字表示基本上可以分为两大类：波形表示和参数表示。波形表示仅仅是通过采样和量化的过程保存模拟语音信号的“波形”，而参数表示则是把语音信号表示成某种语音产生模型输出。为了得到参数表述，首先必须对语音进行釆样和量化，然后再进一步处理得到语音产生模型

11、的参数。语音模型的参数一般可分为两大类：一大类是激励参数；另一大类是声道参数。对语音处理的基础理论及各种处理算法的研究主要包括以下两个方面：1. 从语言中产生和听觉感知来研究一一语音产生的研究涉及大脑中枢的言语活动如何转换成人发声器官的运动，从而形成声波的传播。听觉感知的研究涉及人耳对声波的收集波并经过初步处理后转换成神经元的活动，然后逐级传递到大脑皮层的语音中枢。2.将语音作为一种信号来处理一一早期形成的数字滤波器、FFT 等数字信号处理方法广泛应用在语音信号处理领域，后期出现的线性预测编码技术成为语音信号处理最有效的办法之一。到了八十年代，出现了分析合成法、码激励线性预测（CE

12、LP）、矢量量化（VQ）以及马尔可夫模型（HMM）等一系列算法和模型在很大程度上推动了语音编码和语音识别技术的研究。语音信号处理虽然包括了语音通信、语音合成和语音识别等方面的内容，但其前提是对语音信号进行分析。只有将语音信号表示成其本质特征的参数，才有可能利用这些参数进行高效的语音通信，才能建立用于语音合成的语音库，也才可能建立用于识别模版或知识库。而且语音合成的音质好坏、语音识别率的高低, 都取决于对语音信号分析的准确性和精度。例如，利用线性预测分析來进行语音合成，其先决条件是要先用线性预测方法分析语音库，如果线性预测分析获得的语音参数较好，则用此参数合成的语音音质就好。有如，利

13、用带通滤波器组法来进行语音识别，其先决条件是要弄清楚语音共振峰的幅值、个数、频率变化范围及其分布情况。因此，应先对语音信号进行特征分析，得到提高语音识别率的有用数据，并据此来设计语音识别系统的硬件和软件。根据所分析的参数不同，语音信号分析可分为时域、频域、倒谱域等方法。进行语音信号分析时，最先接触到的、最直观的是它的时域波形。语音信号本身就是时域信号，因而时域分析是最早使用的应用范围最广的一种方法。时域分析具有简单直观、清晰易懂、运算量小、物理意义明确等优点；但更为有效的分析多是围绕频域进行的，因为语音中最重要的感知特性反映在其功率谱中，而相位变化只起着很小的作用。常用的频域

14、分析方法有带通滤波器组方法、傅里叶变化法和线性预测分析法等。频谱分析具有如下有点：时域波形较容易随外界环境变化，但语音信号的频谱对外界环境变化具有一定的顽建性。另外，语音信号的频谱具有非常明显的声学特征，利用频域分析获得的语音特征具有实际的物理意义。如共振峰参数、基音周期等参数。倒谱域是将对数功率谱进行反傅里叶变换后得到，它可以进一步将声道特征和激励特征有效的分开，因此可以更好地揭示语音信号的本质特征。语音信号处理的主要应用包括：语音识别、语音合成、说话人识别、语音编码、语音增强等几个分支。近年来，各个分支都取得了很大的进步，己经深入应用到通信、办公自动化、远程控制、声控电话拨号

15、、计算机语音应答、机器人听觉与口语系统等使用系统中。本文要进行的是语音信号处理在说话人识别中的应用，以完成说话人识别系统的功能实现。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理过程，人在讲话时使用的发生器官一一舌头、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。这就使得每个人的语音声学特征既有相对稳定性，乂有变异性，不是绝对、一成不变的。这种差异可能來自生理、病理、心理、模拟、伪装，也可能与环境干扰有关。尽管如此，由于每个人的发音器官都不尽相同，因此在一般情况下，说话人的鉴定仍能区别不同的人或识别是否是同一个人的声音，从而进

16、行个人身份识别。说话人识别是一项根据语音波形中反映说话人生理和行为特征的语音参数，而自动识别说话人身份的技术，主要包括特征提取和模式匹配两个部分。这项技术自研究发展至今，以其特有的方便性、经济性、安全性和准确性等优点受到特别关注，其研究和应用系统的开发具有重要的现实意义。作为生物特征识别技术的一种，说话人识别技术在声音拨号、电话银行、电话购物、数据库访问、信息服务、语音电子邮箱、安全控制、计算机远程登陆等互联网及通信领域得到广泛应用；在呼叫中心应用上，说话人识别技术同样提供更加个性化的人机交互；在军事领域，说话人识别技术用于战场监听，以辨认出敌方的指挥员；在生物识别技术领域中，说话人识别技术日益成为人们日

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？