基于声纹的说话人特征识别毕业论文.docx

资源描述

基于声纹的说话人特征识别毕业论文.docx

《基于声纹的说话人特征识别毕业论文.docx》由会员分享，可在线阅读，更多相关《基于声纹的说话人特征识别毕业论文.docx（61页珍藏版）》请在冰豆网上搜索。

基于声纹的说话人特征识别毕业论文.docx

基于声纹的说话人特征识别毕业论文

九W竽酩

JIUJIANGUNIVERSITY

毕业论文（设计）

题目基于声纹的说话人特征识别

英文题目Speakerfeaturerecognition

basedonthevoiceprint

院

系

专

业

姓

名

年

级

指导教师

2013年6月

摘要

说话人识别是一项根据语音波形中反映说话人生理和行为特征的语音参数，而自动识别说话人身份的技术。

它也常被人们称为声纹识别技术，是生物认证技术的一种，其基本思想就是运用某种匹配方法进行特征识别，从而确定说话人的身份。

目前己知的语音特征包括基音周期、语谱图、自相关系数、能量、平均幅度、过零率、共振峰、线谱对、线性预测系数（LPC）、线性预测倒谱（LPCC）、Mel频率倒谱（MFCC）等。

本文介绍了说话人识别的概念、原理及其识别实现的方法，指出了说话人识别技术的应用前景。

通过在Matlab7.0平台上对语音的基音周期、线性预测倒谱和Mel频率倒谱等特征参数进行提取、分析、对比、识别实现一个简单的说话人识别系统，实验结果表明实验正确、有效。

关键字：

说话人识别；特征参数；基音周期；线性预测倒谱；Mel频率倒谱

Speakerfeaturerecognitionbasedonthevoiceprint

Abstract

Speakerrecogmtionisthevoiceparametersinaspeechwavefonnwhichreflectsthespeakersphysiologicalandbehavioralcharacteristics,andautomaticidentificationteclmologvtospeakeridentity.Itisalsooftenrefenedtoasthevoicepnntfecogmtionteclmologv,abiometricauthenticationteclmologv.Thebasicideaistouseamatchingmethodfoxfeatxnerecognition,inordertodetenmnetheidentityofthespeaker.

Cuuentlyknownvoicefeaturesmcludepitch,spectrogram,sincethecoiTelationcoefficient,energy,averagemagnitude,thezerocrossingrate,formant,thelinespectmmoftheLmearPredictionCoefficient（LPC）,LmearPredictionCepstmm（LPCC）,MelFrequencyCepstral（MFCC）・

Thisarticledescnbesthespeakeridentificationconcepts,principlesandmiplementationmethodsofidentification,andpointedouttheprospectofspeakerrecognitionteclmology.BytheMatlab7.0platform,voicepitch,lmearpredictioncepstnimandMelFrequencymvertedspectrachaiactensticpaiametefextraction,analysis,contrast,identifyasimplespeakerrecogmtionsystem,experimentalresultsshowthattheexpeiunentisconect,effective・

KeyWords:

SpeakerRecognition；FeaturePaiameter；Pitch；LmearPredictionCepstralCoefficient；MelFiequencvCepstralCoefficient

摘要I

AbstractII

目录III

引言1

第一章说话人识别研究3

1.1说话人识别研究的意义3

1.2说话人识别应用领域3

1.3说话人识别的技术优势4

1.4说话人识别研究的难点和热点5

1.4.1说话人识别技术研究的难点5

1.4.2说话人识别研究的热点7

1.5影响说话人识别性能的因素7

1.6论文的内容安排9

第二章说话人识别的基本介绍10

2.1语音的基础知识10

2.1.1语音的产生原理10

2.1.2语音产生模型10

2.1.3语音信号的预处理技术12

2.2说话人识别的分类14

2.3说话人识别的基本原理16

2.4说话人识别的常用特征18

2.5说话人识别系统的结构框架18

2.6说话人识别的主要模型20

2.7说话人识别系统评价标准22

第三章特征参数的提取24

3.1倒谱24

3.1.1同态处理基本原理24

3.1.2复倒谱和倒谱25

3.2线性预测倒谱（LPCC）的提取25

3.2.1LPCC的介绍26

3.2.2LPCC的提取过程27

3.2.3Matlab中实现LPCC的提取27

3.3Mel频率倒谱（MFCC）的提取28

3.3.1Mel频率介绍28

33.2MFCC提取过程29

3.3.3Matlab中实现MFCC的提取31

3.4基音周期的提取33

3.4.1基音周期的介绍33

3.4.2短时自相关函数34

3.4.3MATLAB中实现基音周期的提取35

第四章说话人识别系统的实现36

4.1实验实现的环境36

4.2WAV声音文件格式分析36

4.3实验平台的选择37

4.4录音37

4.5预处理和端点检测37

4.6实验所用语音库的建立38

4.7系统实验框图和步骤39

4.8实验结果和分析41

4.8.1实验结果41

4.8.2结果分析46

4.9小结46

参考文献47

附录48

致谢62

引言

语音是人类交流信息的基本手段。

随着信息科学飞速发展，如今语音信号处理技术已经拓展为语音学与数字信号处理技术相结合的交叉学科，它和认知科学、心理学、生理学、语言学、计算机科学和模式识别与人工智能等学科联系紧密。

语音信号处理技术的发展依赖这些学科发展，而语音信号处理技术的进步也会促进这些学科的进步。

因此，语音信号处理成为目前发展最为迅速的信息科学研究领域中的一个重要分支。

语音信号的研究一般都基于语音信号的数字表示，因此语音信号的数字表示是进行语音信号数字处理的基础。

语音信号的数字表示基本上可以分为两大类：

波形表示和参数表示。

波形表示仅仅是通过采样和量化的过程保存模拟语音信号的“波形”，而参数表示则是把语音信号表示成某种语音产生模型输出。

为了得到参数表述，首先必须对语音进行釆样和量化，然后再进一步处理得到语音产生模型的参数。

语音模型的参数一般可分为两大类：

一大类是激励参数；另一大类是声道参数。

对语音处理的基础理论及各种处理算法的研究主要包括以下两个方面：

1.从语言中产生和听觉感知来研究一一语音产生的研究涉及大脑中枢的言语活动如何转换成人发声器官的运动，从而形成声波的传播。

听觉感知的研究涉及人耳对声波的收集波并经过初步处理后转换成神经元的活动，然后逐级传递到大脑皮层的语音中枢。

2.将语音作为一种信号来处理一一早期形成的数字滤波器、FFT等数字信号处理方法广泛应用在语音信号处理领域，后期出现的线性预测编码技术成为语音信号处理最有效的办法之一。

到了八十年代，出现了分析合成法、码激励线性预测（CELP）、矢量量化（VQ）以及马尔可夫模型（HMM）等一系列算法和模型在很大程度上推动了语音编码和语音识别技术的研究。

语音信号处理虽然包括了语音通信、语音合成和语音识别等方面的内容，但其前提是对语音信号进行分析。

只有将语音信号表示成其本质特征的参数，才有可能利用这些参数进行高效的语音通信，才能建立用于语音合成的语音库，也才可能建立用于识别模版或知识库。

而且语音合成的音质好坏、语音识别率的高低,都取决于对语音信号分析的准确性和精度。

例如，利用线性预测分析來进行语音合成，其先决条件是要先用线性预测方法分析语音库，如果线性预测分析获得的语音参数较好，则用此参数合成的语音音质就好。

有如，利用带通滤波器组法来进行语音识别，其先决条件是要弄清楚语音共振峰的幅值、个数、频率变化范围及其分布情况。

因此，应先对语音信号进行特征分析，得到提高语音识别率的有用数据，并据此来设计语音识别系统的硬件和软件。

根据所分析的参数不同，语音信号分析可分为时域、频域、倒谱域等方法。

进行语音信号分析时，最先接触到的、最直观的是它的时域波形。

语音信号本身就是时域信号，因而时域分析是最早使用的应用范围最广的一种方法。

时域分析具有简单直观、清晰易懂、运算量小、物理意义明确等优点；但更为有效的分析多是围绕频域进行的，因为语音中最重要的感知特性反映在其功率谱中，而相位变化只起着很小的作用。

常用的频域分析方法有带通滤波器组方法、傅里叶变化法和线性预测分析法等。

频谱分析具有如下有点：

时域波形较容易随外界环境变化，但语音信号的频谱对外界环境变化具有一定的顽建性。

另外，语音信号的频谱具有非常明显的声学特征，利用频域分析获得的语音特征具有实际的物理意义。

如共振峰参数、基音周期等参数。

倒谱域是将对数功率谱进行反傅里叶变换后得到，它可以进一步将声道特征和激励特征有效的分开，因此可以更好地揭示语音信号的本质特征。

语音信号处理的主要应用包括：

语音识别、语音合成、说话人识别、语音编码、语音增强等几个分支。

近年来，各个分支都取得了很大的进步，己经深入应用到通信、办公自动化、远程控制、声控电话拨号、计算机语音应答、机器人听觉与口语系统等使用系统中。

本文要进行的是语音信号处理在说话人识别中的应用，以完成说话人识别系统的功能实现。

人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理过程，人在讲话时使用的发生器官一一舌头、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。

这就使得每个人的语音声学特征既有相对稳定性，乂有变异性，不是绝对、一成不变的。

这种差异可能來自生理、病理、心理、模拟、伪装，也可能与环境干扰有关。

尽管如此，由于每个人的发音器官都不尽相同，因此在一般情况下，说话人的鉴定仍能区别不同的人或识别是否是同一个人的声音，从而进行个人身份识别。

说话人识别是一项根据语音波形中反映说话人生理和行为特征的语音参数，而自动识别说话人身份的技术，主要包括特征提取和模式匹配两个部分。

这项技术自研究发展至今，以其特有的方便性、经济性、安全性和准确性等优点受到特别关注，其研究和应用系统的开发具有重要的现实意义。

作为生物特征识别技术的一种，说话人识别技术在声音拨号、电话银行、电话购物、数据库访问、信息服务、语音电子邮箱、安全控制、计算机远程登陆等互联网及通信领域得到广泛应用；在呼叫中心应用上，说话人识别技术同样提供更加个性化的人机交互；在军事领域，说话人识别技术用于战场监听，以辨认出敌方的指挥员；在生物识别技术领域中，说话人识别技术日益成为人们日

展开阅读全文