情感语音信号中共振峰参数的提取方法设计.docx

资源描述

情感语音信号中共振峰参数的提取方法设计.docx

《情感语音信号中共振峰参数的提取方法设计.docx》由会员分享，可在线阅读，更多相关《情感语音信号中共振峰参数的提取方法设计.docx（62页珍藏版）》请在冰豆网上搜索。

情感语音信号中共振峰参数的提取方法设计.docx

情感语音信号中共振峰参数的提取方法设计

（此文档为word格式，下载后您可任意编辑修改！

）

太原理工大学

毕业设计（论文）任务书　

毕业设计（论文）题目：

情感语音信号中共振峰参数的提取方法

毕业设计（论文）要求及原始数据（资料）：

要求：

1：

大量查阅关于共振峰提取技术的资料（通过Internet或图书馆）。

2：

分析总结各种共振峰的提取方法。

3：

用一种共振峰提取方法实现情感语音中共振峰的提取。

4：

写一篇论文并给出共振峰提取结果。

原始数据：

1：

共振峰研究意义

随着多模态人机交互技术的发展，新型人机交互模式的应用前景更加广阔。

语音作

为一种自然有效的人机交互方式，成为当前的研究热点。

语音信号不仅包含语音信息，

还包含着说话人的情感信息。

语音情感信息处理技术的研究对于提高计算机的智能化具

有重要的现实意义。

语音情感信息处理技术作为一个重要的研究领域已经有很长时间的研究历史了，然

而在传统语音信号处理中往往忽略了在语音信号中的情感因素。

共振峰是反映声道谐振

第1页

特性的重要特征，它代表了发音信息的最直接的来源，而且人在语音感知中利用了共振峰信息。

所以共振峰是语音信号处理中非常重要的特征参数，已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。

人在语音感知中也利用了共振峰信息。

所以共

振峰已经广泛地用作语音识别的主要特征和语音编码的基本信息。

语音的频率特性主要是由共振峰决定的，当声音沿声管传播时，其频谱形状就会随声管而改变。

如果讲话者的发音中包含喜、怒、哀、乐等情感信息，那么讲话者的声道形状就会发生不同的变化。

共振峰作为情感特征信息的非韵律特征参数，我们研究提取它的方法对包含在语音信号中的情感信息分析和处理时及其有意义的。

2：

共振峰的几种提取方法

（1）谱包络提取法：

共振峰信息包含在语音频谱包络中，因此共振峰参数提取的关键是

估计自然语音频谱包络，并认为谱包络中的最大值就是共振峰。

（2）倒谱法提取共振峰：

因为倒谱运用对数运算和二次变换将基音谐波和声道的频谱包

络分离开来。

去除了激励引起的谐波波动，所以可以更精确地得到共振峰参数。

（3）LPC法提取共振峰：

从线性预测导出的声道滤波器是频谱包络估计器的最新形式，线

性预测提供了一个优良的声道模型（条件是语音不含噪声）。

（4）求根法提取共振峰：

找出多项式复根的过程通常采用牛顿—拉夫逊（Newton-Raphson）

算法。

（5）LPC倒谱法提取共振峰：

语音信号的倒谱可以通过对信号做傅里叶变换，取模的对

数，再求反傅里叶变换得到。

第2页

毕业设计（论文）主要内容：

1：

介绍情感语音信号共振峰提取的背景及研究意义，分析语音合成技术的国内外研究现

状、应用领域。

2.探索提取情感语音信号中共振峰参数所所遇到的问题困扰。

（1）虚假峰值

（2）共振峰合并（3）高音调语音

3.分析掌握共振峰的多种提取方法，对多种共振峰提取方法进行比较和分析。

（1）谱包络提取法

（2）倒谱法提取共振峰

（3）LPC法提取共振峰

（4）求根法提取共振峰

（5）LPC倒谱法提取共振峰

4.重点研究分析倒谱法提取语音信号共振峰，分析其优缺点并利用这种方法提取情感语

音中的共振峰。

学生应交出的设计文件（论文）：

1：

开题报告

2：

中期检查

3：

毕业论文

第3页

情感语音信号中共振峰参数的提取方法

摘要

语音情感识别是新型人机交互技术的研究热点之一，在人工智能方面有着较广泛的应用前景。

共振峰频率是反映声道谐振特性的重要特征，它代表了发音信息的最直接的来源。

所以研究情感语音信号中共振峰参数是有很大意义的。

基于共振峰参数在情感语音信号中的重要性，本文主要研究了情感语音信号中共振峰参数的提取方法。

提取共振峰的常用方法包括：

谱包络提取法、倒谱法和LPC法。

由于倒谱法根据对数功率谱的逆傅立叶变换，能够分离频谱包络和细微结构，很精确地得到共振峰信息，所以本文重点研究倒谱法提取共振峰。

本文通过MATLAB软件利用倒谱法实现了对高兴、生气、中立三种情感状态的共振峰参数的提取。

分析提取结果，得到了下面的一些结论：

相对于中立发音而言，高兴和生气的第一共振峰频率相对升高，从人的发音特点来看，人们在表达高兴和生气时，嘴比平静发音时张得更大，因此会出现这样的结果。

所以说，可以用共振峰作为区分不同情感语音的手段。

关键词：

语音情感识别；共振峰参数；共振峰提取方法；倒谱法

Extractionmethodofemotionalspeechsignaloftheformantparameters

Abstract

Basedontheimportanceofformantparameterintheemotionalspeechsignals,thispapermainlystudiedtheextractionmethodofemotionalspeechsignaloftheformantparameters.Severalmainmethodsofextractionofformantare:

spectralenvelopeextraction,cepstrummethodandLPCmethod.SincecepstrumbasedonthenumberofinverseFouriertransformpowerspectrum,itcanseparatespectralenvelopeandthefinestructureandgetverypreciseinformationontheformant,sothispaperfocusesonresearchcepstrumformantextraction.

ThispaperuseMATLABsoftwarecepstrumemotionalstatetoachieve.Analysistoextractaresult,Igetsomeofthefollowingconclusions:

Relativetotheneutralpronunciation,thefeaturesfromthepointofview,peopleare,mouthtopronouncethanwhenZhangwasmorecalm,sotherewillbesuchanoutcome.So,youcanusetheformantspeechasameanstodistinguishbetweendifferentemotions.

KeyWords:

SpeechEmotionRecognition;Formantparameters;Formantextractionmethod;Cepstrum

第1章绪论

1.1选题意义

随着多模态人机交互技术的发展，新型人机交互模式的应用前景更加广阔。

语音作为一种自然有效的人机交互方式，成为当前的研究热点。

语音信号不仅包含语音信息，还包含着说话人的情感信息。

语音情感信息处理技术的研究对于提高计算机的智能化具有重要的现实意义。

语音信号处理技术作为一个重要的研究领域有着很长时间的研究历史，然而在传统语音信号处理中往往忽略了在语音信号中的情感因素。

语音情感识别是语音识别的一个重要的分支，而语音识别则是数字信号处理技术与语音学的交叉学科，它和心理学、计算机科学、认知科学、语言学、人工智能和模式识别等学科紧密联系。

近年来，人们研究发现情感所引起的语音信号变化对语音识别、语音合成、说话人确认等方面有较大影响，所以语音情感处理的研究逐步提高了人们的重视。

目前有很多研究者在致力于研究并处理语音情感信息有效方法以及情感对语音的影响。

汉语普通话发音中情感特征信息的特征参数主要包括发音持续时间、振幅能量、基音频率和共振峰频率等。

共振峰频率简称共振峰，它与声道的形状和大小有关，一种形状对应着一套共振峰。

共振峰是反映声道谐振特性的重要特征，它代表了发音信息的最直接的来源，而且人在语音感知中利用了共振峰信息。

所以共振峰是语音信号处理中非常重要的特征参数，人在语音感知中也利用了共振峰信息，已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。

语音的频率特性主要是由共振峰决定的，当声音沿声管传播时，其频谱形状就会随声管而改变。

如果讲话者的发音中包含喜、怒、哀、乐等情感信息，那么讲话者的声道形状就会发生不同的变化。

共振峰作为情感特征信息的非韵律特征参数，我们研究提取它的方法对包含在语音信号中的情感信息分析和处理是极其有意义的[1][2]。

1.2情感语音识别技术的国内外发展现状

九十年代中期之后，语音情感信息处理受到了越来越多的关注，这方面的研

究也在不断深入，并取得了一定的进展。

近几年，研究者对语音中的情感信息表现出日益浓厚的兴趣。

他们从生理、心理学角度的情感建模到语音情感的声学关联特征，以及各种针对语音情感识别和合成的算法、理论展开了深入的研究，还从工程学的角度将情感作为信息信号工学的研究对象。

但是，目前不论从国外还是国内来看，情感信息处理的研究，还是处在一个低级水平，存在一些需要进一步深入研究的课题。

如：

合理的有效的语音情感特征建模方法；开发更全面更有效的语音情感特征；对情感语句中主要反映情感变化的关键词和短语的研究。

下面将分别简单介绍国内外情感语音识别发展现状。

1.2.1国际情感语音识别发展现状

目前，关于情感的研究正处在不断的深入之中，语音的情感识别因为涉及到不同语种之间的差异，发展也不尽相同。

美国MIT媒体实验室RosalindWpicard教授领导的情感研究组织首次尝试了用基频、时长、音质和清晰度等声学参数的变化来合成情感语音。

她后来又验证了情感状态与语音声学参数的相关性，并提出悲伤情感最容易区分，而高兴、惊讶和愤怒等具有相似的语音特性参数，不容易区分[3]。

此后，MIT媒体实验室RaulFernandez在2003到2004年还完成了关于从语音的韵律学参数入手的语音情感识别的计算模型研究，试验用有韵律特征进行分类实验，比较了与人类情感识别的性能差异[4][5]。

英国贝尔法斯特女王大学的RoddyCowie和EllenDouglas-Cowie教授领导的情感语音小组研究的重点在于心理学和语音分析。

他们收集并创建了第一个大规模的高自然度声音的情感数据库，同时还开发了一个FEELTRACE工具用来记录人类从语音中感知到的情感信息[6]。

他们还开发了一个情感语音分析的ASSESS工具，用统计的方法分析语音的声学特征与情感的相关性，并用基频曲线、能量强度和停顿、摩擦音及爆破音的边界信息等，对愤怒、害怕、高兴和悲伤4类主要情感进行了分类，用判别分析的方法达到了55%的识别率[7][8]。

美国南加州大学语音情感组由Narnyanan教授领导。

在语音情感识别方面，他们以客服系统的呼叫中心为应用背景，研究识别正面情感和负面情感。

首次将语音的声学信息、词汇和语义信息结合，并将模糊推论系统用于识别系统，初步试验结果表明，结合这三种信息进行语音信号的情感识别要比单纯使用声学信息识别率平均提高了38.5%[9]。

CNAnagnostopoulos和TIliou.建立了德语语音库，提取了133个语音特征来识别其中语音情感，根据统计分析来估计每种语音特征、人工神经网络用于训练情感分类，最后达到了平均51%的识别率[10]。

1.2.2国内情感语音识别发展现状

目前，国内也已经有多所高校从事语音情感识别的研究，东南大学、清华大学、浙江大学、中国台湾大学、中国科学院、微软亚洲研究院、哈尔滨工业大学等机构在这方面做了大量工作。

东南大学无线电工程系赵力教授的实验小组在国内率先开展了普通话语音情感识别的研究。

他们分析了不同情感的语音在时间构造，能量构造，基音构造，共振峰构造等方面的差别，以情感语音和自然语音特征向量的差值作为情感识别特征，用主成分分析法识别高兴、惊奇、愤怒、悲伤四类情感，在较小的实验数据集中能达到约80%的识别率[11]。

由清华大学计算机科学与技术系的蔡莲红教授领导的人机语言交互实验室也开展了普通话语音情感识别研究。

蒋丹宁通过特征的区别特性分析和分类实验，研究了韵律特征在普通话语音情感识别中的作用。

将韵律特征分解为纯语音的特征和纯情感的特征，并将后者运用于语音情感识别，用多层感知器对六种情感进行识别，得到平均82.4%的识别率[12]。

台湾大同大学资讯工程学系的包苍龙教授领导的数据通讯与信号处理实验室也较早地致力于普通话语音情感识别的研究。

他们构建一个包含愤怒、高兴、悲伤、厌烦和中立五个情感类别，约800句情感语音的普通话情感语音数据库。

在语音情感识别中，提取16个LPC参数，12个LPCC参数，16个LFPC参数，16个PLP参数，20个MFCC参数组成向量，作为识别特征，用LDA，KNN和HMM分类器对说话人无关和说话人相关两组语音素材做识别，得到最高88.7%的识别率[13]。

中国电子科技研究院的付丽琴等人以HMM作为语音情感分类器模型，对不同情感状态选择不同的特征向量进行识别。

系统分两个阶段完成:

首先基于漏识率和误识率最小的决策原则，采用优先选择（PFS）算法分别为每种情感状态选择最优的特征向量，然后用这些特征向量分别建立对应情感状态的HMM模型。

利用北航情感语音库（BHUDES）对算法进行验证，将所有实验样本分为训练样本集、特征选择样本集和测试样本集3组，采用交叉实验的方法对本算法进行验证，结果表明，与单特征向量HMM相比，多特征向量HMM可达到更高识别精度[14]。

1.3本文的主要研究内容及结构安排

1.3.1本文的主要研究内容

1.研究情感语音信号共振峰提取的背景及研究意义，分析情感语音识别技术的国内外研究现状、应用领域。

2.探索提取情感语音信号中共振峰参数所所遇到的问题困扰。

（1）虚假峰值

（2）共振峰合并（3）高音调语音

3.分析共振峰的多种提取方法。

（1）谱包络提取法

共振峰信息包含在语音频谱包络中，因此共振峰参数提取的关键是估计自然语音频谱包络，并认为谱包络中的最大值就是共振峰。

（2）倒谱法提取共振峰

因为倒谱运用对数运算和二次变换将基音谐波和声道的频谱包络分离开来。

去除了激励引起的谐波波动，所以可以更精确地得到共振峰参数。

（3）LPC法提取共振峰

从线性预测导出的声道滤波器是频谱包络估计器的最新形式，线性预测提供了一个优良的声道模型（条件是语音不含噪声）。

（4）求根法提取共振峰

找出多项式复根的过程通常采用牛顿—拉夫逊（Newton-Raphson）算法。

（5）LPC倒谱法提取共振峰

语音信号的倒谱可以通过对信号做傅里叶变换，取模的对数，在求反傅里叶变换得到。

4.重点研究分析倒谱法提取语音信号共振峰，并利用这种方法提取情感语音中的共振峰。

5.对共振峰提取结果进行分析，并得出结论。

1.3.2本文的结构安排

第一章是绪论，说明了本文的选题意义，概括介绍了情感语音识别的国内外发展现状，最后介绍了本文的主要研究内容及结构安排。

第二章主要介绍了情感分类的基础理论和情感语音数据库，最后介绍了语音情感识别系统。

首先简单地介绍通过离散形式和情感维度空间两种方法概述了情感的分类，然后介绍了情感语音数据分为3个类别以及本文所用的情感语音数据库。

最后介绍了语音情感识别系统。

第三章介绍了共振峰的概念，说明了共振峰在情感语音识别中的重要性；接下来分析了提取共振峰参数所遇到的问题。

第四章对语音情感识别中的共振峰的提取方法进行了分析介绍。

包括谱包络提取法、倒谱法提取共振峰、LPC法提取共振峰、求根法提取共振峰和LPC倒谱法提取共振峰，并简单分析了这几种提取共振峰方法的优缺点。

第五章重点介绍了倒谱法提取共振峰的过程。

首先介绍了倒谱的定义以及倒谱法提取共振峰的原理，接下来画出了共振峰提取框图和共振峰提取流程图，最后给出了情感语音中高兴、生气和中立的共振峰提取结果。

并对共振峰提取结果进行分析与总结。

第六章是对本文主要工作和研究成果的总结，并对下一步语音情感识别中共振峰提取的研究工作做出展望。

第2章情感的分类与语音情感识别

2.1情感的分类

情感类型的合理界定是对语句进行情感标注的基础。

在情感计算领域，许多学者从不同的角度研究了情感的分类问题，并提出了相应的情感类型定义。

传统的研究通常用日常语言标签来标识和分类情感，比如把情感分为高兴、愤怒、害怕等[15]。

美国心理学家Eckman提出了六种基本情绪[16]：

愤怒、恐惧、悲伤、惊讶、高兴和厌恶。

而Plutchik提出过八种基本情绪[17]悲痛、恐惧、惊奇、接受、狂喜、狂怒、警惕、憎恨。

Shaver等人则认为原始情绪有愤怒、爱、高兴、害怕、悲伤、惊讶六类[18]，这和Eckman的六类墓本情绪存在微小差异。

另外，关于语音情感的研究还可以更为简单化，部分研究对情感的分类更侧重于系统的实用性。

例如，将语音仅分为“无情感含义”与“带情感含义”两大类；或是分为“情感强烈”与“情感不强烈”两大类；部分研究只关注于用户的情感状态是“正常”还是“不正常”；还有的研究只注重用户的某些负面情感，如“挫败”、“厌烦”、“僧恶”等等。

除了以标签法将情感分成离散的类别之外，一些研究者尝试在连续的空间中描述情感，也称作维度轮[19]。

在此基础上，Plutchik等人提出了“情感轮”理论，认为情感分布在一个类似于钟表盘的圆形结构上，圆心是自然原点，表示人在内心平静时的情感状态，而圆周上的标注标明儿种基本情感类型，其排列方式可根据具体研究需要设置[20]。

情感语句的情感类型和强度可用情感轮组成的二维空间中的情感矢量表示，该矢量同自然原点之间的距离体现了情感的强度，方向则表示情感类别。

尽管心理学、认知学等领域的研究人员对于情感种类的定义五花八门，但在目前绝大多数的语音情感识别系统中，使用的情感类别是MPEG-4国际标准定义的五种情感状态，即“愤怒（Anger）”、“恐惧（Fear）”、“高兴（Happiness）”、“悲伤（Sadness）”和“惊讶（Surprise）”，外加“中立（Neutral）”来表征语音不具有情感含义。

2.2情感语音数据库

要对语音进行情感识别，情感语音数据库的建立是基础。

怎么样才能获取高质量的情感语音是建立语音库的关键问题。

因为语音的质量将直接影响整个语音情感识别系统的性能。

按照表达的情感自然度可以将情感语音数据分为3个类别：

自然型情感语音、表演型情感语音和引导型情感语音[19]。

表演型情感语音是指情感表现力较强的演员模仿不同情感朗诵指定语句获得的情感语料。

相对于自然型情感语音，表演型情感语音较容易获取，可控制性较强，可以根据需要录制任意说话内容的情感语句。

然而表演型情感语句中的情感成分被夸张了，而且自然度也受说话人的演技高低影响。

引导型情感语音是指通过一定的外界环境和手段，引导说话人的情绪进入某种特定的状态，从而录制情感语音的方法。

引导型情感语音通常通过文字对说话者进行引导，即通过说话人朗读带有一定感情色彩的文本，获得所需要的情感语句。

引导型情感语音是自然型和表演型情感语音录制方法的一种折中，定制性比较强且语料的获取相对方便，适合基于不同文本的语音情感方面的研究。

然而，纯文本引导对于内心情感状态的生成比较缓慢和微弱，这种方式获得的情感语句对文本内容的选择性比较强。

由于语音情感信息的地域性差异，目前情感语音研究领域中缺乏标准数据库，需要研究者录制符合自身研究要求的情感语料库。

本文应用的是由高兴、生气、中立三种情感语音组成的情感语音数据库，每种情感语音分别有中英文两种语言，所用情感语句的中文文本为“我到北京去”英文文本为“Goodmorning”以wav格式存储，持续时间五秒以内，经过反复的主观听觉实验，认为该情感语音数据库的语料情感辨识度较高，自然度也比较理想，可以满足本文的研究需求。

2.3语音情感识别系统

图2-1典型语音情感识别系统的框图

语音情感识别系统与语音识别系统类似，分为语音情感语句预处理、特征参数提取和模式匹配三个部分。

其识别过程如下:

首先对情感语句进行预处理，语音情感语句预处理包括预加重、分帧加窗和端点检测等;其次是对情感语句提取特征参数，如MFCCI、LPCC、LPMCC和ZCPA等频谱特征参数;最后将不同情感的特征参数进行训练形成不同的模板库，并将待识别情感的特征参数与模板库进行模式匹配，从而将情感识别结果输出。

典型的语音情感识别系统如图2-1所示。

第3章共振峰的基本概念

3.1共振峰参数的概念及产生原理

发音时，气流通过声道，引起声道谐振，产生的一组谐振频率，称为共振峰频率或简称共振峰。

共振峰参数包括共振峰频率和频带宽度，它是区别不同韵母的重要参数。

共振峰信息包含在频率包络之中，因此共振峰参数提取的关键是估计自然语音频谱包络，一般认为谱包络中的最大值就是共振峰[1]。

共振峰的分布位置是建立在声音产生媒介的共鸣物理结构基础上的（ResonantPhysicalStructure）。

无论是人声还是乐器，它们的声音特性都源自两个因素，一个是发声系统，如人的声带或乐器的振动簧片，另一个是共鸣系统。

乐器不同的共鸣系统使其在一定频域中的分音的振幅得以突出，这样，这些区域就产生了这个乐器所特有的共振峰值，这些共振峰值同共鸣体的大小、形状的材料密切相关。

由于一件乐器的结构是稳定的，因此在一件乐器发出的所有音调中，不论基频如何，都会表现出相同的共振峰值，只不过其显著性有强有弱罢了。

这就可以帮助我们解释为什么在很多的乐器中，同一乐器所发出的不同音调具有相同的音质。

在语音声学中，人声也同样受自身生理如鼻孔、咽腔、口腔大小的影响有自身的共振峰区（FormantRegions）。

通过利用这些共鸣空间的形状和大小不同的变化（例如改变咽喉、嘴形），我们就能改变声音的共振峰。

我们之所以能够区分不同的人声、元音，主要也是依靠它们的共振峰分布的位置。

3.2共振峰参数的研究意义

汉语普通话发音中情感特征信息的特征参数主要包括发音持续时间、振幅能量、基音频率和共振峰频率等。

共振峰是反映声道谐振特性的重要特征，它代表了发音信息的最直接来源，而且人在语音感知中利用了共振峰信息，所以共振峰参数的提取一直以来都是语音信号处理领域中重要的研究题之一。

共振峰参数已经广泛地用作语音识别的主要特征和语音编码传输的基本信息，共振峰轨迹包含了说话人的个性特征，对说话人识别有着重要意义，同时也是语言学家研究人类发音技能的有效工具[21]。

3.3提取共振峰参数所遇到的问题

与基音检测类似，共振峰估计也是表面上看起来很容易，而实际上又受很多问题困扰。

这些问题包括：

（1）虚假峰值。

在正常情况下，频谱包络中的极大值完全是由共振峰引起的。

但在线性预测分析方法出现之前的频谱包络估计器中，出现虚假峰值是相当普遍的现象。

甚至在采用线性预测方法时，也并非没有虚假峰值。

为了增加灵活性会给预测器增加个额外的极点，有时可利用这些极点代表虚假峰值。

（2）共振峰合并。

相邻共振峰的频率可能会靠的太近而难以分辨。

这时会产生共振峰合并现象，而探讨一种理想的能对共振峰合并进行识别的共振峰提取算法存在很多实际困难。

（3）高音调语音。

传统的频谱包络估计方法是利用由谐波峰值提供的样点。

高音调语音的谐波间隔比较宽，因而为频谱包络估值所提供的样点比较少，所以谱包络的估计就不够精确。

即使采用线性预测进行频谱包络

展开阅读全文