基于语音的模糊案例推理情感识别算法研究.docx

资源描述

基于语音的模糊案例推理情感识别算法研究.docx

《基于语音的模糊案例推理情感识别算法研究.docx》由会员分享，可在线阅读，更多相关《基于语音的模糊案例推理情感识别算法研究.docx（9页珍藏版）》请在冰豆网上搜索。

基于语音的模糊案例推理情感识别算法研究.docx

基于语音的模糊案例推理情感识别算法研究

摘要

一台智能的计算机应能观察、理解人类情感并根据使用者的情感自动调整交互环境。

如何使计算机能够准确地识别人类的情感具有重大的理论和实际意义。

人类情感识别主要包括：

表情情感识别，语音情感识别，生理信号情感识别等。

语音情感识别作为人类情感识别的重要部分越来越受到国内外研究人员的重视，在计算机已知人类语音的前提下，通过分析语音中包含的情感信息，自动识别出说话人的情感类别，是智能人机交互的重要组成部分。

语音情感识别的研究包含：

语音信号情感特征分析，提取语音情感特征方法，建立语音情感识别模型，语音情感识别算法。

本文的主要研究工作有以下部分：

（1）语音特征识别；

（2）在语音情感识别阶段，提出用模糊规则用于语音情感识别，因为模糊规则在模型不清楚的环境中有着出色的表现；（）在语音情感识别阶段，本文在深入研究基于案例的推理（CBR）和WANG算法的基础上，提出了一种将两者融合的方法，即基于模糊规则的案例推理;（4）本文采用柏林语音情感库作为训练和测试样本库。

关键词：

情感特征，语音情感识别，模糊规则,WANG算法

Abstract

Oneintelligencecomputershouldnoticesandunderstandstheusers'emotion;theintelligencecomputershouldalsochangethehuman-machineinterfaceenvironmentiftheusers'emotionschange.Howtomakethecomputerexactlyrecognizetheemotionofhumanhassignificantmeaningsnotonlyintheorybutalsoinpractical.Theresearchofhumanemotionrecognitionmainlycontain:

FacialExpressionRecognition，speechemotionrecognition,physiologicalsignalsemotionrecognition.

Asonepartofhumanaffectivecomputing,Speechemotionrecognitionhasattractedlotofresearchers'interestinthisfield,supposecomputerhashumanspeechinformation,afterdetailwiththespeechthatcontainhumanemotioninformation,thecomputershouldautomaticallyrecognizespeaker'semotionthatisimportantpartofintelligencehuman-machineinteraction.

Theresearchofspeechemotionrecognitiongenerallyconsideredseveralparts:

speechsignalEmotionalcharacteristicsanalysis,extractionspeechsignalEmotionalcharacteristicsmethod,buildspeechemotionrecognitionmodel,speechemotionrecognitionalgorithm.Themainresearchesofthispaperareasfollows:

（1）extractspeechsignalEmotionalcharacteristics;

（2）Inspeechemotionrecognitionmodelaspect,weproposeusefuzzyrulestoreplacethespeechemotionrecognitionmodelforfuzzyrulescandoagoodperformanceinasystemwhenthesystemmodelisnotclear;（3）Inspeechemotionrecognitionalgorithmaspect,afterstudyofCaseBaseReasoning（CBR）theoryandWANGalgorithm,wecombinetwoofthemtogether,thatisFuzzyCaseBasedReasoning.（4）InthispaperweuseBerlinspeechemotiondatabaseasthetrainingandtestdatabase.

Keywords：

Speechfeatureextraction,Speechemotionrecognition,Fuzzyrules,WANGalgorithm

1、

引言

近年来计算机的快速发展为人们的日常生活、学习、工作带来了不可替代的作用，然而人们对计算机的要求也越来越高。

现在的计算机已经不能满足人们对智能计算机的要求。

智能的计算机首先要识别人类的情感，这就是美国麻省理工大学媒体实验室Picard教授提出的情感计算（Affectivecomputing）的概念，即“情感计算是与情感相关，来源于情感或能够对情感施加影响的计算”。

人们不仅希望智能的计算机具有强大的计算和存储能力，人们还希望它具有类似人类的智能，使人机之间的交流也能像人与人之间的交流一样自然和亲切。

为了使计算机能够达到上述要求，计算机首先要能够正确地识别人类的情感。

情感计算的研究主要包括：

获取有人类情感一起的生理及行为状态特征，建立情感识别模型，根据识别算法对人类情感状态进行识别。

语音情感识别的研究主要色含：

语音情感特征的提取方法，建立语音情感识别模型，语音情感识别算法。

本文的主要研究工作有：

（1）在语音特征提取部分，如何提取能充分代表人类情感的特征参数对于语音情感识别具有不可替代的道要意义。

（2）在语音情感识别阶段，提出用模糊规则用于语音情感识别，因为模糊规则在模型不清楚的环境中有着出色的表现。

由于WANG算法在决策融和阶段采用乘积的方式，存在易于将有用案例剔除的情况，因此，我们提出在决策融合阶段用均值的方式对WANG算法进行改进，用于语音情感识别。

用改进的WANG算法对语音特征提取模糊规则，然后应用得到的模糊规则对语音进行情感识别。

然后应用学习得到的模糊规则对语音情感进行分类，取得不错的分类率。

（3）在语音情感识别阶段，本文在深入研究基于案例的推理（CBR）和WANG算法的基础上，提出了一种将两者结合的方法，基于模糊规则的案例推理。

该方法不但充分体现了模糊规则在模型不清楚情况下的优点，同时还拥有基于案例的推理在已解决案例可用为解决新问题的优越性。

（4）本文采用柏林语音情感库作为训练和测试样本库，对上述方法进行了检验，通过实验结果可以看到本文提出的方法具有较好的情感识别率。

2、语音情感识别方法

在人与人的交流中，语音是主要交流方式，语音中往往带有说话者的情感状态，对于人类来说，识别说话者的情感状态不是一件很难的事情可是让计算机识别说话者的情感状态却不是一件简单的事。

计算机为了识别说话者的情感状态，首先，要对说话者的语音信号预处理，提取语音信号的情感特征；然后建立一定的语音情感识别模型；最后根据某些识别方法判断语音的情感类别。

本章首先介绍几种情感的分类，然后介绍语音识别系统，语音识别系统主要包括：

语音信号预处理，语音信号特征提取，语音情感识别。

最后介绍常用的语音信号识别模型。

2.1情感的定义和分类

情感是态度这一整体中的一部分，它与态度中的内向感受、意向具有协调一致性，是态度在生理上一种较复杂而又稳定的生理评价和体验。

情感包括道德感和价值感两个方面，具体表现为爱情、幸福、仇恨、厌恶、美感等等。

至今对于情感的分类，仍然没有一个统一的结论，不同的研究人员根据自身的研究情况，提出了不同的情感分类方法，到底哪一种情感分类方法最为合理，目前仍然没有科学的证明。

本来情感状态就是一个渐变的过程，对于某一种情感不能用一个情感词汇描绘出来。

表2.1是不同学者对基本情感分类的情况。

在本文中，由于采用德国柏林语音情感数据库作为训练和测试数据库，所以根据柏林语音情感数据库的情况，选用高兴，愤怒，恐惧，焦虑，无聊，厌恶和正常等七种情感状态进行研究。

表2.1基本情感分类

2.2语音情感识别

一个完整的语音情感识别系统一般由三部分组成：

语音信号预处理过程，语音信号特征提取过程，语音信号情感分类过程。

语音情感识别系统如图2.2所示。

一般的语音信号情感识别第一步要对语音信号进行预处理过程，这个预处理的目的是去除语音信号中的噪声、环境杂音，经过预处理的语音信号更能满足后续步骤的需要，以便更好地进行语音信号的特征提取，获得高精度的语音识别结果。

语音信号的情感状态可以根据语音信号的特征体现出来，语音信号的特征主要有时域特征和频域特征，普遍认为情感的变化主要由时域特征体现，时域特征主要包括：

语音时间构造、振幅构造、共振峰构造。

语音信号处理的最后一步是，语音情感识别，在语音信号情感识别的方法中主要有：

主成分分析法（PrincipalComponentAnalysis，PCA），K最近邻（K-nearestneighborhood），支持向量机（SupportVectorMachines,SVM）,神经网络（neuralnetwork,NN），隐马尔科夫模型（HMM）等方法。

图2.2语音情感识别系统图

3、语音情感特征提取

本章通过对研究人员目前普遍采用的语音情感特征参数的研究分析，认为时域特征参数最能够提语音信号的情感状态，在柏林语音情感数据库上提取了主要的时域参数：

时间构造、振幅构造、共振峰构造。

3.1振幅构造参数提取

在语音情感研究中，振幅构造被认为是必不可少的语音信号特征参数。

因为人类在愤怒或者惊奇的时候，发音的音量就毁变大，当人类在悲伤或者沮丧的时候，发音就会变低。

本文中，我们选取短时平均振幅的能量均值，能量的最大值，曲线局部极点个数三个特征作为振幅构造的参数。

假设语音信号波形时域信号为x

（1），加窗分帧处理后的第n帧语音信号为xn（m），则xn（m）满足：

其中，n=0,T,2T,3T,...,N为帧的长度，T为帧移的长度。

假设第n帧语音信号xn（m）的短时能量用En表示，则有下面的计算公式：

这里En是一个度量语音信号幅度值变化的函数，它有自身的一个缺点：

对高电平非常敏感，这是由于计算时用的是信号的平方。

因此，我们可以采用另外一个度量语音信号幅度值变化的函数——短时平均幅度函数Mn计算公式为：

所以能量的均值为：

这里M为帧数。

在得到语音信号的短时平均能量均值，能量曲线的局部极点就是曲线倒数为零的点，为能量的最值点。

语音信号的短时能量和短时平均幅度函数Mn的主要作用：

（1）用于区分清音段和池音段。

（2）用于区分声母和韵母的分界，无声和有声的分界，连字的分界。

（3）用于语音识别。

3.2时间构造参数提取

语音信号的时间构造主要有语音持续时间，短时过零率。

我们主要研究语音持续时间。

当说话者处于不同的情感状态时，语音的持续时间是不同的，因此语音持续时间对于语音情感识别是有作用的。

对于相同的一个语句，说话者不同的状态语音的持续时间是不同的；当然，对于不同长度的语句，语音的持续时间是不同的，这时我们可以使用语速代替语音持续时间。

3.3共振峰构造参数提取

所谓共振峰就是元音激励进入声道产生的一组共振频率，不同情感状态的语音使声道产生的变化是不相同的，所以共振峰位置就会不相同。

在声学参数中是与语音质量相关的重要参数。

因此共振峰可以作为语音情感识别的特征参数，用于语音情感识别的研究中。

共振峰主要包括：

共振峰频率和频带宽度，共振峰是区别不同韵母的重要参数。

本文中采用线性预测法（LPC）求出14阶的预测系数，然后用预测系数估计出声道的频响曲线，用峰值检测法（PeakPicking）计算出共振峰的频率。

本文选取第一共振峰的均值，最大值，最小值，变化范围以及变化率作为共振峰参数用于语音情感识别。

4、基于模糊规则的语音情感识

在大部分的现实控制和信号处理问题中，关于处理，估计和实现等问题的主要信息可以划分为两大类：

从传感器等测量的数字信息和从人类专家得到的语言信息。

上述两类信息可以归纳为：

数字序列和人类经验。

如果把经验规则和数字序列结合起来使用，肯定会比单独使用他们当中的一个设计的控制系统得到的控制效果好很多，这就是WANG算法的主要思想。

模糊控制被认为是一种利用语言规则的有效方法，人工控制是一种更适合使用数字序列（成功的输入-输出数字对）的控制方法。

现在的模糊控制一般只使用语言规则，人工控制一般只利用数字序列。

所以，这就导致了这样一个设想：

能不能将语音规则和数字序列结合起来，从而产生一种更加一般的系统解决方案，以解决控制设计类的问题？

这种把语音规则和数字序列结合起来的方法产生模糊规则的方法，不仅使用了数字序列的信息也使用了语音规则信息，是一种更加全面，更加系统的规则。

最后利用这个模糊规则库解决模型不易得到的控制或者分类问题。

由于语音情感识别中的语音情感模型是比较复杂的，因此，我们将这种模糊规则方法应用到语音情感识别中。

4.1改进的WANG算法

由于WANG算法是一种简单的，并且得到的模糊规则效果很好的模糊规则生成算法，在一些应用方面已经使用到这个方法。

但是WANG算法在决策融合阶段使用乘积的方式，使一些案例被忽略，因此我们希望避免这种情况的发生。

假设我们有一组案例：

这里x1,x2，是输入，y是输出，在分类问题中y是这类问题的类别。

我们选择多输入单输出是为说明我们是怎么样得到模糊规则的基本思想，这样的主要任务是从这一组案例中提取模糊规则，这个模糊规则的内容是关于

我们用的改进的WANG算法是数据库中提取模糊规则，改进的算法包括四步：

（1）首先将输入输出空间划分成模糊区域。

（2）然后提取模糊规则。

（3）再然后给每条规则计算相应的规则强度。

（4）最后精简模糊规则得到最终的模糊规则。

4.2模糊规则在分类问题的应用

图4.1模糊规则在分类问题的作用

模糊规则用于分类问题的整体框图如图4.1所示，首先对于己知的案例使用改进的WANG算法，提取案例库的模糊规则库，这个模糊规则库就包含了已知案例的所有信息，我们解决新问题时，就可以使用这个案例库。

当有新问题出现时，这个新问题就会根据已有的模糊规则库，寻求新问题的最大可能解。

在最终的决策融合阶段，我们通过一个投票过程选择最有可能的类别，在案例库中，相同的类别会进入到一个投票过程。

5、基于案例推理与模糊规则融合的语音情感识别

这种将基于案例的推理和改进的WANG算法融合的方法既可以保留基于案例的推理在利用以前案例的优点，又保留了模糊规则的简单和有效的优点。

基于案例的推理和改进的WANG算法融合的方法作为语音情感识别的方法以前从来没有研究学者提出过，我们是首次尝试。

5.1基于案例推理介绍

基于案例的推理（Case-basedReasoning,简称CBR）是一种基于以前成功解决的案例用于解决新问题的推理方法，基于案例的推理169]和人类在现实生活中解决未知问题的过程是相似的，都是根据以前相似问题的解决方法用于解决新问题。

由于基于案例的推理在一般用途上的高度适应性，所以它逐渐被应用到很多领域。

图5.1是基于案例推理的整体结构图。

当一个新问题出现时，它就作为这个系统的输入，基于案例推理的系统就会根据一些特征找出和这个问题相似的案例，通过修改找出案例的解决方法寻求新问题的解决方法。

当新问题的解决方法被人们或者环境判断为有效以后，这一案例就会加入到案例库中，从而丰富案例库。

所以基于案例推理的整体过程可以描述为：

学习过去，建立经验，增加案例以提高性能。

图5.1CBR系统的一般结构

5.2基于案例推理和模糊规则的融合算法

图5.2为总体的模糊-基于案例的推理系统构架图，对于给定的新问题，在案例库中寻找有用的案例。

用改进WANG算法从案例库中提取模糊规则，新问题和已经解决案例的关系就是通过模糊规则连接他们之间的关系由一个代表已解决案例对于新问题的有用性的值表示，值越大说明已解决案例对新问题的有用性越大。

从案例库中得到这个值之后，我们通过修改已解决案例的解决方法得到新问题的解决方法。

图5.2基于案例的推理和模糊规则融合系统

5.3CBR和模糊规则融合的方法用于语音情感识别

本文实验的柏林情感数据由五男五女分别用愤怒（anger），厌烦（boredom），厌恶（disgust）,害怕（anxiety/fear）,高兴（happiness），悲伤（sadness），中性（neutral）七种情感朗读十句语句共535条语句。

实验时，用九个人的语音语句学习模糊规则，用剩余的一个人的语音语句验证CBR和模糊规则融合的方法在语音情感识别的效果，重复九次。

我们把隶属度函数的个数选为8，输入特征变量的区间是等长度。

我们设定了一个阈值0.5，只有强度大于0.5时，才被在投票过程采用。

表5.1是用CBR和模糊规则融合的方法在柏林情感数据库的仿真结果。

表5.1CBR和模糊规则融合的方法在柏林情感数据库的仿真结果

从仿真结果中可以看出，语音情感识别结果最好是编号为16的那一组，识别率得到了81.70%，语音情感识别结果最不好的是编号为12的那一组，识别率只有65.71%，用CBR和模糊规则融合的方法在柏林情感数据库的语音情感识别的效果比只用改进的WANG算法的识别效果提高了大约8%。

说明CBR和模糊规则融合的方法比只用改进的WANG算法在语音情感识别中更加的有效。

情感识别的相关研究中，只使用语音这一种模态的情感识别的普遍识别率在70%左右，从以上仿真结果可以看出，我们的方法的识别率达到了72.52%，因此，其情感识别率是很好的，并目.我们方法是一种快速的识别方法，在学习得到语音特征的模糊规则之后，对于未知情感状态的语音判别时间足很短的。

6、总结

本章首先介绍了基于案例的推理（CBR）的基本概念以及它的应用方向，之后着重介绍了将CBR和模糊规则融合的方法。

然后介绍了CBR和模糊规则融合的方法提取模糊规则的过程。

接着，将这种CBR和模糊规则融合的方法应用于标准数据库的分类问题中，可以从实验结果中看到这种方法比改进的WANG算法效果提高了很多。

最后我们将这种方法应用于语音情感识别中，并取得了很好的语音情感识别效果。

参考文献

[1]PicardRW.AffectiveComputing[R].PerceptualComputingSectionTechnicalReport,TR321.MITMediaLaboratory,1995.

[2]Razak，A.A.，Komiya,R.，Izani,M.;Abidin.Z.ComparisonBetweenFuzzyandNNMethodforSpeechEmotionRecognition.ProceedingsoftheThirdInternationalConferenceonInformationTechnologyandApplications.2005，297-302.

[3]V.Novak,“FuzzySetsandtheirapplications”，AdamHigherPublishers,1989.

展开阅读全文