一种基于小波包主成分分析的语音情感识别方法.docx

上传人:b****1 文档编号:134682 上传时间:2022-10-04 格式:DOCX 页数:9 大小:14.97KB
下载 相关 举报
一种基于小波包主成分分析的语音情感识别方法.docx_第1页
第1页 / 共9页
一种基于小波包主成分分析的语音情感识别方法.docx_第2页
第2页 / 共9页
一种基于小波包主成分分析的语音情感识别方法.docx_第3页
第3页 / 共9页
一种基于小波包主成分分析的语音情感识别方法.docx_第4页
第4页 / 共9页
一种基于小波包主成分分析的语音情感识别方法.docx_第5页
第5页 / 共9页
点击查看更多>>
下载资源
资源描述

一种基于小波包主成分分析的语音情感识别方法.docx

《一种基于小波包主成分分析的语音情感识别方法.docx》由会员分享,可在线阅读,更多相关《一种基于小波包主成分分析的语音情感识别方法.docx(9页珍藏版)》请在冰豆网上搜索。

一种基于小波包主成分分析的语音情感识别方法.docx

一种基于小波包主成分分析的语音情感识别方法

朱宗宝王坤侠肖玲玲刘文静

安徽建筑大学电子与信息工程学院

摘要:

在语音情感识别中,由于特征参数的提取直接影响到最终的识别效率,从原始语音信号中提取特征参数是非常重要的。

但是本文中提取的特征维数太多,导致特征匹配时过于复杂,消耗系统资源,不得不采用特征降维的方法。

本文主要是研究一种在小波包变换的基础上通过特征降维来提高语音情感识别效果的方法,为此本文在德国库EMODB的基础上,通过小波包变换提取出语音的情感特征参数,然后利用主成分分析法对特征参数进行降维,最后利用支持向量机进行训练和测试。

通过实验,获得了较好的识别效果。

关键词:

特征提取;主成分分析法;小波包变换;支持向量机;

作者简介:

朱宗宝(1990-),男,硕士生,主要研究方向为机器学习。

收稿日期:

201627

基金:

安徽省自然科学基金面上项目(1708085MF167)

A Method of Speech Emotion

Recognition Based on Wavelet

Packet-Principal Component Analysis

ZHU Zongbao WANG KunxiaXIAO Lingling LIU Wenjing

School Of Electronic Information And Engineering,

Anhui Jianzhu University;

Abstract:

In speech emotion recognition,the extraction of feature parameters has a direct impact on the final recognition efficiency.It is very important to extract feature parameters from the original speech signal.But in the paper,there is too much extracted feature dimension is too much,which often leads to the complexity of feature matching,and consumes the system resources,so we have to adopt feature dimension reduction method.This paper is to improve the effect of speech emotion recognition based on a transform of wavelet packet by feature dimension reduction.So the paper present a emotional feature extraction method of speech by transforming wavelet based on the German Database (EMODB),and then adopt principal component analysis to reduce the dimensionality of feature parameter,We finally use Support Vector Machine for training and testing.Good

recognition results are obtained through experiments.

Keyword:

feature extraction;Principal Component Analysis;Wavelet Packet

Transform;Support Vector Machine;

Received:

201627

0引言

伴随着科技的发展,智能化得到越来越多的应用。

尤其在智能语音方面,受到了越来越多的关注。

语音情感识别[1]作为其中的重要组成部分,得到了人们广泛的重视。

语音情感识别是当前人工智能、信号处理和模式识别等领域研究的一个新的热点课题。

目前主要从三大方向入手:

预处理语音信号、提取情感特征和识别语音情感特征。

提取的特征参数的质量直接关系着语音情感识别的结果。

特征提取[2]是语音情感识别中的重中之重,因为好的情感特征能够很好的区分情感类型,反之差点的情感特征的区分效果就不太明显;同时具有良好的独立性且计算方便的特征可以保证语音情感识别的快速实现[3]。

目前语音情感识别领域常用的特征参数的有这么几大类[4]:

基于人耳听觉特性设计的特征参数梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)、线性预测系数(Linear Prediction Coefficient,LPC)和线性预测倒谱系数(Linear Prediction Cepstrum Coefficients,LPCC)等。

但是上述研究方法的的实用性,鲁棒性和推广能力非常有限。

特别是特征参数大都采用平稳信号的分析方法提取[5],而语音信号是一种典型的非平稳信号,他的频谱特性随时间改变,一旦确定分析窗后,短时分析不能随着信号的变化调整其时频分辨率,而且短时平稳的方法仅对说话人的静态特征进行了描述,忽略了说话人的动态特征,而各种实验已经证明,语音中的动态特征是说话人的重要特征。

因此选择一个较好的特征参数尤为重要。

2语音情感特征的提取

2.1实验数据库

本文使用的是德国库EMODB[6],其采样频率为16KHZ,16bit量化。

该语音库包含七种情感类型,它们分别是高兴、忧虑、无聊、生气、平静、悲伤和厌烦。

共有536句情感语音信号。

该库的情感分布如图1所示:

图1德国库情感分布图

下载原图

2.2预处理

特征提取之前,我们要先对训练和测试语音做预处理工作,预加重过程采用的传递函数为:

H (z) =1-µz,预加重系数。

分帧加窗过程:

帧长取256个采样点,帧移取128个采样点,加汉明窗。

最后采用双门限的方法进行端点检测[7]。

2.3情感特征提取

小波包变换(Wavelet Packet Coefficients,WPC)[8]可以对高频部分提供更精细的分解,而且这种分解既无冗余,也无疏漏,所以对包含大量中、高频信息的信号能够进行更好的时频局部化分析。

因此小波包具有更广泛的应用价值。

关于小波包分析的理解,这里以一个三层的分解进行说明,其小波包分解树如图2所示:

图2三层小波包分解树

下载原图

图3七种情感的原始语音及六层小波包结点(6,0)

下载原图

其中S代表原始信号、A代表低频、D代表高频,字母后第一个数字代表小波包分解的层数(也叫尺度数),第二个数字代表小波包分解成第几个低频和高频的组合。

原始信号在进行表示时,只要满足完备性和高低频信号不能有交叠性就可以任意组合。

本文采用db2小波函数对语音信号进行6层分解,考虑到全局特征优于局部特征,实验进一步将小波包系数的统计值(最小值、最大值、均值、方差及中位数)计算出来,并考虑对原始信号进行一阶差分、二阶差分的处理。

我们通过从德国库中提取七条语音,每条语音带有一种情感,它们分别为生气、忧虑、无聊、厌恶、高兴、平静和悲伤。

随后将语音库中的七种情感的小波包系数结点(6,0)提取出来。

如图3a、3b所示。

在这里,我们选择了语音表达较为清晰和显著的四种情感(生气,高兴,平静和悲伤)进行图像分析,由图3a、3b可以得出:

生气小波包结点(6,0)的主要能量集中在频带1000HZ左右和2500~3500Hz内。

高兴小波包结点(6,0)的主要能量集中在频带0~1800HZ和2100~3800Hz内。

平静小波包结点(6,0)的主要能量集中在800~1200Hz和2000~3800HZ内。

悲伤小波包结点(6,0)主要能量集中在0~4000Hz内。

以上我们可以发现每种情感的原始信号及每层分解的分量的能量分布都表现出差异性。

2.4主成分分析法

主成分分析(principal component analysis,PCA)[9]本质上是一种多元的统计学分析方法。

对于一组数据集的维度一旦达到某个峰值,越往后其分类效果反而越差。

为了避免维度灾难需要进行特征降维。

语音信号可能有很多维数很大的特征包含的情感值没有贡献或者贡献的较小,通过主成分分析法去除一些噪声信息的影响。

本文选择主成分分析法进行特征降维。

然后求C x从大到小排列的特征值和特征向量如式

(2) :

把特征向量:

A= (ϕ,ϕ,...,ϕ)样本向量投影到已选取的特征向量为基的特征空间,得出如下式(3)、(4)、(5) :

将A的列向量φ看做低维空间的基,常量m不影响分布的特性,故将基向量的系数看做主成分就是原样本x在低维空间的表示。

由于本文的语音信号是基于六层小波包分解而提取的特征[10],共计得到5760个小波包系数特征。

导致特征维数很高,所以我们运用主成分分析法进行特征降维,在交叉验证的情况下,平均得到312个小波包系数特征。

对数据集进行主成分分析法处理的方法是有效的和必要的。

3实验与分析

3.1分类器的选择

语音情感识别也是一种模式识别。

传统的情感识别方法很多,基本上可以分为两大类:

一类是以时序特征为基础的,如HMM[11]和GMM[12]方法;另一类是以统计特征为基础的,如ANN (ACON,OCON)[13]方法。

GMM和HMM方法在各类情感模型的训练过程中需要大量的情感语音样本,同时模型训练的时间花费很大。

而ANN方法中由于网络中隐层节点数等不确定性因素,限制了网络的鲁棒性和情感识别正确率的进一步提高。

支持向量机(Support Vector Machine,SVM)分类[14]因其较好地解决了小样本、非线性及高维模式识别情况下的机器学习问题,具有很好的泛化能力,同时避免了神经网络结构选择、过学习、欠学习及局部最优解的问题。

因此,本文提出的是基于SVM的语音情感识别方法可以有效克服上述识别方法的不足。

3.2语音情感识别系统结构

本文的语音情感识别系统结构如图4所示,基于小波包变换的语音情感特征的提取[15]、主成分分析法降维和支持向量机分类是其中的重要步骤。

我们先对语音信号做预处理,然后用小波包变换提取语音特征,再将提取的特征集数据做归一化处理,因为提取的特征维数较高,我们利用主成分分析法进行降维,最后用SVM进行情感识别。

图4语音情感识别系统结构

下载原图

3.3实验结果及分析

本文以十折交叉验证[16]的方式进行分类,随机抓取一份做测试集,剩余九份做训练集。

由于获取的情感特征维数较高,这样不仅增加了运行时间而且也影响了识别效果,所以我们需要降低特征维度,本实验我们采用的是主成分分析法降维。

最后我们把获取的数据集用SVM分类器进行分类和预测。

图5不同特征权重下的情感识别结果

下载原图

主成分分析试图尽最大范围保持数据完整的原则下,对高维变量空间进行降维处理。

我们对数据集去除相关性,然后分别选取权重占80%、85%、90%、95%和100%的数据集进行主成分分析处理,由图5可知,在本实验中,随着特征的贡献率的增加,情感识别率越低,考虑到信息的完整性以及识别效果的有效性,本文选取特征权重占90%的数据集进行主成分分析处理。

为了分析主成分分析法对识别效果的影响,我们对特征参数进行有主成分分析法和无主成分分析法的识别结果的比较,其它的过程不变;然后重复十次实验,求其十次识别结果的平均值。

实验结果见表1。

表1十组十折交叉验证的识别率(%)

下载原表

由表1所示,分别在有主成分分析法和无主成分分析法的情况下进行两组实验,得到两组实验数据。

在有主成分分析法降维的情况下,其运行时间在2分钟左右,其获取权重占90%的数据集,特征由5760个降

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 党团工作 > 党团建设

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1