一种基于小波包主成分分析的语音情感识别方法Word格式文档下载.docx
《一种基于小波包主成分分析的语音情感识别方法Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《一种基于小波包主成分分析的语音情感识别方法Word格式文档下载.docx(9页珍藏版)》请在冰豆网上搜索。
Recognition
Based
on
Wavelet
Packet-Principal
Component
Analysis
ZHU
Zongbao
WANG
KunxiaXIAO
Lingling
LIU
Wenjing
School
Of
Electronic
Information
And
Engineering,
Anhui
Jianzhu
University;
Abstract:
In
speech
emotion
recognition,the
extraction
feature
parameters
has
a
direct
impact
the
final
recognition
efficiency.It
is
very
important
to
extract
from
original
signal.But
in
paper,there
too
much
extracted
dimension
much,which
often
leads
complexity
matching,and
consumes
system
resources,so
we
have
adopt
reduction
method.This
paper
improve
effect
based
transform
wavelet
packet
by
reduction.So
present
emotional
method
transforming
German
Database
(EMODB),and
then
principal
component
analysis
reduce
dimensionality
parameter,We
finally
use
Support
Vector
Machine
for
training
and
testing.Good
results
are
obtained
through
experiments.
Keyword:
extraction;
Principal
Analysis;
Wavelet
Packet
Transform;
Machine;
Received:
0引言
伴随着科技的发展,智能化得到越来越多的应用。
尤其在智能语音方面,受到了越来越多的关注。
语音情感识别[1]作为其中的重要组成部分,得到了人们广泛的重视。
语音情感识别是当前人工智能、信号处理和模式识别等领域研究的一个新的热点课题。
目前主要从三大方向入手:
预处理语音信号、提取情感特征和识别语音情感特征。
提取的特征参数的质量直接关系着语音情感识别的结果。
特征提取[2]是语音情感识别中的重中之重,因为好的情感特征能够很好的区分情感类型,反之差点的情感特征的区分效果就不太明显;
同时具有良好的独立性且计算方便的特征可以保证语音情感识别的快速实现[3]。
目前语音情感识别领域常用的特征参数的有这么几大类[4]:
基于人耳听觉特性设计的特征参数梅尔频率倒谱系数(Mel
Frequency
Cepstrum
Coefficient,MFCC)、线性预测系数(Linear
Prediction
Coefficient,LPC)和线性预测倒谱系数(Linear
Coefficients,LPCC)等。
但是上述研究方法的的实用性,鲁棒性和推广能力非常有限。
特别是特征参数大都采用平稳信号的分析方法提取[5],而语音信号是一种典型的非平稳信号,他的频谱特性随时间改变,一旦确定分析窗后,短时分析不能随着信号的变化调整其时频分辨率,而且短时平稳的方法仅对说话人的静态特征进行了描述,忽略了说话人的动态特征,而各种实验已经证明,语音中的动态特征是说话人的重要特征。
因此选择一个较好的特征参数尤为重要。
2语音情感特征的提取
2.1实验数据库
本文使用的是德国库EMODB[6],其采样频率为16KHZ,16bit量化。
该语音库包含七种情感类型,它们分别是高兴、忧虑、无聊、生气、平静、悲伤和厌烦。
共有536句情感语音信号。
该库的情感分布如图1所示:
图1德国库情感分布图
下载原图
2.2预处理
特征提取之前,我们要先对训练和测试语音做预处理工作,预加重过程采用的传递函数为:
H
(z)
=1-µ
z,预加重系数。
分帧加窗过程:
帧长取256个采样点,帧移取128个采样点,加汉明窗。
最后采用双门限的方法进行端点检测[7]。
2.3情感特征提取
小波包变换(Wavelet
Packet
Coefficients,WPC)[8]可以对高频部分提供更精细的分解,而且这种分解既无冗余,也无疏漏,所以对包含大量中、高频信息的信号能够进行更好的时频局部化分析。
因此小波包具有更广泛的应用价值。
关于小波包分析的理解,这里以一个三层的分解进行说明,其小波包分解树如图2所示:
图2三层小波包分解树
图3七种情感的原始语音及六层小波包结点(6,0)
其中S代表原始信号、A代表低频、D代表高频,字母后第一个数字代表小波包分解的层数(也叫尺度数),第二个数字代表小波包分解成第几个低频和高频的组合。
原始信号在进行表示时,只要满足完备性和高低频信号不能有交叠性就可以任意组合。
本文采用db2小波函数对语音信号进行6层分解,考虑到全局特征优于局部特征,实验进一步将小波包系数的统计值(最小值、最大值、均值、方差及中位数)计算出来,并考虑对原始信号进行一阶差分、二阶差分的处理。
我们通过从德国库中提取七条语音,每条语音带有一种情感,它们分别为生气、忧虑、无聊、厌恶、高兴、平静和悲伤。
随后将语音库中的七种情感的小波包系数结点(6,0)提取出来。
如图3a、3b所示。
在这里,我们选择了语音表达较为清晰和显著的四种情感(生气,高兴,平静和悲伤)进行图像分析,由图3a、3b可以得出:
生气小波包结点(6,0)的主要能量集中在频带1000HZ左右和2500~3500Hz内。
高兴小波包结点(6,0)的主要能量集中在频带0~1800HZ和2100~3800Hz内。
平静小波包结点(6,0)的主要能量集中在800~1200Hz和2000~3800HZ内。
悲伤小波包结点(6,0)主要能量集中在0~4000Hz内。
以上我们可以发现每种情感的原始信号及每层分解的分量的能量分布都表现出差异性。
2.4主成分分析法
主成分分析(principal
analysis,PCA)[9]本质上是一种多元的统计学分析方法。
对于一组数据集的维度一旦达到某个峰值,越往后其分类效果反而越差。
为了避免维度灾难需要进行特征降维。
语音信号可能有很多维数很大的特征包含的情感值没有贡献或者贡献的较小,通过主成分分析法去除一些噪声信息的影响。
本文选择主成分分析法进行特征降维。
然后求C
x从大到小排列的特征值和特征向量如式
(2)
:
把特征向量:
A=
(ϕ,ϕ,...,ϕ)样本向量投影到已选取的特征向量为基的特征空间,得出如下式(3)、(4)、(5)
将A的列向量φ看做低维空间的基,常量m不影响分布的特性,故将基向量的系数看做主成分就是原样本x在低维空间的表示。
由于本文的语音信号是基于六层小波包分解而提取的特征[10],共计得到5760个小波包系数特征。
导致特征维数很高,所以我们运用主成分分析法进行特征降维,在交叉验证的情况下,平均得到312个小波包系数特征。
对数据集进行主成分分析法处理的方法是有效的和必要的。
3实验与分析
3.1分类器的选择
语音情感识别也是一种模式识别。
传统的情感识别方法很多,基本上可以分为两大类:
一类是以时序特征为基础的,如HMM[11]和GMM[12]方法;
另一类是以统计特征为基础的,如ANN
(ACON,OCON)[13]方法。
GMM和HMM方法在各类情感模型的训练过程中需要大量的情感语音样本,同时模型训练的时间花费很大。
而ANN方法中由于网络中隐层节点数等不确定性因素,限制了网络的鲁棒性和情感识别正确率的进一步提高。
支持向量机(Support
Machine,SVM)分类[14]因其较好地解决了小样本、非线性及高维模式识别情况下的机器学习问题,具有很好的泛化能力,同时避免了神经网络结构选择、过学习、欠学习及局部最优解的问题。
因此,本文提出的是基于SVM的语音情感识别方法可以有效克服上述识别方法的不足。
3.2语音情感识别系统结构
本文的语音情感识别系统结构如图4所示,基于小波包变换的语音情感特征的提取[15]、主成分分析法降维和支持向量机分类是其中的重要步骤。
我们先对语音信号做预处理,然后用小波包变换提取语音特征,再将提取的特征集数据做归一化处理,因为提取的特征维数较高,我们利用主成分分析法进行降维,最后用SVM进行情感识别。
图4语音情感识别系统结构
3.3实验结果及分析
本文以十折交叉验证[16]的方式进行分类,随机抓取一份做测试集,剩余九份做训练集。
由于获取的情感特征维数较高,这样不仅增加了运行时间而且也影响了识别效果,所以我们需要降低特征维度,本实验我们采用的是主成分分析法降维。
最后我们把获取的数据集用SVM分类器进行分类和预测。
图5不同特征权重下的情感识别结果
主成分分析试图尽最大范围保持数据完整的原则下,对高维变量空间进行降维处理。
我们对数据集去除相关性,然后分别选取权重占80%、85%、90%、95%和100%的数据集进行主成分分析处理,由图5可知,在本实验中,随着特征的贡献率的增加,情感识别率越低,考虑到信息的完整性以及识别效果的有效性,本文选取特征权重占90%的数据集进行主成分分析处理。
为了分析主成分分析法对识别效果的影响,我们对特征参数进行有主成分分析法和无主成分分析法的识别结果的比较,其它的过程不变;
然后重复十次实验,求其十次识别结果的平均值。
实验结果见表1。
表1十组十折交叉验证的识别率(%)
下载原表
由表1所示,分别在有主成分分析法和无主成分分析法的情况下进行两组实验,得到两组实验数据。
在有主成分分析法降维的情况下,其运行时间在2分钟左右,其获取权重占90%的数据集,特征由5760个降