一种基于小波包主成分分析的语音情感识别方法Word格式文档下载.docx

上传人:b****1 文档编号:13065997 上传时间:2022-10-04 格式:DOCX 页数:9 大小:14.97KB
下载 相关 举报
一种基于小波包主成分分析的语音情感识别方法Word格式文档下载.docx_第1页
第1页 / 共9页
一种基于小波包主成分分析的语音情感识别方法Word格式文档下载.docx_第2页
第2页 / 共9页
一种基于小波包主成分分析的语音情感识别方法Word格式文档下载.docx_第3页
第3页 / 共9页
一种基于小波包主成分分析的语音情感识别方法Word格式文档下载.docx_第4页
第4页 / 共9页
一种基于小波包主成分分析的语音情感识别方法Word格式文档下载.docx_第5页
第5页 / 共9页
点击查看更多>>
下载资源
资源描述

一种基于小波包主成分分析的语音情感识别方法Word格式文档下载.docx

《一种基于小波包主成分分析的语音情感识别方法Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《一种基于小波包主成分分析的语音情感识别方法Word格式文档下载.docx(9页珍藏版)》请在冰豆网上搜索。

一种基于小波包主成分分析的语音情感识别方法Word格式文档下载.docx

Recognition 

Based 

on 

Wavelet

Packet-Principal 

Component 

Analysis

ZHU 

Zongbao 

WANG 

KunxiaXIAO 

Lingling 

LIU 

Wenjing

School 

Of 

Electronic 

Information 

And 

Engineering,

Anhui 

Jianzhu 

University;

Abstract:

In 

speech 

emotion 

recognition,the 

extraction 

feature 

parameters 

has 

direct 

impact 

the 

final 

recognition 

efficiency.It 

is 

very 

important 

to 

extract 

from 

original 

signal.But 

in 

paper,there 

too 

much 

extracted 

dimension 

much,which 

often 

leads 

complexity 

matching,and 

consumes 

system 

resources,so 

we 

have 

adopt 

reduction 

method.This 

paper 

improve 

effect 

based 

transform 

wavelet 

packet 

by 

reduction.So 

present 

emotional 

method 

transforming 

German 

Database 

(EMODB),and 

then 

principal 

component 

analysis 

reduce 

dimensionality 

parameter,We 

finally 

use 

Support 

Vector 

Machine 

for 

training 

and 

testing.Good

results 

are 

obtained 

through 

experiments.

Keyword:

extraction;

Principal 

Analysis;

Wavelet 

Packet

Transform;

Machine;

Received:

0引言

伴随着科技的发展,智能化得到越来越多的应用。

尤其在智能语音方面,受到了越来越多的关注。

语音情感识别[1]作为其中的重要组成部分,得到了人们广泛的重视。

语音情感识别是当前人工智能、信号处理和模式识别等领域研究的一个新的热点课题。

目前主要从三大方向入手:

预处理语音信号、提取情感特征和识别语音情感特征。

提取的特征参数的质量直接关系着语音情感识别的结果。

特征提取[2]是语音情感识别中的重中之重,因为好的情感特征能够很好的区分情感类型,反之差点的情感特征的区分效果就不太明显;

同时具有良好的独立性且计算方便的特征可以保证语音情感识别的快速实现[3]。

目前语音情感识别领域常用的特征参数的有这么几大类[4]:

基于人耳听觉特性设计的特征参数梅尔频率倒谱系数(Mel 

Frequency 

Cepstrum 

Coefficient,MFCC)、线性预测系数(Linear 

Prediction 

Coefficient,LPC)和线性预测倒谱系数(Linear 

Coefficients,LPCC)等。

但是上述研究方法的的实用性,鲁棒性和推广能力非常有限。

特别是特征参数大都采用平稳信号的分析方法提取[5],而语音信号是一种典型的非平稳信号,他的频谱特性随时间改变,一旦确定分析窗后,短时分析不能随着信号的变化调整其时频分辨率,而且短时平稳的方法仅对说话人的静态特征进行了描述,忽略了说话人的动态特征,而各种实验已经证明,语音中的动态特征是说话人的重要特征。

因此选择一个较好的特征参数尤为重要。

2语音情感特征的提取

2.1实验数据库

本文使用的是德国库EMODB[6],其采样频率为16KHZ,16bit量化。

该语音库包含七种情感类型,它们分别是高兴、忧虑、无聊、生气、平静、悲伤和厌烦。

共有536句情感语音信号。

该库的情感分布如图1所示:

图1德国库情感分布图

下载原图

2.2预处理

特征提取之前,我们要先对训练和测试语音做预处理工作,预加重过程采用的传递函数为:

(z) 

=1-µ

z,预加重系数。

分帧加窗过程:

帧长取256个采样点,帧移取128个采样点,加汉明窗。

最后采用双门限的方法进行端点检测[7]。

2.3情感特征提取

小波包变换(Wavelet 

Packet 

Coefficients,WPC)[8]可以对高频部分提供更精细的分解,而且这种分解既无冗余,也无疏漏,所以对包含大量中、高频信息的信号能够进行更好的时频局部化分析。

因此小波包具有更广泛的应用价值。

关于小波包分析的理解,这里以一个三层的分解进行说明,其小波包分解树如图2所示:

图2三层小波包分解树

图3七种情感的原始语音及六层小波包结点(6,0)

其中S代表原始信号、A代表低频、D代表高频,字母后第一个数字代表小波包分解的层数(也叫尺度数),第二个数字代表小波包分解成第几个低频和高频的组合。

原始信号在进行表示时,只要满足完备性和高低频信号不能有交叠性就可以任意组合。

本文采用db2小波函数对语音信号进行6层分解,考虑到全局特征优于局部特征,实验进一步将小波包系数的统计值(最小值、最大值、均值、方差及中位数)计算出来,并考虑对原始信号进行一阶差分、二阶差分的处理。

我们通过从德国库中提取七条语音,每条语音带有一种情感,它们分别为生气、忧虑、无聊、厌恶、高兴、平静和悲伤。

随后将语音库中的七种情感的小波包系数结点(6,0)提取出来。

如图3a、3b所示。

在这里,我们选择了语音表达较为清晰和显著的四种情感(生气,高兴,平静和悲伤)进行图像分析,由图3a、3b可以得出:

生气小波包结点(6,0)的主要能量集中在频带1000HZ左右和2500~3500Hz内。

高兴小波包结点(6,0)的主要能量集中在频带0~1800HZ和2100~3800Hz内。

平静小波包结点(6,0)的主要能量集中在800~1200Hz和2000~3800HZ内。

悲伤小波包结点(6,0)主要能量集中在0~4000Hz内。

以上我们可以发现每种情感的原始信号及每层分解的分量的能量分布都表现出差异性。

2.4主成分分析法

主成分分析(principal 

analysis,PCA)[9]本质上是一种多元的统计学分析方法。

对于一组数据集的维度一旦达到某个峰值,越往后其分类效果反而越差。

为了避免维度灾难需要进行特征降维。

语音信号可能有很多维数很大的特征包含的情感值没有贡献或者贡献的较小,通过主成分分析法去除一些噪声信息的影响。

本文选择主成分分析法进行特征降维。

然后求C 

x从大到小排列的特征值和特征向量如式

(2) 

:

把特征向量:

A= 

(ϕ,ϕ,...,ϕ)样本向量投影到已选取的特征向量为基的特征空间,得出如下式(3)、(4)、(5) 

将A的列向量φ看做低维空间的基,常量m不影响分布的特性,故将基向量的系数看做主成分就是原样本x在低维空间的表示。

由于本文的语音信号是基于六层小波包分解而提取的特征[10],共计得到5760个小波包系数特征。

导致特征维数很高,所以我们运用主成分分析法进行特征降维,在交叉验证的情况下,平均得到312个小波包系数特征。

对数据集进行主成分分析法处理的方法是有效的和必要的。

3实验与分析

3.1分类器的选择

语音情感识别也是一种模式识别。

传统的情感识别方法很多,基本上可以分为两大类:

一类是以时序特征为基础的,如HMM[11]和GMM[12]方法;

另一类是以统计特征为基础的,如ANN 

(ACON,OCON)[13]方法。

GMM和HMM方法在各类情感模型的训练过程中需要大量的情感语音样本,同时模型训练的时间花费很大。

而ANN方法中由于网络中隐层节点数等不确定性因素,限制了网络的鲁棒性和情感识别正确率的进一步提高。

支持向量机(Support 

Machine,SVM)分类[14]因其较好地解决了小样本、非线性及高维模式识别情况下的机器学习问题,具有很好的泛化能力,同时避免了神经网络结构选择、过学习、欠学习及局部最优解的问题。

因此,本文提出的是基于SVM的语音情感识别方法可以有效克服上述识别方法的不足。

3.2语音情感识别系统结构

本文的语音情感识别系统结构如图4所示,基于小波包变换的语音情感特征的提取[15]、主成分分析法降维和支持向量机分类是其中的重要步骤。

我们先对语音信号做预处理,然后用小波包变换提取语音特征,再将提取的特征集数据做归一化处理,因为提取的特征维数较高,我们利用主成分分析法进行降维,最后用SVM进行情感识别。

图4语音情感识别系统结构

3.3实验结果及分析

本文以十折交叉验证[16]的方式进行分类,随机抓取一份做测试集,剩余九份做训练集。

由于获取的情感特征维数较高,这样不仅增加了运行时间而且也影响了识别效果,所以我们需要降低特征维度,本实验我们采用的是主成分分析法降维。

最后我们把获取的数据集用SVM分类器进行分类和预测。

图5不同特征权重下的情感识别结果

主成分分析试图尽最大范围保持数据完整的原则下,对高维变量空间进行降维处理。

我们对数据集去除相关性,然后分别选取权重占80%、85%、90%、95%和100%的数据集进行主成分分析处理,由图5可知,在本实验中,随着特征的贡献率的增加,情感识别率越低,考虑到信息的完整性以及识别效果的有效性,本文选取特征权重占90%的数据集进行主成分分析处理。

为了分析主成分分析法对识别效果的影响,我们对特征参数进行有主成分分析法和无主成分分析法的识别结果的比较,其它的过程不变;

然后重复十次实验,求其十次识别结果的平均值。

实验结果见表1。

表1十组十折交叉验证的识别率(%)

下载原表

由表1所示,分别在有主成分分析法和无主成分分析法的情况下进行两组实验,得到两组实验数据。

在有主成分分析法降维的情况下,其运行时间在2分钟左右,其获取权重占90%的数据集,特征由5760个降

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 职业教育 > 职业技术培训

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1