大学毕业论文基于SVR的语音情感识别Word文件下载.docx
《大学毕业论文基于SVR的语音情感识别Word文件下载.docx》由会员分享,可在线阅读,更多相关《大学毕业论文基于SVR的语音情感识别Word文件下载.docx(30页珍藏版)》请在冰豆网上搜索。
2.1语音产生的生理基础5
2.2语音产生的物理模型6
2.3语音信号中的情感特征分析8
第三章情感语音库的建立9
3.1情感语音的分类9
3.2情感分析用语音资料的选择10
3.3语音数据的音节切分12
第四章语音情感的特征参数分析与提取12
4.1语音信号的预处理12
4.2语音情感特征的分析13
4.2.1时间构造的分析14
4.2.2振幅能量构造分析15
4.2.3基音构造的分析15
4.3基于汉明窗的情感特征参数提取15
4.3.1汉明窗简介16
4.3.2振幅能量参数的提取17
4.3.3时间参数的提取错误!
未定义书签。
第五章语音情感识别18
5.1支持向量回归SVR18
5.2利用SVR建立特别参数识别模型21
5.3语音情感的识别22
第六章结论23
致谢24
参考资料25
第一章引言
1.1语音情感识别的研究背景及意义
语音信号中的情感信息是重要的信息资源,它是人们感知事物必不可少的部分。
例如同样一句话,由于说话人的表现的情感不同,在听者的感知上就会有较大的差别,所谓“听话听音”就是这个道理。
然而,传统的语音信号处理技术把这部分信息作为模式的变动和差异噪声通过规则化处理给去掉了。
实际上,人们
同时接受各种形式的信息,怎样有效的利用各种形式的信息以达到最佳的信息传递和交流效果,是今后信息处理研究的发展方向。
语音情感识别是建立在对语音信号的产生机制深入分析的基础上,对语音中反映个人情感信息的一些特征参数进行提取,并利用这些参数采用相应模式识别方法确定语音情感状态的技术。
随着新型的人机交互技术的快速发展,语音处理领域产生了许多热门的研究方向,如个人机器人、语音识别、语音合成、语音的转换、语言翻译、个人隐私保护等。
而其中,语音情感识别技术的研究是伴随着这些主要的研究方向的兴起而发展。
它在这些方向中,具有广泛的运用。
在个人机器人的研制中,提出最基本的要求就是它能够领会人的情感,并能够在理解人情感的同时以适当方式表达出自己的情感;
同时考虑到目前个人机器人在接受信息和自身运算上的限制,对于语音情感的研究将是它理解情感的最有效途径。
在语音识别中,对特定人的语音进行训练时,即使说相同的内容,但在不同年龄段,不同的地点,不同的情绪等环境下都会直接对训练效果产生重要的影响,而
利用语音情感识别技术,可以尽量将各种不同情感状态下的语音统一起来,保持
主要的个人信息、在统一刻度下,这样就可以大大提高识别率。
在语音合成中,特别是基于音素连接的文本到语音合成系统中,可以通过结合语音情感识别技术,使重建的语音具有符合要求的情感成分;
这样就可以避免为录制不同情感状态的语音库而付出昂贵费用;
同时,重建的语音需要进行相关的韵律修改工作,借以产生合适的基频、能量等信息。
在语音的转换和语言翻译中,目前的系统往往在对语音进行变换后,扭曲了原有语音中的情感信息;
通过采用语音情感识别技术可以对处理后的语音进行情感的恢复,从而保证了语音中信息表达的完整与准确。
语音情感识别还可以应用在教学辅导、自动告警及娱乐等方面。
随着工internet的普及以及计算机性能的大幅提高,语音情感识别技术将被广泛应用在更多的领域,会有非常好的经济效益和社会价值。
1.2论文的研究内容
语音情感识别,就是通过分析人们语音对应于情感的变化规律,利用计算机
从语音中准确提取情感特征,并根据这些特征确定被测对象的情感状态。
本文针对含有放松,温顺,惊奇,喜悦,轻蔑,厌恶,恐惧,悲伤,焦虑和愤怒等10种情感的语音信号,分析了它们的时间构造、振幅构造和基频构造的特征。
并且通过和不带感情的中性语音信号进行比较,找出了不同情感信号特征
的分布规律,利用SVR建立了情感特征参数的匹配模型进行语句情感特征的识别。
语音情感识别的流程框图:
第二章语音情感识别技术产生机理及模型
2.1语音产生的生理基础
人类发声是由肺部收缩,压迫气流由支气管经过声门和声道引起音频振荡而产生的,声道起始于声门处而终止于嘴唇,包括咽喉(连接食道和口)、口腔,鼻道则是从小舌开始的到鼻孔为止。
当小舌下垂时,鼻道与声道祸合而产生语音中的鼻音。
发声过程中声道各处的截面积取决于舌、唇、额及小舌的位置。
声道截面积随纵向位置而变的函数,称为声道截面积函数。
声道的共振峰特性主要决定于声道截面积函数,共振峰特性决定了所发声音的频谱。
这里我们可以看到,声道是对发音起绝对性作用的器官;
但从声学的观点来看,可以将声道拉直而完全不影响其声学特征,这样就便于我们从物理声学的角度来分析它的贡献。
人类的发音过程有三类不同的激励方式,因而能产生三类不同的声音,即浊音,清音和爆破音:
(1)浊音的情况:
当气流通过声门时,声带的张力刚好使声带发生较低频率的
张驰振荡,形成准周期的空气脉冲串,这些空气脉冲激励声道便产生浊音。
此时,声带的绷紧程度不同,振动的频率也不同。
一般来说男子低,女子高;
老人低,
小孩高。
同时要注意的是,浊音不光包括所有的元音;
也包括一些浊辅音(如:
发r,1,m,n等)。
(2)清音的情况:
声道中某处面积很小,气流高速冲过此处时而产生湍流,
当气流速度和横截面积之比大于某个门限时(临界速度)便产生摩擦音,即清音。
包括了清辅音,还有r,1,m,n以外的声母。
(3)发爆破音的情况:
如果声道的某处完全闭合建立起气压,然后突然释放而产生的声音就是爆破音(如:
发p,t,k,d,b,g等。
)
2.2语音产生的物理模型
在研究发声器官和语音的产生过程后,便可以建立一个离散时域的语音信号
产生模型。
如图2.1所示,该离散模型也称之为声源一一调制模型。
由图2.1可
知,模型包括三部分:
激励源,声道模型和辐射模型。
激励源分为浊音和清音两个分支,按照浊音/清音开关所处的位置来决定产生的语音是浊音还是清音。
在浊音情况下,激励信号是由一个周期脉冲发生器产生的序列是一个周期为N。
的
冲激序列,即每隔N。
点便有一个样值为1,而其它皆为0。
周期N。
。
图£
1语音信号产生的离散时域模型.
取决于基音频率Fo和语音信号的采样率f。
即N。
二fo/F。
,其中Fo和fo皆以Hz计算。
与脉冲激励周期相关的语音感知特性,称为音高。
为了使浊音的激励信号具有声门气流的实际波形,还需要使上述的冲激序列通过一个声门脉冲滤波模型,其Z域传输函数为G(Z)=1/(1-g^」)〈1-g2Z‘),其中g?
都很接近1,由之形成的浊音信号频谱很接近于声门气流脉冲的频谱。
乘系数代的作用是调
节浊音信号的幅度或能量。
在清音情况下,激励信号由一个随机噪声发生器产生。
可设其平均值为0,其自相关函数是一个单位冲激函数,则表明它的任何两个不同样点都不相关且其均方差值为1。
此外还假定它的幅度具有正态概率分布(高斯分布)。
乘系数Au的作用是调节清音信号的幅度或能量。
声道模型V(Z)给出
了离散时域的声道传输函数,把实际声道作为一个变截面的无损声管加以研究,采用流体力学的方法导出,在大多数情况下它是一个全极点函数。
这样,V(Z)
可以表示为:
1
v(Z)二-—(2.1)
'
aiZ」
i二0
这里,把截面积连续变化的声管近似为p段声管的串连,每段短声管的截面积是不变的。
如果给出声管的截面积随其轴向长度的变化曲线,就能得到它的面
积函数A(l),图2.2即为这样的例子。
为了分析方便把连续变化的面积函数表示成阶梯形状,I值为0cm时表示喉部,I值为18cm时,表示嘴唇处。
采用流体力学的方法,计算出不同面积函数处声管的频率响应及其共振峰。
p为这个全极
点滤波器的阶。
显然,p值取得越大,模型的传输函数与声道实际传输函数的吻合程度越高。
但是,对大多数实际应用而言,p值取8〜16就足够了。
若p取偶数,V(Z)—般由p/2对共轭极点,皿际卞=1〜p/2.各个•十分别与语音的各个共振峰相对应。
辐射模型R(Z)与嘴唇有关,嘴唇的辐射影响引起的输出信
号高频提升作用大约有每倍频程60db,这时R(z)表示为
R(Z)=(1-rZ」),r1.
以及声道模型中的参数ap都是随时间而变化的,由于发声器官的惯性使这
些参数的变化速度受到限制。
对于声道参数,在10至30ms的时间内可以认为
它们保持不变,因此语音的短时帧一般取为20ms左右。
对于激励源参数,大部
分情况下这一结论也是正确的。
根据这个模型,离散时域语音信号s(n)的Z变换S(Z)可以用一个统一的公式来计算:
S(Z)=AE(Z)H(Z)(2.2)
在浊音的情况下,E(Z)是一周期冲激序列的Z变换且
A=代,H(Z)=G(Z)•V(Z)•R(Z)(2.3)
在清音的情况下,E(Z)是一个随机噪声的Z变换且
A=Au,H(Z)=V(Z)•R(Z)(2.4)
2.3语音信号中的情感特征分析
从语音产生的物理模型中,我们可以更准确的了解语音的产生过程,这将
是分析语音信号的基础。
在现实生活中,每个人的语音都具有自身的特点。
通过一些研究人员在说话人识别的研究中发现,包含在语音信号中的个人信息是一系列各种因素的综合体,一个说话人区别于另一个说话人语音个人特征包括很多方
面。
在这些因素中,主要的可以分成三类特征:
(1)基于音段的特征:
主要指语音的音色和听觉方面的特征,在声源一调制的语
音产生模型中,主要指声道响应的频谱包络特性,比如共振峰的中心频率和带宽等因素,研究表明人类语音的主要区别在于共振峰的差别;
(2)基于超音段的特征:
又称语音的韵律特征,主要指说话人的种类特征、说话人风格、说话的语调、音高、情绪等方面的特征,在语音的声源一调制产生模型
中常常和激励源的性质有关,比如浊音激励的周期性质,决定了说话人的音高的轨迹;
⑶基于语言的特征:
主要指由于地理区域的不同而使用的语种和方言的不同而表现出的特征。
第三章情感语音库的建立
3.1情感语音的分类
对情感语音识别系统的输出结果是由标识情感状态的标签组成,因此选取合
适的情感状态对于系统的识别研究是至关重要的。
从心理学和生理学的角度,对情感的研究已有近一个世纪的历史。
在语音情感的领域中,语言学家有很丰富的词汇来描述不同的情感状态,如Schubiger、O'
Connor和Amold在研究中曾经用了300个标签来区分不同的情感状态。
然而,从工程学的角度将语音情感作为信息一一信号工学的研究对象来研究才刚刚开始。
最初,为建立语音理解和会话系统,有人通过分析语音的韵律变化来判断说话人的态度、意图,来控制人机会
话的过程。
近年来随着计算机多媒体信息处理技术等领域的发展,情感信息处理技术也被越来越多的研究者重视,对情感状态类型的划分也是情感分析研究的一个重要部分。
目前从心理学的角度以及相应的研究资料有不同的划分方法:
在
1996年,Dellaert提出以基音频率相关信息为主要特征分类的方法,并考虑了恐惧、愤怒、悲伤和高兴四种情感状态;
1999年,Nihcolsno分析了包含有八种情感状态(恐惧、愤怒、悲伤、高兴、戏弄、沮丧、惊讶和中性的语音信号;
在2001
年,Cowie等提出了“调色板理论”,该理论认为就像通过混合原色可以调出其他颜色那样,通过确认最主要的几种基本情感状态也可以生成其他情感状态。
“基
本”情感状态包括:
喜悦、悲伤、害怕、愤怒、惊奇和厌恶,它们往往被用作原型情感。
尽管这几种情感状态只是生活中所有情感状态的一小部分,但它们仍代
表众所周知的情感状态并被用来验证情感自动识别系统。
通过对国内外研究状况的了解,并结合自己对语音情感状态的理解和分析,在研究中,我们将情感分为基本情感和衍生情感两类。
基本情感:
每种情感是一个离散的实体,存在几种“基本”的情感,每种情感都由特定生理模式以及面部表情和声音表达。
例如:
喜悦,悲伤,恐惧、愤
怒,惊奇,厌恶。
衍生情感:
“基本”情感的不同程度的修改和组合。
例如:
放松、温顺、轻蔑、焦虑等。
对上述这些语音情感分类并不足以充分代表所有的情感状态,但对语音情感自动识别原型系统而言它们是有效的输出方式。
3.2情感分析用语音资料的选择
本文对分析实验用语句的选择主要考虑了以下三个方面。
(1)所选择的语句必须不包含某一方面的情感倾向;
(2)必须具有较高的情感自由度,对同一个语句能施加各种情感进行分析比较。
(3)对于语句的长度,辅音以及助词成分的构成,男女性的差异等都作了考虑。
根据上述原则,我们设计了11段适合于用中性和其他10种情感情感表达
的文本语料.在录音时,为了兼顾情感的自然表达和语音文本内容的体现,首先
通过心理学测试选择专业录音人,然后设置特定的场景激发录音人的情感表露.录音中,选择了一位男性普通话录音人(不是专业演员)在录音棚中录音.首先录制中性语音,然后录制情感语音.在录制中性语音时,要求录音人用无表情的、语调和语速基本不变的方式朗读录音文本.在录制11种情感语音时,首先设置特定的场景激发录音人相应的情感表露.当录音人的情感被激发出来后,让其按照自然的情感表达方式读出11句情感语句.表1列举了5句录音文本.
表1情感分析用录音文本
例句1
(平静)
在数字系统中常常米用二进制数,这是因为二进制数的基数为二,它只有零和壹两个数字,运算规则简单,便于电路实现。
二进制数也采用位置计数法。
每一个细胞都仿佛呼吸着一种叫做中性的情绪,我不由得说:
“啊,荧光数字管、发光二极管、数字显示器等,经常采用七段字形显示,它可以显示数字和英文字母。
”
例句2
(喜悦)
把准备好的放着新家钥匙的盒子轻轻放在她手上,在看到她打开盒子眼睛里绽放出喜悦光彩的那一瞬间,我雀跃了,紧紧地握着她的手,就像紧紧握着幸福一样,每一个细胞都仿佛呼吸着一种叫做喜悦的情绪,我不由得说:
“啊,我们有自己的家了!
将来我们的孩子在那里长大,然后结婚,生子,你和我就天天哄孙子
例句3
(惊奇)
这是什么状况?
我完全傻了眼的站在原地,手还保持着转动钥匙的样子,五秒中后才把大张的嘴巴勉强合上,眼神逐一扫过面前的每一个人,表情变得越来越微妙。
每个细胞都仿佛呼吸着种叫做惊奇的情绪,我不由得说:
“啊,这是做梦吗?
你,还有你,不是在国外吗?
怎么会出现在这里?
快告诉我,是怎么回事?
例句4
(悲伤)
美丽的双眼紧闭着,已经有多久没有注视过我了啊。
抚摸着那自己最爱把玩于手的秀发,眼泪却不争气的滴落在她美丽的脸庞上,赶紧用手抚去,每一个细胞都仿佛呼吸着一种叫做悲伤的情绪,我不由得说:
“啊,如果我从不曾爱上你该多好,我也就不会知道心痛是什么滋味,可是,我还能做些什么呢,,心好痛。
例句5
(愤怒)
两次!
三次!
四次!
五次!
六次!
第六次了!
!
大周末的,谁这么无
聊?
什么鬼蛋节也不能这么玩啊!
这还让不让人睡啦!
气死我啦,我叫你响!
一把抓起听筒。
每一个细胞都仿佛呼吸着一种叫做愤怒的情绪,我不由得说:
啊,你有毛病啊!
有完没完!
有本事打江泽民家!
打邓小平家!
打阎王老子家去阿!
”
录音是在安静的房间里并且使用CoolEdit设备完成的。
录制的语音用16
kHz采样、16bit量化后以WAV文件格式保存。
为了检验所搜集的实验用情感语音数据的有效性,我们做了一个听取实验。
我们要求以上三名发音者以外的另二名实验者坐在电脑终端前,然后随机播放所搜集到的带有各种情感的语句,让
实验者通过主观评价说出所放语音的情感类型。
经过反复听取比较以及数学上的
有意性检定(Mcnemar检定),对其中情感特征不明显的句子进行了删除和重新制作。
3.3语音数据的音节切分
对语音数据的音节切分、文本校对、基频标注已经完成。
标注结果如下图所示
III■■N■III■III■I■II■II
=峙«
P语MW曲EK*目•甘*W迎砂植別时回
图3.3“喜悦”与“悲伤”的语音数据
通过对五种情感基频的分析可知,喜悦与愤怒的基频相对其他情感来说较高。
第四章语音情感的特征参数分析与提取
4.1语音信号的预处理
由于条件的限制,所录制的语音样本中含有环境噪音、电流声等影响情感识别的因素。
通过对语音信号预处理的研究,可以改善语音信号质量,统一语音信号格式,并为后继的语音特征提取和情感识别打好基础。
语音信号预处理包括反混叠
失真滤波、模/数变换、偏差校正、预加重、去噪处理以及语音信号的平滑处理等许多方法。
因为录音是用CoolEidt录制,用16kHz采样、16bit量化后以WAV文件格式保存的,所以没有在预处理中没有再进行采样量化。
l、预加重
因为发声过程中声带和嘴唇的效应,使得高频共振峰的振幅低于低频共振峰的振幅,进行预加重的目的就是为了消除声带和嘴唇的效应,来补偿语音信号的高频
部分。
广泛使用的预加重网络是个固定的一阶数字系统,信号方程为:
y(n)=x(n)-ax(n-I)0.9<
a<
1.0(2.1)
其中“为预加重系数,一般为0.95,0.97或0.98。
实验a取为0.98。
实验表明,预加重可有效地提高系统的性能。
2、分帧和加窗
由于对语音信号常采用短时分析技术,在语音信号分析之前,首先要对其进行分帧、加窗。
分帧的长度一般取20〜30ms。
帧与帧之间的偏移量通常取为帧长的1/2或I/3,即每隔帧长的I/2或I/3进行分帧。
分帧后是加窗。
通过分帧处理,我们可以将其理解为,将原始语音信号序列x(m)分成一些
短段等效于乘以幅度为1的移动窗。
当移动幅度不是1而是按一定的函数取值时,所分成的短段语音的各个取样值将受到一定程度的加权。
窗函数的选择,对于短
时分析参数的特性影响很大,为此应选择合适的窗,使其短时参数更好地反映语音信号的特性变化。
在语音信号数字处理中,常用的窗函数是矩形窗和汉明窗等。
一般来讲,一个好的窗函数的标准是;
在时域因为是语音波形乘以窗函数,
所以要减小时间窗两端的坡度,使窗口两端不引起急剧变化而平滑过渡到零,在
频域矩形窗的谱平滑性能较好,但损失了高频成分,使波形细节丢失,而汉明窗则相反。
汉明窗比矩形窗更为合适。
本系统采用的是汉明窗(Hamming),其公式为:
1,0兰n兰(N-1)
w(n)={
0,n=else
在分帧、加窗的基础上即可对语音信号进行语音分割和特征提取等处理。
3、端点检测
语音端点检测是语音分析、语音合成和说话人识别中的一个重要环节。
在实
际运用中,通常要求首先对系统的输入信号进行判断,准确地找到语音信号的起
始点和终止点。
这样才能采集真正的语音数据,减少数据量和运算量,并减少处理时间。
在说话人识别中,通常是先根据一定的端点检测算法,对语音信号中的有声段和无声段进行分割,而后再针对有声段,依据语音的某些特征进行识别。
语音的端点检测算法包括自动语音端点检测算法和手工语音端点检测算法。
在语音端
点检测后,要去除能量很小的帧,相当于去除寂静或无声段。
4.2语音情感特征的分析
情感信息的重要特点就是对所处的条件具有一定的依赖性。
研究已经表明
各国的语言和民族习惯不同,但语音中表达情感信息的方式是相同的。
语音超音段特征,例如时序结构、节奏的基本层次特点、韵律词、韵律短语的特点,在不同情况下的音高,音长,音强的特点和关系等对情感的表达起了重要作用。
下面
通过通过表1平静和其他10种情感语音的韵律特征参数统计结果分析了语音信号的时间构造、振幅构造、基频构造特征的构造特点和分布规率,同时这也将作为语音情感特征选取的依据。
表1平静和其他10种情感语音的韵律特征参数统计结果
注:
基频均值(meanF0)、基频范围(rangF0)、基频方差(varF0)、平均能量(meanE),平均停顿(meanSil),平均时长(meanDur),说话速率(meanv)时长方差(varDur)
4.2.1时间构造的分析
时间构造分析着眼于不同情感语音的发话时间构造的差别。
通过分析比较,