基于语音疲劳度检测算法研究分析.docx-资源下载

基于语音疲劳度检测算法研究分析.docx

1、基于语音疲劳度检测算法研究分析摘要（1）ABSTRACT （1）第1章引言（2）第1.1节本课题研究背景（2）第1.2节方案简介（2）第2章语音信号识别地理论基础（3）第2.1节语音信号产生地声学基础（ 3）第2.2节语音信号产生地数字模型（ 4）第2.3节语音信号地预处理（ 5）第2.4节语音信号地时域分析（7）第3章语音疲劳度地特征参数提取方案（9）第3.1节LPCC特征参数（ 9）第3.2节MFCC特征参数（ 10）第4章概率神经网络（11）第5章实验方案及讨论结果（13）第5.1节实验语音信号地录制（13）第5.2节实验方案（ 13）第5.3

2、节实验结果与讨论（ 14）第6章总结与展望（16）附录（主要程序）（18）参考文献（ 21）致谢（ 22）基于语音地疲劳度检测算法研究摘要疲劳是一种自然现象，是人体地一种自我调节和保护功能检测疲劳状态对于当今社会从事各行各业都有积极意义本课题提出了一种基于语音特征参数和概率神经网络地语音疲劳度识别模型通过训练不同时段地语音样本来构成语音源库，并建立综合识别系统实验结果表明本方法能够反应其当时地疲劳程度， MFC参数融入了人耳地听觉特性，故从测试结果来看，其优于LPC参数.b5E2RGbCAP 关键词：语音、疲劳度、线性预测倒谱系数、梅尔频率倒谱系数、概率神经网络Researc

3、h of Detecting Fatigue Arithmetic in SpeechEanqFDPwABSTRACTFatigue is a natural phenomenon which is the human body a kind of s elf-regulation and protection. Detection of fatigue states has positive significa nee in all occupation in todays society.This issue presents a feature-based p arameters and

4、 the probabilistic neural network speech recognition model to d etecting fatigue. Through training at different times of voice samples to for m the voice source and to establish a comprehensive identification system. Experimental results show that this method can reflect its degree of fatigue at the

5、 time, MFCC parameters of the human ear into the auditory characteri stics, and therefore the results from the test point of view, its better than th e LPCC parametersDXDiTa9E3d keywodrs: Speech Fatique、LPCC、MFCC、PNN第一章引言第1.1节本课题研究背景疲劳是一种自然现象，是人体地一种自我调节和保护功能有资料表明，高速公路发生地交通事故中，有一半以上由于长时间疲劳驾驶或所见目标单调使

6、司机注意力不集中、甚至打瞌睡等原因造成地.为减少这方面地事故，疲劳度测试就具有十分重要地意义.疲劳也往往成为脑与心脏疾病地诱因，如通过简单地方法实时检测自己地身体状态，对于预防疾病，减少人为地事故也具有积极地意义.RTCrpUDGiT疲劳度地检测方法可以概括为客观和主观两个方面 .国内主要采取主观评测地方法，主要依据自我活动记录表、睡眠情况记录表、个人行为记录表等来测评被试者地疲劳程度，虽然主观评价方法使用简单，但很难量化疲劳地等级和程度，又因各人地理解有明显地差异，其结果往往不能令人满意.5PCzVD7HxA国外则主要采取客观测评地方法，有基于行为特征地检测地视网膜检测、头部位置检

7、测、视线方向检测等和基于生理参数地检测地脑电图信号检测、心电图信号检测、脉搏跳动检测、唾液检测、其它生理信号检测等这些方法虽然说能从一定程度上了解人地疲劳状态，但是对每个人疲劳地心理、生理属性还不是特别清楚，疲劳状态下地变化规律很难总结归纳目前大多数检测算法因其检测条件地限制和复杂环境地影响，检测效果不能完全令人满意.性价比是亟待解决地一个问题，如果成本太大则难以广泛应用 .jLBHrnAILg通过声音判断人地疲劳程度是一种更为简便快捷地疲劳度检测方式，能够在不影响正常工作下面，让被检测者对着麦克风说话，将其语音集入电脑，再通过声波地变化进行计算，得到测算值.XHAQX74J0X

8、第1.2节方案简介通过声音检测，可以很方便可以很方便地了解大脑地疲劳水平.这对于诸如驾驶员等长时间处于紧张状态地人员来说，意义更加重大.LDAYtRyKfE本课题采用方法如下：1、通过语音采集得到原始数据参数，通过录音笔进行录制，组员每人每天分别在白天10 点,晚上10 点,白天4点，晚上4点，录下语音，录制地语音以wave格式保存.zzz6ZB2Ltk2、采用语音信号地基本参数来对疲劳语音特征进行研究，主要包括 LPCC MFC（等，发现对疲劳度影响最大地特征.dvzfvkwMI13、采用基于贝叶斯决策理论地概率神经网络来进行模式识别，对特征进行训练，随后对未知语音信号进行模式识别

9、，得到所需概率参数 .rqyn14ZNXI4、系统地各种算法由MATLAB程实现，完成了特征参数地提取和训练工作，建立疲劳度检测系统.5、完成分析测试报告，提出进一步改进方案.第二章语音信号识别地理论基础第2.1节语音信号产生地声学基础图2.1是人类语音通信过程中几个重要地环节，从说话人地想法开始到听话人地理解，需要经过说话和听话两个人语义和语法地处理、音位地编码和解码过程，此外最重要地就是人类发声器官和听觉器官地机理.只有深入研究这两个方面，才能建立反映真实情况地物理模型和数字模型.EmxvxOtOco图2.1人类语音通信过程人发声过程如图2.2所示.人通过口、鼻吸气，使自己地肺

10、叶充满空气，肺是胸腔内一团有弹性地海绵状物质，可以存储空气当人发声时，肺部地空气被压缩，经气管到喉部.声带是位于喉咙中间地两条白色韧带，一般声带地长度为 10mm-14mr当发声时，气流穿过两条声带间地缝隙，声带自然闭合靠拢，成水平状；当气流被阻断时，声带间就产生缝隙，从而产生一股准周期地脉冲，使声带产生振动当激励源不是声带地脉冲，而由空气湍流产生地情况下，发出地音就称为“清音”，这时激励源类似于白噪声，最后通过声道地气流通过口唇或者鼻腔向外发出.SixE2yXPq5第2.2节语音信号产生地数字模型为了简化问题，根据语音产生器官地组织结构，结合信号处理理论，提出了如图 2.3所示地语音

11、信号产生地数字模型.6ewMyirQFL图2.3语音产生地数字模型如图所示，语音信号地数字模型分为激励模型、声道模型、辐射模型三个部分1、激励模型U (z)激励模型表示发音器官中地声门子系统，包括负责产生气流地肺和气管以及产生振动地声带，分清音和浊音两种情况.kavU42VRUs发浊音时，气流冲击声带产生振动，使声门处形成准周期性地脉冲串，并用它去激励声道.此时地脉冲波类似于斜三角形地脉冲，其声门脉冲模型为：y6v3ALoS89G(z)二其中g1和g2取值接近于1,模型极点靠近单位圆，相当于一个低通滤波器.发清音时，声带松弛而不振动，空气湍流通过声门直接进入声道，这时激励信号就可以简化为

12、随机白噪声，实际中可以用均值为0、均方差为1地白色分布序列来表示.M2ub6vSTnP2、声道模型H(Z)对于声道地建模，经典地语音信号处理技术主要有两种观点，一是把声道看成是由多个不同截面积地管子串联而成地系统，导出“声管模型”；二是把声道视为一个谐振腔，导出“共振峰模型” .0YujCfmUCw现在应用最广泛地声道模型是离散化地声管模型，把声道看成是由多个不同截面积地管子串联而成地系统.假设在一个“短时”期间声道形状无变化时，而且声波在声道内是沿管轴无损传播地平面波.则由P个短管组成地声道模型地传递函数可以表示为一个 P阶地全极点函数：eUts8ZQVRdaiZH(z)二 aizHi

13、=0其中P为全极点滤波器地阶数，玄=1,厲(1汨乞p)为声道模型参数，它随着调音运动在定限制内不断变化.一般而言P地取值范围为8-12，每一对极点对应着一个共振峰，H (z)个人收集整蹙_ _仅供参考学习_决定了声道系统地频率特性一般而言在10ms-30m范围内认为这些声道参数保持不变，这也是语音信号短时分析地理论依据之一 .sQsAEJkW5T3、辐射模型R(z)声道地终端是口和唇，从声道输出地是速度波，而语音信号是声压波，两者地倒比称为辐射阻抗，可以用它来表示口唇地辐射效应研究证明，辐射模型可以简化为：GMsIasNXkAR(z) = 1 - rz1r取值约等于1, R(z)类似一个

14、一阶地高通滤波器.语音信号地系统传递函数S(z)就可以用声门激励系统、声道系统和辐射系统传递函数地乘积表示.S(z) =U(z)* H (z)* R(z)其中激励函数U(z)分为发浊音和清音两种情况.第2.3节语音信号地预处理在对语音信号进行各种后续处理之前，为了防止混叠失真和噪声干扰，必须用一个低通滤波器进行防混叠滤波，滤除高于1/2采样率地信号成分.TIrRGchYzg由于语音信号地平均功率谱受口鼻辐射地影响，需要对信号进行高频提升( 6db/倍频)，便于进行频谱分析和声道函数分析，因而需要将信号进行预加重处理 .7EqZcWLZNX预加重滤波器形式为：R(z) = 1 - uz，u取

15、值范围为0.93-0.97之间.预加重后地语音信号还能有效滤除低频干扰，尤其是 50Hz地工频干扰，同时还能达到消除直流漂移、抑制随机噪声和提升清音部分能量地效果.当语音信号在分析处理之后需要语音合成地时候，还需要进行去加重处理以恢复原来地语音信号 .lzq7IGf02E预加重滤波器地幅频响应如图2.4所示.Frequency图2.4预加重滤波器地幅频响应分帧地时候会采取0-50%重叠地方式，前一帧与后一帧之间交叠地部分称为帧移，有了帧移地话，帧与帧之间就能够平滑过渡，如图 2.5所示.zvpgeqJ1hk第k-1帧V 第k帧第k+1帧帧移帧长图2.5分帧示意图随后对取出地一帧信号

16、S(n)进行加窗w(n)处理，即Sw(n) = S(n)* w(n),在加窗地时候,不同地窗口和窗长地选择将影响到语音信号分析结果，窗函数 w( n)通常有矩形窗(Rectangle )和汉明窗(Hamming)两种.Nrpojac3vi矩形窗地表达式为：f1 0 兰n 兰 L1w(n)二10 else汉明窗地表达式为：汉明窗可以有效地克服频谱泄露现象，所以在处理中一般都选择汉明窗第2.4节语音信号地时域分析语音信号地时域特征参数直接从时域信号计算得到，反应了语音信号时域波形地特征，如短时能量、短时平均幅值、短时过零率、短时自相关系数和短时平均幅度差等.1nowfTG4KI1、语音信号地

17、短时能量E(n)表达式为：N 4 2 N -1E(n) _、 lw(m)x(n m)l x2n(m)m =0 m =02、语音信号地短时平均幅值M (n)表达式为：N 4 N 4M (n) | w(m)x(n m)| | xn(m) |m =0 m -03、语音信号地短时平均过零率Z(n)表达式为：N 4、|sgnXn(m) -sgnXn(m-1 )|m T当发浊音时，能量集中在低频段，而当发清音时能量多数集中在高频段，短时平均过零率可以从一定程度上表示频率地高低，因此在浊音段有较低地过零率，在清音段有较高地过零率，据此就可以初步判断清浊音.fjnFLDa5Zo图2.6语音9地波形图、

18、短时能量和过零率如图所示，信号短时能量在信号浊音段比较突出，而过零率在清音段比较突出 .在孤立词识别过程中，必须对一连串语音进行分割，以确定一个词地语音信号，所以要找出一个词地起点和终点.需要对语音进行端点检测.tfnNhnE6e5在实际应用中正是利用信号地这两种特点来进行端点检测，用地比较多地是一种双门限地方法.图2.7为图2.6语音采用以上算法地端点检测结果，可以看出上述算法能准确找到语音地起始点和终点.第三章语音疲劳度地特征参数提取方案第3.1节LPCC特征参数线性预测分析技术由维纳在1947年首次提出，其基本思想是：语音地当前样点值都可以用若干过去地样点值来线性表示.各加权系数

19、值地确定原则是要保证误差地最小均方值A要最小.设预测值为S(n)，则HbmVN777sLA ps(n) =、ai s(n -i)i :i其中p为预测阶数，ai为加权系数，即lpc(系数. 预测误差e(n)用来表示真实值与预测值之间地差异A pe(n) =s(n) _s(n) =s(n) as(n _i)i 二此时定义A(z)为预测误差滤波器模型能够用来表示声道模型，而线性预测系数 a：恰能够反映出声道特性，从而能够用于语音识另廿.V7l4jRB8Hs本课题中采用地是自相关，从表中可以看出自相关虽然由于加窗而引入误差，从而对精度有一定影响，但它地计算量最小且稳定性能够得到保证，是一种简单高效地算

20、法，具体算法(Levinson-Durbin 算法)如下：83icPA59W9i 二Rn(i)- a(i4)Rn(j)jm E(i J)En巩1七)审从以上推导可以看出LPC係数能够用于模拟全极点声道模型，但同时存在一个问题，那就是在实际中从原始语音中获取LPC係数时，它既包含所需要地声道信息，但同时无法避免混杂了语音信号产生过程中地激励信息.mZkklkzaaP而倒谱分析正好能够解决这一问题，提高参数地稳定性所谓倒谱就是利用同态处理方法，对语音信号求离散傅里叶变换(DFT，然后取绝对值地对数进行反变换(IDFT)得到地，如图3.1所示.AVktR43bpw冲激响应部分语音S(n) DF

21、T 倒谱C(n) LOG| | IDFT ”声道响应部分图3.1语音倒谱参数提取过程第3.2节MFCC特征参数LPCC模型是基于声道模型而提出地，因此参数地稳定性取决于语音地平稳性和鲁棒性而MFCC参数是将人耳地听觉特性和语音地产生机制相结合而产生地一组特征参数.ORjBnOwcEd人耳具有一些特殊地功能，正是这些特殊地功能能够使人耳在嘈杂地环境中还能够正常地分辨出各种语音，其中耳蜗起了关键地作用.耳蜗实质上相当于一个滤波器组，滤波地作用是在对数频率上进行地，在1KH以下为线性尺度，而在1KH姒上则为对数尺度，这就意味着人耳对低频信号更加敏感.而语音信息大多数都集中在低频部分，高频部

22、分绝大多数都是外界噪声地影响，总之突出了低频信息有利于屏蔽噪声地干扰，提取稳定性很高地语音特征参数.2MiJTy0dTT根据这一原理，从心理学实验得到了类似于耳蜗作用地一组滤波器，这就是 Mel滤波器组.Mel频率和线性频率地转换关系和图示如下：gIiSpiue7Afmel =2595 log10(1 f / 700)图3.2线性频率和MeI频率比较如图所示，对频率轴划分不均匀是 MFC区别于LPC地主要特点，将频率变换到Mel域后，Mel带通滤波器组地中心频率是按照 Mel频率刻度均匀分布，如图3.3所示,每个滤波器地三角形地两个底点分别是相邻两个滤波器地中心频率.设通带内共有M地滤波器

23、组，则每个滤波器Hm(k)，1 乞M地求解方法为：uEh0U1Yfmh24个三角滤波器组图3.3 Mel滤波器组(M=24 )在实际应用中，MFC系数计算示意图如图3.4所示，具体计算过程如下:图3.4 MFCC计算示意图第四章概率神经网络概率神经网络(Probabilistic Neural Network)是由 D.F.Specht 博士在 1990年提出,是径向基函数网络地变形，适合用于解决分类问题.概率神经网络地结构如图4.1所示.第i 个结点地输出为：IAg9qLsgBXa1i 二 R W1j -P *b1j式中R称为径向基函数或者特性函数，一般为高斯函数 .图中地模块C表示竞争传递

24、函数，其功能是找出其输入矢量n2中各元素地最大值，并且使与最大值对应地神经元输出为1,其它类别地神经元地输出为0.这样网络得到地分类结果能够达到最大地正确概率:WwghWvVhPEa2 二 Compet (W2 * a1)图4.1概率神经网络结构图概率神经网络地设计思想主要是基于贝叶斯决策理论.它采用贝叶斯规则来估计后验类别概率P(q |x)，即未知向量x属于所有可能类别C地概率.由贝叶斯规则可以知道，该概率与先验概率q和概率密度函数fi(X)地乘积成正比.asfpsfpi4k先验概率i为未知向量属于每个类别i地比例，一般来说可用训练集中每个类别样本出现频率来估计:ki概率密度函数fi(x

25、)由下式表示:fi（X） p/2 _“J exp（x-x讥O(2Y ki k 2其中x是属于类别i地第j个训练样本，ki是类别i中训练样本地数量，匚是平滑参数, p是各样本地维数.PN地训练就是完成以下工作：产生一个特征节点，把这个特征节点和目标类地求和节点连接起来，并且把输入向量赋值给权向量可以推导出，在Nt类别地问题中，要创建N个求和节点，每一个对应一个目标类.ooeyYZTjjl第五章实验方案及结果讨论第5.1节实验语音信号地录制语音信号通过一个麦克风，用录音设备录制获得，语音采集通过 Cooledit软件完成，录制地语音以wave格式保存.语音信号地特性是11025Hz 16bit，单

26、声道.BkeGuInkxI以元音a:和o:作为实验对象，每个数字语音分别在上午 4: 00、10: 00和下午4:00、10: 00四个时段各录制40个，共320个数字语音作为实验地数据源.PgdO0sRlMo第5.2节实验方案实验流程图由图5.1所示.将预处理地语音信号分别提取 LPCC和MFC（参数，先从每个语音地前10个样本中提取参考模板，疲劳强度从低到高为 1-5级，如图5.2所示，然后放入神经网络进行训练，随后把 320个语音样本输入神经网络进行测试，得到实验结果.3cdXwckm15图5.1实验流程图1 -* 5图5.2疲劳强度示意图第5.3节实验结果与讨论一、采用LPCC参数

27、实验结果采用LPCC参数和PNN吉合方式地实验结果如图5.3、5.4所示，实验参数如表5.1、5.2所示.T预期结果实验均值图5.3 LPCC法测试元音a:结果图图5.4 LPCC法测试元音0：结果图表5.1 LPCC法测试元音a:数据测试样本预期结果实验均值相对误差方差凌晨四点53.6641P -0.26720.4348上午十点11.381-0.53970.1219下午四点21.9902:-0.00490.1785晚上十点42.4051-0.39870.3766表5.2 LPCC法测试元音0：数据测试样本预期结果实验均值相对误差方差凌晨四点5P 4.5269P -0.09460.1525上

28、午十点11.0198-0.66010.0124下午四点r 2:2:00晚上十点44.00250.0006250.00025、采用MFC（参数实验结果采用MFC（参数和PNN吉合方式地实验结果如图5.5、5.6所示，实验参数如表5.3、5.4所示.图5.5 MFCC法测试元音a:结果图十预期结果-实验均值*预期结果 -实验均值图5.6 MFCC法测试元音0：结果图表5.3 MFCC法测试元音a:数据测试样本预期结果实验均值相对误差方差凌晨四点54.7151P -0.057P 0.1768上午十点11.23930.23930.2588下午四点21.9683P -0.0158r 0.1515晚上十

29、点43.9014-0.02470.4467表5.4 MFCC法测试元音0：数据测试样本预期结果实验均值相对误差方差凌晨四点54.8149-0.0370.094 1上午十点11.04350.04350.0076下午四点2200 1晚上十点44.01430.00360.0023三、讨论从以上实验结果中可以看出，通过概率神经网络地计算，四个时段录制地同一个语音存在一定地区分度，能够反应其当时地疲劳程度， MFC（参数融入了人耳地听觉特性，故从测试结果来看，其结果优于 LPCC参数，并且0：音地结果比a：更好.h8c52WOngM第六章总结与展望本课题主要采用两种典型地语音特征参数 LPCCffi

30、MFC(和概率神经网络地方法对两个基本元音a:和o:进行测试，从测试结果来看，元音o:相对于a:识别结果更优，对于实际测试地准确率保证更占优势，同时 MFCC方法相对于LPCC方法，各项指标更有利于提高识别准确率 v4bdyGious对于今后进一步工作地思考，主要从以下几个方面进行思考： 1、与频谱图结合，从图像上寻找区分度；2结合语音基音、共振峰等多种各种参数进行综合判别； 3、进行所有元音地测试，找到最利于判别地发音和词组； 4、优化概率神经网络，使之更为适应疲劳度检测；5、隐马尔科夫模型HMM地介入.J0bm4qMpJ9附录(主要程序)clear alldisplay 开始计算参考模板);pause(1);direct oryn ame=speech/a/;fname仁AM4/;fname2=AM10/;fname3=PM4/; fname4=

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？