基于BP神经网络的语音识别技术.docx

资源描述

基于BP神经网络的语音识别技术.docx

《基于BP神经网络的语音识别技术.docx》由会员分享，可在线阅读，更多相关《基于BP神经网络的语音识别技术.docx（18页珍藏版）》请在冰豆网上搜索。

基于BP神经网络的语音识别技术.docx

基于BP神经网络的语音识别技术

上海海事大学

神经网络与语音识别

院系:

物流工程学院

课程名称:

制造与物流决策支持系统

学生姓名:

学号:

时间:

一．绪论

计算机的飞速发展，使人们的生活方式发生了根本性的改变，鼠标、键盘，这些传统的人机接口使人们体会到了生活的便利。

科学技术日新月异，假如让“机器”能够听懂人的语言，并根据其信息去执行人的意图，那么这无疑是最理想的人机智能接口方式，因此语音识别作为一门极具吸引力的学科应运而生，很多专家都指出语音识别技术将是未来十年信息技术领域十大重要的科技发展技术之一。

语音识别（SpeechRecognition）是指，计算机从人类获取语音信息，对语音信息进行分析处理，准确地识别该语音信息的内容、含义，并对语音信息响应的过程。

语音信号具有非稳定随机特性，这使得语音识别的难度大。

目前人类甚至仍没有完全理解自身听觉神经系统的构造与原理，那么要求计算机能像人类一样地识别语音信号很有挑战性。

研究背景及意义

语言在人类的智能组成中充当着很重要的角色，人与人之间的交流和沟通大部分是通过语言的方式有效的完成。

作为人与人之问交流最方便、自然、快捷的手段，人们自然希望它成为人与计算机交流的媒介。

随着数字信号处理及计算机科学的飞速发展，人们对实现人机对话产生越来越迫切的要求，使得语音识别技术近年来得到了迅速的发展，语音识别技术的研究进入了一个比较成熟的时期。

语音识别是一门交叉科学，它综合了声学、语言学、语音学、生理科学、数字信号处理、通信理论、电子技术、计算机科学、模式识别和人工智能等众多学科。

也是人机交互最重要的一步。

语音识别的国内外研究现状

通过语音传递信息是人类最重要，最有效，和最方便的交换信息的形式，语音识别主要指让机器转达人说的话，即在各种情况下，准确的识别出语音的内容，从而根据其信息，执行人的各种意图。

广义的语音识别包括说话人的识别和内容的识别两部分。

这里所说的语音识别，是指内容识别方面。

采用计算机进行语音识别到现在已经发展了50年。

从特征参数上改进，采用各种办法进行语音增强是一个研究方向，但是到目前为止，还没有一种办法能把语音信号完美地从噪音环境提取出来。

语音识别有广泛的商业化运用前景，主要可以分为通用场合和专用场合两个方面。

研究内容

本文研究的主要内容是结合模式识别的基本理论，研究BP神经网络孤立词语音识别的问题，实现1-5共5个数字的识别。

分析了语音信号的预处理，特征提取及BP神经网络算法实现。

二．语音识别技术

语音信号

语音信号是随时间变化的一维信号，由一连串的音素组成，各个音素的排列有一定的规则。

语音具有声学特征的物理性质，声音质量与它的频率范围有关，语音信号的频谱分量主要集中在200~3400Hz的范围内。

语音信号的另一个重要特点是它的短时性。

语音信号的特征是随时间变化而变化，只有在一段很短的时间间隔中，才保持相对稳定的特性。

研究表明，在5ms~40ms的范围内语音信号的频谱特性和一些物理特征基本保持不变。

语音信号短时特征和短时参数包括它的短时能量、短时过零率、短时相关函数、短时频谱等。

语音信号的最基本组成单位是音素。

音素可分成浊音和清音两大类。

如果将只有背景噪声的情况定义为“无声”，那么音素可分成“无声”、“浊音”和“清音”三类。

在短时分析的基础上可以判断一小段语音属于哪一类。

如果是浊语音段，还可测定它的另一些重要参数，如基音频率和共振峰等。

语音信号的数学模型

建立语音信号的数学模型是语音信号处理的基础。

从人的发音器官的机理来假设，将语音信号分为一些相继的短段进行处理，在这些短段中可以认为语音信号特征是不随着时间变化的平稳随机过程。

这样在这些短段时间内表示语音信号时可以采用线性时不变模型。

通过上面的分析，将语音生成系统分成三个部分，喉的部分称为声门，在声门（声带）以下，称为“声门子系统”，它负责产生激励振动，是“激励系统”。

从声门到嘴唇的呼气通道是声道，是“声道系统”，声道的形状主要由嘴唇和舌头的位置来决定。

在说话的时候，声门处气流冲击声带产生振动，然后通过声道响应变成声音，由于发不同音时，声道的形状不同，所以能够听到不同的语音。

语音从嘴唇辐射出去，所以嘴唇以外是“辐射系统”。

激励的不同情况发不同性质的音，激励一般分为浊音激励和清音激励。

发浊音时声道受到声带振动的激励引起共振，产生间歇的类斜三角形脉冲；发清音时声道被阻碍形成湍流，可以把清音激励模拟成随机白噪声。

完整的语音信号的数学模型可以用三个子模型：

激励模型、声道模型、辐射模型的串联来表示。

激励模型一般分为浊音激励和清音激励。

发浊音时，由于声带不断张开和关闭将产生间歇的脉冲波，这个脉冲波类似于斜三角形的脉冲。

发清音时，无论是发阻塞音或摩擦音，声道都被阻碍形成湍流。

所以，可把清音激励模拟成随机白噪声。

声道模型有两种最常见的建模方式。

一是把声道视为由多个等长的不同截面积的管子串联而成的系统，按此观点推导出的叫“声管模型”；另一个是把声道视为一个谐振腔，按此推倒出的叫“共振峰模型”。

从声道模型输出的速度波与语音信号的声压波之倒比称为辐射阻抗，它表征口唇的辐射效应。

由辐射引起的能量损耗正比于辐射阻抗的实部，所以辐射模型是一阶类高通滤波器。

语音识别系统结构

孤立词语音识别是对特定的不连续的词语作为处理单元。

语音识别系统的基本组成一般可以分为预处理模块、特征值提取模块及模式匹配三个模块。

如图所示为语音识别系统结构框图。

图语音识别系统结构框图

从图的系统整体架构可以看到，建立基于BP神经网络的语音识别系统可分为两个阶段,即训练阶段和识别阶段。

首先由用户通过麦克风输入语音形成原始语音,然后系统对其进行预处理。

预处理包括预加重，加窗分帧和端点检测三个过程。

系统的前端采用了端点检测,目的是在一段语音信号中确定起点和终点。

在特征提取部分,本系统采用了MFCC作为特征参数,用于有效地区分数字1-5.

在训练阶段,通过说话人多次重复语音,本系统从原始语音样本中去除冗余信息,提取说话人的特征参数并存储为BP神经网络的输入样本，在此基础上建立输入与输出的BP神经网络模型。

在识别阶段,待测语音经过预处理，使用已经训练好的BP神经网络进行识别得到结果。

语音信号预处理

图是语音信号的预处理的流程图。

从图可以看到预处理模块包括预加重，加窗分帧和端点检测。

前级预加重、加窗分帧及端点检测是语音识别的准备工作，每一个环节对整个识别系统的性能有着重要的影响。

前级预处理主要是对信号进行一定的滤波和分帧；加窗分帧就是将语音信号进行分段处理，使语音信号连续并保持一定的重叠率：

端点检测是确定语音有用信号的起始点与终止点，并通过一定的手段处理，将没有意义的语音信号去除，从而减少语音匹配识别模块的运算量，同时也可以提高系统的识别率。

预处理不合理或语音起止点及终止点判别不够准确都会使后续的特征矢量提取及模式匹配过程等工作受到很大的影响，甚至达不到语音识别的效果，因此预处理工作作为语音识别的第一步工作，必须达到所需的要求，为下一步的特征参数提取做好铺垫。

图语音信号预处理流程图

语音信号的采样

Matlab环境中语音信号的采集可使用wavrecord（n,fs,ch,dtype）函数录制，也可使用Windows的“录音机”程序录制成.wav文件然后使用wavread（file）函数读入。

在本实验中，使用matlab的语音工具包录取0-共10段语音。

如图所示为数字0的训练语音的信号波形图，第（I）幅图为完整的语音波形，第（II）、（III）幅图分别为语音的起始部分和结束部分的放大波形图。

语音信号的分帧

语音信号是一种典型的非平稳信号，它的均值函数u（x）和自相关函数R（xl,x2）都随时间而发生较大的变化。

但研究发现，语音信号在短时间内频谱特性保持平稳，即具有短时平稳特性。

因此，在实际处理时可以将语音信号分成很小的时间段（约10~30ms），称之为“帧”，作为语音信号处理的最小单位，帧与帧的非重叠部分称为帧移，而将语音信号分成若干帧的过程称为分帧。

分帧小能清楚地描绘语音信号的时变特征但计算量大；分帧大能减少计算量但相邻帧间变化不大，容易丢失信号特征。

一般取帧长20ms，帧移为帧长的1/3~1/2。

在语音信号数字处理中常用的窗函数是矩形窗、汉明窗等，它们的表达式如下（其中N为帧长）：

矩形窗：

（2-1）

汉明窗：

（2-2）

语音信号的预加重

预加重是指在A／D转换后加一个6dB／倍频程的高频提升滤波器，语音信号的平均功率谱由于受声门激励和口鼻辐射的影响，高频端大约在800Hz以上按6dB／Oct（倍频程）跌落。

所以求语音信号频谱时，频率越高相应的成份越小，高频部分的频率比低频部分的难求。

因此，预加重的目的是加强语音中的高频共振峰，使语音信号的短时频谱变得更为平坦，还可以起到消除直流漂移、抑制随机噪声和提高清音部分能量的效果，便于进行频谱分析和声道参数分析。

此外，通常的方法是使用一阶零点数字滤波器实现预加重，其形式为：

（2-3）

频域相对应的形式为：

（2-4）

其中，a为预加重系数。

基于短时能量和过零率的端点检测

在语音信号的预处理中,端点检测是关键的一步,语音信号的模型参数和噪声模型参数以及自适应滤波器中的适应参数都得依赖对应的信号段（语音段或噪声段）来计算确定。

因此,只有准确地判定语音信号的端点,才能正确地进行语音处理。

端点检测的目的是从包含语音的一般信号中确定出语音的起点以及终点,一般采用平均能量或平均幅度值与过零率相乘的方法来判断。

这种利用短时能量和短时平均过零率两种特征共同参与检测，也被称为双门限法。

（1）短时能量

设S（n）为加窗语音信号，第t帧语音的短时平均能量为：

（2-5）

（2-6）

其中N为分析窗宽度，St（n）为第t帧语音信号中的第n个点的信号取样值。

上面两式原理是相同的，但后式有利于区别小取样值和大取样值，不会因为取平方而造成很大的差异。

短时平均能量是时域特征参数，把它用于模型参数时，应进行归一化处理。

短时能量主要用途有：

（1）可以区分浊音段和清音段，因为浊音的En比清音时大得多。

（2）可以用来区分声母与韵母的分界，有声与无声的分界，连字的分界等。

（3）作为一种超音段信息，用于语音识别中。

（2）短时过零率

短时过零表示一帧语音信号波形穿过横轴（零电平）的次数。

对于连续语音信号，过零意味着时域波形通过时间轴；而对于离散信号，如果相邻的取样值的改变符号则称为过零。

过零率就是样本改变符号次数，定义语音信号寿（m）的短时过零率Zn为：

（2-7）

式中sgn[]是符号函数，即：

（2-8）

短时过零率的主要用途为区分浊音和清音，浊音具有较低的过零率，而清音则具有较高的过零率。

（3）双门限检测的方法

在开始进行端点检测之前，首先为短时能量和过零率分别确定两个门限。

一个是比较低的门限，其数值比较小，对信号的变化比较敏感，很容易就会被超过。

另一个是比较高的门限，数值比较大，信号必须达到一定的强度，该门限才可能被超过。

低门限被超过未必就是语音的开始，有可能是时间很短的噪声引起的。

高门限被超过则可以基本确信是由于语音信号引起的。

双门限端点检测程序见附录，双门限法仿真流程图如下：

图3-4双门限法仿真程序流程图

整个语音信号的端点检测可以分成四段：

静音、过渡段、语音段、结束。

在静音段，如果能量或过零率超越了低门限，就应该开始标记起始点，进入过渡段。

在过波段中，由于参数的数值比较小，不能确信是否处于真伪的语音段，因此只要两个参数的数值回落到低l、J限以下，就将当前状态恢复到静音状态。

而如果在过渡段中两个参数中的任一个超过了高门限，就可以确信进入语音段了。

当前状态处于语音段时，如果两个参数的数值降低到低门限以下，而且总的计时长度小于最短时间门限，则认为这是段噪音，继续扫描以后的语音数据。

否则就标记好结束端点，并返回。

从而达到抗干扰的目的、提高识别率。

如下图所示。

特

展开阅读全文