DSP课程设计语音识别报告.docx

资源描述

DSP课程设计语音识别报告.docx

《DSP课程设计语音识别报告.docx》由会员分享，可在线阅读，更多相关《DSP课程设计语音识别报告.docx（36页珍藏版）》请在冰豆网上搜索。

DSP课程设计语音识别报告.docx

DSP课程设计语音识别报告

DSP课程设计

语音识别课题报告

姓名高鹏于是阳

学号1221200412212025

学院电子信息工程学院

班级自动化1202

指导教师钱满义

一、设计任务书

1.1实验目的

掌握利用DSP进行语音信号采集的方法，利用DSP对语音信号进行特征提取，从而实现语音信号的识别。

学会A/D、D/A的工作原理和使用，学会A/D、D/A转换器的编程方法。

以语音信号处理为依托，深入理解信号的抽样和重建的基本方法，提高学生系统地思考问题和解决实际问题的能力。

通过调用DSPCSL库对McBSP接口的编程，学会DSP片上外设的使用方法。

1.2技术指标及设计要求

（1）对DMA进行初始化；

（2）对A/D、D/A进行初始化；

（3）编写DMA中断服务程序，实现语音信号的实时识别；

（4）根据识别系统的类型选择一种识别方法，采用语音分析方法分析出这种识别方法所要

求的语音特征参数，作为标准模式由机器存储起来，形成标准模式库。

（5）对语音进行特征参数的分析，语音信号经过相同的通道得到语音参数，生成测试模板；

（6）将测试模板与参考模板进行匹配，将匹配分数最高的参考模板作为识别结果，从而实现语音的识别。

1.3设计思路

首先利用DSP对语音信号进行分析，提取语音的特征参数，形成“模板”。

语音识别系统对特征参量的提取可采用FFT算法。

语音识别和说话人识别中的LPC倒谱和MEL倒谱，都与语音的频谱包络密切相关，不同的参数表示不同的频谱包络。

识别时，对其进行特征参数的分析，识别参数可以选择平均能量、过零数或平均过零数、频谱、倒谱、线性预测系数，音长，音调，声调等超音段信息函数。

最后将语音参数和模板进行比较，从而实现语音的识别。

二、实验原理

2.1语音识别概述

语音技术，包括语音识别、语音合成、关键词检出、说话人识别与确认、口语对话系统等，是现代人机交互的重要方式之一，具有广泛的应用前景。

其中语音识别技术，尤其是连续语音识别技术，是最基础、最重要的部分，而且已经逐步走向成熟与实用。

语音识别（SpeechRecognition）是指让机器听懂人说的话，即在各种情况下，准确的识别语音的内容，从而根据其信息，执行人的各种意图或执行特定的任务，其最终目标是实现人与机器进行自然语言通信。

利用DSP可以对语音信号进行实时采集、提取语音特征向量、进行语音识别。

语音识别系统对语音特征参量的提取可以采用FFT等算法，不同的参数表示不同的频谱包络。

利用DSP技术来实现语音识别其实就是要利用DSP处理器强大的数据处理功能对表征语音的各种形式的信息进行处理和分析,以对语音进行描述、辨认、分类和解释。

无论是早期的孤立词识别系统还是当代的连续语音和非特定人识别系统，它们的系统基本结构框图都可以用下图来进行简单描述。

其主要过程包括语音信号的预处理（端点检测等）、特征提取、建立参考模板库、相似性度量和识别决策等几个功能模块。

从图中可以看出语音识别系统的本质就是一种模式识别系统，它也包括特征提取、模式匹配、参考模式库等基本单元。

由于语音信号是一种典型的非平稳信号，加之呼吸气流、外部噪音、电流干扰等使得语音信号不能直接用于提取特征，而要进行前期的预处理。

预处理过程包括预滤波、采样和量化、分帧、加窗、预加重、端点检测等。

经过预处理的语音数据就可以进行特征参数提取。

在训练阶段，将特征参数进行一定的处理之后，为每个词条得到一个模型，保存为模板库。

在识别阶段，语音信号经过相同的通道得到语音参数，生成测试模板，与参考模板进行匹配，将匹配分数最高的参考模板作为识别结果。

后续的处理过程还可能包括更高层次的词法、句法和文法处理等，从而最终将输入的语音信号转变成文本或命令。

语音信号的预处理模块一般包括预滤波、采样和量化、分帧、加窗、预加重、端点检测等。

在不同的系统中对各子模块会有不同的要求，如在嵌入式语音识别系统中一般要求有防混叠滤波电路、A/D转换电路和采样滤波电路等，而在计算机上实验时则可由音频采集卡完成，无需实验者亲自动手。

2.2硬件构成

在本次实验中，我们用到的是BJTU-DSP5502实验系统，实验箱内包括BJTU-DSP5502实验板和SEED-XDS510PLUS仿真器以及相关配件。

它采用的语音处理模块是TI公司的TMS320VC5502，其主要特点包括：

采用改进的哈佛结构，内部独立总线：

12组；程序地址总线（PAB）：

1组，24位；程序数据总线（PB）：

1组，32位；数据读地址总线（BAB、CAB、DAB）：

3组，24位；数据读总线（BB、CB、DB）：

3组，16位；数据写地址总线（EAB、FAB）：

2组，24位；数据写总线（EB、FB）：

2组，16位。

BJTU-DSP5502实验板主要包括：

DSP芯片1枚（U1）：

TMS320VC5502@300MHz

SDRAM1枚（U5）：

2M×32bit（8Mbytes）HY57V643220CT

FLASH1枚（U4）：

256K×16bit（512Kbytes）SST39VF400A-70

CPLD1枚（U2）：

CY37064VP100

通信接口3个：

仿真器JTAG接口（J1）、连接到PC机USB接口（J4）和UART接口（J2）

信号采集和输出端口：

立体音输入接口line-in（J5，直接接电脑的语音输出端口）/麦克风输入接口（J7）/耳机音频输出接口（J6）

扩展板接口（J9，J10）通信接口3个：

仿真器JTAG接口（J1）、连接到PC机USB接口（J4）和UART接口（J2）

信号采集和输出端口：

立体音输入接口line-in（J5，直接接电脑的语音输出端口）/麦克风输入接口（J7）/耳机音频输出接口（J6）

扩展板接口（J9，J10）

信号采集和输出端口：

立体音输入接口line-in（J5，直接接电脑的语音输出端口）/麦克风输入接口（J7）/耳机音频输出接口（J6）。

通过AIC23B（A/D、D/A转换器）来提供立体音输入/麦克风输入/耳机音频输出。

AIC23B与DSP的McBSP1相连接。

（McBSP0：

经电平转换后直接给外设扩展总线的XMcBSP0，保留给用户作外部扩展用。

McBSP2：

在BJTU-5502DSP板上有3种用途。

即接口DSP板的COM1（缺省）、ESAM（嵌入式加密模块）和接口外设扩展总线的XMcBSP1。

）

存储空间的具体配置:

flash存储器：

最大512K×16bit，需占VC5502的半个______CEx空间（本板x=1）

SDRAM最大2M×32bit，需占VC5502的2个连续的______CEx空间（本板x=2）.状态／控制寄存器5×8bit，需占VC5502某一______CEx的5个存储单元，这些寄存器BJTU-5502DSP板的CPLD中实现，通过EMIF的异步接口进行读写操作（本板x=1）。

UARTB8×8bit，需占VC5502某一______CEx的8个存储单元（本板x=1）。

USB8×16bit，需占VC5502某一______CEx的8个存储单元（本板x=1）。

扩展总线：

最大4×1M×32bit，分配为扩展总线的4个________XCE3-________XCE0。

扩展存储空间需占VC5502的多个______CEx空间。

。

2.3语音识别算法软件实现

系统首先进行端点检测，检测的方法是采用短时能量和短时过零率相结合的方法，如果检测到语音，则对有效的语音信息进行特征参数的提取，然后读取参考模板数据到片内存储器，对每一个参考模板进行模式匹配，寻找距离最短的模式作为识别结果。

2.3.1端点检测

端点检测是语音识别系统中至关重要的一步，其算法的优劣在某种程度上也直接决定了整个语音识别系统的成败．作为一个完整的语音识别系统，其最终实现及使用的效果不仅仅取决于识别的算法，许多相关因素都直接影响着应用系统的成功与否。

端点检测的目的就是在复杂的应用环境下的信号流中分辨出语音信号和非语音信号，并确定语音信号的开始及结束。

好的端点检测方法能改变语音识别软件存在的检测效果不理想、识别率低等问题。

用短时能量，短时过零率结合的方法，此方法实现简单，在噪声干扰不大的环境中可以取得较好的识别效果，但在实时性上还有提高的空间，采用动态窗长短时能量的方法可以在识别的实时性和识别率上有所提高。

为了减小语音帧的截断效应，需要加窗处理；

本实验采用hamming窗，因为矩形窗的主瓣宽度最小，旁瓣高度最高，会导致泄漏现象，汉明窗的主瓣最宽，旁瓣高度最低，可以有效的克服泄漏现象，具有更平滑的低通特性，应用更广泛。

（1）短时能量定义为：

语音信号强度的度量参数

短时平均能量的主要用途：

①可以从语音中区别出浊音来，因为浊音时短时平均能量的值要比清音时短时平均能量的值大很多；

②可以用来区别声母和韵母的分界、无声和有声的分界等

③最为一种超音段信息，用于语音识别中。

（2）短时过零率：

波形穿过横轴（零电平）的次数

短时过零可以看作信号频率的简单度量：

浊音时能量集中于较低频率段内，具有较低的过零率，而清音时能量集中于较高频率段内，具有较高的过零率。

（3）短时平均幅度：

短时能量对高电平非常敏感（因为计算时用的是信号的平方），为此可以用另一种度量语音信号幅度值的变化函数。

即“短时平均幅度M0”定义为：

这里用计算加权了的信号的绝对值之和替代平方和，因而短时处理的方法比较简单，硬件更易实现。

因此本实验采用短时平均幅值和短时过零率相结合的双门限端点检测法

双门限端点检测顾名思义需要两级检测，即短时平均幅值检测和短时平均过零率检测。

首先用短时平均幅值进行第一次判别，然后用短时平均过零率进行第二次判别。

开始检测之前，为计算整体平均幅值pn，当短时平均幅值大于的整体平均幅值pn或者第m+1帧的短时过零率大于3倍的第m帧的短时过零率即Z[m+1]>3*Z[m]就进入语音段。

当短时平均幅值小于的整体平均幅值pn则认为进入结束。

两种可能会引起端点检测的误判，一是短时噪音引起的误判，此时则需要引入最小语音长度门限进行噪声判定，即语音段时间小于一定数值则认定为是噪声．二是语音中字与字的时间空隙引起的误判，此时需要设定最大静音长度门限来降低识别的错误率。

这种双门限端点检测是最常用的孤立词识别所采用的端点检测方法，其方法物理意义明确，计算量小，在安静的环境中有较好的识别率，但它也有很多不足，例如门限值需要由经验来设定，更换实验环境，则效果不理想等

可以采用的改进方法：

采用动态窗长短时能量检测语音端点。

检测时首先要对语音信号进行加窗分帧处理，如果窗的长度过大，在提高检测速度的同时导致识别率的下降，如果窗的长度过短，在提高检测识别率的同时增加了检测的时间．考虑此种情况，采用动态窗长短时能量端点检测方法，在静音段使用大窗长，进入过度段后，改用小窗长，进入语音段则使用正常窗长。

2.3.2特征参数的提取

临界带特征矢量：

临界带特征矢量是指：

将一帧信号的功率谱按频率高低分成若干个临界带，对每个临界带中的功率谱求和，即可得到相应的临界带特征矢量。

把它作为每一个语音信号的特征矢量，最后对比不同语音信号的临界带特征矢量即可得到相似度。

每一帧信号都对应一个若干维的临界带特征矢量，因此，无论参考帧与待测帧都对应于不同的临界带特征矢量。

计算方法是：

第一步，求出每一帧的加窗语音Xn（m）:

m=0～（N-1）,的DFT的模平方值|Xn（k）|2此即为功率谱。

做256点的DFT变换，采样频率为8kHz，窗长为38ms（即N=256），窗形为汉明窗。

|Xn（k）|2与原始加窗语音信号的频谱模平方具有下列关系：

（2）第二步，划分临界带。

在中确定若干个临界带分割点，确定的方法是将i=1，2

展开阅读全文