1、基于DSP的语音识别技术研究,-吕涛.基于DSP的语音识别技术研究与实现D.上海:华东交通大学,2008.,目 录,1、研究背景2、总体方案3、硬件设计4、软件设计5、界面设计,1、语音识别技术研究概况,我国采用嵌入式芯片设计技术研发了语音识别专用芯片系统,这是国内研发的第一块语音识别专用芯片。芯片中包括了语音识别、语音编码、语音合成功能,可以识别30条特定人语音命令,识别率超过95,其中的语音编码速率为16kbits/s。这些系统的识别性能完全达到国际先进水平。研发的成果已经进入实用领域,一些应用型产品正在研发中,其商品化的过程也越来越快。,语音识别系统存在的难点问题,首先,实现小词汇量语音
2、识别系统最可靠的方法为孤立词语音识别。虽然孤立词语音识别较其他类型的语音识别成熟完善,基本可以达到使用要求,但在实际的具体系统应用环境中,仍存在一些影响因素使其识别率降低,孤立词语音识别存在的难点问题有:同一发音信号的随机性变化;环境噪声广泛存在易造成训练与测试环境不匹配致使系统性能严重下降;,端点检测;环境将同一声波的传导、反射等对声音的能量存在很大影响;词与词的特征空间混叠。,课题的研究内容,课题研究的主要内容是通过在语音信号分析的基础上,对线性预测编码倒谱系数LPCC与MEL倒谱系数MFCC进行详细说明及分析选择DTW为识别算法。对程序进行仿真测试分析后,选择TMS320VC5416为系
3、统的核心。,2、系统总体设计,特定人的孤立词语音识别系统的总体设计方案是:通过VC+建立一个友好的人机互动界面,在界面中可以调用Matlab语言来进行软件算法的模拟仿真;可以通过串口来实现VC+与DSP的通信,通过界面来达到控制DSP的目的。通过麦克风对发音人的语音信号进行采集完成语音信号的二值化,然后再由DSP对语音信号进行模板识别并做出判断。,系统设计总框图,语音信号生成的数学模型,语音信号分析是语音信号处理的前提和基础,只有分析出可表示语音信号本质特征的参数,才有可能利用这些参数进行高效的语音识别,而且语音识别率的高低,也直接取决于对语音信号分析的准确性和精确性。由于声带有节律地冲开与闭
4、合一系列振动,气流通过声门形成一系列“气喷”造成空气稠密和稀疏相间的动荡状态而形成声波,即声门波。此声门波再经喉腔、咽腔、口腔、鼻腔等共鸣体的放大与滤波,就成为人的嗓音,即人声。语音生成可以分为三个部分,分别为:激励系统(在声门以下,负责产生激励振动)、声道系统(从声门到嘴唇的呼气通道)和辐射系统(语音从嘴唇辐射出去)。,1、激励模型,激励模型一般分成浊音激励和清音激励来讨论。发浊音时,由于声带不断张开和关闭,将产生间歇的脉冲波,这个脉冲波的波形类似于斜三角形的脉冲,它的数学表达式如下:式中,N为斜三角波上升部分的时间,N为其下降部分的时间。,语音信号生成的数学模型,2、声道模型,目前最常用的
5、有两种声道建模方法。一是“声管模型”,把声道视为由多个等长的不同截面积的管子串联而成的系统;另一种是把声道视为一个谐振腔,称为“共振峰模型”。一般采用级联型共振峰的全极点模型:式中,N是极点个数,G是幅值因子,a、k是常系数。,3、辐射模型,从声道模型输出的是速度波,而语音信号是声压波,二者之倒比称为辐射阻抗ZL,其z变换为R(s)。辐射阻抗的近似公式如下:式中,这里,a是口唇张开时的开口半径,c是声波传播速度。,综上所述,完整的语音信号的数学模型可以用激励模型、声道模型和辐射模型的串联形式来表示。即:其中U(s)为激励信号。,3、系统硬件设计,音频采集模块内部存储器设置外部存储器扩展数据采集
6、与传送模块,音频采集模块:,采用了 TI 公司推出的一款高性能立体声音频 Codec 芯片TLV320AIC23B,内置耳机输出放大器,支持 MIC 和 LINE NI 两种输入方式,且对输入和输出都具有可编程增益调节。,设置步骤:1.设置 MP/MC=0,使芯片工作在微计算机方式下。2.设置 OVLY=1,使片内的 0 x80-0 x7FFF 既映射在程序区,又映射在数据区。3.设置 DROM=1,以便在数据区访问片内的 ROM 区。,VC5416DSP 片内提供了16K16Bit的ROM 和128K16Bit的SRAM。其中ROM内部包含有Bootloader程序在系统上电时能把外部存储器
7、中的源程序调到内部存储器中,允许源程序存放在速度较慢的外部存储器中,降低了硬件资源的成本,片内ROM由厂家定制,位于程序空间的0 xF000-0 x7FFF。,内部存储器设置:,外部存储器扩展:本系统扩展了两块64K16bit的SRAM(IS61LV12816)和一块256K16bit的FLASH(AM29LV808)来增加系统存储空间。IS61LV12816是ICSI公司推出的一款高性能CMOS静态RAM,速度范围815ns,电源3.3V。,数据采集与传送模块,VC5416片内包含三个多通道缓冲串行接口McBSP(Multi-channel Buffered SerialPort),分别为M
8、cBSP0、McBSP1、McBSP2。它支持全双工通信、双缓冲数据寄存器允许连续的数据流,支持多种传输方式(如T1/E1帧协议、MVIP帧协议等),数据字长可为8、12、16、20、24和32bit,内置-律和A-律的压缩扩展硬件,并可直接与工业标准的编码器、模拟接口芯片(AISC)及串行 AD/DA 器件连接并进行通信。,数据通道完成数据的收发,控制信道负责内部时钟的产生,帧同步信号的产生,通过 6个引脚(发送引脚 DX、接收引脚 RX、CLKX 发送时钟引脚、CLKR 接收时钟引脚、FSX发送帧同步引脚、FSR 接收帧同步引脚。在时钟信号和帧同步信号控制下,接收和发送通过 DR 和 DX
9、 引脚与外部器件直接通信。发送数据时,DMA 控制器将待发送的数据写到发送数据寄存器 DXR,然后在 FSX、CLKX 作用下,通过移位寄存器XSR 将数据经引脚 DX 移除发送。,4、语音识别系统的软件设计,语音识别可以分为特定人语音识别和非特定人语音识别。本文讨论特定人的孤立词语音识别。本章详细研究了语音信号的预加重、端点检测、特征提取以及模式匹配等几个环节。,DSP软件流程图,系统首先初始化I2C口,对TLC320AIC23进行寄存器配置,确定语音信号的幅度、采样率和量化精度等参数,然后初始化McBSP1,开始语音信号的采集,通过DSP对所采集的语音信号进行语音识别,并把识别结果输出。,
10、预处理:包括量化和预加重 语音信号的数字化由TLV320AIC23完成。将语音信号滤波器设置为504kHz带宽,采样率为8kHz,采样精度为16bits。语音信号的频率越高则相应的成分就越小,为此要在预处理中进行预加重,使信号的频谱总体变得平坦。分帧:采用汉明窗在一个短时间段内,语音信号的特性保持相对稳定,可以看作是短时平稳的。为了避免相邻两帧语音变化太大,让两帧数据之间有一段重叠区域。,端点检测:起点检测和终点检测 用数字处理技术检测出说话人语音信号的起始点和结束点。语音分析的方法一般有时域分析、频域分析和语谱分析。这里采用时域方法。利用过零率和短时能量进行端点检测 起点检测:根据短时平均幅
11、度和短时平均过零率准则终点检测:根据超声无声段和过能量准则,语音信号的训练和模式匹配 改进的DTW算法包括DTW算法中的整体路径约束和搜索宽度限制的DTW算法 采用搜索宽度限制的算法 语音去噪 3阶切比雪夫(Chebyshev)低通滤波器,截止频率为3500Hz,系统程序的开发流程图,5 人机交互界面设计,系统采用 VC+来进行人机交互界面的设计,通过调用 MATLAB 来进行矩阵运算;在 PC 机上通过 CCS 对程序调试成功后,通过 PC 机与 DSP 的通信,把程序下载到DSP上,通过VC+来实现对DSP的控制。,人机交互界面的实现,系统通过 Visual C+来进行交互界面的设计,语音
12、识别交互界面如图下图所示:,人机交互界面的实现,从采样率的下拉列表框中可以选取语音信号的采集频率,声道数列表框中选是单声道还是双声道。可以先点击与 Matlab 通信按钮,实现程序的仿真,然后点击与 DSP 通信,实现程序在 DSP 上的运行。对着麦克风录音,分别在下面显示信号的输入和识别结果的输出,如一致,则说明识别成功。,DSP与PC机的串口通信,在许多DSP的应用中需要与PC机进行数据交换,使用户通过PC机上友好的程序界面来控制 DSP 系统的工作、显示 DSP 的运行结果等。DSP 与 PC 机之间串口通信的速度匹配是保证快速、准确通信的关键。选用PC16550 芯片来实现与DSP的匹配,该芯片内置 FIFO(First-In,First-Out,先进先出),能存储一定量的数据后再给 DSP 中断,从而节省了DSP中断服务程序的时间,提高了 DSP 的工作效率。,THANKS,
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1