基于dsp的语音识别与合成技术Word文档格式.docx
《基于dsp的语音识别与合成技术Word文档格式.docx》由会员分享,可在线阅读,更多相关《基于dsp的语音识别与合成技术Word文档格式.docx(13页珍藏版)》请在冰豆网上搜索。
6.4三角带通滤波器组(TriangularBandpassFilters)2
二.芯片概况介绍3
三.系统总体设计5
3.1语音识别系统结构示意图5
系统结构示意图5
3.2内部系统构成5
3.2.1DSP6
3.2.2MCU6
3.2.3数据FLASH存储器6
3.3系统内主要芯片的互联互控6
3.3.1MCU与DSP6
3.3.2DSP与数据FLASH锁存器7
3.3.3DSP与数据FLASH存储器7
四.结论7
参考文献:
8
六.课程总结:
第一章:
离散时间信号与系统8
第二章离散傅里叶变换(DFT)8
第三章快速傅里叶变换9
第四章9
第六、七章IIR、FIR数字滤波器的设计9
第八章硬件9
摘要
在如今信息社会,随着微电子的迅速发展,DSP芯片性能不断提高,用数字化的方法可以让语音的传送、储存识别、合成、增强成为整个数字化通信网中最重要、最基本的组成部分之一,随着信息科学技术的飞速发展,语音信号处理的研究也日益显示出它的要性,并取得了重大进展。
大体上说,语音信号处理技术可以分为以下四个面:
即语音编码,语音合成、说话人识别和语音识别等。
以DSP芯片TMS320C5410为核心,制作了一个能实现语音识别的功能。
本设计主要包括DSP(TMS320C5410)、MCU(Intel8031)模块、FLASHIntel8031模块、液晶显示屏模块、蜂鸣器报警模块和供电模块等,系统由MCU实现总线控制,接收外界键盘输入,并在显示屏上显示信息。
随着现代数字通讯、多媒体系统、信息高速公路等技术的应用和发展己经越来越深入地影响并改变着我们每个人地生活和工作方式,这同时也对音信号处理的研究工作提出了更高的要求,它在各方面的进展也令人瞩目。
所以用DSP开发语音识别与合成技术是很有优势的。
关键词
数字信号处理语音识别快速傅利叶转换文语转换技术TMS320C5410隐式马尔可夫链
Abstract
Intoday'
sinformationsociety,withtherapiddevelopmentofmicroelectronics,DSPchiptoconstantlyimprovetheperformance,theuseofdigitalmethodscanmakethetransmissionofvoicerecognition,synthesis,storage,enhancementhasbecomeoneofthemostimportantpartsofthewhole,themostbasicdigitalcommunicationnetwork,alongwiththerapiddevelopmentofinformationtechnology,researchonspeechsignalprocessingisbecomingmoreandmoreshowitto,andmadesignificantprogress.Generallyspeaking,speechsignalprocessingtechnologycanbedividedintothefollowingfouraspects:
namely,speechcoding,speechsynthesis,speechrecognitionandspeechrecognition.
UsingDSPchipTMS320C5410asthecore,madeaspeechrecognitionfunction.ThisdesignmainlyincludestheDSP(TMS320C5410),MCU(Intel8031)module,FLASHIntel8031module,LCDmodule,buzzeralarmmoduleandpowersupplymodule,thesystemisrealizedbyMCUbuscontrol,receivingexternalkeyboardinput,anddisplaytheinformationonthedisplayscreen.
Withtheapplicationanddevelopmentofmoderndigitalcommunication,multimediasystemhas,highwaysandotherinformationtechnologyismoreandmoredeeplyaffectedandchangedoureachperson'
swayoflivingandworking,italsoresearchonaudiosignalprocessingandputforwardhigherrequirements,itisinallaspectsoftheprogressisalsoattractpeople'
sattention.SowiththedevelopmentofDSPspeechrecognitionandsynthesistechnologyisveryadvantageous.
Keywords:
DSP TMS320C5410 Speechrecognition FFT TTS HMM
一.概述
1.语音识别
语音识别是试图使机器能“听懂”人类语音的技术。
语音识别的作用是将语音转换成等价的书面信息,也就是让计算机听懂人说话。
作为一门交叉学科,语音识别又是以语音为研究对象,是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到计算机、信号处理、生理学、语言学、神经心理学、人工智能等诸多领域,还涉及到人的体态语言,其最终目标是实现人与机器进行自然语言通信。
2.语音合成
语音合成是通过机械的、电子的方法产生人造语音的技术。
TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。
3.国内研究历史及现状
我国在语音识别研究上也投入了很大的精力,国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。
国家863智能计算机专家组为语音识别技术研究专门立项,我国语音识别技术的研究水平已经基本上与国外同步。
4.语音识别的流程
根据对输出观测值概率的不同描述,HMM(隐式马尔可夫链)可分为离散HMM(DHMM)和连续HMM(CHMM),在基于DHMM的非特定人语音识别过程中语音信号先被分成若干音框(帧),每个音框用一个特征向量参数表示,然后将语音特征参数向量的时间序列矢量化,此时每一个音框的语音信号变成VQ码本,用码本训练HMM,最后测试识别率。
5.语音信号分析方法分类时域特征
频域及倒谱域特征由时域信号进行频谱变换得到,反映语音信号的频域特性包括傅里叶频谱、倒谱以及利用了语音信号的时序信息的时频谱。
听觉特征指不直接对声道模型进行研究,而是从人类听觉系统对语音的感知特性来刻画语音信号的特征。
6.基于Mel频率的倒谱MFCC
在语音识别(SpeechRecognition)和语者辨识(SpeakerRecognition)方面,最常用到的语音特征就是[梅尔倒频谱系数](Mel-scaleFrequencyCepstralCoefficients,简称MFCC),此参数考虑到人耳对不同频率的感受程度,因此特别适合用在语音识别。
6.1音框化(Frameblocking)
先将N个取样点集合成一个观测单位,称为音框(Frame),通常N的值256或512,涵盖的时间约为20~30ms左右。
为了避免相邻两音框的变化过大,所以我们会让两相邻因框之间有一段重迭区域,此重迭区域包含了M个取样点,通常M的值约是N的一半或1/3。
通常语音识别所用的音频的取样频率为8KHz或16KHz,8KHz来说,若音框长度为256个取样点,则对应的时间长度是256/8000*1000=32ms。
6.2汉明窗(Hammingwindow)
将每一个音框乘上汉明窗,以增加音框左端和右端的连续性(请见下一个步骤的说明)。
假设音框化的讯号为S(n),n=0,…N-1。
那么乘上汉明窗后为S'
(n)=S(n)*W(n),此W(n)形式如下
6.3快速傅利叶转换(FFT)
由于讯号在时域(Timedomain)上的变化通常很难看出讯号的特性,所以通常将它转换成频域(Frequencydomain)上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。
所以在乘上汉明窗后,每个音框还必需再经过FFT以得到在频谱上的能量分布。
6.4三角带通滤波器组(TriangularBandpassFilters)
将能量频谱能量乘以一组20个三角带通滤波器,求得每一个滤波器输出的对数能量(LogEnergy)。
必须注意的是:
这20个三角带通滤波器在梅尔频率(MelFrequency)上是平均分布的,而梅尔频率和一般频率f的关系式如下:
Mel(F)=2595*log
梅尔频率代表一般人耳对于频率的感受度,由此也可以看出人耳对于频率f的感受是呈对数变化的:
在低频部分,人耳感受是比较敏锐。
在高频部分,人耳的感受就会越来越粗糙。
二.芯片概况介绍
TMS320C54XX系列简介
TMS320C54X芯片采用先进的修正哈佛结构和8条4组总线结构使处理器的性能有极大的提高。
它的独立的程序和数据总线允许同时访问程序存储器和数据存储器,实现高度并行操作,例如可以在一条指令中,同时执行3次读操作和1次写操作。
还可以在数据总线和程序总线之间相互传送数据,从而使处理器具有在单个周期内同时执行算术运算、逻辑运算、移位操作、乘法累加运算以及访问程序和数据存储器的强大功能。
采用模块化设计现金的集成电路设计以及先进的集成电路技术,芯片的功耗小,成本低的强大好处。
程序/数据ROM
程序/数据RAM
JTAG/测试
仿真控制
17×
17乘法器
40bit加法器
舍入饱和
D(15-0)
A(15-0)
程序/数据总线
通用I/O
CPU
MACALU
移位器累加器
寻址单元
定时器
DMA
Ch0
Ch1
Ch2
Ch3
Ch4
Ch5
40bitALU
比较选择单元(Viterbi)
指数编码器
主机接口(HPI)
外
设
总
线
多通道缓冲串口
(McBSP)
40bitACCA
40bitACCB
40bit桶形移位
寄存器(-16~31)
PLL时钟发生器
8个辅助寄存器
2个地址产生单元
S/W等待状态
发生器
电源管理
C54XX功能结构框图
TMS320C54X DSP内部硬件组成框图
三.系统总体设计
3.1语音识别系统结构示意图
语音输入方式省去了大量的输入时间,降低了信息检索的复杂度,该芯片可存放数百张语音名片,每张名片包含四条信息:
姓名、电话号码、工作单位、备注;
声控查找语音名片信息,用户只需口述所要查找人的姓名,即可获得电话号码、工作单位、备注等信息,同时电话号码显示在液晶屏上
。
系统结构示意图
3.2内部系统构成
用于“录音”功能的ACELP算法是该码率下性能优异的解码算法,虽然算法复杂度较高,但共重建语音素质的平均主观评测分数(MOS分)达到如图1所示,系统由MCU实现总线控制,接收外部键盘输入,并在液晶屏上显示信息。
在本系统中,语音充当大部分人机界面的角色,尽管省去复杂的键盘操作,而且用语音提示或语音操作回放代替一部分液晶文字提示。
由于语音要经过DSP处理,所以MCU需要与DSP经常交换信息,一边实现友好的操作界面。
系统由MCU实现总线控制,接收外部键盘输入,并在液晶屏上显示信息。
本系统中,语音充当大部分人机界面的角色,尽量减去复杂的键盘操作,而且用语音提示或语音回放代替一部分的液晶文字提示。
由于语音要经过DSP处理,所以MCU需要与DSP经常交换信息,以便实现又友好的操作界面
3.2.1DSP
DSP(TMS320C5410)是整个硬件系统的信号处理中心,完成语音识别、训练、编解码,进行片内RAM及外部FLASH存储芯片的数据管理与调度,并向主控芯片MCU提供简洁的命令与反馈信息。
TMS32054XX系列的产品。
其主要性能指标如下:
116位定点的DSP,采用改进的哈佛结构,供电呀3.3V;
2提供了64Kbyte的片内ROM;
3由一个时分复用串口TDM和2个带缓冲区的标准串口BSP;
4具有HPI是实现DSP与MCU接口的应用;
5指令周期为10ns,即运算速度高达100MIPS;
6具有管理中断、循环运算和功能调用的控制结构。
3.2.2MCU
MCU是Intel生产的性价比较高的一种HMOS类型的8位单片机,可以一次性编程,适于小批量生产,被广泛地应用于家用电器的控制,他具有强大的I/O功能。
其主要指标如下:
1片内RAM为128*8bit;
片外为64K*8bit片外EPROM64K*8bit;
240个引脚,其中由32个I/O口,5个中断源,2个16位定时器/计数器;
3需求电压为5V
这些性能保证了系统主控能力,而且能够提供灵活的外部接口,适于做进一步的改进能力和改进。
计算器等附加功能可以直接由MCU完成。
3.2.3数据FLASH存储器
数据FLASH存储器KM29U64000是SAMSUNG公司的产品,它可在3V电压下低功耗工作,存贮量大、价位低、速度快、存储数据掉电后可保持而不会丢失。
3.3系统内主要芯片的互联互控
3.3.1MCU与DSP
MCU与DSP采用串行口相连,通过HPI实现MCU与DSP的传送互联MCU对DSP的命令字与DSP对MCU的反锁字。
DSP串口1用于语音输入和输出,串口2用于与MCU相连。
由于DSP的串口收发方式和MCU的串口不一致,所以MCU用I/O口模拟串口与DSP相连。
为了保证数据传送的稳定性,MCU采用中断方式接收。
每次数据传送一般不止一个人字节,所以采用打包方式传送。
3.3.2DSP与数据FLASH锁存器
DSP的数据总线中的8位练到FLASH存储器的总线上,用DSP的读写控制线WR和RD控制FLASH控制的CE端,以保证DSP在进行其他总线操作时不会对该FLASH芯片的“闲/忙”信号线上,监视其股票那工作状态;
分别把两个地址线A8和A9连到FLASH芯片的两个锁存控制CLE和ALE上,以便控制总线的状态。
3.3.3DSP与数据FLASH存储器
TMS320C5410的Byte存储区就是一个8位宽的外部双向存储空间,可用于存储程序与数据。
整个Byte存储空间由256个16K*8的页面组成,Byte存储区只能通过BDMA进行访问。
在使用BDMA方式工作时用A0-A13作为低端地址,用D16-D18作为扩展的高端地址,联合使用实现4Mbyte的外部寻址能力。
D8-D15作为数据总线,BMS、RD、WR分别用于控制存储的片选以及读写操作信号。
四.结论
基于DSP的语音识别与合成技术的实验,是未来SPDA语音个人数字助理的前型。
它集成了语音识别、语音压缩编码、语音信号处理器DSP和大容量FLASH在存储的数据管理等技术、该系统所应用的技术可应用于语音八号电话+语音录音电话机、电话机伴侣、PDA、随身听、语音玩具、语音门户。
经过这次数字信号处理基于DSP的语音识别与合成系统的研究,我知道了利用DSP处理信号是很有优势的,处理方法多种多样,适合不同的信号,我了解了一般电子语音处理的方法,怎么样识别,并对识别到的语音信号合成,达到人机交流的目的,这样对研究机器人或是其他跟语音有关的东西,都可以采用DSP的处理方法,经过这次学习,我感到受益匪浅。
[1]王华奎编,《数字信号处理与运用》,高等教育出版社,2013.
[2]吴大正编,《信号与线性系统》,高等教育出版社,2012.
[3]王念旭等,《DSP基础与应用系统设计》,北京航空航天大学出版社.
[4易克初,《语音信号处理》,国防工业出版社.
[5]关华,《DigitalSpeechProcessing》,黄河出版社.
[6]宋知用,《MATLAB在语音信号分析与合成中的应用》,北京航空航天大学出版社;
第1版(2013年11月1日)
离散时间信号与系统
主要介绍了模拟信号数字处理方法,时域离散信号的表示方法和典型信号、线性时不变的因果性和稳定性、系统的输入输出描述法。
重点学习了离散时间福利叶变换和Z变换,在频域中的运用。
通过学习,自己明白了什么是奈奎斯特采样定理,明白了A/D转换和D/A转换,这是在数字信号处理中不可或缺的关键转换。
会根据不同的采样频率用傅里叶变换求采样后的频谱。
知道了各种序列,会用Matlab写程序画出序列图来,会根据程序调用函数,感觉很实用。
学了线性系统和时不变系统,因果关系,知道了级联、单位脉冲响应还有系统的差分方程。
学了霸气的Z变换,会求简单的收敛域,知道了Z变换的许多性质,Z变换注重零点与极点的分布,利用卷积积分使离散函数分析,求解过程变的简单而方便,最后终于知道了Z变换、傅里叶变换、拉普拉斯变换之间的关系,了解了离散时间LTI系统的线性差分方程,从而具有无限长的单位冲击响应(IIR)、(FIR)系统。
总之学了第一章,把之间学的知识都加强巩固了一遍,知道数字信号处理的各种数学模型。
第二章离散傅里叶变换(DFT)
主要讲了信号分析与处理的重要基础理论,傅里叶变换的性质及在频谱中的应用。
总的来说,这一章专业性有点强,学着理论有点吃力,初步了解了离散傅里叶的形式,明白什么是离散傅里叶级数(DFS)和DFS的性质、推导,学了DFT,知道了傅里叶级数到傅里叶变换间的关系,会计算有限长序列的DFT,明白了傅里叶变换与Z变换及DTFT间的关系,学会用圆周卷积,最后学了DFT进行频谱分析,应合理选择参数,以避免各类误差现象。
说实话,这个分析对于我来说是挺纠结的,不怎么会用。
第三章快速傅里叶变换
DFT在数字信号中处于非常重要的地位,这与DFT的快速傅里叶变换(FFT)是离不开的,主要讨论了常见的FFT算法及运用。
FFT是DFT的一种,更难懂,寻求DFT的快速算法、减小DFT的运算量非FFT不可,也知道了FFT在DFT中的地位,学了怎么用时间抽取FFT算法、频率抽取FFT算法、利用FFT程序求IFFT的方法。
学了怎么用Matlab计算信号的DFT和IFFT。
也了解了FFT的各种运用,都是以卷积和相关运算的具体计算,掌握FFT的计算原理。
第四章
第四章主要讲了数字滤波器的结构、流图、网络结构,了解了IIR与FIR的结构形式,主要是用Matlab来设计函数和基本结构把之前学的内容很好的运用起来,这样对之前学的内容更加深入了解,知道了理论结合实际的用途,这样对学习DSP信心十足了,终于知道电信专业是学什么内容了。
第六、七章IIR、FIR数字滤波器的设计
主要学了怎么利用脉冲响应不变法及双线性变换法设计IIR低通数字滤波器,高通、带通、阻通IIR数字滤波器的设计,知道了设计的思想、总体构架、转换关系及各种设计方法;
主要学了怎么分析线性相位FIR滤波器,介绍了用窗函数加权法和频率法设计FIR数字滤波器。
了解线性相位的条件、频率特性、零点分布、窗函数。
第八章硬件
了解了数字信号处理的实现方法与开发运用,用DSP设计实现的方法。
知道DSP芯片、芯片软硬结构、技术指标、设计过程、产品简介。