胡永达语音识别论文.docx

资源描述

胡永达语音识别论文.docx

《胡永达语音识别论文.docx》由会员分享，可在线阅读，更多相关《胡永达语音识别论文.docx（16页珍藏版）》请在冰豆网上搜索。

胡永达语音识别论文.docx

胡永达语音识别论文

第一章语音识别系统

1.1语音识别系统历史简介

早在计算机发明之前，自动语音识别的设想就已经被提上了议事日程，早期的声码器可被视作语音识别及合成的雏形。

而1920年代生产的"RadioRex"玩具狗可能是最早的语。

音识别器，当这只狗的名字被呼唤的时候，它能够从底座上弹出来。

最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统，它能够识别10个英文数字。

其识别方法是跟踪语音中的共振峰。

该系统得到了98%的正确率。

。

到1950年代末，伦敦学院（ColledgeofLondon）的Denes已经将语法概率加入语音识别中。

1960年代，人工神经网络被引入了语音识别。

这一时代的两大突破是线性预测编码LinearPredictiveCoding（LPC），及动态时间弯折DynamicTimeWarp技术。

语音识别技术的最重大突破是隐含马尔科夫模型HiddenMarkovModel的应用。

从Baum提出相关数学推理，经过Labiner等人的研究，卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。

。

此后严格来说语音识别技术并没有脱离HMM框架。

信号处理模块提供了对输入信号的预处理，也就是说，提供了从采集的语音信号（记为S）到特征序列O的映射。

声学模型本身定义了一些更具推广性的声学建模单元，并且提供了在给定输入特征下，估计P（O|uk）的方法。

为了将声学模型建模单元串映射到符号集，就需要发音词典发挥作用。

它实际上定义了映射的映射。

为了表示方便，也可以定义一个由到U的全集的笛卡尔积，而发音词典则是这个笛卡尔积的一个子集。

并且有：

最后，语言模型则提供了P（W）。

这样，基本公式就可以更加具体的写成：

对于解码器来所，就是要在由,,ui以及时间标度t张成的搜索空间中，找到上式所指明的W.语音识别是一门交叉学科，语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。

语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。

语音识别是一门交叉学科。

近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。

人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。

很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。

1.2自动语音识别的应用

自动语音识别（AutomaticSpeechRecognition简称“ASR“）技术的目标是让计算机能够“听写”出不同人所说出的连续语音，也就是俗称的“语音听写机”，是实现“声音”到“文字”转换的技术。

自动语音识别也称为语音识别（SpeechRecognition）或计算机语音识别（ComputerSpeechRecognition）。

语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学科。

它是语音信号处理学科的一个分支。

语音识别技术适用于家用电器和电子设备，如电视、计算机、汽车、音响、冷气等的声控遥控器，电话、手机或PDA上的声控人名拨号、数字录音机的声控语音检索标签、儿童玩具的声控等；也可用于个人、呼叫中心，以及电信级应用的信息查询与服务等领域。

1.3语音识别系统的结构

一个完整的基于统计的语音识别系统可大致分为二个部分：

（1）语音信号预处理与特征提取;　　

（2）声学模型与模式匹配;　　

1.3.1语音信号预处理与特征提取

选择识别单元是语音识别研究的第一步。

语音识别单元有单词（句）、音节和音素三种，具体选择哪一种，由具体的研究任务决定。

单词（句）单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。

音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。

因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的。

语音识别一个根本的问题是合理的选用特征。

特征参数提取的目的是对语音信号进行分析处理，去掉与语音识别无关的冗余信息，获得影响语音识别的重要信息，同时对语音信号进行压缩。

在实际应用中，语音信号的压缩率介于10-100之间。

线性预测（LP）分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。

但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测（PLP）分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。

实验证明，采用这种技术，语音识别系统的性能有一定提高。

从目前使用的情况来看，梅尔刻度式倒频谱参数已逐渐取代原本常用的线性预测编码导出的倒频谱参数，原因是它考虑了人类发声与接收声音的特性，具有更好的鲁棒性（Robustness）。

1．3．2声学模型与模式匹配

声学模型通常是将获取的语音特征使用训练算法进行训练后产生。

在识别时将输入的语音特征同声学模型（模式）进行匹配与比较，得到最佳的识别结果。

声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。

声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。

声学模型的设计和语言发音特点密切相关。

声学模型单元大小（字发音模型、半音节模型或音素模型）对语音训练数据量大小、系统识别率，以及灵活性有较大的影响。

必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。

1.4语音信号的提取方法

线性预测系数LPC

线性预测分析从人的发声机理入手，通过对声道的短管级联模型的研究，认为系统的传递函数符合全极点数字滤波器的形式，从而n时刻的信号可以用前若干时刻的信号的线性组合来估计。

通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS，即可得到线性预测系数LPC。

对LPC的计算方法有自相关法（德宾Durbin法）、协方差法、格型法等等。

计算上的快速有效保证了这一声学特征的广泛使用。

与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。

倒谱系数CEP

利用同态处理方法，对语音信号求离散傅立叶变换DFT后取对数，再求反变换iDFT就可得到倒谱系数。

对LPC倒谱（LPCCEP），在获得滤波器的线性预测系数后，可以用一个递推公式计算得出。

实验表明，使用倒谱可以提高特征参数的稳定性。

Mel倒谱系数MFCC和感知线性预测PLP

不同于LPC等通过对人的发声机理的研究而得到的声学特征，Mel倒谱系数MFCC和感知线性预测PLP是受人的听觉系统研究成果推动而导出的声学特征。

对人的听觉机理的研究发现，当两个频率相近的音调同时发出时，人只能听到一个音调。

临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界，当两个音调的频率差小于临界带宽时，人就会把两个音调听成一个，这称之为屏蔽效应。

Mel刻度是对这一临界带宽的度量方法之一。

MFCC的计算

首先用FFT将时域信号转化成频域，之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换DCT，取前N个系数。

PLP仍用德宾法去计算LPC参数，但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。

1.5语音识别技术的前景和应用

在电话与通信系统中，智能语音接口正在把电话机从一个单纯的服务工具变成为一个服务的“提供者”和生活“伙伴”；使用电话与通信网络，人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息；随着计算机的小型化，键盘已经成为移动平台的一个很大障碍，想象一下如果手机仅仅只有一个手表那么大，再用键盘进行拨号操作已经是不可能的。

语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。

语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

语音识别技术发展到今天，特别是中小词汇量非特定人语音识别系统识别精度已经大于98%，对特定人语音识别系统的识别精度就更高。

这些技术已经能够满足通常应用的要求。

由于大规模集成电路技术的发展，这些复杂的语音识别系统也已经完全可以制成专用芯片，大量生产。

在西方经济发达国家，大量的语音识别产品已经进入市场和服务领域。

一些用户交机、电话机、手机已经包含了语音识别拨号功能，还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。

人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息，并且取得很好的结果。

调查统计表明多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。

可以预测在近五到十年内，语音识别系统的应用将更加广泛。

各种各样的语音识别系统产品将出现在市场上。

人们也将调整自己的说话方式以适应各种各样的识别系统。

在短期内还不可能造出具有和人相比拟的语音识别系统，要建成这样一个系统仍然是人类面临的一个大的挑战，我们只能一步步朝着改进语音识别系统的方向一步步地前进。

至于什么时候可以建立一个像人一样完善的语音识别系统则是很难预测的。

第二章电子信息产业

2.1电子信息产业简介

电子信息产业是信息技术产业的权威管理部门--信息产业部在统计和分析时通常采用的词，电子信息产具体细分为投资类产品、消费类产品和元器件产品三个大类。

出于部门隶属渊源的原因，电子信息产有时人们分析时也用电子工业一词代替。

到2009年2月为止，电子信息产业成为中国国民经济重要的支柱产业。

电子信息产业是研制和生产电子设备及各种电子元件、器件、仪器、仪表的工业。

是军民结合型工业。

由广播电视设备、通信导航设备、雷达设备、电子计算机、电子元器件、电子仪器仪表和其他电子专用设备等生产行业组成。

电子信息产业是在电子科学技术发展和应用的基础上发展起来的。

电子信息产业的发展由于生产技术的提高和加工工艺的改进，集成电路差不多每三年就更新一代；大规模集成电路和计算机的大量生产和使用，光纤通信、数字化通信、卫星通信技术的兴起，使电子工业成为一个迅速崛起的高技术产业。

电子工业的发展及其产品的广泛应用，对军事领域产生了深刻的影响：

改进了作战指挥系统。

第一次世界大战以来,无线电通信成为军事通信的基本手段,被称作军队的“神经”系统。

利用电子技术，通过由通信、雷达、计算机等电子设备组成的指挥自动化系统,改变了传统的通信、侦察和情报处理手段,大大提高了军队指挥在现代战争条件下的效能。

改进了武器装备系统。

电子技术的发展和电子产品的应用，大大提高了现代武器的威力和命中精度；电子器件成了现代武器装备的重要组成部分，电子技术是导弹、军事卫星及其他高技术武器装备制导和控制的核心，无论是战略武器，还是战术武器，其性能高低都同电子技术有密切关系。

使电子战发展成为独立的作战手段。

电子侦察、电子干扰、电子摧毁等形式的电子对抗，电子信息产业在现代战争中越来越重要。

尤其在汽车语音控制系统中尤为重要。

2.2国内的电子信息的发展

中国的电子信息产业出现于20世纪二十年代。

1929年10月，中国民党政府军政部在南京建立“电信机械修造总厂”，主要生产军用无线电收发报机，以后又组建了“中央无线电器材有限公司”，“南京雷达研究所”等研究生产单位。

中华人民共和国建立后，政府十分重视电子工业的发展。

中国国家决定成立第四机械工业部，专属中国国防工业序列。

这标志着中国电子信息产业成了独立的工业部门。

1983年，第四机械工业部改称电子工业部。

中国的电子工业经过几十年的建设和发展，已经具有相当规模，形成了军民结合、专业门类比较齐全的新兴工业部门。

中国电子信息产业已具有门类齐全的军用电子元器件科研开发与配套能力，具有一定水平的系统工程科技攻关能力；基本能满足战略武器、航天技术、飞机与舰船、火炮控制和各种电子化指挥系统的需要；到2008年，电子信息产业所提供的产品都达到了较高技术水平，其中不少达到世界先进水平。

2.3发展方针

中国国内企业应抓住中国推动新一代移动通信系统、数字电视和互联网建设的时机，依托国内市场建立自主标准体系，推动企业加大对核心元器件和软件、信息安全系统的开发力度，争取在关键技术和重大标准方面实现突破。

中国应抓住技术进步和国际产业调整的新机遇，形成一批上千亿的产业集群。

电子信息产业单纯靠规模扩张已经难以为继，如：

中国国的彩电行业，再扩大规模难度已经很大，今后应该转向速度与效益并重，推动产业向创新型和效益型的转变。

第三章语音识别在电子信息产业中应用

3.1语音识别所涉及应用领域

应该依托中西部资源优势和信息化应用状况，以软件、新型元器件、电子材料等高技术、低污染行业为切入点。

同时利用周边国家资源，发展加工贸易，推动中国的国家出台扶持政策。

建立产业生态参数数据库，研究产业生态评估模型，开展重点产品生态参数课题研究。

人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息；随着计算机的小型化，键盘已经成为移动平台的一个很大障碍，想象一下如果手机仅仅只有一个手表那么大，再用键盘进行拨号操作已经是不可能的。

语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。

语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

语音识别所涉及应用领域，智能玩具，工业控制及医疗领域，家电遥控用语音可以控制汽车、VCD、空调、电扇、窗帘，工业控制及医疗领域，电话通信的语音拨号，汽车的语音控制。

3.2语音识别的在汽车控制方法

从20世纪50年代开始对语音识别的研究开始，经过几十年的发展已经达到一定的高度，有的已经从实验室走向市场，如一些玩具、某些部门密码语音输入等，随着DSP和专用集成电路技术的发展，快速傅立叶变换以及近来嵌入式操作系统的研究，使得特定人识别尤其是计算量小的特定人识别成为可能。

因此，对特定人语音识别技术在汽车控制上的应用的研究是很有前途的。

语音识别的方法

目前，常用的说话人识别方法有模板匹配法、统计建模法、联接主义法（即人工神经网络实现）。

考虑到数据量、实时性以及识别率的问题，笔者采用基于矢量量化和隐马尔可夫模型（HMM）相结合的方法。

　说话人识别的系统主要由语音特征矢量提取单元（前端处理）、训练单元、识别单元和后处理单元组成，其系统构成如　每个司机在购买车后必须将自己的语音输入系统，也就是训练过程，当然最好是在安静、次数达到一定的数目。

从此在以后驾驶过程中就可以利用这个系统了。

　所谓预处理是指对语音信号的特殊处理:

预加重，分帧处理。

预加重的目的是提升高频部分，使信号的频谱变得平坦，以便于进行频谱分析或声道参数分析。

用具有6dB/倍频程的提升高频特性的预加重数字滤波器实现。

虽然语音信号是非平稳时变的，但是可以认为是局部短时平稳。

故语音信号分析常分段或分帧来处理。

3.3语音识别技术在汽车上的理论

说话人识别系统设计的理论根本问题是如何从语音信号中提取表征人的基本特征。

即语音特征矢量的提取是整个说话人识别系统的基础，对说话人识别的错误拒绝率和错误接受率有着极其重要的影响。

同语音识别不同，说话人识别利用的是语音信号中的说话人信息，而不考虑语音中的字词意思，它强调说话人的个性。

因此，单一的语音特征矢量很难提高识别率。

该系统在说话人的识别中采用倒谱系数加基因周期参数,而在对控制命令的语音识别中仅采用倒谱系数。

其中，常用的倒谱系数有2种，即LPC（线性预测系数）和倒谱参数（LPCC）,一种是基于Mel刻度的MFLL（频率倒谱系数）参数（Mel频率谱系数）。

　对于LPCC参数的提取,可先采用Durbin递推算法、格型算法或者Schur递推算法来求LPC系数，然后求LPC参数。

设第l帧语音的LPC系数为αn,则LPCC的参数为

1＜n≤p

　进一步的研究发现，引入一阶和二阶差分倒谱可以提高识别率。

对于MPCC参数的提取，若根据Mel曲线将语音信号频谱分为K个频带，个频带的能量为θ（Mk），则MFCC参数为

1＜n≤p

通过对LPCC和MFCC参数对识别率影响的实验比较，笔者选取LPCC参数其一阶和二阶差分倒谱稀疏作为特征参数。

　基音周期估计的方法很多，主要有基于求短时自相关函数的算法、基于求短时平均幅度差函数（AMDF）的算法、基于同态信号处理和线性预测编码的算法。

笔者仅介绍基于求短时自相关函数的算法。

　设Sw（n）是一段加窗语音信号，它的非零区间为0＜n≤n-1。

Sw（n）的自相关函数称为语音信号的S（n）的短时自相关函数，用Rw（l）表示，即Rw（l）=

可知短时自相关函数在Rw（0）处最大，且在基音周期的各个整数倍点上有很大的峰值，选择合适的窗函数（窗长为40ms的Hamming窗）与滤波器（带宽为60~900Hz的带通滤波器）后，只要找到自相关函数的第一最大峰值点的位置并计算它与零点的距离，便能估计出基音周期。

　3．3．1训练单元

　训练单元的功能是把事先收集到的语音利用一定的算法为每一个待识别的说话人训练出与之相匹配的参数。

针对说话人识别在汽车应用中的不同的要求，训练单元也分为2部分:

对说话人识别的训练和对待识别词的训练。

对于说话人识别部分的训练，针对说话人的特征进行训练，为每个合法用户建立一套或多套HMM模型，同时采用基于矢量量化（VQ）的方法，为每个合法用户建立VQ码本。

VQ码本的设计采用LBG算法，初始码本的设置采用分裂法初始码本。

　第2部分针对控制命令中用到的每个孤立的词条建立多个训练样本，或称为词条样本，估计出该词条的HMM参数（一套或多套）。

对一个HMM过程的完整的描述包括:

2个模型参数N和M，3组概率度量A，B和π。

为了方便起见，通常采用如下方式表示一个完整的模型:

λ=（N,M,π,A,B），或者简写为:

λ=（π,A,B）。

而对于每一个词条V的模型参数，V=1~V，可以用Baum-Welch重估算法。

3．3．2识别单元

　识别单元的功能是利用经训练已经获得的HMM模型参数和测得的说话人的基音周期在一定的判决条件下辨认出待识别的说话人并估计出待识别的控制命令词串。

针对HMM模型参数通常采用的判决条件是最大后验概率，用Viterbi算法实现。

　由于汽车的控制命令是有限的词条和数字串的组合，对这些语音命令的识别属于特定人小词汇量的连接词的识别以及与文本有关的说话人确认，不论是从目前的DSP运算速度还是存储空间来说，实时实现这些语音命令的识别都是完全可能的。

　识别系统组在此系统中，对运算能力和存储单元要求非常高的语音识别部分完全由DSP完成。

识别系统的功能是完成语音的输入、A/D转换及识别，系统中核心部分采用TMS320VC5410。

其原因是它的运算速度和存储空间都能满足要求，同时它的一些并行运算硬件结构也非常适合语音识别的各种算法，程序和已经脱机训练好的HMM参数表及相应的词典存放在程序存储器中，数据存储器存放识别过程中的中间计算数据。

A/D芯片采用TLC320AD50C,里面含有A/D、D/A以及低通滤波器和采样保持电路。

模拟语音信号的输入主要是通过传声器，保证语音门禁的安全性，转换后的数字语音数据以同步串行通信方式传送给DSP.

3.4语音识别在汽车上控制的过程和现状

近年来，随着语音识别与确认技术的逐渐成熟，基于语音识别技术的对话控制系统受到了越来越多的关注。

现有的语音技术虽然在实验室环境中取得取得了较好的识别效果，但是一旦由于环境或者说话人的客观原因使得语音信号变差时，就会导致系统检出率急剧下降，从而使得语音控制系统的性能变差甚至不能正常工作。

针对语音识别汽车控制的问题，开发了一套语音识别汽车控制的系统。

本系统的用户主要是汽车控制中心的用户，尤其是发音不够清晰准确，仅仅用传统的语音识别器很难满足控制系统实际应用的需要。

因此，提出了综合利用孤立词识别器、连接词识别以及连续语音识别器构建一个基于多识别引擎的识别器的方法，使得关键词被正确检出的可能性大大增加，在允许用户自由使用孤立或者连续语音交流的同时，还最大限度地利用不同识别引擎的优点，改善了语音控制系统的性能。

另外，还分析了语音控制系统中确认、模型自适应以及对话控制策略等关键技术，并且给出了相应的解决方案，从而给电语音控制系统的完整结构，在语音识别汽车控制、电视等设备的实际控制中取得了良好的效果。

语音识别汽车控制系统包括软件设计和硬件设计两部分。

本文主要讨论软件设计部分，其中包括：

语音识别模块、语音确认模块、对话控制及硬件指令传输模块以及模型自适应模块。

整个系统的流程是：

首先，用户的语音被送入语音识别模块进行Viterbi解码识别，得到相应的候选关键词；然后，将候选关键词送入语音确认模块进行确认，从中检出可能的关键词，并给出相应的确认分值；再后，根据检出的关键词及其对应的确认分值产生相应的对话或者控制命令对硬件进行控制，同时利用已经确认的语音对识别中的语音模型进行更新。

。

3.5语音识别在汽车中的具体应用：

车载电子的发展从传统的收音机功能开始,然后沿着CD、VCD/DVD/移动TV、GPS车载电话,并开拓出范围越来越广、越来越智能化和人性化的车载应用.使司机不会因为要看这些信息而分散注意力,从而提高驾驶的安全性.语音技术在车载设备中具有广泛的应用.随着网络时代的到来和办公自动化的日益普及,越来越多的信息正以文字的形式存在,但受车载环境的限制,用眼睛来阅读文字信息无论对司机和乘客都存在极大不便,此时利用语音合成技术改造传统汽车音响,就可让汽车音响不仅能听广播和音乐,还能够听用户自主选择的各种文字信息.

语音车载电话

车载电话可为司机在开车期间提供便捷的沟通方式。

从安全的角度考虑，在行车途中看信息是非常不方便的，比如看来电号码、时间、短信息等。

采用PSOLA算法语音合成技术，可以实现车载电话信息变看为听，大大加强了信息获取的途径，较低了驾驶的危险，给手机增加更多人性化功能。

系统实现如图1所示。

语音车载电话在原有车载电话的基础上增加PSOLA算法语

（图1）

音合成芯片，实现信息内容的播放。

车载电话通过GSM/CDMA网络获取各类型信息，比如来电信息、短消息等；手机控制模块将需要合成的各类型信息如来电信息、短消息、通讯录信息、记事本信息等内容转换成标准的文本信息并发送给PSOLA算法语音合成芯片；PSOLA算法语音合成芯片再将文本信息转换为语音通过车内音响系统播放给用户听。

要在车载电话上实现语音合成功能，可以选择PSOLA算法语音芯片或者语音模块。

车载电话本身尺寸较小，功耗也不大，选择语音芯片比较合适，虽然语音芯片在任意文本合成上的效果比语音模块差，但完全可以达到实用要求。

语音合成芯片，实现信息内容的播放。

要在车载电话上实现语音合成功能，可以选择PSOLA算法

展开阅读全文