语音识别技术概述.pdf

资源描述

语音识别技术概述.pdf

《语音识别技术概述.pdf》由会员分享，可在线阅读，更多相关《语音识别技术概述.pdf（2页珍藏版）》请在冰豆网上搜索。

语音识别技术概述.pdf

福建电脑福建电脑2006年第8期语音识别技术概述杨尚国1,杨金龙2（1.曲阜师范大学物理工程学院山东曲阜2731652.青岛大学软件技术学院山东青岛266061）【摘要】:

本文阐述语音识别的发展过程、基本方法以及语音识别系统的分类,分析了语音识别所面临的问题。

【关键词】:

语音识别;隐马尔可夫模型（HMM）;系统分类1.引言语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。

语音识别还可以应用在工业控制方面,在一些工作环境恶劣、对人身有伤害的地方（如地下、深水及辐射、高温等）或手工难以操作的地方,均可通过语音发出相应的控制命令,让设备完成各种工作。

2.语音识别的发展历史语音识别技术的研究是从50年代开始的。

1952年,当时的AT&Tbell实验室的Davis等人研制成功了世界上第一个能识别十个英文数字发音的实验系统:

Audry系统。

60年代计算机的应用推动了语音识别的发展。

这时期的重要成果是提出了动态规划（DP）和线性预测分析技术（LP）,其中后者较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。

70年代,语音识别领域取得了突破。

在理论上,LP技术得到了进一步发展,动态时间归正技术（DTW）基本成熟,特别是提出了矢量量化（vQ）,隐马尔可夫模型（HMM）理论。

在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。

80年代语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络（ANN）在语音识别中的成功应用。

进入90年代后,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。

许多发达国家如美国、日本、韩国以及IBM,Apple,AT&T,NTT等著名公司都为语音识别系统的实用化开发研究投以巨资。

当前,美国在非特定人大词汇表连续语音隐马尔可夫模型识别方面起主导作用,而日本则在大词汇表的连续语音神经网络识别,模拟人工智能进行语音后处理方面处于主导地位。

我国对语音识别的研究开始于80年代。

近年来发展迅速,并取得了一系列的成果。

如清华大学计算机系研制的语音识别系统以1183个单音节作为识别基元,采用分段概率模型,对词的组成音节进行分解,在字一级上先做分体识别,再用搜索匹配算法计算词一级的整体识别率,使三字词和四字词的识别率达98%。

中科院自动化所模式识别实验室将汉语音节切分成声母、韵母,并辅之以四声,然后加以识别,其声、韵母识别采用连续密度的HMM,四声识别采用多层感知器的神经网络模型。

整个系统识别率为89.5%,声调识别率为99.5%,词的识别率为95%。

另外,中国科学院声学所、北方交通大学、北京大学、哈尔滨工业大学、中国科技大学、北京邮电大学、国防科技大学等单位结合汉语语音学和语言学的特点,在汉语语音识别系统的基础理论、数学模型和算法、实用系统开发等方面做了大量的工作,并取得了一系列的成果。

目前,国内在该领域的研究主要受到国家863资助,所研究的系统大部分是大词汇量孤立词识别系统。

最近一两年才在中科院的自动化所、声学所,及清华大学电子工程系等机构才有连续语音识别系统的发展。

台湾的一些学术机构在汉语语音识别方面也做了大量的研究及实用化的工作。

3.语音识别技术基础3.1语音识别系统的分类语音识别系统可以根据对输入语音的限制加以分类。

如果从说话者与识别系统的相关性考虑,可以将识别系统分为3类:

（1）特定人语音识别系统;

（2）非特定人语音系统;（3）多人的识别系统:

或者成为特定组语音识别系统。

3.1如果从说话的方式考虑,也可以将识别系统分为3类:

（1）孤立词语音识别系统;

（2）连接词语音识别系统;（3）连续语音识别系统。

如果从识别系统的词汇量大小考虑,也可以将识别系统分为3类:

（1）小词汇量语音识别系统。

通常包括几十个词的语音识别系统。

（2）中等词汇量的语音识别系统。

通常包括几百个词到上千个词的识别系统。

（3）大词汇量语音识别系统。

通常包括几千到几万个词的语音识别系统。

这些不同的限制也确定了语音识别系统的困难度。

3.2语音识别的几种基本方法一般来说,语音识别的方法有三种:

基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。

（1）基于语音学和声学的方法。

该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段。

（2）模板匹配的方法。

模板匹配的方法发展比较成熟,目前已达到了实用阶段。

在模板匹配方法中,要经过四个步骤:

特征提取、模板训练、模板分类、判决。

常用的技术有三种:

动态时间规整（DTW）、隐马尔可夫模型（HMM）理论、矢量量化（VQ）技术。

（3）神经网络的方法。

利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。

人工神经网络（ANN）本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强的分类能力和输入-输出映射能力在语音识别中都很有吸引力。

但由于存在训练、识别时间太长的缺点,目前仍处于实验探索阶段。

由于ANN不能很好的描述语音信号的时间动态特性,所以常把ANN与传统识别方法结合,分别利用各自优点来进行语音识别。

3.3语音识别系统的结构一个完整的基于统计的语音识别系统可大致分为三部分:

（1）语音信号预处理与特征提取;

（2）声学模型与模式匹配;（3）语言模型与语言处理.。

4.语音识别所面临的问题

（1）就算法模型方面而言,需要有进一步的突破。

尤其在中文语音识别方面,语言模型还有待完善,因为语言模型和声学模型正是听写识别的基础。

目前使用的语言模型只是一种概率模型,还没有用到以语言学为基础的文法模型,而要使计算机确实理解人类的语言,就必须在这一点上取得进展,这是一个相当艰苦的工作。

此外,随着硬件资源的不断发展,一些核心算法如特征提取、搜索算法或者自适应算法将有可能进一步改进。

（2）就自适应方面而言,语音识别技术也有待进一步改进。

做到不受特定人、口音或者方言的影响,这实际（下转第34页）50福建电脑福建电脑2006年第8期!

（上接第50页）上也意味着对语言模型的进一步改进。

（3）就顽健性方面而言,语音识别技术需要能排除各种环境因素的影响。

目前,对语音识别效果影响最大的就是环境杂音或噪音,在公共场合,你几乎不可能指望计算机能听懂你的话,很显然这极大地限制了语音技术的应用范围。

目前,要在嘈杂环境中使用语音识别技术必须有特殊的抗嗓（NoiseCancellation）麦克风才能进行,这对多数用户来说是不现实的。

在公共场合中,个人能有意识地摒弃环境嗓音并从中获取自己所需要的特定声音,如何让语音识别技术也能达成这一点呢?

这的确是一个艰巨的任务。

此外,带宽问题也可能影响语音的有效传送,在速率低于1000比特/秒的极低比特率下,语音编码的研究将大大有别于正常情况,比如要在某些带宽特别窄的信道上传输语音,以及水声通信、地下通信、战略及保密话音通信等,要在这些情况下实现有效的语音识别,就必须处理声音信号的特殊特征,如因为带宽而延迟或减损等。

语音识别技术要进一步应用,就必须在强健性方面有大的突破。

（4）多语言混合识别以及无限词汇识别方面:

简单地说,目前使用的声学模型和语音模型太过于局限,以至用户只能使用特定语音进行特定词汇的识别。

如果突然从中文转为英文,或者法文、俄文,计算机就会不知如何反应,而给出一堆不知所云的句子;或者用户偶尔使用了某个专门领域的专业术语,如信噪比等,可能也会得到奇怪的反应。

这一方面是由于模型的局限,另一方面也受限于硬件资源。

随着两方面的技术的进步,将来的语音和声学模型可能会做到将多种语言混合纳入,用户因此就可以不必在语种之间来回切换。

此外,对于声学模型的进一步改进,以及以语义学为基础的语言模型的改进,也能帮助用户尽可能少或不受词汇的影响,从而可实行无限词汇识别。

（5）多语种交流系统的应用:

如果语音识别技术在上述几个方面确实取得了突破性进展,那么多语种交流系统的出现就是顺理成章的事情,这将是语音识技术、机器翻译技术以及语音合成技术的完美结合。

5.展望可以预测在近五到十年内,语音识别系统的应用将更加广泛。

各种各样的语音识别系统产品将出现在市场上。

人们也将调整自己的说话方式以适应各种各样的识别系统。

在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍然是人类面临的一个大的挑战,我们只能一步步朝着改进语音识别系统的方向一步步地前进。

至于什么时候可以建立一个像人一样完善的语音识别系统则是很难预测的。

就像在60年代,谁又能预测今天超大规模集成电路技术会对我们的社会产生这么大的影响。

参考文献:

1.蔡莲红,黄德智,蔡锐编.现代语音技术基础与应用M.北京:

清华大学出版社,2003.2.徐波.语音技术开发与应用N.中国计算机报,1999-05-10.3.易克初,田斌,付强.语音信号处理M.北京:

国防工业出版社,2003.4.赵力.语音信号处理M.北京:

机械工业出版社,2003.快会成为一种可供选择的业务,而以传输数据业务为主的通信业务会逐渐占据主导地位,必须精心设计所有系统的参数以实现有效的传输离散数据,同时为各类数据业务提供QoS保证。

3.2物理层现有的接入技术,如无线蜂窝和无线局域网必须为离散数据业务进行优化而不是只面向传统的语音业务。

先进的智能天线技术、信源编码、信道编码在提高数据传输速率、带宽利用率和信道容量方面都是必要的技术。

现有的有线或无线网络接入技术的充分结合,对于在未来网络实现端到端的可靠数据传输非常重要,处于同代和不同代的无线网络在横向和纵向上将协同工作,以实现各自服务功能的相互补充。

在热点地区业务处理和室内宽带业务方面,无线局域网（如LAN）和固定网络（如ADSL）将协助无线蜂窝系统在提供完备服务方面达到相应的目标。

同时,在地面网络无法覆盖的情况下,卫星网络能够利用直接广播或用户至卫星的直接通信提供各种异种网络与个人移动用户之间的互联。

3.3网络管理层不同接入技术的互联,由一些核心网络元素提供,如互联功能服务器。

这样的互联需要在网络层次上处理,因此在应用层和接入层之间需要设置一个提供应用服务的网络管理层,该层次在未来移动因特网实现中占有重要地位。

网络管理所承担的任务功能很多,主要负责管理任务以及应用层和物理层的协调功能。

网络管理最重要的功能是流量管理、移动性管理、安全管理以及QoS管理。

3.3.1移动性管理移动性管理是成功实现无缝移动业务的关键,其处理过程大致可分为三个步骤,即本地管理、路由管理和切换管理。

从总体来看,需要关注的是查找移动节点位置信息,经最佳路由将数据包传送到目的地。

用户的无缝连接移动性已成为基本要求,为确保各种不同的无线技术平滑转换,有必要考虑诸多因素,最终建立移动性管理机制,调整移动用户在不同系统间漫游时所需的业务特性匹配。

3.3.2流量管理流量管理是在网络中用于控制流量的一系列规程和技术,以获取较高的网络利用率、避免网络拥塞和提供可接受的服务质量。

在核心网络的数据业务流量急速增长的情况下,所要面对的问题是:

应用现有的IP技术中的路由算法是否能应对如此巨大的增长。

在未来网络中,随着新的流量管理技术的出现（如排队管理、接纳控制、分布式多队列系统）,及其在IP路由器中的应用,有可能加快路由器的数据包处理速度,同时降低网络延时。

3.3.3服务质量管理（QoS）QoS是各层向高一层提供的适合的服务的性能水平。

性能是指诸如带宽、时延、时延变化和错误率等网络参数。

在每个环境中,QoS可以通过环境所支持的应用来规定。

在主要提供实时语音通信的无线蜂窝网

展开阅读全文