语音识别概述.docx

资源描述

语音识别概述.docx

《语音识别概述.docx》由会员分享，可在线阅读，更多相关《语音识别概述.docx（18页珍藏版）》请在冰豆网上搜索。

语音识别概述.docx

语音识别概述

第一章语音识别概述

引言

随着科技的不断发展进步，各种终端设备的智能化和集成化程度越来越高，终端设备的体积越来越小，而集成的功能却越来越丰富，越来越贴近人们的需求。

但是终端设备的发展也同时面临着一些问题。

随着各种设备存储和接收信息的海量增加，以及设备功能的增加，传统的信息检索和菜单操作方式已经越来越无法满足要求，迫切需要有一种更加便捷的信息检索和命令操作方式来替代传统的按键操作。

我们知道传统的信息检索是通过按键输入我们要检索的内容，然后由设备检索出需要的内容，这还是比较先进的方式，更有甚者，需要以手动逐条浏览的方式检索，如我们知道我们每次通过手机来查找联系人时都要花好长的时间翻通讯录。

而在功能方面，当我们想使用手机的一些功能时，必须通过层层菜单，经过一步步的按键选择查找我们需要的命令，达到目的。

这些操作都非常耗时，并且很复杂。

在一些特殊的环境下，使用存在安全隐患。

典型的，我们都知道在驾车环境下，驾驶员必须集中精力于前方道路和驾驶，此时，如果用眼睛来看汽车仪表盘上的各种屏幕，就会存在危险，尤其是导航设备，如果驾驶员一边驾车，一边盯着导航设备的屏幕，就会威胁到驾驶员和行人的生命安全。

另外，在一些复杂的作业环境下，当使用仪表时，如果专注于仪表读数，就可能给操作者带来危险。

此外，终端设备的体积越来越小，造成屏幕小，显示文字较小，并且文字数量有限，从而给阅读信息带来了问题，例如手机用户，我们必须把手机拿的离眼睛很近才能看清短信的内容，特别是在行动的情况下，我们都知道，当我们看手机短信时，如果在路上，一般都要停下来才能看清短信内容。

就算在行走的状态下能够看清楚，对我们的眼睛也不好，如果处在交通繁忙的街道，还可能会威胁到我们的安全，如何在信息时代终端设备获取和存储的信息越来越丰富的情况下，让我们从设备获取信息的方式越来越简单并且没有其他隐患，成为目前各种终端设备面临的问题。

所有这些问题，都需要有一种更为便捷的方式来处理。

而语音技术的应用，则给人们带来了福音，它让这些问题都可以迎刃而解。

语音技术，包含两个方面：

语音合成和语音识别。

语音合成即TexttoSpeech（TTS），就是将文本状态的信息转换成语音的形式输出。

就像给设备安装上了嘴巴，你想让设备说什么，设备就可以说什么，解决了设备上的信息只能看不能听得问题。

语音识别即AutomaticSpeechRecognition（ASR），就是使得设备可以听懂用户的话，识别又分为篇章级识别和命令词识别，目前在嵌入式领域发展比较成熟的只有命令词的识别。

语音识别就像给设备安装了耳朵，让设备可以听懂我们的命令，并且执行相应的命令，解决了人们在操作各种终端设备时只能使用手动按键方式的问题。

根据信息产业部的数据，截止2005年3月份，我国移动电话用户总量已经超过4亿，手机这个产业蕴含着巨大的商机，且仍然在不断发展中，语音技术在手机上的应用有着巨大的潜力，虽然目前语音技术在手机行业的应用还不够成熟，但是随着手机向智能化和娱乐化方向的不断发展，相信语音技术在手机行业的大规模应用指日可待。

在车载行业，需要运用到语音技术的设备越来越多，并且随着汽车工业的迅速发展，语音技术在车载环境下应用的需求越来越突出。

车载语音导航已经是车载导航产业的必然方向，其他如调度，监控等等都存在着对语音技术的需求，随着汽车电子的发展，相信可以播报各种警示信息、故障信息及各种数据的各种仪表会出现在将来某一天。

另外，在税控机，排队机，电子词典等等行业，也已经表现出越来越多的需求。

语音技术作为各种设备智能化发展的重要方面，已经在向人们生活的方方面面渗透，可能还有很多对语音技术存在巨大需求的行业没有被我们发现。

据预测，随着语音技术这个产业的发展和成熟，以及在各个方面的应用，将会有千亿多的巨大市场空间等待我们去开发。

一、什么是语音识别？

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术，也就是让机器听懂人类的语音。

也就是说，如果电脑配置有“语音辨识”的程序组，那么当你的声音通过一个转换装置输入电脑内部、并以数位方式储存后，语音辨识程序便开始以你输入的声音样本与事先储存好的声音样本进行对比工作。

声音对比工作完成之后，电脑就会输入一个它认为最“象”的声音样本序号，就可以知道你刚才念的声音是什么意义，进而执行此命令。

说起来简单，但要真正建立辨识率高的语音辨识程序组，却是非常困难而专业的，世界各地的学者们也还在努力研究最好的方式。

专家学者们研究出许多破解这个问题的方法，如傅立叶转换、倒频谱参数等，使目前的语音辨识系统已达到一个可接受的程度，并且辨识度愈来愈高。

计算机语音识别过程与人对语音识别处理过程基本上是一致的。

目前主流的语音识别技术是基于统计模式识别的基本理论。

一个完整的语音识别系统可大致分为三部分：

（1）语音特征提取：

目的是从语音波形中提取随时间变化的语音特征序列。

（2）声学模型与模式匹配（识别算法）：

声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。

声学模型通常由获取的语音特征通过训练产生，目的是为每个发音建立发音模板。

在识别时将未知的语音特征同声学模型（模式）进行匹配与比较，计算未知语音的特征矢量序列和每个发音模板之间的距离。

声学模型的设计和语言发音特点密切相关。

声学模型单元大小（字发音模型、半音节模型或音素模型）对语音训练数据量大小、系统识别率，以及灵活性有较大影响。

（3）语义理解：

计算机对识别结果进行语法、语义分析。

明白语言的意义以便做出相应的反应。

通常是通过语言模型来实现。

所谓“语音识别”,就是利用电子计算机等机械装置来识别人讲话的意义和内容。

20世纪50代,就有人提出“口授打印机”的设恕。

可以说,这是有关语音识别技术最早构想。

语音识别技术经历了语音识别、语音合成以及自然语音合成3个阶段。

从原理上讲,似乎让计算机识别人的语言并不难,其实困难还是不少的。

例如,不同的人读同一个词所发出的音在声学特征上却不完全相同;即便是同一个人,右不同情况下对同一个字的发音也不相同。

加上人们讲话时常有不合语法规律的情况,有时还夹杂些俗语,或省略一些词语,而且语速变化不定。

所有这些,在我们听别人讲话时似乎都不成为问题,但让机器理解则很是困难。

近年来,由于计算机功能的日益强大,存储技术、语音算法技术和信号处理技术的长足进步,以及软件编程水平的提高,语音识别技术已经取得突破性的进展,使它的广泛应用成为可能。

语音识别技术的应用主要有以下两个方面。

一是用于人机交流。

目前这方面应用的呼声很高,因为使用键盘、鼠标与电子计算机进行交流的这种方式,使许多非专业人员,特别是不懂英语或不熟悉汉语拼音的人被拒之于门外,影响到电子计算机的进一步普及。

语音识别技术的采用,改变了人与计算机的互动模式,人们只需动动口,就能打开或关闭程序,改变工作界面。

这种使电脑人性化的结果是使人的双手得到解放,使每个人都能操作和应用计算机。

电话仍是目前使用最为普遍的通信工具,通过电话与语音识别系统的协同工作,可以实现语音拨号、电话购物以及通过电话办理银行业务、炒股、上网检索信息或处理电子件等。

不久,能按主人口令接通电话、打开收音机,以及通过声纹识别来者身份的安全系统也将获得应用。

语音识别技术的另一方面应用便是语音输入和合成语音输出。

现在,已经出现能将口述的文稿输入计算机并按指定格式编排的语音软件,它比通过键盘输入在速度上要提高2～4倍。

装有语音软件的电脑还能通过语音合成把计算机里的文件用各种语言“读”出来,这将大大推进远程通信和网络电话的发展。

在现阶段,语音技术主要用于电子商务、客户服务和教育培训等领域,它对于节省人力、时间,提高工作效率将起到明显的作用。

能实现自动翻译的语音识别系统目前也正在研究、完善之中。

首先介绍一下语音识别系统的分类方式及依据。

●根据对说话人说话方式的要求，可以分为孤立字（词）语音识别系统，连接字语音识别系统以及连续语音识别系统。

●根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。

●根据词汇量大小，可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统的实现过程如图1所示。

图1语音识别的实现

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

此外，还涉及到语音识别单元的选取。

（1）语音识别单元的选取

选择识别单元是语音识别研究的第一步。

语音识别单元有单词（句）、音节和音素三种，具体选择哪一种，由具体的研究任务决定。

单词（白）单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。

音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。

因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系统也在越来越多地采用。

原因在于汉语音节仅由声母（包括零声母有22个）和韵母（共有28个）构成，且声韵母声学特性相差很大。

实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。

由于协同发音的影响，音素单元不稳定，所以如何获得稳定的音素单元，还有待研究。

（2）特征参数提取技术

语音信号中含有丰富的信息，但如何从中提取出对语音识别有用的信息呢？

特征提取就是完成这项工作，它对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。

对于非特定人语音识别来讲，希望特征参数尽—可能多的反映语义信息，尽量减少说话人的个人信息（对特定人语音识别来讲，则相反）。

从信息论角度讲，这是信息压缩的过程。

线性预测（LP）分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。

但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测（PLP）分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。

实验证明，采用这种技术，语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取，但目前性能难以与上述技术相比，有待进一步研究。

（3）模式匹配及模型训练技术

模型训练是指按照一定的准则，从大量已知模式中获取表征该模式本质特征的模型参数，而模式匹配则是根据一定准则，使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术（DTW）、隐马尔可夫模型（HMM）和人工神经元网络（ANN）。

DTW是较早的一种模式匹配和模型训练技术，它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良好性能。

但因其不适合连续语音大词汇量语音识别系统，目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。

它由相互关联的两个随机过程共同描述信号的统计特性，其中一个是隐蔽的（不可观测的）具有有限状态的Markor链，另一个是与Markor链的每一状态相关联的观察矢量的随机过程（可观测的）。

隐蔽Markor链的特征要靠可观测到的信号特征揭示。

这样，语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述，而信号随时间的变化由隐蔽Markor链的转移概率描述。

模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。

按照随机函数的特点，HMM模型可分为离散隐马尔可夫模型（采用离散概率密度函数，简称DHMM）和连续隐马尔可夫模型（采用连续概率密度函数，简称CHMM）以及半连续隐马尔可夫模型（SCHMM，集DHMM和CHMM特点）。

一般来讲，在训练数据足够的，CHMM优于DHMM和SCHMM。

HMM模型的训练和识别都已研究出有效的算法，并不断被完善，以增强HMM模型的鲁棒性。

人工神经元网络在语音识别中的应用是现在研究的又一热点。

ANN本质上是一个自适应非线性动力学系统，模拟了人类神经元活动的原理，具有自学、联想、对比、推理和概括能力。

这些能力是HMM模型不具备的，但ANN又不个有HMM模型的动态时间归正性能。

因此，现在已有人研究如何把二者的优点有机结合起来，从而提高整个模型的鲁棒性。

语音识别是一门交叉学科。

近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。

人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

二、语音识别发展简史

语音识别研究从二十世纪50年代开始到现在已经历半个多世纪的蓬勃发展，在这期间获得了巨大的进展。

这里仅仅按照一些重要方法的出现和发展为线索进行简要回顾。

50年代，研究人员大都致力于探索声学—语音学的基本概念。

1952年AT&TBell实验室实现了一个单一发音人孤立发音的十个英文数字的语音识别系统，方法主要是度量每个数字的元音音段的共振峰。

1956年，RCALab开展的一项独立研究也是试图识别单一发音人的10不同的音节，同样采用了度量共振峰的方法。

1959年，英国UniversityCollege的研究人员尝试用谱分析和模板匹配方法构建了一种音素识别器，用以识别4个元音和9个辅音。

而MIT林肯实验室的研究人员则是构建一种非特定人的元音识别器，用于识别嵌在/b/-vowel+/t/语境中的10个元音。

60年代，相继出现并发表了语音识别的几个重要的思想。

但是，伴随着这个年代的开始却是几个日本的实验室进入语音识别领域，并构建一些专用的硬件用于语音识别系统。

东京RadioResearchLab首先构建了一个用硬件实现的元音识别器。

语音信号经过精心制作的带通滤波器进行谱分析和通道输出谱加权处理后，用多数逻辑决策电路选择输入语音中元音的识别结果。

1962年，东京大学进行了另一个音素识别器的硬件实现的尝试。

它使用过零率方法分离语音信号的不同部分，并进行识别。

1963年，日本NECLab对数字进行语音识别的尝试可以算得上最值得注意的工作，因为它不仅是NEC研究语音识别的开端，还导致一个长期的和卓有成效的研究计划。

在60年代中，三个研究项目的开展对其后20多年的语音识别研究和开发产生了重大影响。

第一个研究项目在RCALab开始于60年代后期，目的是研究语音事件在时间刻度上不均匀性的现实解决办法。

在能够可靠检测出语音事件的始末点的基础上，发展了一套时间归正的基本方法，显著降低了识别匹配评分的变化程度。

几乎与此同时，前苏维埃的研究人员Vintsyuk提出使用动态规划来对齐两个不同长度的语音音段。

尽管动态时间弯折（DTW）概念的实质和用于连接词识别的算法雏形已经包含在Vintsyuk的工作中，但直到80年代才在西方广为人知，并发扬光大。

60年代的最后一项成就是研究人员Reddy用动态跟踪音素的方法进行连续语音识别的开创性工作。

Reddy的这项工作最终在CMU（他在60年后期加入CMU）培育出长期进行的并获极大成功的语音识别研究计划，在连续语音识别系统的研究方面至今仍然保持世界领先的水平。

70年代，语音识别研究取得了一系列具有里程碑意义的成就。

首先，在模式识别思想、动态规划方法、线性预测思想等基础研究的成功应用的支撑下，孤立词发音和孤立语句发音的识别成为了可行的有用技术。

70年代的另一个里程碑是在IBM开始了一个长期持续的、卓有成效的大词汇量连续语音识别研究的集体努力。

他们在20多年中研究了三项不同的工作，其中之一就是简单备忘录的听写系统Tangorn。

在这期间，AT&TBellLab开展了一系列目的在于建立真正的非特定人语音识别系统的实验。

研究提出了范围广泛的一类复杂的聚类算法，用于确定能够表示大量人群的不同词语的所有声学变化的不同模式的数量。

这些研究经过10多年的精炼后，成为构建非特定人的模式聚类技术，现在已经得到充分理解并广泛应用。

继孤立词语识别成为70年代研究的主要焦点之后，连接词语识别的问题则是80年代研究的焦点。

其目标是创建基于用由单个词的模式串接在一起进行匹配，并能识别由词汇串接组成的流畅话语的可靠系统。

形式化并实现了大量连接词语音识别的算法，例如两层动态规划方法，一遍法，层建法，帧同步层建法。

这些“优化”匹配处理的每一种方法都有它自己的实现优点，并对相当多的任务进行过探索研究。

语音识别研究在80年代的最大特点是从基于模板的方法向统计模型方法的转变，特别是转向研究隐马尔柯夫模型HMM的理论、方法和实现问题。

虽然个别实验室（主要是IBM,InstituteforDefenseAnalysis,DragonSystems）对HMM的方法论早已非常熟知和充分理解，但直到80年代中期在HMM的理论和方法广泛发表以后，才使原本艰涩的HMM纯数学模型工程化，从而为更多研究者了解和认识，并被世界上几乎每一个从事语音识别的实验室所采用。

贯穿整个80年代，大词汇量连续语音识别系统研究受到了DARPA的有力推动。

DARPA发起有关语音识别的巨大研究计划的目的是，对于1000条词汇的数据库管理任务的连续语音达到高的词汇识别精度。

这方面的主要研究贡献产生于CMU,BBN,LincolnLabs,SRI, MIT,AT&TBellLab.

90年代，语音识别研究的重点转向自然语言的识别处理，任务转移到航空旅行信息的索取。

同时，语音识别技术不断应用于电话网络，增强话务员服务和自动化。

2000年以来，人机语音交互成为研究的焦点。

研究重点包括即兴口语的识别和理解，自然口语对话，以及多语种的语音同声翻译。

中国的语音识别研究工作最早开始于中科院声学所。

50年代后期，中科院声学所用频谱分析的方法研究了汉语10个元音的语音识别，到70年代后期，构建了基于模板匹配的孤立词语音识别系统。

在80年代后期，主持研究了八五期间中科院人机语音对话研究项目。

在此期间国内大专院校和研究所相继开始了语音识别研究。

声学所、自动化所、北大、清华等研究机构在中国的语音识别研究的方向和内容等方面起了积极的催化和引导作用。

继“863”计划期间，汉语大词汇量语音识别—听写机技术成为研究的重点之后，汉语自然口语对话和语音翻译在“973”计划期间成为新的研究焦点

三、语音识别系统的特点

如果要在所提出的任务中使用语音识别系统，下面几个要求是最基本的：

（1）语音识别系统要对用户有益（希望它是能检测到的）

例如提高生产率，容易使用，更好的人机界面，或更自然的信息交流模式。

现已提出了语音识别在很多方面的应用（但一般不成功），多数是利用语音识别的新奇特性来引起用户注意，从而达到增加商业上的销售额的目的。

但是，如果对用户没有实在的益处的话，语音识别的这些应用是不会持续长久的。

（2）语音识别系统要对用户“友好”。

这种“友好”的含义是：

用户在和系统进行语音对话时感到舒适；系统的语音提示既有帮助，又很亲近；当识别系统没有恰当地理解人说出的指令时，系统还得提供一种有效地与人交流的方式，例如某种回退模式。

对用户“友好”这个概念是我们坚持人机对话技术的精髓。

（3）语音识别系统必须有足够的精度

识别系统必须（或至少）达到某种特定的性能要求。

有趣的是，由于人在实际生活中对识别系统错误率的感知能力似乎是非线性的，因此只要识别系统的精度超过一定水准，绝对的系统识别能力便显得不太重要了。

例如，人们在实际使用一个孤立词识别系统时，很难区分系统的识别精度是95％，还是99％。

这是因为，如果识别系统的精度是95％，那么系统识别语音时，平均20次有一次错误；如果识别系统的精度是99％，平均每100次发生一次错误。

从用户使用的角度来看，这两种系统都有很高精度，都很少有错误。

因此即使偶尔有错误发生，用户也会将其归咎于自己的使用失误，而不会认为是识别系统的问题。

但是，当系统的精度低于某一个更低的阈值（例如90％）时，用户就会感觉到识别系统出现了过多的错误，并会认为它不太可靠。

实际中，单词错误的发生是不相干的，因此在较高精度下，人觉察到系统出现错误是极少的。

（4）语音识别系统要有实时处理能力

系统对用户询问的响应时间要很短,一般要在人说话后250毫秒之内作出响应。

这是非常重要的。

只有如此，才能保证人和系统之间的对话持续进行。

上面的每一个要求对语音识别系统来说都是很基本的，也是强制性的。

只有如此，才能使我们在利用语音识别系统完成一个实际任务时取得成功。

四、语音识别错误的处理

如果机器在语音识别时发生了错误，一个很重要的问题是我们要如何处理它，以保证人机之间信息交流不会中断。

至少有以下四种方式可以处理这个问题，其中的任何一种都可以运用到各种各样的特定任务中。

（1）错误弱化法

主要含义是使一个识别错误的“代价”（根据这个识别错误是否让用户感到厌烦或引起用户的收益减少来度量）小。

如果这个识别错误能被检测出来，并能在随后的人机交互中得到纠正，那么我们认为这个识别错误基本上是可以接受的。

如果语音指令被系统误识并可能导致下一轮人机对话不恰当，用户通过输入正确的模式（拼写正确指令）就可以退到刚才出现错误的地方。

这种处理仅仅花费用户很少一点时间，对用户几乎没什么其它不利影响。

（2）错误自检纠正法

系统利用已知任务的限制自动地检测并纠正错误。

如果系统实现的是从一个数量有限的名单中拼出其中一个名字的任务的话，系统一般能够比较容易检测到并纠正字母拼写的识别错误。

因为系统识别出的名字只能从给定的名单中选取。

在数字串识别任务（例如分类订货和库存控制）中，系统发生识别错误时，可以利用已知的纠错码（如Reed－Solomon码）来校正。

在编码纠错能力范围内，数字识别错误可被检测和纠正。

（3）确认或多层次判定

当识别结果出现两个或多个与输入语音指令匹配程度都很高的候选者而又难于对他们的微小差别进行区分时，系统就很难确定用哪一个作为假设正确的识别结果。

在这种情况下，系统可以让用户首先对识别的第一候选进行确认；如果第一候选没有得到用户的确认，系统再提示用户对识别的第二候选进行确认，依此类推。

另一种可供选择的模式是，系统将所有使它迷惑的识别候选者都罗列出来，并给每个候选结果一个标记序号，再让用户作出正确选择。

这种模式里，系统虽然只是把它不能确定的识别结果转换为序号标记提供给用户进行选择，但我们要知道，经过系统识别以后，不确定度已经极大降低了。

（4）拒绝/转向人工坐席

在识别结果出现两个或多个与输入语音指令匹配程度都很高的候选者，或者识别结果中的最佳者与输入语音指令匹配程度都很低而做不出可靠决定的情况下，系统就得推迟对输入语音指令做出决定。

我们可以把所有输入到系统的语音指令用数字格式记录下来，系统对其中通常较易导致系统识别错误的极少部分语音指令拒绝做出识别决定，而是将其转给人工坐席。

由人工坐席根据听辨语音指令的数字录音做出最后决定。

这样可以降低系统的识别错误率。

通过全部或部分利用以上所讨论的这些技术，语音识别系统的有效精度可以接近100％，从而成功地实现提出的语音识别任务。

五、语音识别的难题

语音识别这个概念，我们并不陌生，网站优化从孤立词到大词汇量连续语音的识别（LVCSR），再到语音库检索，语音识别技术一直在向前发展，只是语音识别似乎离我们还有些遥远。

“今后

展开阅读全文