人机论文.docx

上传人:b****8 文档编号:30277632 上传时间:2023-08-13 格式:DOCX 页数:13 大小:94.44KB
下载 相关 举报
人机论文.docx_第1页
第1页 / 共13页
人机论文.docx_第2页
第2页 / 共13页
人机论文.docx_第3页
第3页 / 共13页
人机论文.docx_第4页
第4页 / 共13页
人机论文.docx_第5页
第5页 / 共13页
点击查看更多>>
下载资源
资源描述

人机论文.docx

《人机论文.docx》由会员分享,可在线阅读,更多相关《人机论文.docx(13页珍藏版)》请在冰豆网上搜索。

人机论文.docx

人机论文

目录

摘要1

正文1

1、语音识别技术概述1

2、发展历史2

3、语音识别原理2

4、语音识别系统简介3

5、语音识别的系统类型4

5.1、限制用户的说话方式4

5.2、限制用户的用词范围5

5.3、限制系统的用户对象5

6、语音识别的几种主要研究方法5

6.1、动态时间规整(DTW)6

6.2、矢量量化(VQ)6

6.3、隐马尔可夫模型(HMM)6

6.5、支持向量机(SVM)7

7、语音识别的发展趋势7

7.1、提高可靠性。

8

7.2、增加词汇量。

8

7.3、应用拓展。

8

7.4、降低成本减小体积。

9

8、语音识别所面临的问题10

9、值得研究方向10

10、语音识别技术的前景展望11

参考文献11

 

浅谈语音识别技术

摘要:

语音识别是一门交叉学科。

近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。

人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。

很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。

语音识别技术所涉及的领域包括:

信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

关键词:

语音识别,矢量化,人工神经元网络,动态时间规整

正文

1、语音识别技术概述 

语音识别是解决机器“听懂”人类语言的一项技术。

作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。

如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。

以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。

 

广泛意义上的语音识别按照任务的不同可以分为4个方向:

说话人识别、关键词检出、语言辨识和语音识别[1]。

说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。

关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子,例如对一些特殊人名、地名的电话监听等。

语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。

语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。

 

2、发展历史

1952年贝尔实验室的Davis等人研制成功了能识别十个英文数字发音的Audry系统,标志着语音识别技术研究工作开始。

20世纪60年代计提出了动态规划(Dynamic programming)和线性预测分析技术(Liner Predictive)等重要成果。

20世纪70年代,语音识别领域取得了突破。

实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。

20世纪80年代语音识别研究进一步走向深入, 基于特定人孤立语音技术的系统研制成功, 隐马尔可夫模型和人工神经元网络(Artificial Neural Network)在语音识别中的成功应用。

进入20世纪90年代后语音识别系统开始从实验室走向实用。

我国对语音识别的研究开始于20世纪80年代,近年来发展迅速,并取得了一系列的成果。

3、语音识别原理

语音识别一般分为两个步骤:

学习阶段和识别阶段。

学习阶段的任务是建立识别基本单元的声学模型以及语言模型。

识别阶段是将输入的目标语音的特征参数和模型进行比较,得到识别结果。

  

语音识别过程如图所示。

下面对该流程作简单介绍:

图1语音识别过程

(1)语音采集设备如话筒、电话等将语音转换成模拟信号。

  

(2)数字化一般包括预滤波、采样和A/D变换。

该过程将模拟信号转变成计算机能处理的数字信号。

  

(3)预处理一般包括预加重、加窗分帧。

经预处理后的信号被转换成了帧序列的加窗的短时信号。

  

(4)参数分析是对短时信号进行分析,提取语音特征参数的过程,如时域、频域分析,矢量量化等。

  

(5)语音识别是目标语音根据特征参数与模型库中的参数进行匹配,产生识别结果的过程。

一般有模板匹配法、随机模型法和神经网络等。

    

(6)应用程序根据识别结果产程预定动作。

    

(7)该过程是语音模型的学习过程。

 

4、语音识别系统简介

语音识别本质上是一种模式识别的过程,未知语音的模式与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。

图1是基于模式匹配原理的自动语音识别系统原理框图。

图2自动语音识别系统原理框图。

(1)输入语音模块:

对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声,并进行语音信号的端点检测、语音分帧以及预加重等处理。

(2)特征提取模块:

负责计算语音的声学参数,并进行特征的计算,以便提取出反映信号特征的关键特征参数用于后续处理。

现在较常用的特征参数有线性预测(LPC)参数、线谱对(LSP)参数、LPCC、MFCC、ASCC、感觉加权的线性预测(PLP)参数、动态差分参数和高阶信号谱类特征等。

其中,Mel频率倒谱系数(MFCC)参数因其良好的抗噪性和鲁棒性而应用广泛。

(3)训练阶段:

用户输入若干次训练输入大量语音数据,经过预处理和特征提取后得到特征矢量参数,建立或修改训练语音的参考模式库。

(4)识别解码阶段:

将输入的语音提取特征矢量参数后与参考模式库中的模式进行相似性度量比较,并结合一定的判别规则和专家知识(如构词规则,语法规则等)得出最终的识别结果。

5、语音识别的系统类型

语音识别技术常常根据各种使用限制建构成为不同类型的系统。

5.1、限制用户的说话方式

按照语音识别系统对用户说话方式的限制,可以分为孤立词语音识别系统、连续语音识别系统、即兴口语语音识别系统。

1)孤立词语音识别系统(isolate-wordspeechrecognitionsystem)是指用户在对系统说话时,相邻的词汇之间的发音要有明显停顿,在这种发音方式下,词汇之间语音信号的声学特征基本不受下文的影响,词汇在语音信号中的起始点和结束点的检测比较容易,系统实现难度较低。

2)连接词语音识别(connected-wordsspeechrecognition)是指中小规模词汇但用词汇本身作为识别基本单元的连续语音识别系统。

3)连续语音识别系统(continuespeechrecognitionsystem)是指中大规模词汇但用子词作为识别基本单元的连续语音识别系统。

连接词语音识别系统和连续语音识别系统的共同点是,人在说话时,音流中相邻的词汇之间的发音没有停顿,词汇之间语音信号的声学特征、语调和韵律都受到强烈的下文影响,词汇在语音信号中的起始点和结束点的检测非常困难,系统实现难度较大。

4)即兴口语语音识别系统(spontaneousspeechrecognitionsystem)是指用户使用随意的、至少没有在讲话方式上经过特殊准备的语言与系统对话。

“即兴口语语音”是相对“朗读式语音”而言的,朗读式语音指符合语法规则的、流畅的,在讲话方式和讲话内容都经过特殊准备的语言,这种语音是以往大多数连续语音识别系统所假设的用户输入方式。

即兴口语语音同连续朗读式语音相比有许多不同的特性,它通常是不流畅的,包含许多随机事件,如语音重入、语音更正、语音插入、犹豫、停顿、咳嗽、咂嘴声等,这些特性使得自然口语语音的识别要比朗读式语音识别困难得多。

5.2、限制用户的用词范围

根据系统所拥有的词汇量大小,可以分为:

小词汇量、中等词汇量(电话拨号、命令控制);

大词汇量以及无限词汇量语音识别系统(听说场合)

小词汇量、中等词汇量的识别系统主要用于语音控制系统,例如电话拨号,命令控制等。

大词汇量以及无限词汇量语音识别系统可以用在更一般化的场合,如听写等。

5.3、限制系统的用户对象

根据系统对用户的依赖程度可以分为特定人和非特定人语音识别系统。

特定人系统可以是个人专用系统或特定群体系统,如特定性别、特定年龄、特定口音等。

6、语音识别的几种主要研究方法

当今语音识别技术的主流算法,主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法。

6.1、动态时间规整(DTW)

DTW是把时间规整和距离测度计算结合起来的一种非线性规整技术,是较早的一种模式匹配和模型训练技术。

该方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。

6.2、矢量量化(VQ)

矢量量化是一种重要的信号压缩方法,主要适用于小词汇量、孤立词的语音识别中。

其过程是:

将语音信号波形的k个样点的每1帧,或有k个参数的每1参数帧,构成k维空间中的1个矢量,然后对矢量进行量化。

量化时,将k维无限空间划分为M个区域边界,然后将输入矢量与这些边界进行比较,并被量化为“距离”最小的区域边界的中心矢量值。

矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量,实现最大可能的平均信噪比。

6.3、隐马尔可夫模型(HMM)

隐马尔可夫模型是20世纪70年代引入语音识别理论的,它的出现使得自然语音识别系统取得了实质性的突破。

目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。

HMM是对语音信号的时间序列结构建立统计模型,将其看作一个数学上的双重随机过程:

一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序列的随机过程。

前者通过后者表现出来,但前者的具体参数是不可测的。

人的言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。

HMM合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。

HMM模型可细分为离散隐马尔可夫模型(DHMM)和连续隐马尔可夫模型(CHMM)以及半连续隐马尔可夫模型(SCHMM)等。

6.4、人工神经元网络(ANN)

人工神经元网络在语音识别中的应用是目前研究的又一热点。

ANN实际上是一个超大规模非线性连续时间自适应信息处理系统,它模拟了人类神经元活动的原理,最主要的特征为连续时间非线性动力学、网络的全局作用、大规模并行分布处理及高度的稳健性和学习联想能力。

这些能力是HMM模型不具备的。

但ANN又不具有HMM模型的动态时间归正性能。

因此,人们尝试研究基于HMM和ANN的混合模型,把两者的优点有机结合起来,从而提高整个模型的鲁棒性,这也是目前研究的一个热点。

6.5、支持向量机(SVM)

支持向量机是应用统计学习理论的一种新的学习机模型,它采用结构风险最小化原理(SRM),有效克服了传统经验风险最小化方法的缺点,在解决小样本、非线性及高维模式识别方面有许多优越的性能。

其基本思想可以概括为:

首先通过非线性变换将输入空间变换到一个高维空间,然后在这个新空间中求取最优线性分类面,而这种非线性变换是通过定义适当的内积函数实现的。

目前,统计学习理论和支持向量机也是国际上机器学习领域的研究热点。

7、语音识别的发展趋势

语音识别技术经过全球半个多世纪的研究,目前已经发展到了接近实用的阶段。

在实验室环境下,大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到90%以上。

在这样的水平基础上,语音识别技术开始尝试从实验室演示系统走向实用化商品。

以IBMViaVoice和DragonDictation为代表的几个听写机系统的出现使“语音识别”一时声名远扬,引起了社会的广泛关注。

一些人认为这些系统基本可以使用,但由于校对和更正识别的错误还很麻烦和浪费时间,降低了语音识别的便捷优势。

也有人因为听写的正确识别率受到识别的内容,使用的环境或讲话习惯口音等因素的影响大大降低,认为目前的语音识别系统还无法满足实用要求。

AT&T和MIT等将语音识别技术应用在一些有限词汇的特定任务上,如电话自动转接、电话查询、数字串识别。

在这些识别任务中,当讲话的内容是系统所期待的,使用环境的声学特性与训练数据的声学特性相差不太大时,语音识别的正确识别率可以相当接近100%。

不过在实际应用中当这些前提条件被破坏时,对可用性也会产生一定的影响。

人们还试图在手持设备上应用语音识别技术,目前这种应用主要受到计算平台的性能和价格的制约。

换言之,语音识别技术要进入成熟的商业运用还有一段艰难的路程,还必须在很多方面取得突破性进展。

7.1、提高可靠性。

一方面,语音识别技术需要能排除各种声学环境因素的影响。

在公共场合,人能够有意识地摒弃环境噪声并从中获取自己所需要的特定声音,但几乎不可能指望计算机能听懂你的话。

来自四面八方的环境噪声和背景话音,让它茫然而不知所措,极大地限制了语音识别技术的应用范围,目前,要在嘈杂环境中使用语音识别技术必须有特殊的抗噪(NoiseCancellation)麦克风才能进行,这对多数用户来说是不现实的。

另一方面,在日常生活中人们说话有较大的随意性(Spontaneous),常常不经过特殊准备,并带有明显的言语习惯,例如,说话时带有地方口音、重复、更正、插入、犹豫、停顿、咳嗽、咂嘴、不受语法限制等。

相对于在讲话方式和讲话内容都经过特殊准备的符合语法规则的流畅的标准“朗读式语音”而言的,这种自然口语语音的识别要困难得多。

提高可靠性的目的是当使用环境的声学特性与训练语音的收集环境的声学特性不一致或用户的言语方式与训练语音的言语方式不一致时,语音识别系统性能的下降不会太大。

7.2、增加词汇量。

系统可以识别的词汇的数量是系统能够做什么事情的一个重要度量。

如果语音识别系统使用的声学模型和语音模型太过于局限,当用户所讲的词汇超出系统已知的范围,或突然从中文转为英文、法文、俄文,计算机就会常常输出混乱奇怪的结果。

随着系统建模方法的改进、搜索算法效率的提高和硬件资源的发展,将来的语音识别系统可能会做到词汇量无限制和多种语言混合,用户在使用时可以不必在语种之间来回切换,不受或少受词汇量的限制。

7.3、应用拓展。

语音识别是一种赋能技术,现有的很多人机交互界面都可能通过补充语音识别功能而得到改善,还可以塑造或创造一批新的机器和新的信息服务行业进入人的生活。

语音识别技术可以用于把费脑、费力、费时的机器操作变成一件很容易很有趣味性的事,在许多“手忙”、“手不能用”、“手所不能及”,“懒得动手”的场景中,包括象驾驶室、一些危险的工业场合、远距离自动信息获取、家电控制等方面,语音识别技术可能带动一系列崭新或更便捷功能的设备出现,更加方便人的工作和生活。

由于知识层次和知识领域的差异,现实生活中有相当一部分人很难得到现代化生活可能给带来的便利,包括信息服务和其他各类先进设备可提供的帮助。

语音识别技术有助于改善这种情况,使社会各个阶层更多的人享受到更多的社会信息资源和现代化服务,提高整个社会的信息化程度和现代化程度。

计算机通信技术的发展,使互联网在信息聚集和传播方面成为很先进社会基础设施,但由于使用手段的限制,还有相当多的人或在相当多的场合还无法广泛普及使用。

有线固定电话和无线移动电话网络的应用虽然已经广泛普及到几乎社会所有阶层,但电话网络现在的最主要的功能还是话音通信。

如果将两者结合,用电话网络作为互联网的语音入口,用语音识别作为人与网上信息交互的便捷工具,则可以在相当大的范围,使人们享受到更多的社会信息资源和现代化服务,促进社会的进步。

例如,用电话与信息代理机器交谈,随时得到天气、娱乐、旅行、学习的日常生活信息,了解政府的各种政策法规等等。

将语音识别与语言理解、文字翻译、语音合成进行系统创新集成的语音同声翻译技术,可以用于突破不同语种的人说话交流的语言壁垒。

7.4、降低成本减小体积。

降低成本是任何技术商业化的重要前提,一般的途径是通过规模生产来摊薄成本。

目前降低语音识别技术成本的主要困难在于这项技术仍然处在逐步改进的过程中,对于多数要求较高的功能和性能的应用,往往都带有量身定制的特点,规模生产定型产品的条件尚不成熟。

只有在功能和性能非常有限的语音识别应用方面,可以规模生产一些低成本产品,但这些产品的应用常常又受到功能和性能瓶颈的限制。

微型化是语音识别技术商业应用的另一个重要途径,这取决于语音识别技术本身进步的程度,也和微电子芯片技术的进一步发展关系密切。

将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上,大幅度降低产品成本,是语音识别技术真正进入大规模应用的重要条件。

21世纪是信息和网络的时代,Internet、宽带IP网、公用电话网、移动电话网把全球各地连接起来,巨大的信息资源能够通过网络在短暂时间内迅速扩散到全球范围,几乎所有人与机器进行信息交互相关的需求和服务,例如自然口语对话、信息索取、电子商务、数字图书馆、远程教育、语音翻译等,都可能会在网络上实现。

语音识别技术研究和应用的重要发展趋势是,让人在任何地方,任何时间,对任何事都能够通过语音交互的方式,更加方便地享受到更多的社会信息资源和现代化服务。

人类将越来越多地体验到语音识别技术可能的便捷优点。

8、语音识别所面临的问题

尽管语音识别取得很大成功,但是距离真正的人机自由交流还有很大的距离。

例如,目前计算机还需要对用户做大量训练才能更准确识别,用户的语音识别率也并不是尽如人意。

主要难题有以下几个方面:

(1)识别系统的适应性差。

主要体现在对环境依赖性强,特别在高噪音环境下语音识别性能还不理想。

(2)语音识别系统从实验室演示系统到商品的转化过程中,还有许多具体问题需要解决。

例如,识别速度、拒识等问题,还有连续语音中去除不必要语气词如“呃”、“啊”等语音的技术细节问题。

(3)语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需要进一步研究。

面对上面的困难,语音识别技术要做到真正成功,在任何环境中都能人机进行自由地对话,不仅需要语音识别基础理论的突破,更需要大量的实际工作的积累。

9、值得研究方向

(1)就算法模型方面而言,需要有进一步的突破。

声学模型和语言模型是听写识别的基础。

目前使用的语言模型只是一种概率模型,还没有用到以语言学为基础的文法模型,而要使计算机确实理解人类的语言,就必须在这一点上取得进展。

  

(2)语音识别的自适应性也有待进一步改进。

同一个音节或单词的语音不仅对随着的讲话者的不同而变化,而且对同一个讲话者在不同场合,不同上下文环境中也会发生变化。

这意味着对语言模型的进一步改进。

  

 (3)语音识别技术还需要能排除各种环境因素的影响。

目前,对语音识别效果影响最大的就是环境杂音或噪音。

要在嘈杂环境中使用语音识别技术必须有特殊的抗噪麦克风才能进行,这对多数用户来说是不现实的。

在公共场合中,如何让语音识别技术能有摒弃环境嗓音并从中获取所需要的特定声音是一个艰巨的任务。

  

虽然在短期内还不可能造出具有和人相比拟的语音识别系统,但在未来几年内,语音识别系统的应用将更加广泛,各种语音识别系统产品将陆续进入我们的生活。

语音识别各个方面的技术正在不断地进步,一步步朝着更加智能化的方向发展。

10、语音识别技术的前景展望 

语音作为当前通信系统中最自然的通信媒介,语音识别技术是非常重要的人机交互技术。

随着计算机和语音处理技术的发展,语音识别系统的实用性将进一步提高。

应用语音的自动理解和翻译,可消除人类相互交往的语言障碍。

国外已有多种基于语音识别产品(如声控拨号电话、语音记事本等)的应用,基于特定任务和环境的听写机也已经进入应用阶段。

这预示着语音识别技术有着非常广泛的应用领域和市场前景。

随着语音技术的进步和通信技术的飞速发展,语音识别技术将为网上会议、商业管理、医药卫生、教育培训等各个领域带来极大的便利,其应用和经济、社会效益前景非常良好。

 

参考文献

[1]ZhaoLi,KobayashiY,NiimiY.TonerecognitionofChinesecontinuousspeechusingcontinuousHMMs[J].JournaloftheAcousticalSocietyofJapan,1997,53(12):

933~940.

[2]詹永照,曹鹏.语音情感特征提取和识别的研究与实现[J].江苏大学学报(自然科学版),2005,26

(1):

72-75.

[3]周迪伟.计算机语音处理[M].北京:

国防工业出版社,1987,130-146.

[4]马静.基于HMM模型的汉语数字语音识别算法的研究[D].太原理工大学,2008.

[5]余伶俐,蔡自兴,陈明义.语音信号的情感特征分析与识别研究综述[J].电路与系统学报,2007,12(4):

76-84.

[6]TinLayNew,SayWeiFoo,LiyanageCDeSilva.SpeechEmotionRecognitionUsingHiddenMarkovModels[J].SpeechCommunication,2003,41:

603-623.

[7]OudeyerPierre-Yves.TheProductionandRecognitionofEmotionsinSpeech:

FeaturesandAlgorithms.InternationalJournalofHuman-ComputerStudies.2003,59:

157~183.

[8]王青.基于神经网络的汉语语音情感识别的研究[D].浙江:

浙江大学论文集,2004-03.

[9]赵力,钱向民,邹采荣等.语音信号中的情感识别研究[J].软件学报,2001,12(7):

1050-1055.

[10]林奕琳,韦岗,杨康才.语音情感识别的研究进展[J].电路与系统学报,2007,12

(1):

90-98.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 设计艺术

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1