ch9-语音识别PPT文档格式.ppt
《ch9-语音识别PPT文档格式.ppt》由会员分享,可在线阅读,更多相关《ch9-语音识别PPT文档格式.ppt(78页珍藏版)》请在冰豆网上搜索。
随着语音识别技术的逐渐成熟,语音识别技术开随着语音识别技术的逐渐成熟,语音识别技术开始得到广泛的应用,涉及日常生活的各个方面如电信、始得到广泛的应用,涉及日常生活的各个方面如电信、金融、新闻、公共事业等各个行业,通过采用语音识金融、新闻、公共事业等各个行业,通过采用语音识别技术,可以极大的简化这些领域的业务流程以及操别技术,可以极大的简化这些领域的业务流程以及操作;
提高系统的应用效率。
作;
1.1.语音识别以语音识别以IBMIBM推出的推出的ViaVoiceViaVoice为代表,国内为代表,国内则推出则推出DuttyDutty+语音识别系统、天信语音识别系统、语音识别系统、天信语音识别系统、世音通语音识别系统等。
世音通语音识别系统等。
2.2.数据库检索:
对庞大的数据进行繁杂的检索数据库检索:
对庞大的数据进行繁杂的检索和查询,通过使用语音识别技术,将变得轻松、方和查询,通过使用语音识别技术,将变得轻松、方便。
便。
3.3.特殊的环境所需的语音命令:
用语音发出操特殊的环境所需的语音命令:
用语音发出操作指令。
作指令。
语音识别应用实例语音识别应用实例多语种信息多语种信息自动翻译系统自动翻译系统i2008200820082008年奥运会多语言需求年奥运会多语言需求年奥运会多语言需求年奥运会多语言需求采采用用语语音音识识别别和和语语音音合合成成技技术术,能能与与客客户户进进行行交交互互式式对对话话,帮帮助助客客户户找找到到他他们们所所需需要要的的商商品品。
一一个个动动作作传传感感器器可可以以启启动动系系统统,询询问问顾顾客客“需需要要我我帮帮你你寻寻找找什什么么吗吗?
”如如果果顾顾客客回回答答说说“我我在在找找面面包包。
系系统统将将会会告告诉诉顾顾客客:
“面面包包在在第第1111过过道道,就就是是直直接接往往前前第第33个个过过道道,我我们们今今天天有有WHEATIOWHEATIO面面包包特特惠惠,需需要要我我为为您您打打印一张优惠券吗?
印一张优惠券吗?
语音识别用于商场导购语音识别用于商场导购德德国国西西门门子子公公司司推推出出的的一一种种新新洗洗衣衣机机,洗洗衣衣物物非非常常专专业业,知知道道为为什什么么样样的的脏脏衣衣物物选选择择合合适适洗洗涤涤程程序序和和洗洗涤涤剂剂,而而主主人人只只需需要要口口头头命命令令即即可可,比比如如“半个小时后再洗半个小时后再洗”。
与与普普通通洗洗衣衣机机的的不不同同之之处处是是安安装装了了语语音音识识别别芯片,能根据用户的语音指令确定洗涤程序。
芯片,能根据用户的语音指令确定洗涤程序。
语音识别用于家用电器,语音识别用于家用电器,走入人类未来生活走入人类未来生活三、语音识别的类型三、语音识别的类型1.1.以所要识别的对象来分,有:
以所要识别的对象来分,有:
(11)孤立词识别(字或词间有停顿,用于控制系统)孤立词识别(字或词间有停顿,用于控制系统)(22)连连接接词词识识别别(十十个个数数字字连连接接而而成成的的多多位位数数字字识识别别或或由由少少数数指指令令构构成成词词条条的的识识别别,用用于于数数据据库库查查询询、电电话和控制系统)话和控制系统)(33)连续语音识别和理解(自然的说话方式)连续语音识别和理解(自然的说话方式)(44)会话语音识别(识别出会话语言)会话语音识别(识别出会话语言)2.2.根据识别的词汇量来分,有:
根据识别的词汇量来分,有:
(11)大词汇()大词汇(10001000个以上的词汇,如会议系统)个以上的词汇,如会议系统)(22)中词汇()中词汇(202010001000个词汇,如定票系统)个词汇,如定票系统)(33)小词汇()小词汇(112020个词汇,如语音电话拨号)个词汇,如语音电话拨号)3.3.根据讲话人的范围来分,有:
根据讲话人的范围来分,有:
(11)单个特定人)单个特定人(22)多讲话人(有限的讲话人)多讲话人(有限的讲话人)(33)与讲话者无关)与讲话者无关四、语音识别的方法四、语音识别的方法1.1.模板匹配法模板匹配法在在训训练练阶阶段段,用用户户将将词词汇汇表表中中的的每每一一词词依依次次说说一一遍,并且将其特征矢量作为模板存入模板库。
遍,并且将其特征矢量作为模板存入模板库。
在在识识别别阶阶段段,将将输输入入语语音音的的特特征征矢矢量量依依次次与与模模板板库库中中的的每每个个模模板板进进行行相相似似度度比比较较,将将相相似似度度最最高高者者作作为识别结果输出。
为识别结果输出。
特征矢量特征矢量LPC倒谱c(n)语语文文学学音音wen模板库模板库由由于于语语音音有有较较大大的的随随机机性性,即即使使同同一一个个人人在在不不同同时时刻刻的的同同一一句句话话发发的的同同一一个个音音,也也不不可可能能具具有有完完全全相相同同的时间长度,因此时间伸缩处理是必不可少的。
的时间长度,因此时间伸缩处理是必不可少的。
DTWDTW用用满满足足一一定定条条件件的的时时间间规规整整函函数数,描描述述待待识识别别模模式式和和参参考考模模板板的的时时间间对对应应关关系系,求求解解两两个个模模板板匹匹配配,就是累积距离测度最小对应的规整函数。
就是累积距离测度最小对应的规整函数。
DTW(DynamicTimeWarping)DTW(DynamicTimeWarping)动态时间规整动态时间规整2.2.随机模型法随机模型法采用采用HMMHMM模型,使用概率参数来进行估计和判决。
模型,使用概率参数来进行估计和判决。
无声无声段段鼻音鼻音段段声母声母辅音段辅音段元音元音段段送气送气段段前过前过渡段渡段后过后过渡段渡段
(1)1)发音的各个段构成相应的状态。
发音的各个段构成相应的状态。
(3)(3)基本单元发音速率(停留时间和转移时间)对应状基本单元发音速率(停留时间和转移时间)对应状态转移概率态转移概率(0.5)(0.5)。
(2)
(2)声学变化(声学变化(LPCLPC倒谱)对应输出序列,概率分布成倒谱)对应输出序列,概率分布成混合高斯密度函数。
混合高斯密度函数。
AA22用用HMMHMM实现连续语音识别的框架实现连续语音识别的框架音子音子aa音子音子bb特征特征矢量矢量音子音子aa字字A1A1句子句子AA11P(AA11)P(A22/AA11)sa1sa2sa3sa4sa5BEGIN句句法法层层:
每每个个句句子子由由若若干干字字构构成成,每每个个字字都都选选自自于于字库。
字库。
字字层层:
每每个个字字由由音音子子串串接接而而成成,需需要要一一个个数数据据库库来来描述每一个字如何用音子串接的。
描述每一个字如何用音子串接的。
语语音音层层:
每每个个音音子子用用一一个个HMMHMM模模型型及及其其相相应应的的参参数数来描述(状态及其状态间的转移)。
来描述(状态及其状态间的转移)。
声学层:
提取语音帧特征矢量。
1.1.对自然语言的识别和理解。
首先必须将连续的对自然语言的识别和理解。
首先必须将连续的讲话分解为词、音素等单位,其次要建立一个理讲话分解为词、音素等单位,其次要建立一个理解语义的规则。
解语义的规则。
2.2.语音信息量大。
语音模式不仅对不同的说话人语音信息量大。
语音模式不仅对不同的说话人不同,对同一说话人也是不同的,例如,一个说不同,对同一说话人也是不同的,例如,一个说话人在随意说话和认真说话时的语音信息时不同话人在随意说话和认真说话时的语音信息时不同的。
一个人的说话方式随着时间变化。
的。
五、语音识别的主要问题五、语音识别的主要问题3.3.语音的模糊性。
说话者在讲话时,不同的词可能语音的模糊性。
说话者在讲话时,不同的词可能听起来是相似的。
这在英语和汉语中常见。
听起来是相似的。
4.4.单个字母或词、字的语音特性受上下文的影响,单个字母或词、字的语音特性受上下文的影响,以致改变了重音、音调、音量和发音速度等。
以致改变了重音、音调、音量和发音速度等。
5.5.环境噪声和干扰对语音识别有严重影响,致使识环境噪声和干扰对语音识别有严重影响,致使识别率低。
别率低。
语音识别的一些问题语音识别的一些问题-食之无味,弃之可惜食之无味,弃之可惜-不少从事不少从事SpeechRecognition的人改行的人改行-永远做不好,永远有的做永远做不好,永远有的做一分钟现象一分钟现象从技术人员演示从技术人员演示从技术人员演示从技术人员演示到实际参观者或用户试用到实际参观者或用户试用到实际参观者或用户试用到实际参观者或用户试用用户对系统的评价基本在一分钟内完成用户对系统的评价基本在一分钟内完成用户对系统的评价基本在一分钟内完成用户对系统的评价基本在一分钟内完成一般的过客用户很少有耐性去学会如一般的过客用户很少有耐性去学会如一般的过客用户很少有耐性去学会如一般的过客用户很少有耐性去学会如何使用何使用何使用何使用语音识别原理和识别系统的组成语音识别原理和识别系统的组成一、语音识别的步骤和框图一、语音识别的步骤和框图二、二、预处理预处理三、语音特征参数的提取三、语音特征参数的提取四、模式匹配四、模式匹配1.1.根据识别系统的类型选择能满足要求的一种识别根据识别系统的类型选择能满足要求的一种识别方法,采用语音分析技术预先分析出这种方法所要方法,采用语音分析技术预先分析出这种方法所要求的语音特征参数,这些语音参数作为标准模式由求的语音特征参数,这些语音参数作为标准模式由计算机存储起来,形成标准模式库,称为模板。
这计算机存储起来,形成标准模式库,称为模板。
这个过程称为个过程称为“学习学习”和和“训练训练”。
在某些识别系统。
在某些识别系统中,还备有专家知识库,其中存放由语言学家的各中,还备有专家知识库,其中存放由语言学家的各种知识,如同音字判决规则、语法规则、语义规则种知识,如同音字判决规则、语法规则、语义规则等。
等。
一、语音识别的步骤一、语音识别的步骤2.2.识别:
将输入语音进行处理,提取特征参数,识别:
将输入语音进行处理,提取特征参数,和模式库中的模板进行比较匹配,作出判决。
和模式库中的模板进行比较匹配,作出判决。
预处理预处理语音特征语音特征参数分析参数分析失真测度失真测度计算计算识别决策识别决策标准标准模板模板专家专家知识知识模式匹配模式匹配语音识别的框图语音识别的框图语音信号的放大、防混叠滤波、自动增益控制、语音信号的放大、防混叠滤波、自动增益控制、模数转换、消除噪声、端点检测。
模数转换、消除噪声、端点检测。
二、预处理二、预处理端点检测:
从包含语音的一段信号中确定出语音端点检测:
从包含语音的一段信号中确定出语音的起