语音识别系统调研及应用研究.docx

资源描述

语音识别系统调研及应用研究.docx

《语音识别系统调研及应用研究.docx》由会员分享，可在线阅读，更多相关《语音识别系统调研及应用研究.docx（12页珍藏版）》请在冰豆网上搜索。

语音识别系统调研及应用研究.docx

语音识别系统调研及应用研究

大学生创新训练项目

研究报告

项目名称：

语音识别系统调研及应用研究

项目类型：

重点项目

项目年度：

2014年

项目负责人：

陈婕（学号：

32013070102）

负责人院（系）：

信息学院

专业（方向）：

计算机科学与技术

项目组成员：

郭晨曦（学号：

32013070123）

指导教师：

范烺副教授

教务处制

二〇一五年

摘要

本文以自动语音识别系统作为研究背景，从语音识别的基本原理、系统结构及面临的问题展开话题，同时着重探讨语音识别中的应用前景和应用领域，更偏向于借此系统为大学生提供语言学习的研究方向。

最后，总结以上内容，将自动语音识别技术应用到大学生日常学习系统中进行实际操作。

关键词：

语音识别、系统应用、语言学习、

Abstract：

Basedontheautomaticspeechrecognitionsystemasresearchbackground,fromthebasicprincipleofspeechrecognition,systemstructureandfacestheproblemoftopic,anddiscussestheapplicationprospectofspeechrecognitionandapplicationfield,prefertotakethissystemforcollegestudentstoprovidelanguagelearningresearchdirection.Finally,summarizetheabovecontent,theautomaticspeechrecognitiontechnologyisappliedtothecollegestudents'dailylearningsystemforactualoperation.

Keywords：

Speechrecognition；Systemapplication；Languagelearning；

第一章引言

语音识别（ Speech Recognition）可以被定义为语音识别技术，两者等效变换。

语音识别的目标是让计算机经过判别和理解的过程把语音信号转变为响应的文本或指令的高技术，通俗一点理解就是让机器听懂人们口述的话并表述出来。

1．1 课题工作研究意义

语音识别是一门交叉学科，其所触及的领域相当广泛，甚至还涉及到体态语音。

与计算机进行语音交流，让计算机理解你所说的意思，这是我们人类长久以来一直所期待的事情。

至今，自动语音识别技术已获得了明显提高，也已从科研室走向了人们的生活，其所应用的领域已相当广泛，例如通信语音拨号、家庭室内设备控制、消费电子产品、语音导航、听写数据录音以及工业控制的语音掌控系统和服务领域的智能对话解答系统等等。

总之，语音识别技术是近20年内通信技术领域中重大科研技术之一并且其应用已逐渐成为人类社会不可或缺的重要组成部分和具有竞争力的新兴高技术产业。

1．2 语音识别的研究历史与现状

1.2.1 国外研究

语音识别技术的研究里程可以推算至20世纪50年代。

AT&Tbell实验室的Davis等人在1952年成功的研制出了世界第一个能够判别十个英文数字发音的语音识别系统：

Audry系统，其识别方法是跟踪话音中的共振峰并且该语音识别率已达百分之九十八。

这是语音识别技术研究的新起点。

60年代，计算机的探究与应用促进了语音识别技术的进展，之后提出了两个重要的科研成果：

动态规划与线性预测分析,其中线性预测分析理论技术很好的解决了语音信号所产生模块的一系列问题。

70年代，语音识别技术获得了重大性的发展。

线性预测编码技术被科研人员成功的运用到了语音识别技术上。

在这期间，统计方法是对语音识别主要处理的一种重要方法，这也是后来的非特定人、大词汇量连续语音识别技术的发展做了重要的铺垫。

80年代，语音识别进入了更深一层次的探究并且连续语音识别成为语音识别技术的研究重点之一。

进入到90年代，随着多媒体时代的到来，语音识别技术得到的更为广泛的应用，并从实验室走向了实际市场。

最具有代表性的是IBM的ViaVoice系统以及Microsoft中的中文识别系统，这两款系统的自适应能力和识别能力都很强，继而客户不需要使用所有的词汇训练即可慢慢地提高语音识别率。

就目前而言，美国在非特定人、大词汇量连续语音HMM模型语音识别方面处于主导地位，同样的日本在大词汇量、连续语音的神经网络识别系统和模拟人工智能自动语音处理方面起着主导作用。

1.2.2国内研究

中国最早在70年代末期就着手于语音识别技术的研究，不过由于种种不利原因，导致在相当长的时间内，语音识别技术都处在一个迟缓阶期。

直到80年代后期，国内许多单位才渐渐参与到语音识别系统的研究工作中去，其中以清华大学、中科院声学所、自动化所、上海交通大学等科研机构与高校为主，由于起步晚、基础不扎实还有计算机水平的落后，使得整个80年代，我国语音识别研究没有形成自我理论，各方面研究成果和实验系统没有太大进展。

进入到90年代后，中国的语音识别技术才逐渐赶上国际水平的步伐。

在国家相关科研机构和政府的大力支持下，我国汉文语音识别技术的研究也取得一定的进展。

1．3课题研究的主要内容及文章安排

本文以语音识别系统作为研究背景，着重于语音识别的模板匹配方法，并致力于模板匹配中隐马尔可夫模型（HMM）为主要技术研究方向，同时，将语音识别技术应用到学生语言学习系统中进行实际操作并根据学习中遇到的各种问题制定出解决方法。

最后对本文课题的研究及发展作出展望。

根据任务书的要求，完成以下工作:

（1）通过查阅大量有关资料，掌握语音识别基础识并了解国内外最新研究成果。

（2）解析并熟知语音识别的系统框架和基本方法。

（3）了解隐马尔可夫语音模型相关知识，同时探讨其所遇到的问题与改进。

（4）查阅相关资料，掌握基础知识，将语音识别技术应用到学生语言学习系统中进行实际操作。

本文一共分为五大章节，具体内容如下：

第一章：

引言。

论述本课题研究意义及背景，介绍国内外语音识别研究的概况，最后排列本文章节内容安排并给出本章小结。

第二章：

语音识别的原理。

介绍语音识别基础内容，语音信号处理包括语音输入的预处理、端点检测等，同时对语音识别中特征参数提取作出详细简介，最后完成本章小结。

第三章：

应用。

说明当前语音识别技术的主要应用领域和应用特点，最后对本章做出了小结。

第四章：

总结。

对全文做一个概括性的小结，说明研究工作的取得的进展与不足之处，为今后语音识别更深研究做出展望。

1．4本章小结

本章节介绍了课题研究的意义与背景，对语音识别技术在国内外的发展历史与现状作了简介，最后介绍了本文的主要工作和章节安排。

第二章语音识别原理

语音识别是一个多层模式识别的任务。

声音信号经过考察，结构分为一个层次词根单位（例如,音素）、词、短、短语、句子。

每一层可提供额外的时间限制,例如,已经被认知的单词发音或法律上的单词序列,可以弥补错误或把不确定性降到较低水平。

限制的最好方法是在所有较低的层次中利用概率相结合的决策,而只在最高层次中使用离散决策。

语音识别模式匹配图2所示：

图2语音识别原理图

2．1语音识别的预处理与分析

2.1.1原始语音

实际的物理波形信号通过传声器（话筒）采集而形成的随时间连续变化的模拟信号，在语音信号被采集的同时背景噪音也随之而来。

2.1.2信号预处理

要将采集进来的模拟信号转换为计算机认识的信号，这就需要数/模转换（计算机中的声卡就有此功能）。

其中最常见的方式称为脉冲编码调制，可分为采样、量化、编码三个过程。

2.1.2.1采样

就是将模拟音频电信号转换成二进制码。

耳朵可以听到的频率为20Hz~20kHz，根据采样定理：

当采样频率大于信号的两倍带宽时，即采样频率大于40kHz时，采样过程就不会丢失信息。

由于考虑到设备兼容性问题，国际上将采样频率标准定为44.1kHz。

尽管从物理上可以证明大于40kHz的采样率可精确重构原始波形，但人的主管听音试验表明，采样频率越大音质越有保证。

2.1.2.2量化

就是将模拟信号的采样的幅度值以特定单位进行度量，用它整数倍的数字进行表示的过程。

先将整个幅度值划分成有限的区域，所有采样信号的幅度值分布在幅度值最相近的区域并用量化精度（比特数）表示。

量化决定了声音动态范围，因为都是2的整数倍，如4bit、8bit、16bit等等。

而且量化过程没有最低标准，精度一般越大越好。

经过时间上的采样和幅度上的量化后，连续的模拟信号就变成了离散信号，这样就转化为了数字信号。

其中把量化好的采样值表示成二进制代码的这一过程就是编码。

量化和编码基本上是同时实现的。

2.1.3信号分析

为了简化后续过程必须先将数字信号中的语音信号进过转化和压缩，其中有许多技术能将其中的特征提取出来和压缩数据的时候尽量减少重要数据的丢失。

2.1.3.1短时傅里叶变换

语音信号有短时的稳定，长时变化，瞬时稳态的特点，即信号的频率随时间的变化传统傅里叶变换缺少时域定位功能而不适用于时变信号。

2.1.3.2线性预测编码

这是广泛和最有效的语音分析技术，可以用过去的若干个语音信号样值的线性组合来预测以后的样值。

2.1.3.3倒谱系数

语音识别中较为常用的特征参数是线性预测倒谱系数LPCC和Mel频率倒谱系数。

前者体现人的声道特性容易受环境噪声干扰，后者构造了人的听觉模型，强调语音低频信息，有利于噪音屏蔽干扰

2．2语音识别主要技术方法

在经过语音信号的预处理和分析，提取出来的特征参数要与模型库中的模板参数去匹配，而这个就是语言识别系统的核心。

目前有代表性的语音识别方法主要有特征参数匹配法、隐马尔可夫法和神经网络法。

2.2.1特征参数匹配法

这是一种传统的模式识别方法，其技术要点是：

在训练过程中将预处理过的信号通过一次变换，去掉冗余部分，而把代表语音本质的特征参数抽出来，成为相对应语音的模版；然后，在识别过程中，用同样的方法从待识别语音信号中提取出语音参数；最后，应用某种不变的测度，寻求语音参数与模版参数两者之间的相似性，用似然函数进行判决。

2.2.2隐马尔可夫模型（HMM）

这是一种研究透彻，算法成熟，效率高，效果好，易于训练的方法，已成为识别的主流技术，目前大多数词汇量、连续语音的非特定语音识别系统，都是基于HMM的模型。

隐马尔可夫模型是马尔可夫链的一种，它的模式库不是预先存储好的模式样本，而是通过反复训练形成的与训练后输出信号相似合概率最大的最优模型参数。

而且它的识别过程中待识别语音序列与HMM参数达到最佳匹配状态作为识别输出，是较为理想的识别模型。

2.2.3神经网络法（ANN）

ANN本质上是一个自适应非线性动力学系统，模拟了人类神经元活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性。

基于神经网络的语音识别系统通常由网络结构、训练算法和神经元构成。

由于具有良好的动态时变性能和结构，良好的动态时间关联特性，使其具有很大的发展潜力。

2.3本章小结

本章节介绍了课题研究的预处理与分析和主要技术方法，对语音识别技术的原理作了简介。

第三章语音识别技术应用

3．1语音识别的应用领域

1.办公室或商务系统:

典型的应用包括：

填写数据表格、数据库管理和控制、键盘功能增强等等。

2.制造业:

在质量控制中，语音识别系统可以为制造过程提供一种“不用手”、“不用眼”的检控（部件检查）。

3.电信:

相当广泛的一类应用在拨号电话系统上都是可行的，包括话务员协助服务的自动化、国际国内远程电子商务、语音呼叫分配、语音拨号、分类订货。

4.医疗:

这方面的主要应用是由声音来生成和编辑专业的医疗报告。

5.其他:

除了上文中所提到的应用以外，语音识别在其他方面的应用可以说是不胜枚举。

包括由语音控制和操作的游戏和玩具、帮助残疾人的语音识别系统、车辆行驶中一些非关键功能的语音控制，如车载交通路况控制系统、音响系统。

随着语音识别专用芯片的技术不断提高，将给人们带来极大的方便。

3．2语音识别的功能特点

对比语音识别技术的发展，由于基于不同的运算平台，因此具有不同的特点。

大词汇量连续语音识别系统一般都是基于PC机平台，而语音识别专用芯片的中心运算处理器则只是一片低功耗、低价位的智能芯片，与一台甚至多台PC机相比起来，其运算速度，存储容量都非常有限，因而这些由专用芯片实现的语音识别系统有如下几个特点：

1、多为中、小词汇量的语音识别系统，即只能够识别10~100词条。

只有近一两年来，才有连续数码或连续字母语音识别专用芯片实现。

2、一般仅限于特定人语音识别的实现，即需要让使用者对所识别的词条先进行学习或训练这一类识别功能对语种、方言和词条没有限制。

有的芯片也能够实现非特定人语音识别，即预先将所要识别的语句码本训练好而装入芯片，用户使用时不需要再进行学习而直接应用。

但这一类识别功能只适用于规定的语种和方言，而且所识别的语句只限于预先已训练好的语句。

3、由此芯片组成一个完整的语音识别系统。

因此，除了语音识别功能以外，为了有一个好的人机界面和识别正确与否的验证，该系统还必须具备语音提示（语音合成）及语音回放（语音编解码记录）功能。

4、多为实时系统，即当用户说完待识别的词条后，系统立即完成识别功能并有所回应，这就对电路的运算速度有较高的要求。

5、除了要求有尽可能好的识别性能外，还要求体积尽可能小、可靠性高、耗电省、价钱低等特点。

3.3.本章小结

本章节介绍了课题研究的应用领域和功能特点，对语音识别技术在语言学习中的的应用现状和应用前景做出了概述。

第四章总结和展望

4.1论文工作总结

外语口语的重要性已逐渐在全球化浪潮的影响下得以体现，应用语音识别技术来辅助外语发音学习显然已经成为了当前语言学习领域的一个趋势和热点，吸引了众多的研究机构和公司在这一领域开展研究。

但是语音识别是一项非常复杂而且具有挑战的技术，不仅涉及信号处理、模式识别等技术，还涉及语言学、语音学和声学等学科。

正因为样，在本课题的研究过程中，重点只对其中很小的一部分进行较为深入的探讨，具体的研究工作如下：

通过本文的研究，对国内的语音识别技术在外语发音教学领域内的应用做出了较为系统地总结分析，对语音的产生过程及其数学模型、外语发音特质、语音信号时频及倒谱域的分析方法、端点检测、失真测试、动态时间规正等语音识别的关键环节的技术问题进行了深入的理论分析，并在此基础上从主客观角度分别对相关评分级制和评价算法进行了研究，最后分别设计并实现基于HMM技术的相关系统进行实验，以实验理论的可行性。

当然，由于个人能力的限制。

以上的工作尚存在以下不足和有待改进之处：

（1）在理论上，对评分机制和评价算法的研究还不算深入，事实上，由于缺乏对音调韵律、音量强度等语音因素的关注，评分机制依旧欠缺合理：

如对基于HMM的分级打分机制尚欠缺相应的研究等等。

（2）在实践中，文章实现的算法和系统还具有一定的限制条件，因此还需要做出进一步的改进，才能推广应用。

如本文采用的基于HMM的对数似然度大分手学习者影响大，很不稳定，以后应用更合理的对数概率打分方法加以改进；又如缺乏足够并具有广泛代表性的非母语语料库的支持，系统实际性能影响很大。

4.2进一步工作总结

通过上面对论文工作的总结，我们对下一步的研究工作提出如下的设想和展望：

（1）寻找反应发音质量的性能指标，合理并全面地定义发音质量，主要在研究如何对音调、重音、语速和韵律等指标进行计算。

（2）检测和纠正给定的音素级的发音错误。

一个外语发音学习系统的更高级形式就是能够基于发音专家知识，判断发音错误的类型并给出相应的矫正建议。

尽管目前人工智能技术人依旧很难实现能全面检测发音错误类型的外语发音学习系统，但针对于不同的错误类型设计相关的错误检测算法还是相当可行的。

（3）对预料的搜集、建立相关的语料库或购买专业语料库。

语料的广泛性和代表性对基于统计模型的语音识别系统影响甚大。

（4）评分机制的综合和语音反馈。

将程序得到的自动得分如何线性或者非线性的映射成学习者便于理解和接收的的方式，依旧是一个很重要的问题。

如何使这种反馈更有效，更易于接受、掌握和改进，需要考虑发音教学法和发音声学等多方面知识。

（5）与人工判断相比，研究外语发音学习系统的性能评测手段。

可以从可用性、有效性、准确性和权威性等指标来评测其性能。

由于学习者个体的差异，可能需要通过大量的实验才能获得比较有说服力的评价。

这就需要采集足够的样本，花费大量的时间。

当然，还存在许多其他的问题值得进一步研究。

所有这样一切都是今后工作努力的方向。

虽然以目前的研究水平，开发某些典型针对外语学习发音的学习系统是完全有可能的。

但外语发音学习毕竟是个多学科综合的产物，要开发一个能解决任何问题的，给学习者专职家教般的系统目前还有很大的困难。

但随着我们这一课题的深入研究，实现这样系统的可能性会越来越大。

参考文献

[1] 王敏妲. 语音识别技术的研究与发展[J].微机与应用,2009,（23）：

1-6.

[2] 陈方,高升.语音识别技术及发展[J].电信科学,1996,12（10）：

54-57

[3] 王炳锡，屈丹，彭煊.实用语音识别基础[M].北京：

国防工业出版社，2005.

[4]蔡莲红，黄德智，蔡锐．现代语音技术基础与应用[M]．北京：

清华大学出版社，2003.

{5]胡泽,雷伟.计算机数字音频工作站[M].北京：

中国广播电视出版社，2005.

[6]柏逢明.音频检测技术与仪器[M].北京：

国防工业出版社，2006.

[7]刘幺和,宋庭新.语音识别与控制应用技术[M].北京：

科学出版社，2008.

[8]（德）布劳尔特（Blauert,J.）.通信声学[M].李昌立，李双田译.北京:

科学出版社,2009

[9]赵力.语音信号处理[M].北京：

机械工业出版社，2003

[10]易克初，田斌，付强.语音信号处理[M].北京：

国防工业出版社，2000

[11]RogerJang.音讯处理与辨识[EB/OL].

http:

//neurlcs.nthu.edu.tw/jang/books/audioSignalProcessing

[12]谢宏坤.语言说明中搜素意义之关键词的研究{D}：

[硕士学位论文].台湾科技大学，2000

[13]方士豪.杂讯及通道环境下语音识别技术之研究[硕士]：

[硕士学位论文].台湾大学，2001

[14]陈方，高升.语音识别技术及发展[EB/OL].

[15]韩纪庆，王欢良，李海峰，等。

基于语音识别的发音学习技术[J].电声技术，2004

[16]熊飞丽.语音识别技术在语言教学软件中的应用研究[D]:

[硕士研究论文].国防科技大学.2002

[17]黄晓勇，语音识别技术在外语学习中的应用[J].计算机系统应用2006（6）：

18-21

[18]梁维谦，王国梁，刘加等。

基于音素的发音质量评价算法[J].清华大学学报（自然科学版）。

2005.45

（1）：

5—8

致谢

本系统能做出如此成果，在此要感谢我的指导老师，是他们利用宝贵的时间帮我研究问题所在并彻底解决，也要感谢老师们平时的辛勤教导及对专业知识的辅导，除此之外也要感谢本组其他成员，是我们一起出谋划策的设计系统的各个界面及每个界面的代码编写及功能的实现。

最后谢谢其他在整个系统中帮助过我们的人。

展开阅读全文