基于倒谱的大学生语音识别算法研究文档格式.docx

上传人:b****6 文档编号:16939644 上传时间:2022-11-27 格式:DOCX 页数:55 大小:1.17MB
下载 相关 举报
基于倒谱的大学生语音识别算法研究文档格式.docx_第1页
第1页 / 共55页
基于倒谱的大学生语音识别算法研究文档格式.docx_第2页
第2页 / 共55页
基于倒谱的大学生语音识别算法研究文档格式.docx_第3页
第3页 / 共55页
基于倒谱的大学生语音识别算法研究文档格式.docx_第4页
第4页 / 共55页
基于倒谱的大学生语音识别算法研究文档格式.docx_第5页
第5页 / 共55页
点击查看更多>>
下载资源
资源描述

基于倒谱的大学生语音识别算法研究文档格式.docx

《基于倒谱的大学生语音识别算法研究文档格式.docx》由会员分享,可在线阅读,更多相关《基于倒谱的大学生语音识别算法研究文档格式.docx(55页珍藏版)》请在冰豆网上搜索。

基于倒谱的大学生语音识别算法研究文档格式.docx

Abstract

Voiceisoneofthemostimportanthumancommunicationtools.Withthewidelyapplicationofelectroniccomputersandartificiallyintellectivemachine,itwasdiscoveredthatlanguagecommunicationisthebestwaytocommunicatebetweenmanandmachineandthevoicewasthereflectionofthelanguage.Ifwewantedusunderstoodbythemachines,itisnecessarytodealwiththesignal.WiththecontinuousdevelopmentofIT,especiallythepopularityofnetworkandperfectsystem,voicesignalprocessingtechnologyplaysanincreasinglyimportantrole.Inordertofindagoodperformancecharacteristicsandextractimportantparameterstoimprovetheperformanceoftherecognitionsystem,avarietyofscientificalgorithmshavebeenemerged.

Thekeytechnologyofvoicerecognitionisextractingvoicefeatures.Whiletherearemanyvoicefeatures,cep-strumanalysesisoneofthem.Thecep-strum,asoneoftheimportantsignalprocessingmethods,cangetbetterrecognitionperformance.Thispapermainlyintroducethevoicerecognitiontechnology.Thebasicideaistocasuallyinputvoicesignalandtransformthesignalbyusingadditivesignaltolineartransformation,andusethemethodsbasedonMel(MFCC)frequencyaswellassomeofthespeechsignaltocep-strumanalyze.AndthenbytheusageofthevoicespectrumofapplicationsinallaspectsprogramsMATLABsimulation,itcangetthesimulationresultsofdetectvoicepitchandformantdetection.

Keywords:

Cepstrum;

Voicerecognition;

Resonancepeakdetection;

Pitchdetection;

第1章绪论

1.1研究背景及意义

语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段。

人类开始进入信息化时代,用现代手段研究语音处理技术,使人们能更加有效地产生、传输、存储和获取语言信息,这对于促进社会的发展具有十分重要的意义。

语音作为当前通讯系统中最自然的通信媒介,随着计算机和语音处理技术的发展,不同语种之间的语音一语音翻译将成为语音研究的热点。

随着我国改革开放和对外合作的不断深化,商务往来、文化交流、跨国旅游等活动日益频繁,越来越多的人需要学习一门外语。

学习外语存在的主要问题是发音不准确,传统的外语教学方法有着种种不足之处。

例如,课堂教学通常受时间、地点以及教师教学水平的限制;

广播电视教学和录音录像教学等教学手段不够灵活,无法及时地分析学习者存在的问题,因此也就不能及时地、有针对性地反馈指导意见。

利用计算机来帮助外语教学是帮助提高外语水平的重要方法之一。

在非母语的语言学习中,以计算机辅助使用者进行非母语学习(Computer-AssistedLanguageLeaming,CALL)己受到相当重视,各方也纷纷投入相关的研究。

语音识别技术,也称为自动语音识别,其是为了将人类的语音中的词汇内容转换为计算机可读的输入,例如二进制编码、按键或者字符序列。

与说话人确认及说话人识别不同,前者尝试识别或确认发出语音的说话人而非其中的词汇内容。

语音识别的关键是提取出语音特征,而语音特征有很多,倒谱系数分析是其中一种。

在语音信号处理中可以常用倒谱域来提取语音的共振峰与基音频率,用于语音识别。

倒谱系数是一种非常有效表征语音特征的参数矢量,倒谱具有解卷的特性,它能将语音信号的声门激励信息和声道响应信息分离开,因此倒谱是说话人识别和语音识别中最常用的特征参数之一。

1.2语音信号研究现状

声学是物理学的一个分支学科,而语言声学又是声学的一个分支学科。

它主要的研究方向是人的发声器官机理,发声器官的类比线路和数学模型,听觉器官的特性(如听阈、掩蔽、临界带宽、听力损失等),听觉器官的数学模型,语音信号的物理特性(如频谱特性、声调特性、相关特性、概率分布等),语音的清晰度和可懂度等。

当今通信和广播的发展非常迅速,语言广播和语言通信仍然是最重要的部分,而语言声学则是这些技术科学的基础。

语言声学的发展和电子学以及计算机科学有着非常密切的关系。

在它发展的过程中,有过几次飞跃:

第一次飞跃是1907年电子管的发明和1920年无线电广播的出现。

因为有了电子管放大器,很微弱的声音也可以放大,而且可以定量测量。

从而使电声学和语言声学的一些研究成果,扩展到通信和广播部门。

第二次飞跃应该是20世纪70年代初,由于电子计算机和数字信号处理的发展,人们发现:

声音信号特别是语音信号,可以通过模数转换器(A/D)采样和量化,它们转换为数字信号后,能够送进计算机。

这样就可以用数字计算方法,对语音信号进行处理和加工。

例如频谱分析可以用傅里叶变换或快速傅里叶变换(FFT)实现,数字滤波器可以用差分方程实现。

在这个基础上,逐渐形成了一门新学科——语音信号处理。

它的发展很快,在通信、自动控制等领域,解决了很多用传统方法难以解决的问题。

在信息科学中占有很重要的地位,其中语音识别的研究也开始了飞速的发展。

语音识别的研究工作可以追溯到20世纪50年代AT&

T贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。

但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。

这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。

这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统;

同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

随着应用领域的扩大,小词汇表,特定人,孤立词等这些对语音识别的约束条件需要放宽,与此同时也带来了许多新的问题:

第一,词汇表的扩大使得模板的选取和建立发生困难;

第二,连续的语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音(Co-articulation)现象;

第三,在非特定人识别时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大的差异;

第四,识别的语音中有背景噪声和其他干扰。

因此原有的模板匹配方法已不再适用。

20世纪90年代前期,许多著名的大公司如苹果、IBM、NTT和AT&

T都对语音识别系统的实用化研究投以巨资。

语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在20世纪90年代中后期实验室研究中得到了不断提高。

比较有代表性的系统如下:

IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking,Nuance公司的NuanceVoicePlatform语音平台,Microsoft的Whisper,Sun的VoiceTone等。

其中IBM公司于1997年开发出汉语ViaVoice语音识别系统,次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice’98。

它带有一个32000词的基本词汇表,可以扩展到65000词,还包括办公常用词条,具有“纠错机制”,其平均识别率可以达到95%。

该系统对新闻语音识别具有较高的精确度,是目前最具有代表性的汉语连续语音。

我国语音识别研究工作起步于五十年代初,但近年来发展很快。

研究成果也从实验室逐步走向实用。

从1987年开始执行国家863计划后,国家计算机专家组为语音识别技术研究专门立项,每两年滚动一次。

我国语音识别技术的研究水平已经基本上和国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。

中科院自动化所、声学所、北京大学、清华大学、哈尔滨工业大学、中国科技大学、上海交通大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系和中科院自动化研究所的模式识别国家重点实验室。

清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(不定长数字串)和96.8%(定长数字串)。

在有5%拒识率情况下,系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经达到实用水平。

研发的五千词语音库对非特定人连续语音识别系统的识别率达到98.73%;

并且可以识别四川话和普通话两种语言,达到实用要求。

中科院自动化所及其所属模式科技公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品——PattekASR,结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。

1.3主要研究内容

本文研究的是语音信号的倒谱分析,首先第一章的绪论部分,介绍了本文的研究目的与意义、语音信号的研究现状和本文的研究内容。

第二章介绍了语音识别技术基本理论。

简要对其进行了分类研究,详细说明了语音信号的数字化和预处理、语音识别技术的基本原理、技术模型、以及处理所使用的基本方法。

第三章详细叙述了倒谱的定义基本原理以及计算方法,优点和缺点。

将倒谱化分为实倒谱和复倒谱,并对二者之间的关系进行区分,由此奠定了倒谱分析研究的基础。

然后利用到谱进行了MFCC参数的提取。

接着第四章介绍了倒谱系数分析在语音特征提取中的应用,包括基音检测以及共振峰的提取。

最后第五章具体研究了倒谱在语音信号处理中的实现方法,主要是语音信号识别的参数提取。

首先通过输入一段语音,并将其导入到MATLAB程序中进行语音的处理,完成语音在MATLAB中的倒谱实现。

接着介绍倒谱在同态信号处理系统中的作用及同态信号处理系统的工作原理,然后是语音信号的主要应用,也是语音倒谱分析的重点内容,包括基音检测和共振峰检测两个方面,作为语音信号的重要参数,分别进行了详细的设计,同时为了清晰的描述程序的编写过程,对设计思路方法都进行了完备的阐述,并依据设计的算法画出了逻辑流程图,从而在MATLAB中完成程序的编写,最后通过对仿真结果进行了理论的分析,得出了语音的参数量值,完成了对语音信号倒谱分析的内容。

第2章语音识别技术基本理论

语音识别技术,也被称为自动语音识别AutomaticSpeechRecognition,(ASR)[2],其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。

与说话人识别和说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别是模式识别的一种,它是让机器通过识别和处理过程将语音信号转变成相应的模型参数。

一个完整的语音识别系统主要由两部分组成:

语音特征提取、声学模型和模式匹配(即识别算法)。

常用的语音特征参数有LPCC和MFCC。

LPCC参数是根据声管模型建立的特征参数,主要反映声道响应。

MFCC参数是基于人的听觉特性利用人听觉的临界带效应,在Mel标度频率域提取出来的倒谱特征参数。

标准的MFCC和LPCC参数只反映了语音的静态特性,而它们的差分倒谱参数可以反映语音的动态变化。

2.1语音信号的数字化与预处理

对模拟语音信号进行量化和采样,获得数字化的语音信号;

然后将含噪的语音信号通过去噪处理,得到干净的语音信号后并通过预加重技术滤除低频干扰,尤其是50Hz到60Hz之间的工频干扰,提升语音信号的高频部分,而且它还具有消除直流漂移、抑制随机噪声和提升清音部分能量的作用。

降噪后,通过对语音信号的短时能量和短时过零率检测可以剔除掉静默帧、白噪声帧和清音帧,最后保留对求取基音、LPCC、MFCC等特征参数非常有用的语音信号。

预处理:

假设输入的音频信号为

预处理过程如下。

1)归一化处理:

归一化处理的目的是消除不同样本声音大小的差异,将样本幅度值限定在[-1,+1]。

2)预加重:

预加重一般是用具有6db/倍频程的一阶数字滤波器来实现,如式(2—1)所示:

(2-1)

其中μ为常数,一般取0.97。

3)对音频信号进行重叠分帧:

为避免信号间断一般取256点为一帧,帧间重叠为128点。

语音信号的数字化一般包括放大及增益控制、预滤波(主要是反混叠滤波)、A/D转换(包含采样过程)及编码(PCM编码)。

预处理一般包括预处理、加窗和分帧等。

有时在分析处理之前必须把分析的语音信号部分从输入信号中找出来,这就是语音信号的端点检测。

图2-1

是语音信号数字分析或处理的系统框图。

图2-1语音信号数字处理系统框图

2.2语音识别技术模型

目前,主流的大量语音识别系统多采用统计模式识别技术。

典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成:

信号处理及特征提取模块。

该模块的主要任务是从输入信号中提取特征,供声学模型处理。

同时,它一般包括了一些信号处理技术,以尽可能的降低环境噪声、信道、说话人等因素对特征造成的影响。

统计声学模型:

典型系统多采用基于一阶隐马尔科夫模型进行建模。

发音词典:

发音词典包含系统所能处理的词汇集及其发音。

发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。

语言模型:

语言模型对系统所针对的语言进行建模。

理论上,包括正规语言,上下文无关语法在内的各种语言模型都可以作为语言模型,但目前各种系统普遍采用的还是基于统计的N元文法及其变体。

解码器:

解码器是语音识别系统的核心之一,其任务是对输入的信号,根据声学、语言模型及词典,寻找能够以最大概率输出该信号的词串。

从数学角度可以更加清楚的了解上述模块之间的关系。

首先,统计语音识别的最基本问题是,给定输入信号或特征序列,符号集(词典),求解符号串使得:

(2-2)

通过贝叶斯公式,上式可写为:

(2-3)

由于对于确定的输入串P(O)[4]是确定的,因此省略它并不会影响上式的最终结果,因此,一般来说语音识别所讨论的问题可以用上面的公式来表示,可以将它称为语音识别的基本公式。

从这个角度来看,信号处理模块提供了对输入信号的预处理,也就是说,提供了从采集的语音信号(记为S)到特征序列0的映射。

而声学模型本身定义了一些更具推广性的声学建模单元,并且提供了在给定输入特征下,估计P的方法。

为了将声学模型建模单元串映射到符号集,就需要发音词典发挥作用,它实际上定义了映射的映射。

语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。

语音技术的应用已经成为一个具有竞争性的新兴高技术产业[3]。

与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高科技技术。

语音识别是一门交叉学科,近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。

人们预计,未来10年内,语音识别技术将进入工业、制造、通信、汽车电子、医疗、家庭服务、消费电子产品等各领域。

语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。

2.3语音识别技术原理

语音信号处理虽然包括语音通信[4],语音合成和语音识别等方面的内容,但其基本前提和基础是对语言信号进行分析。

语音的压缩和恢复是语音信号处理的关键技术。

近年来有关这方面的研究不断发展成熟,并形成一系列的标准。

在语音信号的各种分析合成系统中,需要提取频谱包络参数,推测音源参数(清浊音的判定以及浊音周期等)。

只有将语音信号分析表示成其本质特性的参数,才可能利用这些参数进行高效的语音通信,才能建立用于语音合成的语音库,从而建立用于识别的模板或知识库。

语音识别的技术原理是找出特征参数。

特征提取的目的是找出一组可以代表每位说话者声音特性参数来进行识别,该参数应不宜受环境干扰并具有鉴别能力。

对于语音信号而言,倒谱可以将频谱上的高低频成分分离,所以只需取前面几项参数,就能代表语音信号的特性,从而提高识别率。

而根据所分析的参数不同,语音信号分析可分为时域,频域,倒谱域等方法。

进行语音信号分析时,最先接触到的,也是最直观的是它的时域波形。

时域分析具有简单直观,清晰易懂,运算量小,物理意义明确等优点。

但更为有效的分析是围绕频域进行的,因为语音中最重要的感知特性反映在其功率谱中,而相位变化只起着很小的作用[5]。

频谱分析具有以下优点:

时域波形较易随外界环境变化,但语音信号的频谱对外界环境变化具有一定的顽健性。

另外,语音信号的频谱具有非常明显的声学特性,利用频域分析获得的语音特征具有实际的物理意义。

如MFCC,共振峰,基音周期等参数。

倒谱域是将对数功率谱进行逆傅立叶变换后得到的,它可以进一步将声道特性和激励特性有效地分开,因此可以更好地揭示语音信号的本质特性。

本文给出基于倒谱的语音特性的提取算法设计及其实现。

使读者对相关技术的基本理论,方法和基本应用有一个系统的了解。

2.4语音识别系统分类

语音识别系统可以根据对输入语音的限制[6]加以分类。

从说话者与识别系统的相关性考虑:

可以将识别系统分为3类:

(1)特定人语音识别系统:

仅考虑对于专人的话音进行识别;

(2)非特定人语音系统:

识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行扩充;

(3)多人的识别系统:

通常能识别一组人的语音,或者是特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。

从说话的方式考虑:

也可以将识别系统分为3类:

(1)孤立词语音识别系统:

孤立词识别系统要求输入每个单词后要停顿;

(2)连接词语音识别系统:

连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现;

(3)连续语音识别系统:

连续语音输入是自然流利的连续语音输入,大量连音和变音将会出现。

从识别系统的词汇量大小考虑:

(1)小词汇量语音识别系统:

通常包括几十个词的语音识别系统。

(2)中等词汇量的语音识别系统:

通常包括几百个词到上千个词的识别系统。

(3)大词汇量语音识别系统:

通常包括几千到几万个词的语音识别系统。

随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别系统根据词汇量大小进行分类也不断进行变化。

目前是中等词汇量的识别系统到将来可能就是小词汇量的语音识别系统。

这些不同的限制也提高了语音识别系统的困难度。

2.5语音识别基本方法

一般来说,语音识别的方法有三种:

基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络[7]的方法。

基于语音学和声学的方法:

该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段仍没有达到实用的阶段。

通常认为常用语言中有有限个不同的语音基元,而且可以通过其语音信号的频域或时域特性来区分。

这样该方法分为两步实现:

第一步,分段和标号:

把语音信号按时间分成离散的段,每段对应一个或几个语音基元的声学特性。

然后根据相应声学特性对每个分段给出相近的语音标号。

第二步,得到词序列:

根据第一步所得语音标号序列得到一个语音基元网格,从词典得到有效的词序列,也可结合句子的文法和语义同时进行。

模板匹配的方法:

模板匹配的方法发展比较成熟,目前已达到了实用阶段。

在模板匹配方法中,要经过四个步骤:

特征提取、模板训练、模板分类、判决。

常用的技术有三种:

隐马尔可夫(HMM)理论、动态时间规整(DTW)、矢量量化(VQ)技术。

1、动态时间规整(DTW)

语音信号的端点检测是进行语音识别中的一个基本步骤,它是特征训练和识别的基础。

所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置,从语音信号中排除无声段。

在早期,进行端点检测的主要依据是能量、振幅和过零率。

但效果往往不明显。

日本学者Itakura提出了动态时间规整算法(DTWDynamicTimeWarping)。

算法的思想就是把未知量均匀的升长或缩短,直到与参考模式的长度一致。

在这一过程中,未知单词的时间轴要不均匀地扭曲或弯折,以使其特征与模型特征对正。

2、隐马尔可夫法(HMM)

隐马尔可夫法(HMM)是70年代引入语音识别理论的,它的出现使得自然语音识别系统取得了实质性的突破。

HMM方法现已成为语音识别的主流技术,目前大多数词汇量、连续语音的非特定人语音识别系统都是基于HMM模型来实现的。

HMM是对语音信号的时间序

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 初中教育 > 政史地

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1