语音合成技术及应用.docx

资源描述

语音合成技术及应用.docx

《语音合成技术及应用.docx》由会员分享，可在线阅读，更多相关《语音合成技术及应用.docx（8页珍藏版）》请在冰豆网上搜索。

语音合成技术及应用.docx

语音合成技术及应用

摘要……………………………………………………………………………………1

关键词…………………………………………………………………………………1

Abstract………………………………………………………………………………1

Keywords……………………………………………………………………………2

引言（或绪论）………………………………………………………………………2

1语音合成技术及其发展3

1.1语音合成技术3

1.2语音合成技术的发展4

2语音合成的关键技术5

2.1语音合成技术简介5

2.2TTS系统的组成5

2.2.1文本生成6

2.2.2韵律的生成6

2.2.3语音生成6

3汉语语音合成技术的难点7

3.1汉语语音的特征7

3.2汉语语音合成的难点7

4语音合成技术的应用8

5总结9

致谢9

参考文献9

语音合成技术及应用

电子信息工程学生刘志坚

指导教师杨尚国

摘要：

现代社会已经进入数字化信息时代,网络技术和多媒体技术获得迅猛发展,计算机与人之间的交互日益频繁。

如何使电脑具有类似于人一样的听、说能力,成为自90年代以来信息产业的研究热点。

要建立一个具有听、说能力的计算机语音系统,必需的两项关键技术就是语音识别技术与语音合成技术。

同语音识别技术相比,语音合成技术相对成熟一些,是该领域中近期最有希望产生突破性进展并形成产业化的技术,而汉语语音合成的实用化更将成为中国计算机产业的下一个亮点。

介绍信息技术处理领域的一项前沿技术——语音合成技术。

简述了语音合成技术的发展历史以及目前国内外在此研究领域的最新成果。

讨论了在语音合成技术中用到的一些方法并对这些方法作了简单地分析。

简述了语音合成技术的基本工作原理以及从文字信息到语音输出的工作流程。

对于当前语音合成中热点的文本分析、韵律生成、语音合成三项关键技术进行了剖析,并针对中文的文语特点,指出了中文语音合成技术的难点所在。

简介了语音合成技术的应用领域。

关键词:

语音合成　语音识别　文语转换系统　汉语文语转换系统TTS技术

Speechsynthesistechniqueanditsapplication

StudentmajoringinElectronicInformationEngineering

Nameliuzhijian

Tutoryangshangguo

Abstract:

Withthecomingofthedigitalinformationera,networkandmultimediatechnologyaredevelopinginatremendousspeed.Theinteractionbetweencomputerandmanisincreasinggreatly.HowtomakethecomputerhavethesamelisteningandspeakingabilityashumanbeinghasbecomeThefocusofresearchoftheinformationindustrysince1990s.Toestablishacomputersystemwhichhaslisteningandspeakingability,VoiceIdentificationandVoiceSynthesisarethetwokeytechnologies.ComparingwiththeVoiceIdentificationtechnology,VoiceSynthesistechnologyissomewhatmorematureandisthemostpromisingtechnologywhichcanbringforthbreakthroughdevelopmentandrealizeindustrialization.Meanwhile,theutilizationofChinesevoicesynthesiswillbecomethenexthotspotofChinacomputerindustry.Itrecommendsaforwardpositioninformationdisposaltechnologyofthefield,thesynthetictechnologyofthepronunciation,sketchesoutthedevelopinghistoryoftheresearchfieldandtherecentachievementsfromChinaandover-seas,discussesandanalysesbrieflythemethodsusedinpronunciationsynthetictechnology,explainthebasicoperationprinciplesofthepronunciationsynthetictechnologyandworkflowfromcharactersinformationtopronunciationoutput.ThispaperanalyzesTextAnalysis,RhythmGenerationandSpeechGeneration,thethreekeytechnologieswhicharethehotspotsofvoicesynthesis,andpointsoutthedifficultiesthatmaycomeupaccordingtothecharacteristicsofChineselanguage.Inlast,theapplication

fieldisrecommended.

Keywords:

voicesynthesis;voiceidentification;texttospeechsystem;Chinesetexttospeechsystem;TTStechnology

引言通过对语音合成技术的学习和研究，掌握语音合成技术的基本理论并在此基础上深入学习，阐述以前语音合成的方法并学习现在语音合成技术的主流方法。

对此技术的应用也应知道，找到在应用时的难点。

1语音合成技术及其发展

1.1语音合成技术

在计算机系统中,语音应用技术主要是指基于语音进行处理的技术,主要包语音识别技术和语音合成技术,是信息技术处理领域的一项前沿技术。

语音识别（SR,SpeechRecongnition）技术是指计算机系统能够根据输入的语音识别出其代表的具体意义,进而完成相应的功能。

一般的方法是事先让用户朗读有一定数量文字、符号的文档,通过录音装置输入到计算机,于是计算机就准备好了用户的声音样本。

以后,当用户通过语音识别系统操作计算机时,用户的声音通过转换装置进入计算机内部,语音识别技术便将用户输入的声音与事先存储好的声音样本进行对比。

系统根据对比结果,输入一个它认为最“象”的声音样本序号,就可以知道用户刚才念的声音是什么意义,进而执行此命令。

因此通过语音识别技术,计算机可以“听”懂人类的语言。

语音合成技术是将计算机自己产生的或外部输入的文字信息,比如文本文件内容、WORD文件内容等文字信息,按语音处理规则转换成语音信号输出,即使计算机流利地读出文字信息,使人们通过“听”就可以明白信息的内容。

也就是说,使计算机具有了“说”的能力,能够将信息“读”给人类听。

这种将文字转换成语音的技术称之为文语转换技术,简称TTS（TexttoSpeech）技术,也称为语音合成技术。

1.2语音合成技术的发展

什么产业将会是二十一世纪这一新的发展阶段科技舞台的亮点?

提出摩尔定律的英特尔（Intel）创办人摩尔（GordonMoore）直指:

“语音技术将是影响未来科技发展最关键的技术。

”这一预言,使语音技术的发展,立即受到全球的注目。

语音合成技术涉及声学、语言学、数字信号处理技术、多媒体技术等多个领域,是当今世界强国竞相研究的热门技术之一。

语音合成技术可分为参数合成和波形拼接两种方法。

早期的研究主要是采用参数合成方法,它是计算发音器官的参数,从而对人的发音进行直接模拟。

如著名的Klatt的共振峰合成系统。

在汉语语音合成方面,研究人员研制出了一些基于共振峰模型的应用系统。

如社科院语言所的SIFS合成器、中科院声学所的KX1系统中基于Holmes的并联型共振峰合成器模型,而同样由中科院声学所开发的第二代共振峰合成器KXFSS则基于Klatt合成器。

由于准确提取共振峰参数比较困难,虽然利用共振峰合成器可以得到许多逼真的合成语音,但是整体合成语音的音质难以达到文语转换系统的实用要求。

因此后来又产生了基于LPC、lSP等声学参数的合成系统。

LPC合成技术的优点是简单直观,对于单个合成基元来说能够获得很高的自然度。

LPC合成技术是一种时间波形的编码技术,从本质上来说只是一种录音加重放,对于合成整个连续语流,LPC合成技术的效果是不理想的。

自20世纪80年代末期至今,语言合成技术又有了新的进展,特别是基音同步叠加（PSOLA）方法的提出（1990）使基于时域波形拼接方法合成的语音的音色和自然度大大提高。

PSOLA技术的主要特点是:

在拼接语音波形片断之前,首先根据上下文的要求,用PSOLA算法对拼接单元的韵律特征进行调整,使合成波形既保持了原发音的主要音段特征,又能使拼接单元的韵律特征符合上下文的要求,从而获得很高的清晰度和自然度。

20世纪90年代初,基于PSOLA技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功。

这些系统的自然度比以前基于LPC方法或共振峰合成器的文语合成系统的自然度要高,并且基于PSOLA方法的合成器结构简单易于实时实现,有很大的商用前景。

最近几年,一种新的基于数据库的语音合成方法正引起人们的注意。

在这个方法中,合成语句的语音单元是从一个预先录下的庞大的语音数据库中挑选出来的,不难想象只要语音数据库足够大,包括了各种可能语境下的语音单元,理论上讲有可能拼接出任何语句。

由于合成的语音基元都是来自自然的原始发音，合成语句的清晰度和自然度都将会非常高。

目前,主要的语音合成技术是共振峰合成技术和基于PSOLA算法的波形拼接合成技术。

这两种技术各有所长,共振峰技术比较成熟,有大量的研究成果可以利用,而PSOLA技术则是比较新的技术,具有良好的发展前景。

过去这两种技术基本上是互相独立发展的,现在许多学者开始研究它们两者之间的关系,试图将两者有效地结合起来,从而合成出更加自然的语流。

例如清华大学的研究人员进行了将共振峰修改技术应用于PSOLA算法的研究,并用于Sonic系统的改进,研制出了具有更高自然度的汉语文语转换系统。

随着人们对语音合成的自然度和音质的要求越来越高,PSOLA算法表现出对韵律参数调整能力较弱和难以处理协同发音的缺陷。

因此,人们又提出了一种基于LMA（对数振幅近似）声道模型的语音合成方法。

这种方法同传统方法相比,具有音质好,对时长和声调适应性强,可以灵活调节韵律参数等优点。

比较好的解决了PSOLA算法难以解决的协同发音问题,因此具有比PSOLA算法更高的合成音质。

2语音合成的关键技术

2.1语音合成技术简介

语音合成技术是使电脑或通信终端具有类似于人一样的说话能力的一项技术,是当今信息产业重要的竞争领域。

和语音识别相比,它是以语音为媒介的信息系统的输出装置,即语音输出的技术。

按照智能化程度的不同层次,语音合成也可分成3个层次:

（1）文字到语音的合成（Text-To-Speech）;

（2）概念到语音的合成（Concept-To-Speech）;

（3）从意向到语音的合成（Intention-To-Speech）。

从采用的合成技术来划分,语音合成基本分成两大类,基于规则的合成以及拼接合成技术。

（1）基于规则的合成

这种合成方法是采用数字信号处理的方法,将发声过程看作一个模拟声门状态的源,去激励一个表征声道谐振特性的时变数字滤波器,主要是用波形叠加的方法模拟人的声带、口腔等器官。

（2）拼接语音合成技术

它的基本思想是存储语音的基元,合成时读取基元,进行拼接、韵律修饰,之后合成语音。

采用的合成技术有拼接合成及规则合成之分。

规则合成由于自身的弱点,近年来,已逐渐转向拼接合成。

拼接语音合成是直接把语音基元相互拼接在一起,输出连续语流。

这些语音基元取自自然语音的词或句子,它隐含了声调、重音、发音速度变化时的细微特性,合成的语音清晰自然,其质量普遍高于规则合成,但韵律参数修改范围受限。

由于80年代末期,基于波形修改的语音合成算法PSOLA的提出,使拼接合成得到很大的发展与广泛的应用。

2.2TTS系统的组成

TTS系统就是指文语转换系统（Text-To-Speech系统）,它的主要功能是将计算机中任意出现的文字转换成自然流畅的语音输出。

一般认为TTS语音合成系统包括三个主要组成部分:

文本分析模块、韵律生成模块和语音生成模块。

2.2.1文本生成

文本分析模块的主要功能是使计算机能认识文本中出现的文字,知道这些文字要发什么样的音、怎么去发音,并且将发音的方式告诉计算机。

这一工作过程可分为三个主要步骤:

（1）将已有的文本规范化。

在这个过程中,要查找拼写错误,并将文本中出现的一些不规范或无法发音的字符过滤掉。

（2）确定发音。

这一过程中要分析文本中词或短语的边界,确定文字的读音,同时分析文本中出现的数字、姓氏、特殊字符、专有词语以及各种多音字的读音方式。

（3）给出发声的语气等各类特征。

根据文本的结构、组成和不同位置上出现的标点符号,确定发音时语气的变换以及不同音符的轻重方式。

最终,文本分析模块将输入的文字转换成计算机能够处理的内部参数,便于后续模块进一步处理并生成相应的信息。

2.2.2韵律的生成

初始的文本经过文本分析模块的处理就可以告诉计算机发什么样音。

但这时这种发音方式还是抽象意义上的发声,而要真正能够发出实际特定的音来还需要给出一定的韵律特征,如语调、语气、停顿方式等。

这一任务就由韵律生成模块来完成,该模块给出韵律参数,韵律参数则包括了各类声学参数如基频、时长、音强等。

与文本分析的实现方法相类似,韵律的生成方法也分为基于规则和数据驱动两种方法。

早期的韵律生成方法大多采用基于规则的方法,目前,通过神经网络或系统驱动的方法进行韵律生成以获得成功的应用正在深入地研究和探讨。

要完成韵律生成的功能需要很多语音学、声学的知识。

这一方面的技术问题在本文中不进行深入探讨。

2.2.3语音生成

系统掌握了韵律控制参数后,就由语音生成模块来使计算机发声。

这一功能是通过一个声学模块来具体实现的。

根据韵律建模的结果,从原始音库中取出相应的语音基元,利用特定的语音合成技术对语音基元进行韵律特性的调整和修改,最终合成出符合要求的语音。

早期语音合成系统的声学模型多是通过模拟人的口腔的声道特性来产生的。

近10年来,采用波形拼接（PSOLA）合成语音的方法越来越被广泛应用。

这种方法的核心思想是直接对存储语音库的语音运用PSOLA算法进行拼接,从而合成完整的语音。

3汉语语音合成技术的难点

20世纪60年代,英语TTS系统首先被研制成功。

80年代,我国开始介入汉语语音合成领域的研究。

近些年来,在国家”863”智能计算机主题的支持下,汉语TTS技术有了长足的进步。

3.1汉语语音的特征

众所周知,汉语是一个有调的语言,这是它与其他西方语系最大的不同之处。

汉语是单音节的语言,声母、韵母、声调是汉语语音音节的三要素。

通常我们所讲的汉语口语往往是由多个字组成的连续语句,单个汉字的声调的调型会受相邻其他字或词的影响,常常会产生变换,甚至失去原有的调型,这就是汉语中常说的协同发音现象。

这也就是为什么人说话时会有连续感,而不是一个字、一个字地发音。

同时,连续语句发音的中间还会有短暂的停顿,这些又体现了人说话的节奏感。

这些汉语独有的特征使得汉语音合成具有不同于其他语言的难点。

3.2汉语语音合成的难点

汉语TTS系统中首先要考虑的是语音数据库的基本单元的选择问题,我们把这种基本单元称为音元。

合理的选择语音数据库的基本单元是一个重要的问题,对于一个语音系统,可以用不同层次的音元成分来实现。

如果以汉语中的句子作为音元,那么因为句子包含了丰富的韵律特征,以及字与字之间的连接过渡特征,所以语音输出的质量很好,但是需要的数据量是巨大的。

因为,实际中不同句子的个数是无穷尽的,同时在文本分析时对于用句子进行匹配也是相对困难的,因此要把所有的句子作为音元存储是不可能的。

句子作为音元,只能出现在少量的、有限词汇的应用环境中。

比句子小的单元是词,在一个自然语言中,词语的数目可以说是无限的。

随着社会的发展,不断有新的词语创造出来,不过在一定的时间范围内,常用的词语为数是不很多的。

如果在汉语中精心挑选出五千个常用词,其使用的覆盖率可达90%,所以用词作为音元是一个可行的方案。

但是它所占的存储量也相当大,因此只能在专门的场合中使用。

也可以将汉语中的单个字作为音元,在汉语中汉字的总数量相当稳定,而且常用字的个数大约在几千个,个数相对较少,因而以字作为音元的语音数据库不会很大,需要的存储量就相对较小。

但是,单个字所能携带的韵律特征相对比较少,处于不同的词语中的字音将会有所不同,因此,若以字作为音元势必在进行韵律特征分析时困难很多。

总之,选择合适的音元是汉语语音合成技术的难点之一。

其次,在汉语TTS系统中,特殊符号处理、分词处理和拼接处理将会是汉语文语转换系统整体性能提高的三大处理环节。

如果能够很好地解决汉语语音合成中的三大处理环节,汉语文语转换系统的整体性能将会有很大提高。

对于标点符号的处理是文本分析模块首先遇到的问题。

汉语中使用了句号、分号、逗号、顿号等各类符号。

这些标点符号中,有些是别的语言中没有的,或是与别的语言不相同的。

因此在文本分析时,要根据不同的符号将文本划分成句子、短语、字等。

只有正确做好这种划分才能使后续操作顺利进行。

汉语不同于西方语言,汉语文本中词与词之间没有明确的分隔标记,而是连续的汉字串。

因此自动识别词的边界,将汉字串切分为正确的词串是继标点符号处理之后又一难点。

汉语词语切分中存在着切分歧异,因而需要利用各种上下文知识解决词语的切分歧异问题。

正确的进行分词处理需要有汉语语音学、语义学等各方面的知识,而且需要进行长期的总结、归纳,所以这也是相当困难的。

在词语切分之后,应该进行韵律生成,也就是将不同词语的发音拼接成完整的句子,这也应该是一个难点。

之所以这么说是因为当汉语中多个字组成词或词组而连续发音时,它们之间会相互影响,形成较独立、完整的韵律块。

这些韵律块的韵律特征对语音的自然度起着非常重要的作用,而不同的韵律块组合在一起,往往可以形成不同的语调,使人的发音具有不同的语气。

显然,要在韵律生成模块中所要完成的拼接处理也不是轻易就能够解决的,这需要多学科专家的共同努力。

随着汉语语音学和计算机技术的发展,汉语TTS系统的研究目前已获得了重大进展,并成功地应用在许多不同的场合。

但是,汉语语音合成的结果与人自然流畅的发音仍相去甚远,其中的关键就在于语音韵律模型还不很完善。

另外,人有思想、会思考,这就要求语音合成系统不仅应该发音清晰、自然,还应该能像人一样具有自我学习的功能,具有个人特色,甚至具有模拟特定人发音的能力。

实现高性能汉语文语转换系统的关键是汉语语音合成技术中的合成自然度问题。

要实现高自然度的汉语TTS系统需要汉语语言学、汉语语音学、声学、计算机科学等各个领域的专家通力合作。

共同的努力必将使我们的汉语语音合成技术早日达到实用化的目标。

4语音合成技术的应用

语音技术的研究已有四十多年的历史。

目前,国内外有不少语音技术的产品,语音技术的应用领域也很广泛。

机载的计算机语音指令系统是美国空军重点研的新技术之一。

在我国,应用语音合成技术的产品也有许多种。

现按其应用范围,归纳为下列几类:

（1）语音留言机。

采用语音合成中的语音存储与重放技术,其存储或重放的语音持续时间有16秒、40秒、128秒等多种.这类语音留言机目前都是通用型的,可与各种应用领域相结合得到进一步扩展,如电话留言机等。

（2）电脑报站机。

应用于公共交通汽车、电车以及地铁列车等电脑报站机也采用语音合成技术。

其将语音输入计算机后存于数字存储器中（经过数码压缩处理）,使用时在软件的管理下根据需要把数字合成语音输出,这种技术也属于语音存储与重放技术。

（3）电脑语音报警器。

在冶金、化工、石油、电力等的自动控制系统中广泛使用闪光报警器,配合以一定的音响警报.如冷却水温、汽油储存量及各种灯光信号的不正常状态,用汉语语音报送出来.它可以延长设备使用寿命,保障安全和减轻人员的负担。

无线电防盗、防火报警则能根据单位或家庭中的盗窃、火灾等情况用明确的语音发出报警。

（4）文本阅读系统。

在计算机辅助教学、文稿校对等方面,需要将存在打出的文字或已打出的文字稿件或在屏幕上显示的文字,用语音读出来,这就要文本阅读系统,它采用线性预测语音合成技术。

一般来说这种场合语言库较大,用时域波形编码无法满足要求,因此采用数码压缩比大的线性预测编码。

这种系的价格较高,不宜应用于留言、报警等语音输出场合。

5总结

通过本次毕业设计，我对语音信号合成技术及其很多应用有了更多的了解或学习。

对一些不是很懂但是课本上介绍又很少的相关知识，我借助网络进行搜素学习，达到了更全面的学习和掌握。

我们相信,积聚我们所有的各类技术、人力资源,不断努力、创新,我们一定能够看到中文语音技术在我国本土内实现实用化目标的未来,一定会呈现出一片中文语音技术产业的空前繁荣的景象!

致谢

在整个毕业设计过程中，指导老师给了我很大的帮助，在语音信号合成问题上，杨尚国老师给了我很大的帮助，在一些语音信号相关知识方面给了我很多的指导，帮我检查出了设计错误所在，在这里谢谢老师的指导。

其次，还要感谢在这过程中给予我帮助和分析的同学们，在我遇到阻碍的时候，耐心的帮助我分析程序设计，让我在分析过程中学到了很多的相关知识，让我了解更深的语音信号合成知识。

最后，再一次衷心感谢这次实训的指导老师和同学们！

参考文献

[1]黄昌宁,夏莹。

《语言信息处理专论》,清华大学出版社、广西科学技术出版社,1995

[2]朱民雄。

《计算机语音技术》,北京航空航天大学出版社,1992

[3]唐浩。

语音合成技术应用实例[J]。

计算机世界报/产品与技术版0,2000,10

展开阅读全文