合肥工业大学研究生联合培养实践报告文档格式.docx
《合肥工业大学研究生联合培养实践报告文档格式.docx》由会员分享,可在线阅读,更多相关《合肥工业大学研究生联合培养实践报告文档格式.docx(13页珍藏版)》请在冰豆网上搜索。
2.
国内外语音合成技术的研究背景语音合成的研究历史可以追溯到18世纪末,法国人W.
VonKempelen在1791年展示了一个机械式会说话的装置,机器内部采用了与声道结构类似的共振器,通过簧片改变音色,该装置可以产生元音、整个词语和语句。
自20世纪出现了电子合成器以来,语音合成的研究达到了飞速发展。
1930年,贝尔实验室开发了声音编码器,它是一种用键盘操作的电子语音分析器和合成器。
1939年,贝尔实验室H.Dudley在其基础上进行改进,制作了电子式语音合成器VODER,利用共振峰原理制作得到的一个语音合成器,通过电子线路来实现基于语音产生的源/滤波器理论。
1960年,瑞典语言学家G.Fant系统阐述了语音产生的理论,推动了语音合成的进步1982年,MIT教授D.
Klatt设计的串/并联混合型共振峰合成器,可模拟发声过程中的声道共振,元音和浊辅音的产生用串联通道来实现,清浊音的产生用并联通道来实现,还可以选择和调整声源,模拟不同的嗓音,它可以发出供用户选择的七中不同音色的语音,在发音速度上增加到每分钟350词时也可以达到清晰、自然的效果。
在这些创新研究的带动下,其他语种的语音合成系统也相继实现,如日本的Matsushita电子公司利用DECTalk系统开发了将日语和汉语转换成口语的系统,德国Fraunhofer学会功效研究所成功开发了DECTalk的德语版本。
20世纪80年代末,语音合成技术有了新的突破,基于时域波形修改的语音合成
算法PSOLA(PitchSynchronousOverlapAdd)的提出[3],较好地解决了语音拼接的问题,大大提高了合成语音的自然度。
20世纪90年代中期,随着语音识别技术中统计模型的出现,研究者提出了可训练的语音合成技术,该方法是基于统计建模和机器学习的,根据一定的语音数据进行训练并快速构建语音合成系统。
其中,以基于HMM的建模与参数生成合成方法为代表。
对于国内的中文语音合成的研究起步较晚,从20世纪80年代开始,中科院声学所、中科院自动化所、中国科技大学以及社科院语言所都相继开展了这方面的研究,大致也经历了共振峰合成、线性预测合成和基于PSOLA技术的过程。
如1993年中国科学院声学所的K_-PSOLA、1994年中科院声学所开发的“联想佳音”语音合成系统,弓I入了基音同步叠加技术(PSOLA),在当年国家863评比中获得第一名。
1998年,中国科技大学KD-863汉语文语转换系统采用了对数幅度逼近算法(LMA)语音合成器,该方法有效提高了合成语音的音质和自然度。
随着统计模型方法的提出,很多单位和研究机构也开展了基于HMM参数的语音合成方法的研究,如中科大、清华大学、IBM中国研究中心以及微软亚洲研究院等。
其中,最具代表性的是中科大及科大讯飞公司,20__0年以来,中科大讯飞通过采用LMA声道模型的技术,能够合成出高自然度的语音[5][6]。
3.
语音合成技术3.1波形拼接合成方法波形拼接合成方法是一种相对简单的语音合成技术。
波形拼接合成方法的基本原理就是根据输入文本分析得到的信息,从预先录制和标注好的语音库中挑选合适的单元,进行少量的调整(也可以不进行调整),然后拼接得到最终的合成语音,其中用来进行单元挑选的信息可以是前端分析得到的韵律文本,也可以是生成的声学参数(比如基频、时长和谱参数),或者两者兼有。
简单点说,就是根据待合成的信息,在语音库中取出相应单元的波形数据,拼接或者编辑到一起,经过解码恢复语音。
在这个过程中,语音合成器的主要功能是实现语音的存储和回放。
一方面,基于波形拼接的语音合成的效果好坏直接取决于语料库的规模大小以及所选取的合成单元,它需要足够大的存储空间来存放这些大规模的语料库,需要较高的计算和存储能力,相应的时间和空间的投入较多;
并且占用大规模的内存空间,也不适合应用于嵌入式系统和移动设备终端;
并且,如果待合成语句中含有超出训练语料库覆盖范围的音段,当训练库覆盖不够并且合成过程中挑选不到合适的单元时,或者某些拼接单元的连接处出现不连续的现象时,语音合成效果明显下降;
另一方面,波形拼接
合成单元一旦确定就无法做任何调整和改变,也无法根据上下文来调节其韵律特征,这样就使得发音风格比较单一,当需要改变合成语音的速度、发声风格、性别等特征时,需要大规模重新调试优化整个训练流程,可扩展性不够。
基音同步叠加技术(PSOLA)是基于波形拼接的语音合成中应用最广泛的一种方法。
PSOLA算法在语音波形片段拼接之前,先根据语义对拼接单元的韵律特征进行调整,这样既可以保留原始语音基元的主要音段特征,又可以使拼接单元的韵律特征符合语义,从而使合成语音获得较高的自然度和可懂度。
在对拼接单元的韵律特征进行调整时,它以基因周期为单位进行波形的调整,保证了语音波形及频谱的平滑连续。
目前,用这种方法至少实现了七八种语言的语音合成系统。
如日本的NTT公司基于波形文件实现了日语规则合成系统,法国C以双音素作为语音单元,用基于HMM的语音匹配法进行特性标注,实现了法语的文语转换系统。
在国内,中科院声学所、清华大学和中国科技大学等也采用PSOLA技术的波形拼接来实现语音合成系统。
3.2参数合成方法参数合成方法是一种比较复杂的语音合成技术。
基于参数的语音合成系统是通过数字信号来模拟发声,首先将我们发出的声音转化为数字信号,这些信号可能是周期脉冲信号或者是随机的噪音序列,在合成过程中,将这些信号输入到一个特定的滤波器(如带通滤波器)中,最后通过输出设备输出合成语音。
在这种模式下,通过调整滤波器的参数可以控制滤波器来发出不同的声音,也可以通过调整数字信号的周期或者强度来改变语音的韵律等。
所以,只要能够正确的调整数字信号或者滤波器的参数,就可以合成出不同的语音。
3.3规则合成方法规则合成方法是一种高级的语音合成方法,在合成前,可以不确定合成的词表,基于规则的语音合成系统中存储的是最小语音单位的声学参数。
可以按照多种规则,例如由音素组成音节、由音节组成词、再通过词组成词组、由词组组成语句,以及控制音高、音强等韵律特征,最后得到待合成的字、词或者句子。
该方法的研究核心是挖掘出说话人在说话过程中,是按照哪种规则来生成语音单元的,将这些相关的规则给予机器,在机器中合成语音。
汉语是一种特殊的语种,因此在处理语音单元的规则时,有许多需要注意的问题,单独存在的元音和辅音与发声中连续的元音和辅音不同,不同语境下的同一词语表达的意思不同,根据上下文相同读音的多音字的描述不同,声调在何种情况下需要调整,声韵母是如何产生相互影响。
汉语属于音调语音学,声学单元是拼接的基本单元,它可以是音素、双因素、三因
素、音节、词语、句子等。
汉语具有较复杂的韵律结构,语句中的语音层次为从音素到音节,从音节到词语,最后从词语到语句。
所选取的基元越小,语料库所占的存储空间就越小,拼接使越灵活,变化就越复杂。
4bull;
语音合成基本原理语音合成是对输入的文字信息按照语言学规律进行分析,分段标记后,按照声学处理规则将文字转换成语音信号输出,即让机器读出文字信息,使人们通过“听”就可以明白信息的内容。
其系统框图为:
图1语音合成系统框图4.1文本分析与处理文本分析与处理是使计算机能够识别文字,并根据上下关系在一定程度上对文本进行理解,从而知道要发什么音、怎么发音,并将发音的方式告诉计算机,另外还要让计算机知道文本中哪些是词,哪些是短语、句子,发音时应该停顿的位置和时长等。
文本分析与处理的工作过程包括:
图2文本分析与处理过程
(1)将输入的文本规范化,在这个过程中处理用户可能的拼写错误,并将文本中出现的一些不规范或无法发音的字符过滤掉;
(2)分析文本中的词或短语的边界,确定文字的读音,同时在这个过程中分析文本中出现的数字、姓氏、特殊字符以及多种多音字的读音方式;
(3)根据文本的结构、组成和不同位置出现的标点符号,来确定发音时语气的变换以及不同语音的轻重方式。
最终,文本分析模块将输入的文本转换成计算机能够处理的内部参数,便于后续模块进一步处理并生成相应的信息。
4.2韵律规则库任何人说话都有韵律特征,有不同的声调、语气、停顿方式,发音长短也各不相同,这些都属于韵律特征。
韵律研究是一个复杂的系统工程,涉及到语言学、语音学、心理学、语用学
等学科的综合知识。
一个语音单元除了由元音和辅音按时间顺序排列的音段成分之外,还必须包括一定的超音段成分,否则这个音节就不可能成为有区别意义的有声语言。
目前对韵律研究的重点是音高、音长、音强三个超音段参数在连续语流中的分布规律及其相互的作用,而研究的基本方法仍是基于对生理特征的分析及大语料库的统计分析,韵律特征的特点如表1.
韵律特征波形特征分布规律相互作用及影响、口曰高音高的大小对应于波形的基音周期音咼的调整则是按照目标值确疋曰咼调整系数,对拼接单兀的音咼进行压缩和拉伸连续语音的音咼曲线融入了发音人的生理特征、感情、语义、语境以及很多的个人特征信息音长音长的调整对于稳定的波形段比较简单的只需要以基音周期为单位加减波形即可连续语流中的音节时长取值受很多因素的影响,如声韵结构、声调、音节所在词的结构、重音模式、音节在语流中的位置影响等音强音强对应于语音波形的幅度音强的改变只需要加权波形数据即可,但是对于一些有重音变化的音节,幅度包络也需要改变音强对于抑扬顿挫的语调的产生也是很重要的,为重音并不是通过提高语音的强度来表达,表1韵律特征的特点目前,韵律是合成系统的薄弱环节,所用韵律模型都是对韵律普遍规律的单一应用。
把韵律的共性与个性有机的结合起来,是提高语音合成系统自然度的关键。
4.3语音合成器的设计线性预测合成方法是目前比较简单和实用的一种语音合成方法,它以其低数据率、低复杂度、低成本,受到特别的重视。
LPC语音合成器利用LPC语音分析方法,通过分析自然语音样本,计算出LPC系数,就可以建立信号产生模型,从而合成出语音。
线性预测合成模型是一种“源滤波器”模型,由白噪声序列和周期脉冲序列构成的激励信号,经过选