语音技术.docx - 冰豆网

资源描述

语音技术.docx

《语音技术.docx》由会员分享，可在线阅读，更多相关《语音技术.docx（25页珍藏版）》请在冰豆网上搜索。

语音技术.docx

语音技术

语音识别和语音技术是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的两项关键技术.使电脑具有类似于人一样的说话和听懂人说话的能力,是90年代信息产业的重要竞争市场.和语言识别相比,语言合成的技术相对说来要成熟一些,是该领域中近期最有希望产生突破并形成产业化的一项技术.

语言合成或者让计算机说话包含着二个方面的可能性:

一是机器能再生一个预先存入的语音信号,就象普通的录音机一样,不同之处只是采用了数字存储技术.简单地将预先存入的单音或词组拼接起来也能作到"机器开口",但是"一字一蹦",机器味十足,人们很难接受.然而如果预先存入足够的语音单元,在合成时采用恰当的技术手段挑选出所需的语音单元拼接起来,也有可能生成高自然度的语句,这就是波形拼接的语音合成方法.为了节省存储容量,在存入机器之前还可以对语音信号先进行数据压缩.另一种可能是采用数字信号处理的方法,将人类发声过程看作是一个模拟声门状态的源,去激励一个表征声道谐振特性的时变数字滤波器,这个源可能是周期脉冲序列,它代表浊音情况下的声带振动,或者是随机噪声序列,代表不出声的清音.调整滤波器的参数等效于改变口腔及声道形状,达到控制发不同音的目的,而调整激励源脉冲序列的周期或强度,将改变合成语音的音调、重音等.因此,只要正确控制激励源和滤波器参数（一般每隔10～30ms送一组）,这个模型就能灵活地合成出各种语句来,因此又称作为参数合成的方法.根据时变滤波器的结构形式不同,又有LPC合成和共振峰合成器等之分.

按照人类言语功能的不同层次,语言合成也可分成三个层次,它们是:

（1）从文字到语音的合成（Text-To-Speech）;

（2）从概念到语音的合成（Concept-To-Speech）;（3）从意向到语音的合成（Intention-To-Speech）.这三个层次反映了人类大脑中形成说话内容的不同过程,涉及人类大脑的高级神经活动.不难想象,即使是按规则的文字到语音合成（文语合成）也已经是相当困难的任务.为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解,这将涉及自然语言理解的问题.从这一点讲,文语转换系统实际上也可看作一个人工智能系统.图1显示了一个完整的文语转换系统示意图.文语转换过程是先将文字序列转换成音韵序列,再由语音合成器生成语音波形.其中第一步涉及语言学处理,例如分词、字音转换等,以及一整套有效的韵律控制规则;第二步需要先进的语音合成技术,能按要求实时合成出高质量的语音流.因此一般说来,文语合成系统都需要一套复杂的文字序列到音素序列的转换程序,也就是说,文语转换系统不仅要应用数字信号处理技术,而且必须有大量的语言学知识的支持.当然其中语音合成终究还是最基本的部分,它相当于"人工嘴巴",任何语言合成系统包括文语转换系统,都离不开语音合成器.

语音技术的方式

语音技术方式讲可分为波形编辑合成、参数分析合成以及规则合成等三种.

波形编辑合成,这种合成方式以语句、短语、词或音节为合成单元,这些单元被分别录音后直接进行数字编码,经适当的数据压缩,组成一个合成语音库.重放时,根据待输出的信息,在语料库中取出相应单元的波形数据,串接或编辑在一起,经解码还原出语音.这种合成方式,也叫录音编辑合成,合成单元越大,合成的自然度越好,系统结构简单,价格低廉,但合成语音的数码率较大,存储量也大,因而合成词汇量有限.

参数分析合成,这种合成方式多以音节、半音节或音素为合成单元.首先,按照语音理论,对所有合成单元的语音进行分析,提取有关语音参数,这些参数经编码后组成一个合成语音库;输出时,根据待合成的语音的信息,从语音库中取出相应的合成参数,经编辑和连接,顺序送入语音合成器.在合成器中,通过合成参数的控制,将语音波形重新还原出来.

规则合成,这种合成方式通过语音学规则来产生目标语音.规则合成系统存储的是较小的语音单位（如音素、双音素、半音节或音节）的声学参数,以及由音素组成音节、再由音节组成词或句子的各种规则.当输入字母符号时,合成系统利用规则自动地将它们转换成连续的语音波形.由于语音中存在协同发音效应,单独存在的元音和辅音与连续发音中的元音和辅音不同,所以,合成规则是在分析每一语音单元出现在不同环境中的协同发音效应后,归纳其规律而制定的如共振峰频率规则、时长规则、声调和语调规则等.由于语句中的轻重音,还要归纳出语音减缩规则.

国内外语音技术发展现状

综观语言合成技术的研究已有二百多年的历史,但是真正有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,主要是让计算机能够产生高清晰度、高自然度的连续语音.近几十年来国际和国内的研究主要集中在按规则文语转换,即将书面语言转换成口头语言.在语音合成技术的发展中,早期的研究主要是采用参数合成方法.值得提及的是Holmes的并联共振峰合成器（1973）和Klatt的串/并联共振峰合成器（1980）,只要精心调整参数,这两个合成器都能合成出非常自然的语音.而最具代表性的文语转换系统数美国DEC公司的DECtalk（1987）,该系统采用Klatt的串/并联共振峰合成器,可以通过标准的接口和计算机连网或单独接到电话网上提供各种语音信息服务,它的发音清晰,并可产生七种不同音色的声音,供用户选择.但是经过多年的研究与实践表明,由于准确提取共振峰参数比较困难,虽然利用共振峰合成器可以得到许多逼真的合成语音,但是整体合成语音的音质难以达到文语转换系统的实用要求.自八十年代末期至今,语言合成技术又有了新的进展,特别是基音同步叠加（PSOLA）方法的提出（1990）,使基于时域波形拼接方法合成的语音的音色和自然度大大提高.九十年代初,基于PSOLA技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功.这些系统的自然度比以前基于LPC方法或共振峰合成器的文语合成系统的自然度要高,并且基于PSOLA方法的合成器结构简单易于实时实现,有很大的商用前景.最近几年,一种新的基于数据库的语音合成方法正引起人们的注意.在这个方法中,合成语句的语音单元是从一个预先录下的庞大的语音数据库中挑选出来的,不难想象只要语音数据库足够大,包括了各种可能语境下的语音单元,理论上讲有可能拼接出任何语句.由于合成的语音基元都是来自自然的原始发音,合成语句的清晰度和自然度都将会非常高.

国内的汉语语音合成研究起步较晚些,但从八十年代初就基本上与国际上研究同步发展.大致也经历了共振峰合成、LPC合成至应用PSOLA技术的过程.在国家863计划,国家自然科学基金委,国家攻关计划,中国科学院有关项目等支持下,汉语文语转换系统研究近年来取得了令人举目的进展,其中不乏成功的例子:

如中国科学院声学所的KX-PSOLA（1993）,联想佳音（1995）;清华大学的TH_SPEECH（1993）;中国科技大学的KDTALK（1995）等系统.这些系统基本上都是采用基于PSOLA方法的时域波形拼接技术,其合成汉语普通话的可懂度、清晰度达到了很高的水平.然而同国外其它语种的文语转换系统一样,这些系统合成的句子及篇章语音机器味较浓,其自然度还不能达到用户可广泛接受的程度,从而制约了这项技术的大规模进入市场.-----1998年中国科技大学在国家863计划和国家自然科学基金委支持下,研制成功KD-863汉语文语转换系统.和采用国内外流行的PSOLA技术的系统相比,在输出语音的音质和自然度上有了突破性的提高.KD-863采用了一种全新的基于语音数据库的语音合成方法,该技术的基本思想是将实际语流中汉语音节千变万化的音变进行听感上的量化归并,设计出多样本的汉语语音基元库,这个库蕴涵了汉语韵律变化信息,合成时只要通过对基元库样本的选取便可实现韵律控制.同时语音基元库中的样本是直接从自然语音中截取,避免了采用信号处理技术获取音变单元对音质的损害,因而合成语音具有接近自然语音的音质.KD-863文语转换系统一经推出,就因其合成语音的高清晰度与高自然度引起了社会各方的重视.先后应用于为深圳华为技术公司设计的"114自动电话报号系统",和为国家工商总局设计的"工商企业语音（传真）查询系统".使得汉语语音合成技术走出实验室,向市场应用迈出了重要的一步.KD-863系统参加了在1998年4月国家科委组织的全国汉语语音合成系统的性能评测,其输出语音的自然度居同类系统之首,是唯一达到用户可以接受程度的系统.KD-863还在日本,新加坡,香港的有关研究所和大学进行过演示,均得到了有关方面专家的认同.最近中国科技大学又推出了KD-2000汉语文语转换系统,不仅在语音合成技术方面有进一步的发展,特别是在文本预处理中围绕层次化结构思想,运用大量的统计和规则的方法,较好地解决了三个大的处理环节:

特殊符号处理,分词处理和拼接处理,使得汉语文语转换系统的整体性能有很大提高.以KD-2000文语转换为核心的"畅言2000"智能汉语平台软件已开始进入市场.

语音技术的发展方向

1.提高合成语音的自然度

提高合成语音的自然度仍然是高性能文语转换的当务之急.就汉语语音合成来说,目前在单字和词组一级上,合成语音的可懂度和自然度已基本解决,但是到句子乃至篇章一级时其自然度问题就比较大.-----基于语音数据库的语音合成方法有望进一步提高语音合成的自然度.因为这是一种采用自然语音波形直接拼接的方法,进行拼接的语音单元是从一个预先录下的自然语音数据库中挑选出来的,因此有可能最大限度地保留语音的自然度.但由此产生了一系列新的需要研究的问题,包括:

如何确定语音合成的基元,根据什么准则去挑选合适的基元;韵律参数定量化问题,对数据库进行定标问题;以及如何将统计的方法和规则方法相结合使机器能自动发现和找出所需的语音单元,保证最高的合成语句自然度等等.-----无论用哪种合成方法,韵律规则的总结,特别是连续语音的韵律规则总结,尽可能将定性的规则描述定量化,对自然度始终有最重要的影响.还有前端文本处理,对合成语音的自然度也具有举足轻重的影响,完整全面的解决,需要自然语言理解的突破.

2丰富合成语音的表现力

目前国内外大多数语音合成研究是针对文语转换系统,且只能解决以某种朗读风格将书面语言转换成口语输出,缺乏不同年龄、性别特征及语气、语速的表现,更不用说赋予个人的感情色彩.随着信息社会的需求发展,对人机交互提出了更高的要求,人机口语对话系统的研究也提到了日程上.即语音合成研究已开始从文字到语音的转换阶段向概念到语音的转换阶段发展.这不仅对语音合成技术提出了更高的要求,而且涉及到计算机语言生成,涉及人类大脑的高级神经活动.但就语音合成来说,仍是一个要丰富合成语音的表现力问题.相对来说采用波形拼接方法来增强合成语音表现力比较困难,尽管也可以通过增加音库容量和音库个数来达到改变合成语音的特性,但毕竟它对韵律的控制能力非常有限.更为有效的办法是采用参数合成法,分析参数特征,通过对相关参数的调整来实现对年龄、性别特征的改变,进一步实现语气、语调的变化,由于这种改变是连续的,对象特征可以千千万万,显得更有生命力.近年来提出的基于LMA（对数振幅近似）技术的语音合成器,HybridHarmonic/Stochastic模型,Sinusoidal模型等已被证实是一些新颖的能合成出高质量语音的参数合成方法,为此应继续深入这方面的研究,以期在参数合成技术上取得突破.

3降低语音合成技术的复杂度

语音合成技术正在走向市场.为了适应社会的需求,扩大文语合成的应用场合,除了解决好上面两个问题,提高合成语音的质量和增强语音合成的表现力以外,在其他实用化方面也有要加以改进的地方.就目前汉语文语转换系统而言,减小音库容量就是一个重要课题.目前高质量的汉语文语转换系统一般需要几兆字节到几十兆,甚至几百兆字节的存储容量,这在以PC机或工作站为硬件平台的应用中是没有问题的,而对于象HPC,PDA及无线通信手机,商务通等资源有限的设备上就没法承受.解决的方法可以是通过语音压缩编码的方法来压缩音库所需的容量,或者采用更小的合成基元,例如用声母、韵母或双音素、半音节,以及减少合成语音所需的音节基元数等等.然而又不能增加算法的复杂度,因为运算量及系统开销同样会直接影响汉语语音合成的应用.既要提高语音合成的质量,又要降低语音合成的复杂度,这始终是一个矛盾的两个方面.

4多语种文语合成

语言是人们交流的工具,不同民族有自己不同的语言,不同语言之间的交流在今天开放的信息社会和网络时代显得十分重要,多语种的文语合成有着独特的应用价值.例如在自动电话翻译,有声的电子邮件等中都提出多语种的合成,即使是对汉语合成也有多方言文语转换的需求.理想的多语种合成系统最好是各种语言共用一种合成算法或语音合成器,但是现有的语音合成系统大多是针对某一种语言或若干种语言开发出来的,所采用的算法及规则都是和某种语言密切相关的,因此很难推广到其他的语种.例如汉语就和西方语言有很大的差异,国内的系统都是做汉语文语转换,它的一套韵律控制规则完全不适合于英语,而且主要是合成汉语普通话,即使推广到广东话和上海话都有相当的难度.可见要真正解决多语种的文语合成,从文本处理到语音合成都必须有新的思路.美国贝尔实验室在多语种文语转换方面作了大量的工作,其中包括汉语普通话合成,值得注意.

VoWLAN测试方法学探讨与无线网语音技术

目前的IT产业领域中,WLAN和VoIP是人们关注的热点,因此使用WLAN提供语音服务（VoWLAN）的终端设备也就应运而生.VoWLAN终端设备利用现有的WLAN网络实现无线的VoIP语音通话,用户可以通过VoWLAN终端设备在WLAN网络的覆盖范围内随时进行语音通话.这既发挥了IP网络成本低的特点,又使得用户获得WLAN带来的方便性.

一、VoWLAN应用方式

VoWLAN系统有两种应用方式,一种针对有线办公和住宅电话,也就是基于传统终端的解决方案,如图1所示.

对于传统的语音终端,为了实现VoIP,需要添加VoIP网关设备.网关的主要功能是信令处理、协议转换、语音编码和解码以及路由协议处理等,对外分别提供与PSTN网和IP网连接的接口.因此,基于WLAN的网关设备其实是无线接入点（AP）和VoIP网关设备相结合的产品.一方面用户端设备通过模拟语音接口接入VoIP网关;另一方面,该网关通过内置的WLAN功能将语音打包成IP分组包之后,通过无线链路传送至起中继作用的接收站无线网桥.这种应用方式类似于有线LAN的VoIP解决方案,只是利用了已经敷设的WLAN,解决了VoIP的布线问题,用户终端无需做大的改动,从而节省了用户费用.

图1基于传统终端的VoWLAN系统应用方式

另一种VoWLAN应用方式是针对支持WLAN的便携式语音终端,如图2所示,在PDA、移动电话、笔记本电脑等上使用通常所说的Softphone就可以实现.这种方式的基本特点是终端一般内置无线局域网模块,与无线接入点（AP）的通信采用802.11协议,内嵌的VoIP语音压缩技术使得模拟语音通过终端后被打包成IP数据包,然后通过WLAN无线链路,最终直接在Internet上传输语音数据.这种方式可以使得在Internet任何地方语音交流完全免费,且保证了终端的可移动性.

图2基于便携式终端的VoWLAN系统应用方式

二、VoWLAN关键技术

虽然基于WLAN的VoIP技术与有线网络类似,但是由于无线网络固有的特性,在支持上层的实时业务时与有线网络有很大差异,导致无线网络传输的语音质量有可能比有线网络要差很多,因此必须采取特殊的措施来保障一定的业务质量.VoWLAN的关键技术主要包括信令技术、编码技术、实时传输技术以及服务质量QoS保证技术等.

2.1信令技术

VoWLAN系统中,信令技术保证呼叫的顺利实现和语音质量.目前被广泛接受的信令体系包括ITU-T的H.323系列和IETF的会话初始协议SIP.

ITU的H.323系列建议定义了在无业务质量保证的因特网或其他分组网络上多媒体通信的协议及其规程.H.323标准是局域网、广域网和Internet上多媒体技术的基础保障,它是ITU-T有关多媒体通信的一个协议集,包括用于ISDN的H.320,用于B-ISDN的H.321和用于PSTN终端的H.324等建议.其编码机制,协议范围和基本操作类似于ISDN的Q.931信令协议的简化版本,并采用了比较传统电路交换方式.相关的协议包括用于控制的H.245,用于建立连接的H.255.0,用于大型会议的H.332,用于补充业务的H.450.1、H.450.2和H.450.3,有关安全的H.235,以及与电路交换业务互操作的H.246等.H.323提供设备之间、高层应用之间和提供商之间的互操作性,它不依赖于网络结构,独立于操作系统和硬件平台.同时,H.323还具备相当的灵活性,支持包含不同功能的节点之间的会议和不同网络之间的会议.

虽然H.323提供了窄带多媒体通信所需要的所有子协议,但H.323不支持多点发送（Multicast）协议,只能采用多点控制单元（MCU）构成多点会议,因而同时只能支持有限的多点用户.H.323也不支持呼叫转移,且建立呼叫的时间比较长.

与H.323不同,SIP是一种比较简单的会话初始化协议.它不像H.323那样提供所有的通信协议,而是只提供会话或呼叫的建立与控制功能,且既支持单点发送（Unicast）也支持多点发送,会话参加者可以随时加入一个已经存在的会议.

SIP是一种应用层协议,可以用UDP或TCP作为其传输协议.与H.323不同的是:

SIP是一种基于文本的协议,用SIP规则资源定位（SIPUniformResourceLocations）语言描述,这样易于实现和调试,更重要的是灵活性和扩展性好.由于SIP仅用于初始化呼叫,而不传输媒体数据,因而造成的附加传输代价也不大.SIP的URL甚至可以嵌入到Web页或其他超文本链路中,用户只需点击鼠标就可以发出呼叫.与H.323相比,SIP还有建立呼叫快,支持传送号码的特点.

2.2编码技术

语音压缩编码技术是VoWLAN技术的一个重要组成部分.目前主要的编码技术有ITU-T定义的G.729、G.723、G.723.1等.其中,G.729可将经过采样的64kbit/s语音以几乎不失真的质量压缩至8kbit/s.由于在分组交换网络中,业务质量不能得到很好保证,因而需要语音编码具有一定的灵活性,即编码速率、编码尺度的可变可适应性.G.729原来是8kbit/s现在的工作范围扩展至6.4kbit/s～11.8kbit/s,语音质量也在此范围内有一定的变化.G.723.1采用5.3/6.3kbit/s双速率语音编码,其话音质量好,但是处理时延较大.

此外还需要注意的一个问题是,语音编码的带宽和实际所占用的带宽是不同的,语音编码的带宽是实际语音包的带宽,而语音包在网络上传输时,还需要增加各种报头,如RTP包头、UDP包头和IP包头.由于语音包本身很小,所以这些额外的带宽都是很可观的.表2中列出了各种编码方式下和打包时长所对应的实际带宽.

2.3服务质量QoS保证技术-802.11e

VoWLAN系统中,由于无线链路引入的串扰和多径传播将导致衰落和色散,从而引起系统的附加时延和抖动.而语音业务对于时延和抖动非常敏感,因此在VoWLAN系统中提供一种QoS保证技术就显得非常重要.

IEEE802.11标准定义了两种不同的信道访问机制:

一种是点协调机制（PCF）,基于CSMA/CA方式;另一种是分布式协同机制（DCF）,基于轮询方式.但是这两种都没有划分优先级,因此随着用户数的增多,MAC不能保证为实时语音业务提供可靠的分组传输且传输时延和抖动在规定范围内.为此,IEEE802.11工作组的媒体访问控制（MAC）改进任务组（即E任务组）对802.11的MAC层协议进行改进,使其可以支持具有QoS要求的应用,即IEEE802.11e标准.

IEEE802.11e中,MAC接入采用混合协同功能（HCF）控制机制.HCF与PCF和DCF直接兼容,而且可以支持优先级和参数化的媒体访问服务.HCF结合了竞争和轮询两种机制,其中,基于竞争的访问机制称为增强式点协同功能（EPCF）,而无竞争的访问机制称为增强式分布系统功能（EDCF）.

EDCF对业务先进行分级,为不同的优先级数据提供不同的服务输出队列,每个服务队列采用EDCF方法来竞争传输资源.主要表现在不同优先级队列拥有的最小闲散时间（DIFS）和竞争窗口不一样,可利用参数来改变竞争窗口大小,从而可以获得不同的重发等待时间,保证了实时业务有更高的服务优先级.

EPCF信道访问方法采用QoS相关的点协同功能,称为混合协同器（HC）.HC利用点协同功能把优先级信道分配给无线终端,用于传输有QoS需求的数据,来满足预定义的传输优先级、服务速率、延时和抖动.有QoS需求的移动终端可以给HC发送预留请求（RR）.移动终端可以在EDCF模式或者EPCF模式下发送RR,也可以在受控竞争间隔（CGI）内发送.

由上可见,随着对QoS研究的不断深入,IEEE802.11e协议也在逐步完善,一方面在原有的框架内修改了分布式和集中式的协调机制,并保持了对传统协议的兼容;另一方面也提出了一些独特的解决方案,如批应答和准入控制.根据国外做出的研究和仿真报告,IEEE802.11e可以实现很好的QoS性能.

2.4实时传输技术

VoWLAN系统中也用到了实时传输技术,主要是采用实时传输协议RTP.RTP是提供端到端的包括音频在内的实时数据传送的协议.RTP包括数据和控制两部分,后者叫RTCP.RTP提供了时间标签和控制不同数据流同步特性的机制,可以让接收端重组发送端的数据包,可以提供接收端到多点发送组的服务质量保证.

此外,静音检测技术和回波消除技术也是十分关键的技术.静音检测技术可有效剔除微弱信号,从而使语音信号的占用带宽进一步降低到3.5kbit/s左右;回波消除技术主要利用数字滤波器技术来消除对通话质量影响很大的回波干扰,保证通话质量,这点在时延相对较大的VoWLAN系统尤为重要.

三、VoWLAN系统测试

VoWLAN系统测试中,主要可划分为语音质量分析和传输性能分析两个方面.由于VoWLAN完全建立在分组交换基础上,而分组交换固有的时延、丢包等弱点使VoWLAN系统的通话质量得到不保证,因此在VoWLAN系统中,通话质量一直是人们最为关注的问题之一,语音质量的测试也就成了一项关键的指标.

影响VoWLAN系统通话质量的因素

由于本身的技术特定,影响VoWLAN系统通话质量的因素很多.从用户通话过程中的主观感受而言,主要有以下几个方面.

带宽:

当带宽不足时,语音质量会明显的下降;充足的带宽是保证语音质量的基础.

时延:

由于IP电话需要对语音包进行编码和解码,再加上传输的时延,这就使得IP电话的时延要比普通电话大的多.当时延大于400ms时,人就可以明显的感觉出来,当时延大于2s时,交流就会比较困难.IP电话的编码时延大约在120ms左右,传输时延是影响IP电话时延的主要因素.

抖动:

所谓抖动,就是每个语音包传输时间之间的差别:

当抖动超过一个语音包的时长时,语音质量就会明显下降.通过提高打包时长,可以减少抖动对语音质量的影响.

丢包:

一般来说,丢包对语音质量影响

展开阅读全文