称为共振峰纹样ReadWord格式文档下载.docx

资源描述

称为共振峰纹样ReadWord格式文档下载.docx

《称为共振峰纹样ReadWord格式文档下载.docx》由会员分享，可在线阅读，更多相关《称为共振峰纹样ReadWord格式文档下载.docx（18页珍藏版）》请在冰豆网上搜索。

称为共振峰纹样ReadWord格式文档下载.docx

塞音、塞擦音都包含脉冲波和冲直条。

它们代表声音中一种特殊的噪音——猝发音（猝发波）。

　　汉语d是清辅音，因此在冲直条前面（左边）总是有一段静波（无音）。

静波也是语图上的一种图型，称为间隙G。

在冲直条之后声带并不是马上就开始振动的，它们之间也可能有极短的间隙。

图中冲直条后有5、10ms的间隙。

对于不送气的d来说，“的”10ms的间隙是非常大的。

　　在口语的自然语流中，“代”后字“的”的轻声会使d浊化。

图中是播音员语体，没有那种浊化现象。

　　语图中有许多垂直条纹。

d的冲直条是辅音发音部位阻碍破裂产生的猝发音。

其他垂直条纹都是声带周期波引起的。

在当前的显示方式下，远远低于300Hz的声带波，每一周期都会有它明显的垂直条纹。

它是声门突然打开呼吸气流从下面迸发出来的声门声源音的表现。

总之，它们不是辅音的表现，都不是冲直条。

　　声带开始振动以后，语图上就出现横向的共振峰纹样。

我们需要仔细分析那里的起伏过程。

那里的共振峰出现了“弯头”，被看成是辅音的“音征”。

声带刚开始振动的时候，d的除阻过程还在继续，也就是说，舌尖正在从齿龈那里离开，向下移动。

这一过程在共振峰中反映出来了。

它们是逐渐向元音位置移动的。

在“代”中，“弯头”占了韵母段近1/4的时间。

中间第二个1/4段才是典型a的共振峰。

然后它又向着韵尾i的目标前进的第三个1/4段。

接着，在音节还没有完的第四个1/4段里，口腔和舌头又开始准备“的”的发音，又有了跟韵母开始时候类似的“弯尾”。

因此在所谓韵母段的声音里，两头都是包含相邻辅音信息的。

对于dai来说，ai开始段包含的辅音信息特别重要。

它是辅音d声音响亮、跟其他辅音明显有别的重要因素。

　　我们仔细观察语图还可以发现。

沿着共振峰向左看，冲直条上共振峰指向的位置能量很强。

对于d来说，F1左边大约400Hz、F2左边大约2300Hz的能量造成了它特殊的听感。

由此可以推测，不同塞音破裂的声音确实是应该不一样的。

四、乱纹

　　在语图上持续噪音的图型是乱纹N。

　　附图是女声“不平凡（的）”前三字的声学分析。

　　辅音b、p都有脉冲波和语图上的冲直条图型。

　　p的送气段和擦音f都包含比较长的一段噪音，在语图上呈现乱纹。

　　在p的送气段里，大约3000-4000Hz的黄色和红色斑线里边，已经包含后边元音i的信息。

这一位置的两头，黄线迅速下移。

在左边，它是从冲直条里大约1600Hz位置开始上升的。

在右边，它跟元音i的共振峰衔接在一起。

　　辅音b、p、f都是唇音，它们一般都会使后边元音或类似元音共振峰F1、F2的强频区形成上升的弯头。

“不”元音u末尾还有指向后边p的下降弯头。

u的F1和F2大约在500Hz（红色）和1000Hz（黄绿色）。

　　图中出现了两个鼻辅音。

它们的声学特征跟元音一样，也有各自的共振峰纹样，但是能量比元音弱。

五、窄带语图、音高分析等。

　　窄带语图是相对于宽带语图而言的。

前面几幅语图都是宽带的。

这里附图中出现了窄带语图。

窄带语图主要用来研究声调和语调。

在这种语图中没有纵向的条纹，只有横向的条纹。

那些横向条纹就是基波和谐波随时间变化的许多曲线。

联系汉语声调就可以发现，它们是跟四声的升降平曲一致的。

　　附图声波图下还有总振幅图（能量图）。

语图下面还有音高的粗测图和平滑图。

“中国的”的“的”极短，它的音高段紧跟在“国”后尾。

“改革开放”里四声俱全。

去声“放”后尾的上升弯尾使音节能够自由加长，形成节奏尾音。

“改”上声末尾几个周期的低音被漏检了。

“现代化建设”是5个去声连用。

它们高低变化使两个词的区分有了音高标记，其中低音点特别低是节奏关系的重要标记。

它们哪个音节是重音，可以从高音点高的程度比较出来。

夹在两个很长的词组中间的“和”的时长也显得特别长。

　　“改”和“放”都有迅速下降的音高段。

但是，它们下降的速度不一样，“改”一开始是快速下降的，“放”一开始是缓缓下降的。

“改”的韵母一开始，能量逐渐增加，因为开头的能量很弱，那里的下降段听起来极不显著，是会被后边掩蔽的。

“放”的下降段是在音段能量最强的地方开始下降的，因此听起来非常显著。

　　从技术上说，做频谱分析是要拿一段声波去计算的。

如果那一段声音的时长超过大约20ms，频谱图上50Hz以上的谐波可以分辨得清清楚楚。

我们已经知道，所谓语图就是那样的一帧一帧的频谱图连接起来的三维语图。

语图上还有一个时间轴。

我们可以大步走，每过20ms（步长=帧长）做一次频谱分析。

（大步走，有时候会像CoolEdit一样，做出许许多多马赛克来的。

）我们也可以小步走，例如每过2ms（步长）做一次20ms（帧长、窗长）的谱分析，把20ms里的能量变化也检测出来。

但是不论如何做，我们都可以发现，语图上的时间分辨率很差，50Hz以上的周期变化再也看不着了。

因为在窄带语图上频率轴的分辨率很好，时间轴上的分辨率不好，所以就出现了许多谐波（含基波f1）条纹。

　　通常说的窄带，是指所谓45Hz的滤波器。

它相当于对22.2ms时长段的谱分析。

那种带宽或时长还可以用采样数描述，例如采样10000次每秒，每次就分析222样点的音段。

通常说的宽带，是指所谓300Hz的滤波器。

它相当于对3.33ms时长段的谱分析，也相当于10000Hz采样的33样点的音段分析。

在宽带语图上频率轴的分辨率很低，而在时间轴上的分辨率很好。

宽带语图适合做元音、辅音一类音质分析。

　　二进制的演算经常选用32、64、128、256等做谱分析的样点数范围。

六、下图可以看出清与浊、送气与不送气的不同。

印地语的材料。

七、声学元音图。

　　附图以美国英语为例的“声学元音图”说明，语音的听觉跟发音的生理特征密切相关。

或者反过来说，语音的生理特征（发音部位）可能是在大量听觉事实的帮助下确定的。

F1和F2是听觉可以觉察的事实。

　　汉语元音请参见著名播音员夏青在朗诵中的发音：

　　　　元音　F1　F2　F3（Hz）

　　　　i低

42023602900

　　　　u古

360　6602690

　　　　e者

49012302550

子

48015102310

（图中F2判断为1400Hz）

　　　　a见

67019302660

　　　　a然

78015202530

　　　　a昂

76012902560

男声、女声、童声的共振峰大致都有6:

8的简单关系。

也就是说，在一定范围内F1:

F2:

F3的比例关系相似，就是相同的语音音质。

　　下图把F2坐标也换成线性，比例关系就明显了。

男、女、童声基本上都在同一条比例线上，那种比例线就是“同音线”。

那种比例都是最简单的数字的比例，也就说明人们共同选择的是最悦耳的元音音质。

　　单单从F1和F2看，男、女、童声不同音质似乎是交叉在一起的。

因此我们还要注意，F3和F4等也在起区分语音音质的作用。

录音系统的电路确实会产生噪声。

当录音机的信噪比达到某个水平，例如80分贝的时候，噪音在80分贝以下。

那是功率1/100000000的影响，也就是声压或电压1/10000的影响，是在16比特声压数字±

32767中±

3的影响。

模数转换和采样率确实会有影响。

那些影响远远比不上语声周期不稳定因素的影响。

（此外环境噪声、回声和外部电磁波的干扰也是重要的影响因素。

那是可以采取措施去减少它们影响的。

录音机里音量自动提升的AGC功能很讨厌，会把环境噪声放大。

）

　　在严格的周期重复中，声谱图里的正弦成分只能是一条简单的竖直线。

在不稳定的声音中，竖直线“发胖”了！

于是它们都变成或瘦或胖的尖峰或小鼓包，而且鼓包的顶点也会或左或右了。

当我说f10的精度是f110倍的时候，只是指最普通的计算误差或测量误差，是不包括不稳定声音带来的误差的。

八、附图比较三种不同的宽带，带宽由窄到宽。

在CoolEdit中，options>

settings>

spectral>

下调节resolution和windowwidth可以改变频率分辨率和带宽。

上图“建”的基频高于带宽，干扰了共振峰的识辨。

下图带宽过大，相近的共振峰粘连在一起了。

中图比较适中。

九、

——以上依次为CoolEdit2000、SA和Gram做的语图。

　　第一个图显示方式是亮度方式。

另两个是伪彩色显示方式。

图中是“海外侨胞”haiwaiqiaobao

元音是：

　aiuaiiauau

共振峰F2：

MHLMHHMLML（约800～2800Hz的高中低：

H高、M中、L低）

共振峰F1：

HLLHLLHLHL（约1000Hz以下的高低：

H高、L低）

　　　“海”末尾F2迅速下降，是一种过渡，从前元音迅速过渡到后元音。

　　　au的F1和F2紧挨在一起。

辅音：

h与q的区别主要是能量分布的不同，也就是频率位置不同。

它们都持续较长时间。

　　　q的擦音段和送气段跟i是重叠在一起的（同时的，声带不振动）。

下图中可看到冲直条。

　　　b有冲直条。

a的F2开头有明显的弯头，是从低处升上去的。

b是冲直条和弯头段组成的声音。

　　　b冲直条前面没有静波间隙，300Hz以下有明显的浊音横杠，看来它已经浊化了。

　　各元音大约300Hz以下能量都比较强，属于低频能量，不是共振峰。

因为经常会有50Hz交流电的干扰，静波段的最低频部分都有噪音。

音节之后还可以看到回声干扰。

　　下图是常规显示方式——灰度方式的语图。

应该说，语图上的“冲直条”只是一种名称，是一种文字“标签”。

那个“直”只代表短时间发生的声音现象，也就是时间轴上一瞬息的现象，在语图上是一瞬间的垂直线。

它的波形是猝发波。

它的谱分析结果是复杂的频率分布，能量的分布是不均衡的。

　　辅音p、t、k（国际音标）冲直条的能量分布不一样。

例如p的峰值在频率位置较低的地方。

t的峰值在频率位置较高的地方。

汉语k的峰值在它们之间。

由于那种峰值位置不同，共振峰弯头的走向也不一样。

也就因此它们的音质是不一样的。

在读图的时候，那种弯头的走向（升降形状和升降程度）是我们识别辅音的直观手段。

参见下图底下[t]的谱分析。

图中F2的弯头是从上向下弯的。

它指向冲直条上2255Hz的强频区。

下图把各种语音的F2画在同一张图上比较，就可以看到，它们的弯头都指向冲直条上某一个特定的能量比较强的频率位置，也就都是同一个塞辅音。

那个特定频率位置被称为音轨。

元音共振峰弯头内包含辅音信息，所以就被称为声学音征。

这已经是公认的基本知识。

讨论：

附图显示普通话“展览馆里有”，基音频率在58-153Hz，周期在17-6.5ms。

所选滤波器带宽为172Hz，时间分辨率为5.82ms。

“馆”的频率很低，它的周期能够清晰显示。

“展览馆里”频率比较接近滤波器带宽，它们的周期相当模糊。

如果周期小于5.82ms（“窗口”），垂直条纹完全消失。

那个“窗口”很有意思，比窗口小的分辨不了，比它大了才能够分辨。

窗口里头是一篇囫囵的糊涂帐。

那里没有时间概念，只有能量按频率分布的剖析。

时间概念是窗子外头才有的东西。

这就好比拿一把没有刻度的尺子去量一块布头，不知道几寸几分在哪里，却知道每一尺都是“经拽又经拉”的高质量的一样的布头。

那里只有超过一尺长的色差或毛疵才能够被我们突然发现。

分析频率是采样频率的一半。

例如，采样频率是16000Hz，分析结果是8000Hz以下的东西。

在我学到的知识中，带宽是时间窗口的倒数。

人类语言使用共振峰来创造元音。

在清晰的语言中元音共振峰本身的带宽越窄声音越清晰。

那是正常人的特点。

器乐也都有共振现象，那是美学的需要，也是现实的必然，但是未必会有元音一样的共振峰带宽。

相对于音质分析，做基频分析带宽要窄一些，要低于实际的基音频率。

我最关心的是汉语音高系统，尤其是它里边的区别特征。

它是非常中国化的实际问题。

　　１．声调特征和轻声特征。

轻声是一种异化，与声调有对偶音高关系。

上声以低音特征为主，后边的轻声有高音特征（音高等级４）。

其他声调以高音特征为主，后边的轻声有低音特征（音高等级1、2、3完全可以用同化解释）。

正常重音的声调是饱满的。

轻化使声调高低特征之间的对偶距离减小，其次使声调特征段在音节时长中所占的比例减小、音高升降幅度减小，甚至使升降特征丢失，最后声调特征完全丢失，落入前后音节音高的过渡过程中（这就连轻声都不如了）。

　　２．句重音力度加大，使声调高音特征点的音高提高。

句重音力度进一步加大，会使后一音节轻化，音高出现异化表现。

（异化是特征属性的表现。

它与轻声规则相似。

因为它不是轻声，所以异化是前字重音的表现。

）后音节实际音高一开始就受前音节同化。

（也就是说，这里有复杂的同化和异化问题。

）句重音的这种异化作用一般只影响后一个音节，有时候会影响更多音节。

　　３．音高在节奏和停延系统中的表现。

可以有层次构造的假设，但是不等同于层次构造，只是有点儿围着它转。

　　４．音高在语调构造中的表现。

它主要跟着焦点（窄的或很宽的焦点）走。

它不是简单的音高下倾问题。

　　５．音高在语调类型中的表现。

它必须使用高音线和低音线两个自由度。

　　总之，音高问题必须放到一个多层次的声学模型中去才行。

十、Whatisaspectrogram?

Asoundspectrogram（orsonogram）isavisualrepresentationofanacousticsignal.Tomakeaspectrogram,aFouriertransform[傅利叶变换]isappliedtoanacousticwave（[声波]ormoretechnically,itselectronicanalog[电子模拟]）,derivingthefrequencies[频率]andamplitudes[振幅]ofitscomponentsimplewaves.DependingonthesizeoftheFourieranalysiswindow[窗],differentlevelsofresolution[分辨率]areachieved.Alongwindowresolvesfrequencyattheexpenseoftime-theresultisanarrowbandspectrogram[窄带语图],whichrevealsindividualharmonics[谐波、谐音]（componentfrequencies）.Ifasmallanalysiswindowisused,adjacentharmonicsaresmearedtogether,butwithbettertimeresolution.Theresultisawidebandspectrogram[宽带语图]inwhichindividualpitch[音高]periods[周期]appearasverticallines（orstriations）,withformantstructure[共振峰结构].Generally,widebandspectrogramsareusedinspectrogramreadingbecausetheygiveusmoreinformationaboutwhat'

sgoingoninthevocaltract[（言语）声道],forreasonswhichshouldbecomeclear.

Sources[声源]andFilters[滤波器]

Weoftentalkaboutspeechintermsofsource-filtertheory.Putsimply,wecanviewthevocaltractlikeamusicalinstrument.There'

sapartthatactuallymakessound（forinstance,avoilinstring）,andthepartthat'

shapes'

thesound（thebodyoftheviolin）.Youcanbowaviolinstring,oryoucanpluckit.Ineithercase,asoundisproduced.Thestringisthesourceofthesoundtheviolinmakes.Thesourceisthenfilteredbythesoundboxoftheviolin,givingitthecharacteristic'

tonal'

qualitiesofaviolin（asopposedtothoseofcello,aguitar,aukelele,etc.）.Theshapeoftheviolin'

ssoundboxdeterminestheshapeofthefilter,whichisthesamewhetherthesourceisbowedorplucked.

Amajordifferencebetweenplayingaviolinandspeakingisthattheshapeoftheviolindoesn'

tchangewhileyouplayit.Butwhenwetalk,wemakedifferentspeechsoundsbyconfiguringthevocaltractdifferently.Sowecaninfertheshapeofthevocaltract（articulation[调音]）fromtheshapeofthefilter,i.e.thepatternofformantsandresonances[共振]inthespectrogram.Theimportantthingtorememberisthatinthevocaltract,the（primary）source（voicedorvoiceless[带音或不带音],orotherglottalstates[声门状态]）canvaryindependentlyoftheshapeofthefilter（i.e.thearticulatoryconfiguration）.InFigure1,Isay"

eeaheeah"

（IPA[iɑiɑ]）continuouslyonasteadypitch.Ontheleft,thewidebandspectrogramshowstheformants（darkerbands）changingrapidly.Ontheright,thenarrowbandspectrogramindicatesthatthenarrowhorizontallines,orharmonics--thecomponentsimplewaves--aresteady,i.e.thepitchthroughoutisflat（thisisparticularlyobviousinthelowerfewharmonics）.Becausesomeharmonicsarestrongerthanothersatanygivenmoment,youcanseetheformantstructureeveninthenarrowbandspectrogram.Thefilterfunction（theformantstructure）issuperimposedoverthesourcestructure.

Figure1.Wideband（left）andnarrowband（right）spectrogramsofmesaying"

withlevelpitch.

共振峰的数目跟极值（poles）有关。

提高p值，可能增加F数。

此外，相邻两个F最小频率距离的设置也会影响它

展开阅读全文