称为共振峰纹样ReadWord格式文档下载.docx
《称为共振峰纹样ReadWord格式文档下载.docx》由会员分享,可在线阅读,更多相关《称为共振峰纹样ReadWord格式文档下载.docx(18页珍藏版)》请在冰豆网上搜索。
塞音、塞擦音都包含脉冲波和冲直条。
它们代表声音中一种特殊的噪音——猝发音(猝发波)。
汉语d是清辅音,因此在冲直条前面(左边)总是有一段静波(无音)。
静波也是语图上的一种图型,称为间隙G。
在冲直条之后声带并不是马上就开始振动的,它们之间也可能有极短的间隙。
图中冲直条后有5、10ms的间隙。
对于不送气的d来说,“的”10ms的间隙是非常大的。
在口语的自然语流中,“代”后字“的”的轻声会使d浊化。
图中是播音员语体,没有那种浊化现象。
语图中有许多垂直条纹。
d的冲直条是辅音发音部位阻碍破裂产生的猝发音。
其他垂直条纹都是声带周期波引起的。
在当前的显示方式下,远远低于300Hz的声带波,每一周期都会有它明显的垂直条纹。
它是声门突然打开呼吸气流从下面迸发出来的声门声源音的表现。
总之,它们不是辅音的表现,都不是冲直条。
声带开始振动以后,语图上就出现横向的共振峰纹样。
我们需要仔细分析那里的起伏过程。
那里的共振峰出现了“弯头”,被看成是辅音的“音征”。
声带刚开始振动的时候,d的除阻过程还在继续,也就是说,舌尖正在从齿龈那里离开,向下移动。
这一过程在共振峰中反映出来了。
它们是逐渐向元音位置移动的。
在“代”中,“弯头”占了韵母段近1/4的时间。
中间第二个1/4段才是典型a的共振峰。
然后它又向着韵尾i的目标前进的第三个1/4段。
接着,在音节还没有完的第四个1/4段里,口腔和舌头又开始准备“的”的发音,又有了跟韵母开始时候类似的“弯尾”。
因此在所谓韵母段的声音里,两头都是包含相邻辅音信息的。
对于dai来说,ai开始段包含的辅音信息特别重要。
它是辅音d声音响亮、跟其他辅音明显有别的重要因素。
我们仔细观察语图还可以发现。
沿着共振峰向左看,冲直条上共振峰指向的位置能量很强。
对于d来说,F1左边大约400Hz、F2左边大约2300Hz的能量造成了它特殊的听感。
由此可以推测,不同塞音破裂的声音确实是应该不一样的。
四、乱纹
在语图上持续噪音的图型是乱纹N。
附图是女声“不平凡(的)”前三字的声学分析。
辅音b、p都有脉冲波和语图上的冲直条图型。
p的送气段和擦音f都包含比较长的一段噪音,在语图上呈现乱纹。
在p的送气段里,大约3000-4000Hz的黄色和红色斑线里边,已经包含后边元音i的信息。
这一位置的两头,黄线迅速下移。
在左边,它是从冲直条里大约1600Hz位置开始上升的。
在右边,它跟元音i的共振峰衔接在一起。
辅音b、p、f都是唇音,它们一般都会使后边元音或类似元音共振峰F1、F2的强频区形成上升的弯头。
“不”元音u末尾还有指向后边p的下降弯头。
u的F1和F2大约在500Hz(红色)和1000Hz(黄绿色)。
图中出现了两个鼻辅音。
它们的声学特征跟元音一样,也有各自的共振峰纹样,但是能量比元音弱。
五、窄带语图、音高分析等。
窄带语图是相对于宽带语图而言的。
前面几幅语图都是宽带的。
这里附图中出现了窄带语图。
窄带语图主要用来研究声调和语调。
在这种语图中没有纵向的条纹,只有横向的条纹。
那些横向条纹就是基波和谐波随时间变化的许多曲线。
联系汉语声调就可以发现,它们是跟四声的升降平曲一致的。
附图声波图下还有总振幅图(能量图)。
语图下面还有音高的粗测图和平滑图。
“中国的”的“的”极短,它的音高段紧跟在“国”后尾。
“改革开放”里四声俱全。
去声“放”后尾的上升弯尾使音节能够自由加长,形成节奏尾音。
“改”上声末尾几个周期的低音被漏检了。
“现代化建设”是5个去声连用。
它们高低变化使两个词的区分有了音高标记,其中低音点特别低是节奏关系的重要标记。
它们哪个音节是重音,可以从高音点高的程度比较出来。
夹在两个很长的词组中间的“和”的时长也显得特别长。
“改”和“放”都有迅速下降的音高段。
但是,它们下降的速度不一样,“改”一开始是快速下降的,“放”一开始是缓缓下降的。
“改”的韵母一开始,能量逐渐增加,因为开头的能量很弱,那里的下降段听起来极不显著,是会被后边掩蔽的。
“放”的下降段是在音段能量最强的地方开始下降的,因此听起来非常显著。
从技术上说,做频谱分析是要拿一段声波去计算的。
如果那一段声音的时长超过大约20ms,频谱图上50Hz以上的谐波可以分辨得清清楚楚。
我们已经知道,所谓语图就是那样的一帧一帧的频谱图连接起来的三维语图。
语图上还有一个时间轴。
我们可以大步走,每过20ms(步长=帧长)做一次频谱分析。
(大步走,有时候会像CoolEdit一样,做出许许多多马赛克来的。
)我们也可以小步走,例如每过2ms(步长)做一次20ms(帧长、窗长)的谱分析,把20ms里的能量变化也检测出来。
但是不论如何做,我们都可以发现,语图上的时间分辨率很差,50Hz以上的周期变化再也看不着了。
因为在窄带语图上频率轴的分辨率很好,时间轴上的分辨率不好,所以就出现了许多谐波(含基波f1)条纹。
通常说的窄带,是指所谓45Hz的滤波器。
它相当于对22.2ms时长段的谱分析。
那种带宽或时长还可以用采样数描述,例如采样10000次每秒,每次就分析222样点的音段。
通常说的宽带,是指所谓300Hz的滤波器。
它相当于对3.33ms时长段的谱分析,也相当于10000Hz采样的33样点的音段分析。
在宽带语图上频率轴的分辨率很低,而在时间轴上的分辨率很好。
宽带语图适合做元音、辅音一类音质分析。
二进制的演算经常选用32、64、128、256等做谱分析的样点数范围。
六、下图可以看出清与浊、送气与不送气的不同。
印地语的材料。
七、声学元音图。
附图以美国英语为例的“声学元音图”说明,语音的听觉跟发音的生理特征密切相关。
或者反过来说,语音的生理特征(发音部位)可能是在大量听觉事实的帮助下确定的。
F1和F2是听觉可以觉察的事实。
汉语元音请参见著名播音员夏青在朗诵中的发音:
元音 F1 F2 F3(Hz)
i低
42023602900
u古
360 6602690
e者
49012302550
ï
子
48015102310
(图中F2判断为1400Hz)
a见
67019302660
a然
78015202530
a昂
76012902560
男声、女声、童声的共振峰大致都有6:
7:
8的简单关系。
也就是说,在一定范围内F1:
F2:
F3的比例关系相似,就是相同的语音音质。
下图把F2坐标也换成线性,比例关系就明显了。
男、女、童声基本上都在同一条比例线上,那种比例线就是“同音线”。
那种比例都是最简单的数字的比例,也就说明人们共同选择的是最悦耳的元音音质。
单单从F1和F2看,男、女、童声不同音质似乎是交叉在一起的。
因此我们还要注意,F3和F4等也在起区分语音音质的作用。
录音系统的电路确实会产生噪声。
当录音机的信噪比达到某个水平,例如80分贝的时候,噪音在80分贝以下。
那是功率1/100000000的影响,也就是声压或电压1/10000的影响,是在16比特声压数字±
32767中±
3的影响。
模数转换和采样率确实会有影响。
那些影响远远比不上语声周期不稳定因素的影响。
(此外环境噪声、回声和外部电磁波的干扰也是重要的影响因素。
那是可以采取措施去减少它们影响的。
录音机里音量自动提升的AGC功能很讨厌,会把环境噪声放大。
)
在严格的周期重复中,声谱图里的正弦成分只能是一条简单的竖直线。
在不稳定的声音中,竖直线“发胖”了!
于是它们都变成或瘦或胖的尖峰或小鼓包,而且鼓包的顶点也会或左或右了。
当我说f10的精度是f110倍的时候,只是指最普通的计算误差或测量误差,是不包括不稳定声音带来的误差的。
八、附图比较三种不同的宽带,带宽由窄到宽。
在CoolEdit中,options>
settings>
spectral>
下调节resolution和windowwidth可以改变频率分辨率和带宽。
上图“建”的基频高于带宽,干扰了共振峰的识辨。
下图带宽过大,相近的共振峰粘连在一起了。
中图比较适中。
九、
——以上依次为CoolEdit2000、SA和Gram做的语图。
第一个图显示方式是亮度方式。
另两个是伪彩色显示方式。
图中是“海外侨胞”haiwaiqiaobao
元音是:
aiuaiiauau
共振峰F2:
MHLMHHMLML(约800~2800Hz的高中低:
H高、M中、L低)
共振峰F1:
HLLHLLHLHL(约1000Hz以下的高低:
H高、L低)
“海”末尾F2迅速下降,是一种过渡,从前元音迅速过渡到后元音。
au的F1和F2紧挨在一起。
辅音:
h与q的区别主要是能量分布的不同,也就是频率位置不同。
它们都持续较长时间。
q的擦音段和送气段跟i是重叠在一起的(同时的,声带不振动)。
下图中可看到冲直条。
b有冲直条。
a的F2开头有明显的弯头,是从低处升上去的。
b是冲直条和弯头段组成的声音。
b冲直条前面没有静波间隙,300Hz以下有明显的浊音横杠,看来它已经浊化了。
各元音大约300Hz以下能量都比较强,属于低频能量,不是共振峰。
因为经常会有50Hz交流电的干扰,静波段的最低频部分都有噪音。
音节之后还可以看到回声干扰。
下图是常规显示方式——灰度方式的语图。
应该说,语图上的“冲直条”只是一种名称,是一种文字“标签”。
那个“直”只代表短时间发生的声音现象,也就是时间轴上一瞬息的现象,在语图上是一瞬间的垂直线。
它的波形是猝发波。
它的谱分析结果是复杂的频率分布,能量的分布是不均衡的。
辅音p、t、k(国际音标)冲直条的能量分布不一样。
例如p的峰值在频率位置较低的地方。
t的峰值在频率位置较高的地方。
汉语k的峰值在它们之间。
由于那种峰值位置不同,共振峰弯头的走向也不一样。
也就因此它们的音质是不一样的。
在读图的时候,那种弯头的走向(升降形状和升降程度)是我们识别辅音的直观手段。
参见下图底下[t]的谱分析。
图中F2的弯头是从上向下弯的。
它指向冲直条上2255Hz的强频区。
下图把各种语音的F2画在同一张图上比较,就可以看到,它们的弯头都指向冲直条上某一个特定的能量比较强的频率位置,也就都是同一个塞辅音。
那个特定频率位置被称为音轨。
元音共振峰弯头内包含辅音信息,所以就被称为声学音征。
这已经是公认的基本知识。
讨论:
附图显示普通话“展览馆里有”,基音频率在58-153Hz,周期在17-6.5ms。
所选滤波器带宽为172Hz,时间分辨率为5.82ms。
“馆”的频率很低,它的周期能够清晰显示。
“展览馆里”频率比较接近滤波器带宽,它们的周期相当模糊。
如果周期小于5.82ms(“窗口”),垂直条纹完全消失。
那个“窗口”很有意思,比窗口小的分辨不了,比它大了才能够分辨。
窗口里头是一篇囫囵的糊涂帐。
那里没有时间概念,只有能量按频率分布的剖析。
时间概念是窗子外头才有的东西。
这就好比拿一把没有刻度的尺子去量一块布头,不知道几寸几分在哪里,却知道每一尺都是“经拽又经拉”的高质量的一样的布头。
那里只有超过一尺长的色差或毛疵才能够被我们突然发现。
分析频率是采样频率的一半。
例如,采样频率是16000Hz,分析结果是8000Hz以下的东西。
在我学到的知识中,带宽是时间窗口的倒数。
人类语言使用共振峰来创造元音。
在清晰的语言中元音共振峰本身的带宽越窄声音越清晰。
那是正常人的特点。
器乐也都有共振现象,那是美学的需要,也是现实的必然,但是未必会有元音一样的共振峰带宽。
相对于音质分析,做基频分析带宽要窄一些,要低于实际的基音频率。
我最关心的是汉语音高系统,尤其是它里边的区别特征。
它是非常中国化的实际问题。
1.声调特征和轻声特征。
轻声是一种异化,与声调有对偶音高关系。
上声以低音特征为主,后边的轻声有高音特征(音高等级4)。
其他声调以高音特征为主,后边的轻声有低音特征(音高等级1、2、3完全可以用同化解释)。
正常重音的声调是饱满的。
轻化使声调高低特征之间的对偶距离减小,其次使声调特征段在音节时长中所占的比例减小、音高升降幅度减小,甚至使升降特征丢失,最后声调特征完全丢失,落入前后音节音高的过渡过程中(这就连轻声都不如了)。
2.句重音力度加大,使声调高音特征点的音高提高。
句重音力度进一步加大,会使后一音节轻化,音高出现异化表现。
(异化是特征属性的表现。
它与轻声规则相似。
因为它不是轻声,所以异化是前字重音的表现。
)后音节实际音高一开始就受前音节同化。
(也就是说,这里有复杂的同化和异化问题。
)句重音的这种异化作用一般只影响后一个音节,有时候会影响更多音节。
3.音高在节奏和停延系统中的表现。
可以有层次构造的假设,但是不等同于层次构造,只是有点儿围着它转。
4.音高在语调构造中的表现。
它主要跟着焦点(窄的或很宽的焦点)走。
它不是简单的音高下倾问题。
5.音高在语调类型中的表现。
它必须使用高音线和低音线两个自由度。
总之,音高问题必须放到一个多层次的声学模型中去才行。
十、Whatisaspectrogram?
Asoundspectrogram(orsonogram)isavisualrepresentationofanacousticsignal.Tomakeaspectrogram,aFouriertransform[傅利叶变换]isappliedtoanacousticwave([声波]ormoretechnically,itselectronicanalog[电子模拟]),derivingthefrequencies[频率]andamplitudes[振幅]ofitscomponentsimplewaves.DependingonthesizeoftheFourieranalysiswindow[窗],differentlevelsofresolution[分辨率]areachieved.Alongwindowresolvesfrequencyattheexpenseoftime-theresultisanarrowbandspectrogram[窄带语图],whichrevealsindividualharmonics[谐波、谐音](componentfrequencies).Ifasmallanalysiswindowisused,adjacentharmonicsaresmearedtogether,butwithbettertimeresolution.Theresultisawidebandspectrogram[宽带语图]inwhichindividualpitch[音高]periods[周期]appearasverticallines(orstriations),withformantstructure[共振峰结构].Generally,widebandspectrogramsareusedinspectrogramreadingbecausetheygiveusmoreinformationaboutwhat'
sgoingoninthevocaltract[(言语)声道],forreasonswhichshouldbecomeclear.
Sources[声源]andFilters[滤波器]
Weoftentalkaboutspeechintermsofsource-filtertheory.Putsimply,wecanviewthevocaltractlikeamusicalinstrument.There'
sapartthatactuallymakessound(forinstance,avoilinstring),andthepartthat'
shapes'
thesound(thebodyoftheviolin).Youcanbowaviolinstring,oryoucanpluckit.Ineithercase,asoundisproduced.Thestringisthesourceofthesoundtheviolinmakes.Thesourceisthenfilteredbythesoundboxoftheviolin,givingitthecharacteristic'
tonal'
qualitiesofaviolin(asopposedtothoseofcello,aguitar,aukelele,etc.).Theshapeoftheviolin'
ssoundboxdeterminestheshapeofthefilter,whichisthesamewhetherthesourceisbowedorplucked.
Amajordifferencebetweenplayingaviolinandspeakingisthattheshapeoftheviolindoesn'
tchangewhileyouplayit.Butwhenwetalk,wemakedifferentspeechsoundsbyconfiguringthevocaltractdifferently.Sowecaninfertheshapeofthevocaltract(articulation[调音])fromtheshapeofthefilter,i.e.thepatternofformantsandresonances[共振]inthespectrogram.Theimportantthingtorememberisthatinthevocaltract,the(primary)source(voicedorvoiceless[带音或不带音],orotherglottalstates[声门状态])canvaryindependentlyoftheshapeofthefilter(i.e.thearticulatoryconfiguration).InFigure1,Isay"
eeaheeah"
(IPA[iɑiɑ])continuouslyonasteadypitch.Ontheleft,thewidebandspectrogramshowstheformants(darkerbands)changingrapidly.Ontheright,thenarrowbandspectrogramindicatesthatthenarrowhorizontallines,orharmonics--thecomponentsimplewaves--aresteady,i.e.thepitchthroughoutisflat(thisisparticularlyobviousinthelowerfewharmonics).Becausesomeharmonicsarestrongerthanothersatanygivenmoment,youcanseetheformantstructureeveninthenarrowbandspectrogram.Thefilterfunction(theformantstructure)issuperimposedoverthesourcestructure.
Figure1.Wideband(left)andnarrowband(right)spectrogramsofmesaying"
withlevelpitch.
共振峰的数目跟极值(poles)有关。
提高p值,可能增加F数。
此外,相邻两个F最小频率距离的设置也会影响它