称为共振峰纹样ReadWord格式文档下载.docx

上传人:b****6 文档编号:18032999 上传时间:2022-12-13 格式:DOCX 页数:18 大小:1.43MB
下载 相关 举报
称为共振峰纹样ReadWord格式文档下载.docx_第1页
第1页 / 共18页
称为共振峰纹样ReadWord格式文档下载.docx_第2页
第2页 / 共18页
称为共振峰纹样ReadWord格式文档下载.docx_第3页
第3页 / 共18页
称为共振峰纹样ReadWord格式文档下载.docx_第4页
第4页 / 共18页
称为共振峰纹样ReadWord格式文档下载.docx_第5页
第5页 / 共18页
点击查看更多>>
下载资源
资源描述

称为共振峰纹样ReadWord格式文档下载.docx

《称为共振峰纹样ReadWord格式文档下载.docx》由会员分享,可在线阅读,更多相关《称为共振峰纹样ReadWord格式文档下载.docx(18页珍藏版)》请在冰豆网上搜索。

称为共振峰纹样ReadWord格式文档下载.docx

塞音、塞擦音都包含脉冲波和冲直条。

它们代表声音中一种特殊的噪音——猝发音(猝发波)。

  汉语d是清辅音,因此在冲直条前面(左边)总是有一段静波(无音)。

静波也是语图上的一种图型,称为间隙G。

在冲直条之后声带并不是马上就开始振动的,它们之间也可能有极短的间隙。

图中冲直条后有5、10ms的间隙。

对于不送气的d来说,“的”10ms的间隙是非常大的。

  在口语的自然语流中,“代”后字“的”的轻声会使d浊化。

图中是播音员语体,没有那种浊化现象。

  语图中有许多垂直条纹。

d的冲直条是辅音发音部位阻碍破裂产生的猝发音。

其他垂直条纹都是声带周期波引起的。

在当前的显示方式下,远远低于300Hz的声带波,每一周期都会有它明显的垂直条纹。

它是声门突然打开呼吸气流从下面迸发出来的声门声源音的表现。

总之,它们不是辅音的表现,都不是冲直条。

  声带开始振动以后,语图上就出现横向的共振峰纹样。

我们需要仔细分析那里的起伏过程。

那里的共振峰出现了“弯头”,被看成是辅音的“音征”。

声带刚开始振动的时候,d的除阻过程还在继续,也就是说,舌尖正在从齿龈那里离开,向下移动。

这一过程在共振峰中反映出来了。

它们是逐渐向元音位置移动的。

在“代”中,“弯头”占了韵母段近1/4的时间。

中间第二个1/4段才是典型a的共振峰。

然后它又向着韵尾i的目标前进的第三个1/4段。

接着,在音节还没有完的第四个1/4段里,口腔和舌头又开始准备“的”的发音,又有了跟韵母开始时候类似的“弯尾”。

因此在所谓韵母段的声音里,两头都是包含相邻辅音信息的。

对于dai来说,ai开始段包含的辅音信息特别重要。

它是辅音d声音响亮、跟其他辅音明显有别的重要因素。

  我们仔细观察语图还可以发现。

沿着共振峰向左看,冲直条上共振峰指向的位置能量很强。

对于d来说,F1左边大约400Hz、F2左边大约2300Hz的能量造成了它特殊的听感。

由此可以推测,不同塞音破裂的声音确实是应该不一样的。

四、乱纹

  在语图上持续噪音的图型是乱纹N。

  附图是女声“不平凡(的)”前三字的声学分析。

  辅音b、p都有脉冲波和语图上的冲直条图型。

  p的送气段和擦音f都包含比较长的一段噪音,在语图上呈现乱纹。

  在p的送气段里,大约3000-4000Hz的黄色和红色斑线里边,已经包含后边元音i的信息。

这一位置的两头,黄线迅速下移。

在左边,它是从冲直条里大约1600Hz位置开始上升的。

在右边,它跟元音i的共振峰衔接在一起。

  辅音b、p、f都是唇音,它们一般都会使后边元音或类似元音共振峰F1、F2的强频区形成上升的弯头。

“不”元音u末尾还有指向后边p的下降弯头。

u的F1和F2大约在500Hz(红色)和1000Hz(黄绿色)。

  图中出现了两个鼻辅音。

它们的声学特征跟元音一样,也有各自的共振峰纹样,但是能量比元音弱。

五、窄带语图、音高分析等。

  窄带语图是相对于宽带语图而言的。

前面几幅语图都是宽带的。

这里附图中出现了窄带语图。

窄带语图主要用来研究声调和语调。

在这种语图中没有纵向的条纹,只有横向的条纹。

那些横向条纹就是基波和谐波随时间变化的许多曲线。

联系汉语声调就可以发现,它们是跟四声的升降平曲一致的。

  附图声波图下还有总振幅图(能量图)。

语图下面还有音高的粗测图和平滑图。

“中国的”的“的”极短,它的音高段紧跟在“国”后尾。

“改革开放”里四声俱全。

去声“放”后尾的上升弯尾使音节能够自由加长,形成节奏尾音。

“改”上声末尾几个周期的低音被漏检了。

“现代化建设”是5个去声连用。

它们高低变化使两个词的区分有了音高标记,其中低音点特别低是节奏关系的重要标记。

它们哪个音节是重音,可以从高音点高的程度比较出来。

夹在两个很长的词组中间的“和”的时长也显得特别长。

  “改”和“放”都有迅速下降的音高段。

但是,它们下降的速度不一样,“改”一开始是快速下降的,“放”一开始是缓缓下降的。

“改”的韵母一开始,能量逐渐增加,因为开头的能量很弱,那里的下降段听起来极不显著,是会被后边掩蔽的。

“放”的下降段是在音段能量最强的地方开始下降的,因此听起来非常显著。

  从技术上说,做频谱分析是要拿一段声波去计算的。

如果那一段声音的时长超过大约20ms,频谱图上50Hz以上的谐波可以分辨得清清楚楚。

我们已经知道,所谓语图就是那样的一帧一帧的频谱图连接起来的三维语图。

语图上还有一个时间轴。

我们可以大步走,每过20ms(步长=帧长)做一次频谱分析。

(大步走,有时候会像CoolEdit一样,做出许许多多马赛克来的。

)我们也可以小步走,例如每过2ms(步长)做一次20ms(帧长、窗长)的谱分析,把20ms里的能量变化也检测出来。

但是不论如何做,我们都可以发现,语图上的时间分辨率很差,50Hz以上的周期变化再也看不着了。

因为在窄带语图上频率轴的分辨率很好,时间轴上的分辨率不好,所以就出现了许多谐波(含基波f1)条纹。

  通常说的窄带,是指所谓45Hz的滤波器。

它相当于对22.2ms时长段的谱分析。

那种带宽或时长还可以用采样数描述,例如采样10000次每秒,每次就分析222样点的音段。

通常说的宽带,是指所谓300Hz的滤波器。

它相当于对3.33ms时长段的谱分析,也相当于10000Hz采样的33样点的音段分析。

在宽带语图上频率轴的分辨率很低,而在时间轴上的分辨率很好。

宽带语图适合做元音、辅音一类音质分析。

  二进制的演算经常选用32、64、128、256等做谱分析的样点数范围。

六、下图可以看出清与浊、送气与不送气的不同。

印地语的材料。

七、声学元音图。

  附图以美国英语为例的“声学元音图”说明,语音的听觉跟发音的生理特征密切相关。

或者反过来说,语音的生理特征(发音部位)可能是在大量听觉事实的帮助下确定的。

F1和F2是听觉可以觉察的事实。

  汉语元音请参见著名播音员夏青在朗诵中的发音:

    元音 F1 F2 F3(Hz)

    i低 

 

42023602900

    u古 

360 6602690

    e者 

49012302550

    ï

子 

48015102310 

(图中F2判断为1400Hz)

    a见 

67019302660

    a然 

78015202530

    a昂 

76012902560

男声、女声、童声的共振峰大致都有6:

7:

8的简单关系。

也就是说,在一定范围内F1:

F2:

F3的比例关系相似,就是相同的语音音质。

  下图把F2坐标也换成线性,比例关系就明显了。

男、女、童声基本上都在同一条比例线上,那种比例线就是“同音线”。

那种比例都是最简单的数字的比例,也就说明人们共同选择的是最悦耳的元音音质。

  单单从F1和F2看,男、女、童声不同音质似乎是交叉在一起的。

因此我们还要注意,F3和F4等也在起区分语音音质的作用。

录音系统的电路确实会产生噪声。

当录音机的信噪比达到某个水平,例如80分贝的时候,噪音在80分贝以下。

那是功率1/100000000的影响,也就是声压或电压1/10000的影响,是在16比特声压数字±

32767中±

3的影响。

模数转换和采样率确实会有影响。

那些影响远远比不上语声周期不稳定因素的影响。

(此外环境噪声、回声和外部电磁波的干扰也是重要的影响因素。

那是可以采取措施去减少它们影响的。

录音机里音量自动提升的AGC功能很讨厌,会把环境噪声放大。

  在严格的周期重复中,声谱图里的正弦成分只能是一条简单的竖直线。

在不稳定的声音中,竖直线“发胖”了!

于是它们都变成或瘦或胖的尖峰或小鼓包,而且鼓包的顶点也会或左或右了。

当我说f10的精度是f110倍的时候,只是指最普通的计算误差或测量误差,是不包括不稳定声音带来的误差的。

八、附图比较三种不同的宽带,带宽由窄到宽。

在CoolEdit中,options>

settings>

spectral>

下调节resolution和windowwidth可以改变频率分辨率和带宽。

上图“建”的基频高于带宽,干扰了共振峰的识辨。

下图带宽过大,相近的共振峰粘连在一起了。

中图比较适中。

九、

——以上依次为CoolEdit2000、SA和Gram做的语图。

  第一个图显示方式是亮度方式。

另两个是伪彩色显示方式。

图中是“海外侨胞”haiwaiqiaobao

元音是:

 aiuaiiauau

共振峰F2:

MHLMHHMLML(约800~2800Hz的高中低:

H高、M中、L低)

共振峰F1:

HLLHLLHLHL(约1000Hz以下的高低:

H高、L低)

   “海”末尾F2迅速下降,是一种过渡,从前元音迅速过渡到后元音。

   au的F1和F2紧挨在一起。

辅音:

h与q的区别主要是能量分布的不同,也就是频率位置不同。

它们都持续较长时间。

   q的擦音段和送气段跟i是重叠在一起的(同时的,声带不振动)。

下图中可看到冲直条。

   b有冲直条。

a的F2开头有明显的弯头,是从低处升上去的。

b是冲直条和弯头段组成的声音。

   b冲直条前面没有静波间隙,300Hz以下有明显的浊音横杠,看来它已经浊化了。

  各元音大约300Hz以下能量都比较强,属于低频能量,不是共振峰。

因为经常会有50Hz交流电的干扰,静波段的最低频部分都有噪音。

音节之后还可以看到回声干扰。

  下图是常规显示方式——灰度方式的语图。

应该说,语图上的“冲直条”只是一种名称,是一种文字“标签”。

那个“直”只代表短时间发生的声音现象,也就是时间轴上一瞬息的现象,在语图上是一瞬间的垂直线。

它的波形是猝发波。

它的谱分析结果是复杂的频率分布,能量的分布是不均衡的。

  辅音p、t、k(国际音标)冲直条的能量分布不一样。

例如p的峰值在频率位置较低的地方。

t的峰值在频率位置较高的地方。

汉语k的峰值在它们之间。

由于那种峰值位置不同,共振峰弯头的走向也不一样。

也就因此它们的音质是不一样的。

在读图的时候,那种弯头的走向(升降形状和升降程度)是我们识别辅音的直观手段。

参见下图底下[t]的谱分析。

图中F2的弯头是从上向下弯的。

它指向冲直条上2255Hz的强频区。

下图把各种语音的F2画在同一张图上比较,就可以看到,它们的弯头都指向冲直条上某一个特定的能量比较强的频率位置,也就都是同一个塞辅音。

那个特定频率位置被称为音轨。

元音共振峰弯头内包含辅音信息,所以就被称为声学音征。

这已经是公认的基本知识。

讨论:

附图显示普通话“展览馆里有”,基音频率在58-153Hz,周期在17-6.5ms。

所选滤波器带宽为172Hz,时间分辨率为5.82ms。

“馆”的频率很低,它的周期能够清晰显示。

“展览馆里”频率比较接近滤波器带宽,它们的周期相当模糊。

如果周期小于5.82ms(“窗口”),垂直条纹完全消失。

那个“窗口”很有意思,比窗口小的分辨不了,比它大了才能够分辨。

窗口里头是一篇囫囵的糊涂帐。

那里没有时间概念,只有能量按频率分布的剖析。

时间概念是窗子外头才有的东西。

这就好比拿一把没有刻度的尺子去量一块布头,不知道几寸几分在哪里,却知道每一尺都是“经拽又经拉”的高质量的一样的布头。

那里只有超过一尺长的色差或毛疵才能够被我们突然发现。

分析频率是采样频率的一半。

例如,采样频率是16000Hz,分析结果是8000Hz以下的东西。

在我学到的知识中,带宽是时间窗口的倒数。

人类语言使用共振峰来创造元音。

在清晰的语言中元音共振峰本身的带宽越窄声音越清晰。

那是正常人的特点。

器乐也都有共振现象,那是美学的需要,也是现实的必然,但是未必会有元音一样的共振峰带宽。

相对于音质分析,做基频分析带宽要窄一些,要低于实际的基音频率。

我最关心的是汉语音高系统,尤其是它里边的区别特征。

它是非常中国化的实际问题。

  1.声调特征和轻声特征。

轻声是一种异化,与声调有对偶音高关系。

上声以低音特征为主,后边的轻声有高音特征(音高等级4)。

其他声调以高音特征为主,后边的轻声有低音特征(音高等级1、2、3完全可以用同化解释)。

正常重音的声调是饱满的。

轻化使声调高低特征之间的对偶距离减小,其次使声调特征段在音节时长中所占的比例减小、音高升降幅度减小,甚至使升降特征丢失,最后声调特征完全丢失,落入前后音节音高的过渡过程中(这就连轻声都不如了)。

  2.句重音力度加大,使声调高音特征点的音高提高。

句重音力度进一步加大,会使后一音节轻化,音高出现异化表现。

(异化是特征属性的表现。

它与轻声规则相似。

因为它不是轻声,所以异化是前字重音的表现。

)后音节实际音高一开始就受前音节同化。

(也就是说,这里有复杂的同化和异化问题。

)句重音的这种异化作用一般只影响后一个音节,有时候会影响更多音节。

  3.音高在节奏和停延系统中的表现。

可以有层次构造的假设,但是不等同于层次构造,只是有点儿围着它转。

  4.音高在语调构造中的表现。

它主要跟着焦点(窄的或很宽的焦点)走。

它不是简单的音高下倾问题。

  5.音高在语调类型中的表现。

它必须使用高音线和低音线两个自由度。

  总之,音高问题必须放到一个多层次的声学模型中去才行。

十、Whatisaspectrogram?

Asoundspectrogram(orsonogram)isavisualrepresentationofanacousticsignal.Tomakeaspectrogram,aFouriertransform[傅利叶变换]isappliedtoanacousticwave([声波]ormoretechnically,itselectronicanalog[电子模拟]),derivingthefrequencies[频率]andamplitudes[振幅]ofitscomponentsimplewaves.DependingonthesizeoftheFourieranalysiswindow[窗],differentlevelsofresolution[分辨率]areachieved.Alongwindowresolvesfrequencyattheexpenseoftime-theresultisanarrowbandspectrogram[窄带语图],whichrevealsindividualharmonics[谐波、谐音](componentfrequencies).Ifasmallanalysiswindowisused,adjacentharmonicsaresmearedtogether,butwithbettertimeresolution.Theresultisawidebandspectrogram[宽带语图]inwhichindividualpitch[音高]periods[周期]appearasverticallines(orstriations),withformantstructure[共振峰结构].Generally,widebandspectrogramsareusedinspectrogramreadingbecausetheygiveusmoreinformationaboutwhat'

sgoingoninthevocaltract[(言语)声道],forreasonswhichshouldbecomeclear.

Sources[声源]andFilters[滤波器]

Weoftentalkaboutspeechintermsofsource-filtertheory.Putsimply,wecanviewthevocaltractlikeamusicalinstrument.There'

sapartthatactuallymakessound(forinstance,avoilinstring),andthepartthat'

shapes'

thesound(thebodyoftheviolin).Youcanbowaviolinstring,oryoucanpluckit.Ineithercase,asoundisproduced.Thestringisthesourceofthesoundtheviolinmakes.Thesourceisthenfilteredbythesoundboxoftheviolin,givingitthecharacteristic'

tonal'

qualitiesofaviolin(asopposedtothoseofcello,aguitar,aukelele,etc.).Theshapeoftheviolin'

ssoundboxdeterminestheshapeofthefilter,whichisthesamewhetherthesourceisbowedorplucked.

Amajordifferencebetweenplayingaviolinandspeakingisthattheshapeoftheviolindoesn'

tchangewhileyouplayit.Butwhenwetalk,wemakedifferentspeechsoundsbyconfiguringthevocaltractdifferently.Sowecaninfertheshapeofthevocaltract(articulation[调音])fromtheshapeofthefilter,i.e.thepatternofformantsandresonances[共振]inthespectrogram.Theimportantthingtorememberisthatinthevocaltract,the(primary)source(voicedorvoiceless[带音或不带音],orotherglottalstates[声门状态])canvaryindependentlyoftheshapeofthefilter(i.e.thearticulatoryconfiguration).InFigure1,Isay"

eeaheeah"

(IPA[iɑiɑ])continuouslyonasteadypitch.Ontheleft,thewidebandspectrogramshowstheformants(darkerbands)changingrapidly.Ontheright,thenarrowbandspectrogramindicatesthatthenarrowhorizontallines,orharmonics--thecomponentsimplewaves--aresteady,i.e.thepitchthroughoutisflat(thisisparticularlyobviousinthelowerfewharmonics).Becausesomeharmonicsarestrongerthanothersatanygivenmoment,youcanseetheformantstructureeveninthenarrowbandspectrogram.Thefilterfunction(theformantstructure)issuperimposedoverthesourcestructure.

Figure1.Wideband(left)andnarrowband(right)spectrogramsofmesaying"

withlevelpitch.

共振峰的数目跟极值(poles)有关。

提高p值,可能增加F数。

此外,相邻两个F最小频率距离的设置也会影响它

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 冶金矿山地质

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1