03音频.docx
《03音频.docx》由会员分享,可在线阅读,更多相关《03音频.docx(68页珍藏版)》请在冰豆网上搜索。
03音频
第3章音频
音频(audio)指人能听到的声音,包括语音、音乐和其它声音(环境声、音效声、自然声等)。
本章将简单介绍声音的物理属性、数字音频的编码技术与存储格式、语音处理,主要讨论听觉系统的感知特性、音频信号的数字化、MIDI,重点研究话音音频的编码方法。
3.1声音
声音是一种纵向压力波,主要用振幅和频率来刻画,具有响度、音调和音色等特征。
人的听觉和发声都有一定的频率范围。
本节介绍声音的物理属性和感知特性,以及各种声音的频率范围。
3.1.1声波
声音是一种纵向压力波,其客观物理属性主要有振幅和频率,而其主观感知特性则有响度、音高和音色等,对于音乐还有风格、节奏、旋律等特征。
1.声音与声波
图3-1声音是一种连续的波(波形图)
声音(sound)是一种由机械振动引起可在物理介质(气体、液体或固体)中传播的纵向压力波(纵波或疏密波),参见图3-1。
称振动发声的物体为声源。
声波(soundwave)指在物理介质中传播的声音。
声音在真空中不能传播,我们主要讨论声音在空气中的传播。
1)声速
声音在空气中传播的速度几乎不受气压大小的影响,但是受气温的影响很大。
在气温为t℃时的声速:
c=331.5*(1+t/273)1/2≈331.5+0.6t(m/s)
例如在室温(15℃)下,声速c≈340m/s。
2)振幅和频率
声音的强弱体现在声波压力的大小(振动的幅度)上,音调的高低体现在声波的频率上。
因此,声波可用振幅和频率这两个基本物理量来描述:
●振幅:
声波的振幅(amplitude)A定义为振动过程中振动的物质偏离平衡位置的最大绝对值;
●频率:
声波的频率(frequency)f定义为单位时间内振动的次数,单位为赫兹Hz(每秒振动的次数),人耳能听到的声音的频率范围为20Hz~20kHz。
声音频率的高低,与声源物体的共振频率有关。
一般情况下,发声的物体(如乐器)越粗大松软,则所发声音的频率就越低;反之,物体越细小紧硬,则所发声音的频率就越高。
例如大编钟发出的声音比小编钟的频率低、大提琴的声音比小提琴的低;同是一把提琴,粗弦发出的声音比细弦的低;同是一根弦,放松时的声音比绷紧时的低。
振幅表示了声音的大小,也体现了声波能量的大小。
同一发声物体(如乐器),敲打、弹拨、拉擦它所使得劲越大,则所产生振动的能量就越大、发出声音的音量就越大、对应声波的振幅也就越大。
3)波长与频率
可以用波长代替频率来刻画声音的物理特性。
声音的波长(wavelength)λ定义为声音每振动一次所走过的距离,单位为米(m)。
声波的波长与频率的关系为:
λ=c/f(m),其中c为声速。
表3-1是一些频率的声波所对应的波长。
表3-1声音的频率与波长(c=340m/s)
f
20Hz50Hz100Hz250Hz500Hz1kHz2kHz5kHz10kHz15kHz20kHz
λ
17m6.8m3.4m1.36m68cm34cm17cm6.8cm3.4cm2.3cm1.7cm
4)纯音与复音
具有单一频率的声音被称为纯音(puretone),具有多种频率成分的声音被称为复音(complextone)。
普通的声音(如人讲话和乐器演奏)一般都是复音。
5)基频与谐频
图3-2和谐复音的基频与谐频
f0为基频(红色),fi=i*f为谐频(蓝色)
和谐的复音由基音(fundamentaltone)和谐音(harmonictone)所组成。
基音的频率是和谐复音中的最低频(通常具有最大振幅),称为基频(fundamentalfrequency);谐音(也叫泛音[overtone])的频率是基频的整数倍,称为谐频(harmonicfrequency)。
参见图3-2。
基音决定声音的高低(音调),谐音则决定声音的音品(音色)。
2.声音三要素
除了上面所介绍的振幅和频率这两个物理属性外,声音还有若干感知特性,它们是人对声音的主观反应。
声音的感知特性主要有音调、响度和音色,称之为声音的三要素:
●音调——人耳对声音高低的感觉称为音调(tone)。
音调主要与声音的频率有关,但不是简单的线性关系,而是成对数关系。
除了频率外,影响音调的因素还有声音的声压级和声音的持续时间。
音调的单位为美(mel);
●响度——声音的响度(loudness)就是对声音强弱的主观感知。
声音的大小在客观上一般用声级(soundlevel)表示,其单位为dB分贝,无量纲,人能感知的声音大小的范围一般为0~120dB。
主观感觉的声音强弱则使用响度“宋(sone)”或响度级“方(phon)”来度量;
●音色——音色(timbre)是人们区别具有相同的响度和音调的两个(不同发声体所发出)声音的主观感觉,也称为音品。
例如,每个人讲话都有自己的音色;每种乐器都有各自的音色,即使它们演奏相同的曲调,人们还是能将其区分开来。
音色主要是由复音中不同谐音的分布和组成所决定的,影响音色的因素还有声音的时间过程。
关于声音感知特性的详细讨论见3.1.4小节。
3.1.2频率范围
<20Hz
20Hz~20kHz
>20kHz
次声
可听声(音频)
超声
表3-2声音的频率范围
下面依次介绍人类听觉、人声、话音、声乐和器乐等的频率范围。
1.听觉
人耳能感受到(听觉hearing/auditorysensation)的频率范围约为20Hz~20kHz,称此频率范围内的声音为可听声(audiblesound)或音频(audio),频率<20Hz声音为次声(infrasound),频率>20kHz声音为超声(ultrasound)。
参见表3-2。
音频的带宽约20kHz,其范围内的频率相差达一千倍。
人耳相当于一种对数频谱分析仪,可以很好地感知不同频率的声音。
2.人声与话音
人的发音器官发出的声音(人声)的频率大约是80Hz~3400Hz。
人说话的声音(话音voice/语音speech)的频率通常为300Hz~3000Hz(带宽约3kHz)。
可见,与近2万赫兹的宽带(broadband)听觉相比,只有不到3千赫兹的语音是一种窄带(narrowband)的声音。
宽带和窄带的声音,在编码上有很大的不同。
3.器乐
传统乐器的发声范围为16Hz(C2)~7kHz(a5),如钢琴的为27.5Hz(A2)~4186Hz(c5)。
音名
C
D
E
F
G
A
B
C
简谱
1
2
3
4
5
6
7
i
唱名
do
re
mi
fa
sol
la
si
do
音程
全音
全音
半音
全音
全音
全音
半音
音分
200
200
100
200
200
200
100
表3-312平均律
乐理的音高采用12平均律,将8度(倍频)音,按2的指数分为12份[21200],每份相当于一个半音(100音分)。
参见表3-3。
可把音高分为若干组,低音用大写字母,高音用小写字母,更低/高的音在大/小写字母后用数字下/上标表示其级别,如标准音:
a1=440Hz,中央C:
c1=261.6255653Hz。
8度音的频率差一倍,如a2=2×a1=2×440Hz=880Hz,C1=2*C2=2×16.35Hz=32.70Hz。
参见表3-4。
表3-4音高的分组与频率
分组
大字2组
大字1组
大字组
小字组
小字1组
小字2组
小字3组
小字4组
小字5组
音名
C2~B2
C1~B1
C~B
c~b
c1~b1
c2~b2
c3~b3
c4~b4
c5~a5
频率Hz
16.4~30.6
32.7~61.7
65.4~123.5
130.8~246.9
261.6~493.9
523.3~987.8
1046.5~1975.5
2093~3951.1
4186~7040
例如,键盘乐器(如钢琴、风琴、电子琴等)的键盘由多组按键组成,每组有7白和5黑共12个按键组成(参见图3-3),对应于一个八度音的12平均律。
其中7个白键分别依次对应于音名:
C、D、E、F、G、A、B,5个黑键分别依次对应于音名:
#C(bD)、#D(bE)、#F(bG)、#G(bA)、#A(bB),其中字母左上角的符号#和b分别表示升/降半音。
图3-3琴键与12平均律
3.1.3音量
音量([sound]volume)即声音的强弱,可以用声压(级)、声强(级)和声功率(级)来度量。
1.声级
声音是一种在空气中传播的纵向压力波(疏密波),声音的强弱体现在声波压力的大小上。
没有声波的空气中的压强为大气压,一个标准大气压等于1.03*105Pa。
在有声波传输时,空气的疏密发生变化,压强在原来大气压的上下波动,称这种由声波引起的压强变化为声压(soundpressure/acousticpressure),用符号P表示,即:
声压P=空气压强-大气压
压强的单位为Pa(帕)(Pascal[帕斯卡]的简称)或μbar(微巴),有时也用N/m2(牛顿/平方米):
1Pa=1N/m2,1μbar=0.1Pa。
瞬时声压可正可负,声压的平均值一般为零。
通常所说的声压是指声压的有效值,即一段时间内瞬时声压的均方根值
,总是正的。
对于正弦波,有效声压
。
人耳对1kHz频率声音之听阈的声压约为2*10-5Pa,痛阈的声压约为20Pa,正常说话时的声压约为0.02~0.03Pa,是标准大气压的千万分之二、三。
由于人耳对声压的感知范围大(相差约一百万倍),而且人的听觉与声压不是线性关系,而是近似于对数关系。
所以常按对数式分级(level)办法来表示声音的大小,这就是声压级(soundpressurelevel)Lp、声强级和声功率级等。
声压级LP定义为有效声压P与参考声压Pref的比值取常用对数后再乘以20:
其中,参考声压Pref取为1kHz的听阈声压(2*10-5Pa),声压级的值无量纲,单位为dB(decibel分贝)。
于是,1kHz频率声音的听阈之声压级=20*lg1=0dB,痛阈之声压级=20*lg106=120dB。
声压变化10倍,声压级才变化20dB。
声波是能量传输的一种形式,因此也常用能量的大小来表示声音的强弱。
声源在单位时间内向外输出的声能量叫做声功率(acousticpower/soundpower),用符号W表示,单位为W(瓦)。
也可以定义与声压级类似的声功率级(soundpowerlevel)。
由于声功率与声压的平方成正比,所以声功率级是声压级的两倍,为了便于同级比较,可将声压级公式中的20改为声功率级公式中的10。
声功率变化10倍,声功率级变化10dB。
声音的强弱也可以用声强来度量。
声场中某点的声强(acousticintensity/soundintensity),是指在单位时间内,声波通过垂直于声波传播方向单位面积的声能量(声功率W),单位为W/m2(瓦/平方米)。
似声功率级,可以定义声强级([sound]intensitylevel)。
由于声压级、声强级和声功率级的值是一致的,所以它们可以统称为声级(soundlevel),参加表3-5。
表3-5声压、声强、声功率与声压级、声强级、声功率级
声压(Pa)
声强(W/m2)
声功率(W)
声级(dB)
环境
2*102
102
102
140
飞机发动机(3m)
2*101
1
1
120
痛阈
2*100
10-2
10-2
100
织布机房
2*10-1
10-4
10-4
80
汽车汽喇叭
2*10-2
10-6
10-6
60
交谈(1m)
2*10-3
10-8
10-8
40
安静室内
2*10-4
10-10
10-10
20
轻声耳语
2*10-5
10-12
10-12
0
听阈
人耳的听觉的动态范围很宽广,约为0~140dB。
一般正常年轻人在中频附近的听阈约为0dB,人耳能忍受的强噪声(noise)极限约为125dB。
声压变化10倍,声压级变化20dB。
声强和声功率变化10倍,声强级和声功率级变化10dB。
声压增加1倍,声压级增加6dB左右。
声强和声功率增加1倍,声强级和声功率级增加3dB左右。
对于50Hz~10kHz的纯音,在声压级超过听阈50dB时,人耳大约可以鉴别1dB的声压变化。
在声压级超过听阈40dB时,频率低于1kHz时,人耳大约可以察觉3Hz的频率变化。
3.1.4听觉系统的感知特性
科学工作者一直在研究听觉系统(auditorysystem)对声音的感知特性,部分特性已经被用于音频信号的数据压缩(如MP3所使用的音感子带编码)。
下面介绍人耳的构造与声音的感知,讨论三个主要的声音感知特性:
响度、音高和音色,以及掩蔽等人耳效应。
1.人耳的构造与声音的感知
人耳分为外耳、中耳和内耳三个部分(参见图3-4)。
外耳由耳廓和耳道构成;鼓膜处在外耳和中耳之间;中耳包含三根听骨及通向咽腔的耳咽管;内耳则包括耳蜗、前庭、三半规管和听神经等部分。
图3-4人耳的构造
外耳的形状如铜号。
其中,耳廓有复杂的蜗旋构造,用于区分前后和上下的声源位置;耳道长约2.3cm,形状不规则,是一个谐振腔。
外耳的谐振带为2k~5kHz。
鼓膜位于耳道的终端,处在外耳与中耳之间,面积约69mm2。
鼓膜在声音的作用下,可自由振动,对声音的传导有重要的作用。
中耳是容积为1~2cm3的空腔,包含三根相互连接形成杠杆的听骨:
锤骨上连鼓膜,镫骨下连内耳开口处的卵圆窗,二者之间为跕骨。
中耳内还有通向咽腔的耳咽管。
中耳有如下三重作用:
平衡中耳与外耳的气压,保证鼓膜的正常振动;对强声起反射作用,减少传入内耳的声强,起保护作用;使声能有效地从外耳传到内耳,起阻抗匹配作用(因为声波在外耳是在空气中传播,而在内耳则是在淋巴液中传播。
两种不同介质对声音的阻抗是不同的,淋巴液的阻抗是空气的3750倍。
如果直接传播,则会只有1/1000的能量传入内耳)。
内耳包含耳蜗、前庭、三半规管和听神经等部分。
内耳中的前庭器和半规管内,主要含平衡觉感受器,与听觉无关。
耳蜗(cochlea)是一种充满液体的卷曲结构,大小如一颗豆子。
管长35mm,卷绕两圈半,成蜗壳状。
耳蜗内部被两个膜(前庭膜和基膜)分隔,中间形成的一个楔形剖面部分,称为蜗管(参见图3-5)。
图3-5耳蜗的剖面
蜗管内部的复杂结构称为柯蒂器(organofCorti)(参见图3-6),是外周听觉系统的核心部分。
在柯蒂器中呈三角形的柯蒂隧道两侧,成行地分布着听觉感受器——毛细胞。
毛细胞被分成内毛细胞和外面细胞两类,内毛细胞有3千5百个,它们组成一排,沿基膜排列;外毛细胞有1万2千个,它们组成3排,也沿基膜排列(参见图3-7)。
90%以上的听觉神经纤维与内毛细胞相连,一个内毛细胞可以兴奋20根神经纤维。
而多个外毛细胞才汇集到一根神经纤维上。
在毛细胞的上面有一层薄膜覆盖,称为盖膜。
外毛细胞的纤毛插入盖膜之中,而内毛细胞的纤毛则不与盖膜相连。
图3-6柯蒂器图3-7毛细胞的排列
声音经过耳廓传入耳道(空气振动),引起鼓膜振动;再通过听骨传入内耳,引起耳蜗内的淋巴液体振动;从而带动基膜和盖膜的相互独立运动,引起纤毛的剪切运动;该运动使毛细胞发出神经脉冲,通过神经通路传入大脑,最后使人产生听觉。
一定频率的声音所产生的刺激引发沿基膜传播的行波,其振幅在耳蜗的某点上升到最大值,然后迅速下降。
高频刺激引发的行波最大幅度出现在卵形窗附近的蜗管底端,低频的则靠近蜗管顶端。
声音的波形在耳蜗的传播中,速度逐渐降低,能量迅速下降(从耳蜗的底端到顶端降低了100倍)。
基膜的物理特性,使输入信号的不同频率的成分被分布在膜的不同位置,作用在对应的毛细胞上后,就产生了对不同频率声音的感知。
2.对音强的感知
在物理上,声音的大小使用客观测量单位来度量,即声压用Pa(帕)或N/m2(牛顿/平方米)、声强用W/m2(瓦特/平方米)、声功率用W(瓦)、声级用dB(分贝)。
在心理上,主观感觉的声音强弱使用响度(loudness)或响度级(loudnesslevel)来度量。
这两种感知声音强弱的计量单位是完全不同的两种概念,但是它们之间又有一定的联系。
响度的单位为“宋(sone)”,为了对响度进行计算,定义声级为40dB的1kHz标准音的响度等于1宋;定义响度级的值为1kHz标准音的声级的dB值,单位为“方(phon)”。
响度S与响度级P之间有关系式:
,40方≤P≤105方或
,1宋≤S≤91宋
可见,40方为1宋,2宋比1宋响1倍,3宋比1宋响2倍,其余可依次类推。
参见图3-8。
当声音弱到人的耳朵刚刚可以听见时,我们称此时的声音强度为“听阈(hearingthreshold/audibilitythreshold)”。
例如,1kHz纯音的声强达到10-12w/m2(定义成0dB声强级)时,人耳刚能听到,此时的主观响度级定为零方。
实验表明,听阈是随频率变化的。
测出的等响曲线如图3-9所示。
图3-8响度与响度级的关系
图中最靠下面的一根曲线叫做“零方等响度级”曲线,也称“绝对听阈”曲线,即在安静环境中,能被人耳听到的纯音的最小值。
另一种极端的情况是声音强到使人耳感到疼痛。
实验表明,如果频率为1kHz的纯音的声强级达到120dB左右时,人的耳朵就感到疼痛,这个阈值称为“痛阈(painthreshold)”。
对不同的频率进行测量,可以得到“痛阈—频率”曲线,如图中最靠上面所示的一根曲线。
这条曲线也就是120方等响度级曲线。
图3-9等响曲线
在“听阈—频率”曲线和“痛阈—频率”曲线之间的区域就是人耳的听觉范围。
这个范围内的等响度级曲线也是用同样的方法测量出来的。
由图3-9可以看出,1kHz的10dB的声音和200Hz的30dB的声音,在人耳听起来具有相同的响度。
该图说明人耳对不同频率的敏感程度差别很大,其中对1kHz~5kHz范围的信号最为敏感,幅度很低的信号都能被人耳听到。
而在低频区和高频区,能被人耳听到的信号幅度要高得多。
图3-10听觉的频响特性
此外,人的听觉频响还随声压级的变化而变化。
参见图3-10。
声音的响度级还与声音的持续时间有关,对振幅一定的连续声音,开始听到的响度并不是立即达到其响度级,而是较急速的增大,经过一段时间后才达到最大值,随后则逐渐减小。
对于持续时间在一秒以下的声音,人耳会感到响度下降。
频率越高的声音,下降得越多。
持续时间越短的声音,听起来的响度也下降得越多。
人耳对音强差别的感知与声压级有关,而与频率的关系不大。
当声压级在50dB以上时,人耳能辨别的最小声压级差大约为1dB;如果声压级小于40dB,则声压级需变化2dB左右才能被察觉出来。
所以分档调节的音量控制器的档位差应该小于1dB,以免人感觉音量突变。
3.对音高的感知
客观上用频率来表示声音的音高,其单位是Hz。
而主观感觉的音高(音调)单位则是“美[尔](Mel)”和“巴克(Bark)”,主观音高与客观音高的关系是(参见图3-11)
其中f的单位为Hz,这也是两个既不相同又有联系的单位。
图3-11音高—频率曲线
人耳对响度的感觉有一个范围,即从听阈到痛阈。
同样,人耳对频率的感觉也有一个范围。
人耳可以听到的最低频率约20Hz,最高频率约20kHz。
正如测量响度时是以1kHz纯音为基准一样,在测量音高时则以40dB声强为基准,并且同样由主观感觉来确定。
图3-12人耳对频率的辨别域
测量主观音高时,让实验者听两个声强级为40dB的纯音,固定其中一个纯音的频率,调节另一个纯音的频率,直到他感到后者的音高为前者的两倍,就标定这两个声音的音高差为两倍。
实验表明,音高与频率之间也不是线性关系。
测出的“音高—频率”曲线如图3-12所示。
除了频率这个主要因素外,影响音调的因素还有声音的强度和持续时间。
对低频的纯音,声压级升高时会感到音调却变低;对1k~5kHz的中频纯音,音调与声压级几乎没有什么关系;对于高频的纯音,声压级升高时会感到音调也变高。
复音的音调由其基音决定,复音声压级的高低对音调的影响比纯音要小得多。
持续时间在半秒以下时的声音的音调要比在一秒以上所感觉到的要低。
持续时间太短(如10毫秒左右)的声音,人耳感觉不出它的音调,只听到喀呖声。
使人耳能明确感知音调所需的声音持续时间,随声音频率而不同,低频声音所需要的持续时间要比高频声音的长。
人对声音频率的微小变化的分辨能力,成为人耳对频率的分辨阈。
根据实验结果(参见图3-12),人耳对于中等强度的中频声音(500~6kHz,50dB)最敏感,辨别阈为0.3%左右。
例如,频率为3kHz的声音,变化(3000*0.3/100)=9Hz,人耳就能感觉出来。
4.掩蔽效应
由于人耳蜗底隔膜振动的峰值位置取决于刺激的频率,所以耳蜗及其组成部分在工作时就相当于一个频率-位置转换装置。
人耳将声音信号运载到高级听觉系统的传入神经原,存在锁相机制。
并且在偏移周期的某个特定点(峰值点)上会发生谐振(相当于相位检测的鉴频器在工作)。
由于这种相位锁定效应,大信号会淹没同一频段的小信号,从而产生掩蔽效应。
称一种频率的声音阻碍听觉系统感受另一种频率的声音的现象为掩蔽效应。
前者称为掩蔽声(maskingtone),后者称为被掩蔽声(maskedtone)。
掩蔽可分成频域掩蔽和时域掩蔽等。
1)频域掩蔽
(1)纯音掩蔽
图3-13声强为60dB、频率为1000Hz纯音的掩蔽效应
一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域的纯音掩蔽,也称为同时掩蔽(simultaneousmasking),如图3-13所示。
一般来说,弱纯音离强纯音越近就越容易被掩蔽。
从图中可以看到,声音频率在300Hz附近、声强约为60dB的声音掩蔽了声音频率在150Hz附近、声强约为40db的声音。
图3-14不同纯音的掩蔽效应曲线
又如,一个声强为60dB、频率为1000Hz的纯音,另外还有一个1100Hz的纯音,前者比后者高18dB,在这种情况下我们的耳朵就只能听到那个1000Hz的强音。
如果有一个1000Hz的纯音和一个声强比它低18dB的2000Hz的纯音,那么我们的耳朵将会同时听到这两个声音。
要想让2000Hz的纯音也听不到,则需要把它降到比1000Hz的纯音低45dB。
(参见图3-14)
在图3-14中的一组曲线分别表示频率为250Hz,1kHz和4kHz纯音的掩蔽效应,它们的声强均为60dB。
从图中可以看到:
①在250Hz,1kHz和4kHz纯音附近,对其他纯音的掩蔽效果最明显,②低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的掩蔽作用则不明显。
由于声音频率与掩蔽曲线不是线性关系,为从感知上来统一度量声音频率,引入了“临界频带(criticalband)”的概念。
临界频带表示的是人耳对两个纯音叠加时的分辨能力。
通常将从20Hz到20kHz范围分成24个临界频带,