数字音频处理技术PPT推荐.pptx
《数字音频处理技术PPT推荐.pptx》由会员分享,可在线阅读,更多相关《数字音频处理技术PPT推荐.pptx(87页珍藏版)》请在冰豆网上搜索。
人们是否能听到音频信号,主要取决于各个人的年龄和耳朵的功能。
2.1.2听觉系统的感知特性,响度声音的响度就是声音的强弱。
在物理上,声音的响度使用客观测量单位来度量,即dyn/cm2(达因/平方厘米)(声压)或W/cm2(瓦特/平方厘米)(声强)。
在心理上,主观感觉的声音强弱使用响度级“方(phon)”或者“宋(sone)”来度量。
当声音弱到人的耳朵刚刚可以听见时,我们称此时的声音强度为“听阈”。
另一种极端的情况是声音强到使人耳感到疼痛。
这个阈值称为“痛阈”。
人耳的听阈和痛阈分别对应的声压级为0dB和120dB。
音高,客观上用频率来表示声音的音高,其单位是Hz。
而主观感觉的音高单位则是“mel(美)”。
主观音高与客观音高的关系是,掩蔽效应,一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。
前者称为掩蔽声音(maskingtone),后者称为被掩蔽声音(maskedtone)。
掩蔽可分成频域掩蔽和时域掩蔽。
频域掩蔽一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽(simultaneousmasking)。
时域掩蔽除了同时发出的声音之间有掩蔽现象之外,在时间上相邻的声音之间也有掩蔽现象,并且称为时域掩蔽。
时域掩蔽又分为超前掩蔽(pre-masking)和滞后掩蔽(post-masking),产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。
2.1.3音频类别与数据率,根据音频的频带,通常把音频的质量分成5个等级,由低到高分别是电话(telephone),调幅(amplitudemodulation,AM)广播、调频(frequencymodulation,FM)广播、激光唱盘(CD-Audio)和数字录音带(digitalaudiotape,DAT)的声音。
2.2音频信号数字化,音频信息处理主要包括音频信号的数字化和音频信息的压缩两大技术,图2-1是音频信息处理结构框图。
音频信号的数字化过程就是将模拟音频信号转换成有限个数字表示的离散序列,即数字音频序列,在这一处理过程中涉及到模拟音频信号的采样、量化和编码。
模拟音频信号,采样,按不同应用目标进行数字压缩频信号,图2-1音频信息处理框图,音频信号数字化量化编码,采样,采样就是在时间上将连续信号离散化的过程,采样一般是按均匀的时间间隔进行的。
每秒钟采样的次数称采样频率,单位为Hz。
显然,采样频率越高,所取的一系列值就越能精确地反映原来的模拟信号。
否则,采样频率越低,就会使原信号失真。
采样频率的高低是根据奈奎斯特理论(Nyquisttheory)和声音信号本身的最高频率决定的。
奈奎斯特理论指出:
采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音,这叫做无损数字化。
采样定律用公式表示为:
或者其中为被采样信号的最高频率。
量化,量化是指将每个采样值在幅度上进行离散化处理。
量化可分为均匀量化和非均匀量化。
量化会引入失真,并且量化失真是一种不可逆失真,这就是通常所说的量化噪声。
在量化过程中,设定的量化间隔数越多,即量化级越多,近似效果则越好,就越接近模拟值。
但是误差总是存在的,因为有限的量化级数永远不可能完全地表示量化间隔内拥有无限幅度值的模拟信号。
同时,量化级数越多,需要的存储空间就越大。
在实际应用中,应综合考虑声音质量要求和存储空间的限制,以达到综合最优化。
编码,编码过程是指用二进制数来表示每个采样的量化值。
如果是均匀量化,又采用二进制数表示,这种编码方法就是脉冲编码调制(PulseCodeModulation,PCM),这是一种最简单、最方便的编码方法。
在实际过程中量化和编码是同时进行的。
经过编码后的声音信号就是数字音频信号,音频压缩编码就是在它的基础上进行的。
2.3音频信息压缩编码分类,波形编码参数编码混合编码,波形编码是基于对语音信号波形的数字化处理,试图使处理后重建的语音信号波形与原语音信号波形保持一致。
波形编码的优点是实现简单、语音质量较好、适应性强等。
缺点是话音信号的压缩程度不是很高,实现的码速率比较高。
常见的波形压缩编码方法有:
脉冲编码调制PCM、增量调制编码DM、差值脉冲编码调制DPCM、自适应差分脉冲编码调制(ADPCM)、子带编码(SBC)和矢量量化编码(VQ)等。
波形编码的比特率一般在16至64之间,它有较好的话音质量与成熟的技术实现方法。
当数码率低于32的时候音质明显降低,16时音质就非常差了。
采用波形编码时,编码信号的速率可以用下面的公式来计算:
编码速率采样频率编码比特数若要计算播放某个音频信号所需要的存储容量,可以用下面的公式:
存储容量播放时间速率8(字节),2.3.1波形编码,2.3.2参数编码,参数编码又称声源编码,它是通过构造一个人发声的模型,以发声机制的模型作为基础,用一套模拟声带频谱特性的滤波器系数和若干声源参数来描述这个模型,在发送端从模拟语音信号中提取各个特征参量并对这些参量进行量化编码,以实现语音信息的数字化。
实现这种编码的方式也称为声码器。
这种编码的特点是语音编码速率较低,基本上在29.6kbit/s之间。
可见其压缩的比特率较低。
但是也有其缺点:
首先是合成语音质量较差,往往清晰度满足要求而自然度不好,难于辨认说话人是谁;
其次是电路实现的复杂度比较高。
目前,编码速率小于16kbit/s的低比特话音编码大都采用参数编码,参数编码在移动通信、多媒体通信和IP网络电话应用中都起到了重要的作用。
参数编码的典型代表是线性预测编码(LPC)。
2.3.3混和编码,混和编码将波形编码和参量编码结合起来,力图保持波形编码话音的高质量与参量编码的低速率。
采用混合编码的编码器有:
多脉冲激励线性预测编码器(MPE-LPC),规则脉冲激励线性预测编码器(RPE-LPC),码激励线性预测编码器(CELP),矢量和激励线性预测编码器(VSELP)和多带激励线性预测编码器。
以上三种压缩编码的性能比较可以用下图来表示:
图2-2三种压缩编码的性能比较,2.4.1音频信息压缩的可行性,音频信号能够进行压缩编码的原因是:
语音信号中存在大量冗余信息,即:
语音信号样本间具有很强的相关性;
浊音语音段具有准周期特性;
声道的形状及其变化的速率有限;
传输码元的概率分布非均匀。
人耳对声音信号中的部分信息不敏感,即人耳对声音中的低频成分比高频成分敏感;
人耳对语音信号的相位特征不敏感。
人耳中存在“听觉掩蔽(AuditoryMasking)”效应,即某一声音引起听觉器对另一声音的敏感度下降。
掩蔽的程度取决于掩蔽声的强度及掩蔽声与被掩蔽声之间的频率关系。
2.4.2音频编码技术的评价指标,编码速率编码速率直接反应了语音编码对语音信息的压缩程度。
在保证语音质量的前提下,我们希望编码速率越小越好。
合成语音质量合成语音质量可以说是语音编码性能的最根本指标。
评价合成语音质量的方法很多,多年来人们提出的许多方法,归纳起来可以分为两类:
主观评价方法和客观评价方法。
主观评价方法,主观评价方法是基于一组测试者对原始语音和合成语音进行对比试听的基础上,根据某种预先约定的尺度来对失真语音划分质量等级,它比较全面地反映了人们听音时对合成语音质量的感觉。
常用的主观评价方法有3种:
平均意见得分(MOS,MeanOpinionScore),判断韵字测试(DRT,DiagnosticRhymeTest)和判断满意度测量(DAM,DiagnosticAcceptabilityMeasure)。
目前国际上最通用的主观评价方法是MOS评分。
客观评价方法,客观评价方法建立在原始语音和合成语音的数学对比之上。
常用的方法可分为时域客观评价和频域客观评价两大类。
时域客观评价常用的方法有信噪比、加权信噪比和平均分段信噪比等;
频域客观评价常用的方法有巴克谱失真测度(BSD,BarkSpectralDistortion)和美尔谱失真测度(Me1-SD,MelSpectralDistortionMeasure)等。
编解码延时编解码延时一般用单次编解码所需时间来表示。
在实时语音通信系统中必须对语音编解码算法的编解码延时提出一定的要求。
对于公用电话网,编解码延时通常要求不超过510ms。
而对于移动蜂窝通信系统,允许最大延时不超过100ms。
算法复杂度算法复杂度主要影响到语音编解码器的硬件实现。
它决定了硬件实现的复杂程度、体积、功耗以及成本等。
总的来说,一个理想的语音编码算法应该是低速率、高合成语音质量、低时延、低运算复杂度并具有良好的编码顽健性、可扩展性的编码算法。
由于这些性能之间存在着互相制约的关系,实际的编码算法都是这些性能的折中。
事实上,正是这些相互矛盾的要求推动了音频编码技术的不断发展。
2.4.3常用音频信息压缩编码算法,非均匀PCM(/A律压扩方法),采用非均匀量化编码能够减少表示采样的位数,从而达到数据压缩的目的。
其基本思路是,当输入信号幅度小时,采用较小的量化间隔;
当输入信号幅度大时,采用较大的量化间隔。
即对小信号扩展,大信号压缩。
这样就可以做到在一定的精度下,用更少的二进制码位来表示采样值。
基本思路:
当输入信号幅度小时,采用较小的量化间隔;
当输入信号幅度大时,采用较大的量化间隔。
即对小信号扩展,大信号压缩的。
非均匀量化间隔,X1,X2X3,X4X5采样输入样本值,X6,量化输出数据,律压扩律压扩主要用在北美和日本等地区的数字电话通信中,按下面的式子确定量化输入和输出的关系:
式中:
x为输入电压与A/D变换器满刻度电压之比,其取值范围为11;
sgn(x)为x的极性;
为压扩参数,其取值范围为100500,越大,压扩越厉害。
由于律压扩的输入和输出关系是对数关系,所以这种编码又称为对数PCM。
在实际应用中,规定某个值,采用数段折线来逼近图压扩特性。
这样就大大地简化了计算并保证了一定的精度。
例如,当选择255时,压扩特性用8段折线来代替。
当用8位二进制表示一个采样时,可以得到无压扩的13位二进制数码的音频质量。
这8位二进制数中,最高位表示符号位,其后3位用来表示折线编号,最后4位用来表示数据位。
律压扩数据格式如图2-4所示。
图2-4律压扩数据格式,A律压扩,另外一种常用的压扩特性为A律13折线,它实际上是将律压扩特性曲线以13段直线代替而成的。
我国和欧洲采用的是A律13折线压扩法,美国和日本采用的是律。
对于A律13折线,一个信号样值的编码由两部分构成:
段落码