ImageVerifierCode 换一换
格式:PPTX , 页数:87 ,大小:784.67KB ,
资源ID:13494419      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/13494419.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数字音频处理技术PPT推荐.pptx)为本站会员(b****9)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

数字音频处理技术PPT推荐.pptx

1、人们是否能听到音频信号,主要取决于各个人的 年龄和耳朵的功能。,2.1.2 听觉系统的感知特性,响度声音的响度就是声音的强弱。在物理上,声音的响 度使用客观测量单位来度量,即dyn/cm2(达因/平方厘 米)(声压)或W/cm2(瓦特/平方厘米)(声强)。在心理上,主观感觉的声音强弱使用响度级“方(phon)”或者“宋(sone)”来度量。当声音弱到人的耳朵刚刚可以听见时,我们称此时 的声音强度为“听阈”。另一种极端的情况是声音强到 使人耳感到疼痛。这个阈值称为“痛阈”。人耳的听 阈和痛阈分别对应的声压级为0dB和120dB。,音高,客观上用频率来表示声音的音高,其单位是Hz。而主观感觉的音高

2、单位则是“mel(美)”。主观音高与 客观音高的关系是,掩蔽效应,一种频率的声音阻碍听觉系统感受另一种频率的声音的现象 称为掩蔽效应。前者称为掩蔽声音(masking tone),后者称为被 掩蔽声音(masked tone)。掩蔽可分成频域掩蔽和时域掩蔽。频域掩蔽一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称 为频域掩蔽,也称同时掩蔽(simultaneous masking)。时域掩蔽除了同时发出的声音之间有掩蔽现象之外,在时间上相邻的 声音之间也有掩蔽现象,并且称为时域掩蔽。时域掩蔽又分为超 前掩蔽(pre-masking)和滞后掩蔽(post-masking),产生时域掩 蔽的主

3、要原因是人的大脑处理信息需要花费一定的时间。,2.1.3 音频类别与数据率,根据音频的频带,通常把音频的质量分成5个等 级,由低到高分别是电话(telephone),调幅(amplitude modulation,AM)广播、调频(frequency modulation,FM)广播、激光唱盘(CD-Audio)和数字录音带(digital audio tape,DAT)的声音。,2.2 音频信号数字化,音频信息处理主要包括音频信号的数字化和音频信 息的压缩两大技术,图2-1是音频信息处理结构框图。音 频信号的数字化过程就是将模拟音频信号转换成有限个 数字表示的离散序列,即数字音频序列,在这一

4、处理过 程中涉及到模拟音频信号的采样、量化和编码。,模拟音 频信号,采样,按不同应用目标 进行数字压缩 频信号,图2-1 音频信息处理框图,音频信号数字化量化编码,采样,采样就是在时间上将连续信号离散化的过程,采样一般是按均 匀的时间间隔进行的。每秒钟采样的次数称采样频率,单位为Hz。显然,采样频率越高,所取的一系列值就越能精确地反映原来的模 拟信号。否则,采样频率越低,就会使原信号失真。采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信 号本身的最高频率决定的。奈奎斯特理论指出:采样频率不应低于 声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原 来的声音,这叫

5、做无损数字化。采样定律用公式表示为:或者其中为被采样信号的最高频率。,量化,量化是指将每个采样值在幅度上进行离散化处理。量化可分为 均匀量化和非均匀量化。量化会引入失真,并且量化失真是一种不 可逆失真,这就是通常所说的量化噪声。在量化过程中,设定的量化间隔数越多,即量化级越多,近似效 果则越好,就越接近模拟值。但是误差总是存在的,因为有限的量 化级数永远不可能完全地表示量化间隔内拥有无限幅度值的模拟信 号。同时,量化级数越多,需要的存储空间就越大。在实际应用中,应综合考虑声音质量要求和存储空间的限制,以达到综合最优化。,编码,编码过程是指用二进制数来表示每个采样的量化值。如果是均 匀量化,又采

6、用二进制数表示,这种编码方法就是脉冲编码调制(Pulse Code Modulation,PCM),这是一种最简单、最方便的编 码方法。在实际过程中量化和编码是同时进行的。经过编码后的声音信号就是数字音频信号,音频压缩编码就是 在它的基础上进行的。,2.3 音频信息压缩编码分类,波形编码参数编码混合编码,波形编码是基于对语音信号波形的数字化处理,试图使处理后重建的语音信 号波形与原语音信号波形保持一致。波形编码的优点是实现简单、语音质量较好、适应性强等。缺点是话音 信号的压缩程度不是很高,实现的码速率比较高。常见的波形压缩编码方法有:脉冲编码调制PCM、增量调制编码DM、差值脉冲编码调制DPC

7、M、自适应差分脉 冲编码调制(ADPCM)、子带编码(SBC)和矢量量化编码(VQ)等。波形编码 的比特率一般在16至64之间,它有较好的话音质量与成熟的技术实现方法。当数 码率低于32的时候音质明显降低,16 时音质就非常差了。采用波形编码时,编码信号的速率可以用下面的公式来计算:编码速率采样频率 编码比特数若要计算播放某个音频信号所需要的存储容量,可以用下面的公式:存储容量播放时间速率8(字节),2.3.1 波形编码,2.3.2 参数编码,参数编码又称声源编码,它是通过构造一个人发声的模型,以发声机制的模型作为基础,用一套模拟声带频谱特性的滤波器 系数和若干声源参数来描述这个模型,在发送端

8、从模拟语音信号 中提取各个特征参量并对这些参量进行量化编码,以实现语音信 息的数字化。实现这种编码的方式也称为声码器。这种编码的特 点是语音编码速率较低,基本上在29.6kbit/s之间。可见其压缩 的比特率较低。但是也有其缺点:首先是合成语音质量较差,往 往清晰度满足要求而自然度不好,难于辨认说话人是谁;其次是 电路实现的复杂度比较高。目前,编码速率小于16kbit/s的低比特 话音编码大都采用参数编码,参数编码在移动通信、多媒体通信 和IP网络电话应用中都起到了重要的作用。参数编码的典型代表 是线性预测编码(LPC)。,2.3.3 混和编码,混和编码将波形编码和参量编码结合起来,力图保持波

9、形编码话音的高质量与参量编码的低速率。采用混合编码的编码器有:多脉冲激励 线性预测编码器(MPE-LPC),规则脉冲激励线性预测编码器(RPE-LPC),码激励线性预测编码器(CELP),矢量和激励线性预测编码器(VSELP)和多带激励线性预测编码器。以上三种压缩编码的性能比较可以用下图来表示:,图2-2 三种压缩编码的性能比较,2.4.1 音频信息压缩的可行性,音频信号能够进行压缩编码的原因是:语音信号中存在大量冗余信息,即:语音信号样本间具有很强的 相关性;浊音语音段具有准周期特性;声道的形状及其变化的速率 有限;传输码元的概率分布非均匀。人耳对声音信号中的部分信息不敏感,即人耳对声音中的

10、低频成 分比高频成分敏感;人耳对语音信号的相位特征不敏感。人耳中存在“听觉掩蔽(Auditory Masking)”效应,即某一声 音引起听觉器对另一声音的敏感度下降。掩蔽的程度取决于掩蔽声 的强度及掩蔽声与被掩蔽声之间的频率关系。,2.4.2 音频编码技术的评价指标,编码速率编码速率直接反应了语音编码对语音信息的压缩程度。在保证语音质量 的前提下,我们希望编码速率越小越好。合成语音质量合成语音质量可以说是语音编码性能的最根本指标。评价合成语音质量 的方法很多,多年来人们提出的许多方法,归纳起来可以分为两类:主观 评价方法和客观评价方法。,主观评价方法,主观评价方法是基于一组测试者对原始语音和

11、合成语音进行对比试听 的基础上,根据某种预先约定的尺度来对失真语音划分质量等级,它比较 全面地反映了人们听音时对合成语音质量的感觉。常用的主观评价方法有3 种:平均意见得分(MOS,Mean Opinion Score),判断韵字测试(DRT,Diagnostic Rhyme Test)和判断满意度测量(DAM,Diagnostic Acceptability Measure)。目前国际上最通用的主观评价方法是MOS评分。,客观评价方法,客观评价方法建立在原始语音和合成语音的数学对比之上。常 用的方法可分为时域客观评价和频域客观评价两大类。时域客观评 价常用的方法有信噪比、加权信噪比和平均分段

12、信噪比等;频域客 观评价常用的方法有巴克谱失真测度(BSD,Bark Spectral Distortion)和美尔谱失真测度(Me1-SD,Mel Spectral Distortion Measure)等。编解码延时编解码延时一般用单次编解码所需时间来表示。在实时语音通 信系统中必须对语音编解码算法的编解码延时提出一定的要求。对 于公用电话网,编解码延时通常要求不超过5 10ms。而对于移动 蜂窝通信系统,允许最大延时不超过100ms。,算法复杂度算法复杂度主要影响到语音编解码器的硬件实现。它决定了硬 件实现的复杂程度、体积、功耗以及成本等。总的来说,一个理想的语音编码算法应该是低速率、高

13、合成语 音质量、低时延、低运算复杂度并具有良好的编码顽健性、可扩展 性的编码算法。由于这些性能之间存在着互相制约的关系,实际的 编码算法都是这些性能的折中。事实上,正是这些相互矛盾的要求推动了音频编码技术的不断发展。,2.4.3 常用音频信息压缩编码算法,非均匀PCM(/A律压扩方法),采用非均匀量化编码能够减少表示采样的位数,从而达到 数据压缩的目的。其基本思路是,当输入信号幅度小时,采用 较小的量化间隔;当输入信号幅度大时,采用较大的量化间隔。即对小信号扩展,大信号压缩。这样就可以做到在一定的精度下,用更少的二进制码位来表示采样值。,基本思路:当输入 信号幅度小时,采 用较小的量化间隔;当

14、输入信号幅度大 时,采用较大的量 化间隔。即对小信 号扩展,大信号压 缩的。,非均匀 量化间隔,X1,X2X3,X4X5采样输入样本值,X6,量化输 出数据,律压扩律压扩主要用在北美和日本等地区的数字电话通信中,按 下面的式子确定量化输入和输出的关系:,式中:x为输入电压与A/D变换器满刻度电压之比,其取值范围为 11;sgn(x)为x的极性;为压扩参数,其取值范围为100500,越大,压扩越厉害。由于律压扩的输入和输出关系是对数关系,所以这种编码又称为对数PCM。,在实际应用中,规定某个值,采用数段折线来逼近图压扩特性。,这样就大大地简化了计算并保证了一定的精度。例如,当选择255 时,压扩特性用8段折线来代替。当用8位二进制表示一个采样时,可以得到无压扩的13位二进制数码的音频质量。这8位二进制数中,最高位表示符号位,其后3位用来表示折线编号,最后4位用来表示 数据位。律压扩数据格式如图2-4所示。,图2-4 律压扩数据格式,A律压扩,另外一种常用的压扩特性为A律13折线,它实际上是将律 压扩特性曲线以13段直线代替而成的。我国和欧洲采用的是A 律13折线压扩法,美国和日本采用的是律。对于A律13折线,一个信号样值的编码由两部分构成:段落码

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1