第二讲 音频处理技术.docx

上传人:b****5 文档编号:11656214 上传时间:2023-03-29 格式:DOCX 页数:26 大小:510.92KB
下载 相关 举报
第二讲 音频处理技术.docx_第1页
第1页 / 共26页
第二讲 音频处理技术.docx_第2页
第2页 / 共26页
第二讲 音频处理技术.docx_第3页
第3页 / 共26页
第二讲 音频处理技术.docx_第4页
第4页 / 共26页
第二讲 音频处理技术.docx_第5页
第5页 / 共26页
点击查看更多>>
下载资源
资源描述

第二讲 音频处理技术.docx

《第二讲 音频处理技术.docx》由会员分享,可在线阅读,更多相关《第二讲 音频处理技术.docx(26页珍藏版)》请在冰豆网上搜索。

第二讲 音频处理技术.docx

第二讲音频处理技术

第二章、音频处理技术

声音是多媒体信息的一个重要组成部分。

也是表达思想和情感的一种必不可少的媒体,随着多媒体信息处理技术的发展,音频处理技术得到了广泛的应用。

如:

视频图像的配音、配乐;静态图像的解说、背景音乐;可视电话、电视会议中的话音;游戏中的音响效果:

虚拟现实中的声音模拟;电子读物的有声输出等。

声音的合理使用可以使多媒体系统变得更加丰富多彩。

一、声音信号的形式和特征

任何声音都是物体振动产生的现象,物体受到敲打或激发就能产生振动,通过一定介质(如空气、水等)传播形成的连续波,在物理学中称为声波。

这种波就像在平静的池塘中投入石子,涟漪从中心向四面扩散,当它到达人的耳膜是,耳膜就会感觉到这种压力的变化,或者感觉到振动,这就是声音。

声波有各种不同的强度和频率,许多声波混合在一起可能构成交响乐,也可能是一片噪音。

在物理上,声音可以用一条连续的曲线来表示,它是随时间连续变化的模拟量。

声波信号有两个重要的参数:

频率和幅度。

声波幅度大小体现声音的强弱,声音的频率体现音调的高低。

信号的幅度是从信号的基线到当前波峰的距离。

幅度决定了信号音量的强弱程度。

幅度越大,声音越强。

对音频信号.它的强度用分贝(dB)表示。

分贝的幅度就是音量。

一个声源每秒钟可产生成百上千个波峰,把每秒钟波峰所发生的数目称之为信号的频率,用赫兹(HZ比)或千赫兹(kHZ)表示。

例如一个声波信号在一秒钟内有5000个波峰,则可将它的频率表示为5000hz或5khz。

人们在日常说话时的语音信号频率范围在300hz—3000hz之间,人所能辨别的频率范围在20hz—20khz之间,频率小于20hz的信号成为次声波(subsonic),频率高于20khz的称为超声波。

音箱和耳机的频响范围

所谓频响范围,指的是频率响应范围。

在音箱、耳机等音频回放设备中一般会有标注20Hz-20KHz类似这样的一个数字范围的指标,此即是指该设备可以回放的有效频率范围。

当然,与之相对应的是,人耳理论上可听到的声波范围也是20Hz-20KHz。

作为频响范围,规范的标注方法必须在这个频率范围后有声强度大小的条件范围,例如60Hz-20KHz(±3dB),否则该频率响应曲线是没有意义的。

目前的情况是,大家很少会在音箱或者耳机产品后面看到这样与声音强度相关的标注。

普通功放的频率响应为20Hz-20000Hz约(/-)l-3dB;优质功放的频率响应为20Hz-20kHz约/-0.1dB。

在许多人认识到20Hz-20KHz的频响范围是完全不可信之后,有些“聪明”的音箱厂商从另一个角度来解决这个问题,他们开始把这个频响范围刻意的调整一下。

例如,把低频调整到30Hz或者40Hz,把高频调整到18KHz,想通过这样的数字游戏来赢得大家的信任。

但是,对于一款普通的2.1产品来说,20Hz和40Hz对它们来说有什么不同,同样是无法实现的一个频率。

耳机是一个比音箱更加夸张标注“频响范围”的产品。

一款产品动不动就可以超过20Hz-20KHz。

例如某品牌耳机频响范围标注的是5Hz-30KHz,这有些夸张了。

如果两个耳机的频响上限分别是16kHz和20kHz,听感上是不一样的。

过高的频率虽然听不到,但宽泛的频响参数中还包含有一些其它的含义,比如频响曲线的平直、瞬态响应能力等等。

它也是耳机素质的一种参考。

但是,由于标称的参数没有统一标准,所以厂家标称的这类参数对比较两个不同的耳机的品质并不具有实际意义

与频率相关的另一个参数是信号的周期。

它是指信号在两个峰点或谷底之间的相对时间。

周期是频率的倒数。

如果每隔一定时间波形就重复相同的形状,这个时间就称为周期。

二、模拟音频的数字化

声音信号是振幅随时间连续变化的模拟信号。

而计算机只能处理和存储二进制的数字信号,因此,计算机要获取与处理音频,必须先对模拟信号进行数字化处理,转换为计算机所能识别的二进制表示的数字信号,然后才能对其进行各类编辑处理。

对模拟音频数字化的过程涉及音频的采样、量化和编码。

其过程的实质是将连续的模拟音频信号转换为离散的一系列数字音频编码信号。

1、采样

采样就是每隔一段时间在模拟声音的波形上取一个幅度值,把时间上的连续信号变成时间上的离散信号,这个间隔时间称为采样周期.其倒数为采样频率。

采样频率是采样最主要的参数。

采样频率是指计算机每秒钟采集多少个样本。

采集频率越高,即采样的时间间隔越短.则在单位时间内得到的声音样本数据就越多、对波形的描述也越精确。

较高的采样频率固然可以得到比较精确的对象描述,但是同时也会带来大量的数据,因此在实际应用中,不能无限制的增加采样频率。

为了用较少的数据来尽可能的描述对象的主要内容,我们常常规定一个与声音频率之间有一定关系的最低采样频率。

根据内奎斯持理论.只有采样频率高于声音信号最高频率的2倍时,才能得到基本反映原信号主要特征的数字音频信号。

例如人耳可以听到最高声音频率为20kHz,因此在采集数字音乐信号时,如果将采样频率设置为44kHz,就能够得到高保真的音乐(考虑到滤波器的衰减,提高了10%增益),因此标准激光CD唱片的采样频率被规定为44.1kHz。

2、量化

量化就是把采样得到的声音信号幅度转化为数字值,使声音信号在幅度上被离散化。

量化的过程是先将采样后的信号按整个声波的最大(或有效最大)振幅划分成有限个区段的集合,把落入同一个区间的采样值归为一类,井赋予相同的近似取值(量化值),这样,原来无限的取值可能性被限制简化为有限的取值数列。

在同样采样频率下,量化等级越多,数字音频相于原声音源的记录也就越准确,但数据量也就会更大。

由于通用计算机一般采用二进制编码的方法来记录数据,为了方便使用和节省编码空间,我们一般使用量化位数(也称量化精度)这个量来描述量化等级的多少。

例如,8位量化是指用28个量化等级,即有256个量化取值区间,而16位量化则表示216个量化等级,有65536个量化取值区间。

声音数字化过程

失真在采样过程中是不可避免的,如何减少失真呢?

可以把波形划分成更为细小的区间,即采用更高的采样频率。

同时,增加量化精度,以得到更高的量化等级,即可减少失真的程度。

3、声道

反映音频数字化质量的另一个因素是声道个数。

记录声音时,如果每次生成一个声波的数据,称为单声道;每次生成两个声波数据,称为双声道(立体声);每次生成两个以上的声波数据,称为多声道(环绕立体声)。

未经压缩的数字化声音的数据量是由采样频率、量化精度、声道数和声音持续时间所决定的,它们与声音的数据星是成比例关系的,其数据量计算方式为:

数据量(Byte)=采样频率(hz)×(量化位数(bit)/8)×声道数×声音持续时间(s),公式中(量化位数/8)是为了把计量单位bit(位)转化为Byte(字节)。

例:

对于调频广播级立体声,采样频率为44.1khz,量化等级为16位(即2字节),声道形式为双声道,则转换后每秒数据量为:

44100(hz)×(16/8)(B)×2=176400B/s,约等于172KB/S

4、编码与压缩

所谓编码,就是按照—定的格式把经过采样和量化得到的离散数据记录下来,并在有效的数据中加入一些用于识别、纠错和进行控制的数据。

编码后的数据就可以以文件的方式存入计算机中,或进行处理和输出。

将量化后的数字声音信息直接存人计算机将会占用大量的存储空间、在多媒体系统中般是对数字化声音信息进行压缩和编码后再存人计算机,以减少音频的数据量。

便于存储和传输,这一过程称为压缩编码,为了区别,我们将未经过压缩处理的编码文件成为原始编码。

三、音频文件的格式

1、WAV文件

WAV是微软公司开发的一种音频文件格式,是使用最广,兼容性最好的一种数字音频格式。

WAV来源于对声音模拟波形的采样,它记录的是数字化的波形数据。

该格式直接记录声音的波形,不作任何压缩。

虽然文件巨大,但可以达到较高的音质要求,它是音乐编辑和创作的首选格式,适合保存音乐素材。

由于Windows操作系统的影响力,WAV格式已经成为事实上的通用音频格式,目前所有的音频播放软件、编辑软件和多媒体软件都支持这一格式,并将其作为首选的音频文件格式。

作为最原始、最基本的波形声音文件,WAV文件格式几乎可以转换为所有类型的数字音频文件格式。

WAV文件囊括各种精度的音频,支持多种音频位数、采样频率和声道。

采用44.1kHz的采样频率、16位量化位数时,WAV音频质量与CD唱片的声音相差无几。

每存放1秒声音WAV文件占用空间:

1秒×44100次采样/秒×16位/8位×2(左右两个通道)=176.4KB(KB即千字节)。

以此计算,存储每分钟WAV音频数据占用约10MB(即10584MB)空间;存储1个小时WAV音频数据占用大约620MB(635040MB)空间,几乎占满整整一张CD盘。

如此巨大的音频数据量,非常不易保存。

WAV格式对存储空间需求过大,传播起来难度较大。

优点:

音质高

兼容性好

缺点:

文件过大,不利于存储和传输

2、MP3(MP3PRP)文件

MP3是MPEG格式组中的专用于音频压缩的一种格式。

它能在对音质影响较小的前提下,将音频文件压缩为原来大小的1/12到1/14。

因此成为目前最为流行的一种的音频压缩格式。

一分钟CD音质的音乐,未经压缩需要10M存储空间,而经过MP3压缩编码后只有lMB左右,同时其音质基本保持不失真。

原来的一张标准CD—ROM,刻录成音乐CD只能存放几首乐曲;但是,使用MP3格式却能容纳几百个曲日。

在有限的存储空间内,能够存储大量的音频数据,极大地方便了数字音频的存储、交流、传输。

MP3格式开始于1980年中期,在德国Erlangen的Fraunhofer研究所开始的,研究致力于高质量、低数据率的声音编码。

在DieterSeitzer—个德国大学教授的帮助下,1989年,Fraunhofer在德国被获准取得了MP3的专利权,几年后这项技术被提交到国际标准组织(ISO),整合进入了MPEG-1标准。

最早的播放器是Frauenhofer在1990年早期开发的,但它只是一个非常不知名的小程序,没有引起大家的重视。

而被大家公认的第一个Mp3播放器是在1997年,由一个叫做TomislavUzelac的开发者开发的。

他开发了AMPMP3播放引擎。

当AMP引擎进入网络以后不久,几个大学生JustinFrankel和DmitryBoldyrev拿到了Amp引擎,并且为它添加了一个Windows界面,最后他们把这个程序命名为"Winamp."在1998年,当Winamp作为免费的音乐播放器在网络上传播的时候,Mp3的狂潮开始了。

许许多多的爱好者在网络上交换有版权的音乐mp3。

MP3编码器,制作器,播放器铺天盖地。

我们周围更是出现了各种歌手的MP3全集,甚至有MP3搜索引擎帮助搜索各种MP3。

Napster的出现更是让MP3的风暴到达的顶峰。

当然音乐界对这些“侵权”行为岂能座视不理?

于是运用法律进行了围剿,今年IT界最有名的事件之一恐怕就是Napster侵权案的败诉了。

或许有人还记得,早在1998年,美国东北波士顿大学的一年级新生、18岁的肖恩·范宁为了能够解决他的室友的一个问题——如何在网上找到音乐而编写的一个简单的程序,这个程序能够搜索音乐文件并提供检索,把所有的音乐文件地址存放在一个集中的服务器中,这样使用者就能够方便地过滤上百的地址而找到自己需要的MP3文件。

到了1999年,令他们没有想到的是,这个叫做Napster的程序成为了人们争相转告的“杀手程序”——它令无数散布在互联网上的音乐爱好者美梦成真,无数人在一夜之内开始使用Napster。

Napster具有强大的搜索功能,可以将在线用户的MP3音乐信息进行自动搜寻并分类整理,以备其他用户查询,只要知道你喜欢歌曲的名称或演唱者的名称,就可以和全世界乐迷共享丰盛的音乐大餐。

你可以选择自己要与其他人在网上共享的音乐文件的目录,并且可以与喜欢同样风格音乐的人聊天、在论坛讨论,互相交流。

Napster网站在一年多的时间里吸引了3800万用户,成为有史以来成长最快的网站。

相比之下,美国在线花了10年时间才发展到2500万个用户。

在最高峰时Napster网络有8000万的注册用户。

然而,Napster的发展很快引起了音乐制作商的不满。

1999年12月,全球五大唱片公司BMG、环球、索尼、华纳和EMI以及美国唱片协会(RIAA)联合起诉NAPSTER,称其侵犯了唱片公司版权。

指其涉及侵权歌曲数百万首,要求每支盗版歌曲赔偿10万美元。

2000年2月,法院判定Napster败诉。

Napster提出上诉,二审依然判其败诉。

2002年6月,Napster宣告破产。

MP3文件体积小、方使传播、声音质量高,能够在个人计算机、MP3半导体格放机和MP3激光播放机上进行播放。

这些优点使其具有强大的竞争力,已经成为网络上音频交流、传输的主格式。

但对于高品质音乐要求而言,MP3音质尚不能令人非常满意。

现在大家对音乐品质越来越挑剔了MP3要求的品质也是越来越高了,一般MP3压制可分为几个阶段:

第一个阶段是最早期的128K=CD音质~由于MP3刚出现使人们在感叹能有那么大的压缩率的情况下居然会有如此的音质表现力。

不过很快人们就发现128K的MP3在音质的高频部分和细小音节跟原版有非常大的差距。

所以就有了第二个阶段。

第二个阶段192K=CD然而,当大家对128K不满的时候192K就成了CD音质的统称,因为在一定程度上192K对128K来说音质的表现应该算有了一个质的飞跃,但是依然无法阻止MP3在高复杂音频下音频的流失,所以192KMP3的音质很快又被人们否定了。

就有了MP3音质的大讨论和争议。

很多人喜欢用320K因为那是MP3音质里的极限,如果用320K那么很多人往往无法接受一首歌有超过10M容量的MP3。

压缩软体也是大家一直都很头痛的问题,传统压缩软体都是以暴力般的压制方法,使MP3会损失很多音频,所以MP3在大家的印象里已经成了音质差的代名词。

当人们对MP3音质有不少失望时!

LAME的出现让人们惊叹MP3的音质原来还是可以那么出色。

制作高水准的MP3音乐,需要注意以下几个方面,

1),源文件的质量,也就是你要抓取的CD光盘的质量

2),光盘驱动器的质量要过关,最好是使用带有硬件级修正能力的光驱

3),采用高素质的抓音轨软件,

4),采用高素质的音频格式转换软件

黄金组合--Eac+Lame

抓轨大师-EAC

在上面这几方面中,抓音轨软件是关键,所谓的抓音轨也就是把CD光盘里的*.CDA格式的声音文件转换成*.WAV格式的声音文件,标准格式的*.WAV格式是双声道、44.1KB的采样频率,16Bit的量化位数,大家注意,这种格式也就是标准CD的格式数据,通俗的说:

你有了高质量的*.WAV格式声音文件,就离高水准的MP3不远了。

现在国内我们使用的转换软件素质都不是很好,大路货的超级解霸类等进行抓音轨和声音文件格式转换的时候,声音文件的高频损失很厉害,声音会变得尖锐难听,绝对不推荐使用!

可以说抓音轨直接影响着最后的声音文件质量。

现在抓音轨软件效果最好的当属EAC,

音轨抓取软件现在有数百种,那么,为什么选择EAC?

答案很简单:

因为EAC是最好的。

跟其他大多数的音轨抓取软件相比,EAC使用了一种安全(secure)读取方法:

这意味着所有的音乐扇区要至少被读2遍(其他音轨抓取软件仅读一遍而已)。

这将极大地提高错误检测水平。

一旦发生读取错误,EAC将重读音乐数据(最多82次)以求得到完美结果。

如果CD磨损严重,数据在82次尝试后仍不能读取的话,EAC将报告这一读取错误并给出精确的位置,让你试听。

拜EAC的纠错能力所赐,在很多的情况下,即使EAC报告了读取错误你也听不出失真现象。

所有这些,使EAC成为Windows平台上最佳的音轨抓取软件。

由于工作原理复杂,EAC抓轨的速度比一般的抓轨工具要慢很多,如果CD有点磨损,EAC的速度将更加慢得惊人(不过它的纠错能力超强),好在这一切是以质量为前提的。

如果不考虑抓轨时间,EAC绝对是所有抓音轨工具的首选!

压缩圣手-Lame

有了Eac抓取的高质量的WAV声音文件,就可以转换MP3了。

LAME是目前最好的MP3编码引擎。

MP3编码器到底如何?

这是另外一个问题,在世界最权威的音频论坛hydrogenaudio上对各种MP3编码器作过比较,得出的结论是Lame3.92是最值得选择的。

LAME(mitiok.ma.cx)编码出来的MP3音色纯厚、空间宽广、低音清晰、细节表现良好,它独创的心理音响模型技术保证了CD音频还原的真实性,配合VBR和ABR参数,音质几乎可以媲美CD音频,但文件体积却非常小(相当CD而言)。

对于一个免费引擎,LAME的优势不言而喻。

LAME是一个DOS方式下运行的程序,运行的时候还得切换操作系统,十分麻烦,而且要想更改设置只能在DOS程序后添加不同的参数和开关。

对于一般用户而言很不方便,我在这推荐一个外壳程序RazorLAME,它是Win窗口程序,通过它可以使我们在视窗界面下轻松调整各种参数,使繁琐的压缩过程简单化。

在制作高音质的mp3之前必须明白一下概念:

CBR(ConstantBitrate),固定比特率,指文件从头到尾都是一种位速率。

MP3的採样率为固定值。

一首MP3从头至尾为某固定值如192KBit/s进行压缩如果这种压制模式在固定比特率下如(192K)复杂段落音频是无法满足,而低频下又是浪费容量。

VBR(VariableBitrate)动态比特率。

也就是没有固定的比特率,就是在音频中找出与音频最适合的比特率进行压制,使其在控制容量大小的情况下把音质提到最佳。

VBR采取了一种全新的,全程动态调节技术的压缩方法。

当在低频或无频段时,VBR会自动采用的比特率如32KBit/s对音质进行压缩;当在高音段时会用较高的比特率如224KBit/s或256KBit/s对音质进行压缩;当在极高端时则采用最高320KBit/s进行压缩。

VBRMP3在控制文件大小的情况下,最大限度的提高了MP3的音质,

ABR(AverageBitrate)平均比特率,是VBR的一种插值参数。

指定VBR控制在某个比特率然后利用VBR对音频的解析调解MP3大小。

是人们想在控制MP3容量在一定的情况下,又想要追求音质的一种压制方法。

就是在VBR中固定一个码率标准。

比如把VBR平均控制在192Kbps的标准上让VBR根据音频调节VBR码率,可以做为VBR和CBR的一种折衷选择。

RazorLame的界面简单明了,方便使用,要设定的地方也并不多;

以下是我的一些参数设置经验:

在Options->General之中,指定LAME.exe的位置,然后就可以在其他的页面调节各种压缩的参数。

如果想试试一些实验性(尚未正式公布)的参数,或者懒得慢慢检查每一页的设定,可以直接在Options->Advanced中把写好的参数填入CustomOptions中,并选取Onlyusecustomoptions即可。

Options->Advanced里面,有一个Deletesourcefileafterencoding的选项,选取之后,编码完成的WAV文件会被自动删除,很是方便,。

为利用lame压缩mp3所需的时间很长(半小时以上),还可以选择“shutdowncomputerwhendone”让它压缩完以后自动关机,很人性话的设置。

需要注意的一点是,在Options->audioprocessing中的OUTPUTSAMPLINGFREQUENCY输出频率选项中一定要选定44.1KHZ,否则RazorLame就会以32Khz来输出从而使音质劣化

设置要点:

(1)制作有CD音质音乐MP3,要在菜单“Edit>>LAMEOptions”中作设置如下:

在“General”页中将‘Bitrate'设置为192K(每分钟音乐大概1.45兆字节),‘Mode’设置为:

JointStereo(立体声);在“AudioProcessing”页中将‘Outputsamplingfrequency'设置为44.1KHz。

(2)制作讲道等语音类MP3,要在菜单“Edit>>LAMEOptions”中作设置如下:

在“General”页中将‘Bitrate'设置为32K(每分钟语音大概0.24兆字节),‘Mode’设置为:

Mono(单声道);在“AudioProcessing”页中将‘Outputsamplingfrequency'设置为44.1KHz(务必!

因为默认是22.1KHz,制作出来的文件与44.1KHz一样大,但刻录到光盘中不能在家用VCD机上播放,兼容性差)。

优点:

技术成熟,兼容性强

资源丰富

文件较小

缺点:

低码率文件音质不高

练习:

CD的抓轨和音频格式的转换

1、使用EAC抓取CD光盘上的音轨

2、使用Razorlame将WAV文件转换为mp3文件

由于要在网络上收看声音和视频的需求不断增加,网络流媒体real和windowsmedia格式慢慢兴起。

随着这些媒体的编码器不断改进,他们的质量已经不断提升,已经能够做到文件尺寸又小,质量又好,大有赶超MP3之势。

以前MP3所倍受推崇的高压缩比,低质量损失已经不再是一张王牌,昔日辉煌的地位正在不断受到威胁。

面对这一情况,ThomsonMultimedia,一个制作mp3编码格式的公司推出了一个MP3格式的升级版本----Mp3Pro。

在保持相同的音质下同样可以把声音文件的文件量压缩到原有MP3格式的一半大小。

而且可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。

它能够在用较低的比特率压缩音频文件的情况下,最大程度地保持压缩前的音质。

MP3pro可以实现完全的兼容性。

经过mp3Pro压缩的文件,扩展名仍旧是.mp3。

可以在老的mp3播放器上播放。

老的mp3文件可以在新的mp3pro播放器上进行播放。

实现了该公司所谓的“向前向后兼容”。

mp3PRO在进行编码时,mp3PRO编码器将音频的录音分成两个部分:

mp3部分和PRO部分。

mp3部分分析低频段(LowFrequencyBand)信息,并将其编码成通常的mp3文件数据流。

这就使得编码器能够集中编码更少的有用信息,获得更佳品质的编码效果。

同时,这也保证了mp3PRO文件同老的mp3播放器的兼容性。

PRO部分分析的则是高频段(HighFrequencyBand)信息,并将其编码成mp3数据流的一部分,而这些通常在老的mp3解码器里是被忽略的。

新的mp3PRO解码器会有效地利用这部分数据流,将两段(高频段和低频段)合并起来产生完全的音频带,达到增强音质的效果。

3、WMA格式

WMA的全称是WindowsMediaAudio,它是大名鼎鼎的微软公司推出的一种压缩音频格式,它与MP3格式齐名。

在低码率状态下,WMA的音质要远远超过MP3,64Kbps的WMA文件音质基本和128Kbps的MP3相当。

在保证声音品质的前提下,文件的压缩率一般可以达到1:

18。

不过在采用高码率压缩时,WMA格式并没有出色的表现,最高192Kbps码率的WMA音乐文件在对比320Kbps的MP3完全没有优势。

为了减少失真,微软在WMA的基础上发展了WMALossless格式,每张CD光盘可以被压缩为200—400M的音乐文件。

WMALossless是一种无损格式,体积仅为CD光盘的一半,可惜这种优秀的格式在多数的MP3播放器上都不能直接播放。

WMA格式还支持音频流技术,适合在网络上

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 农林牧渔 > 畜牧兽医

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1