数字音频技术MP3的压缩编码原理与制作方法.docx

资源描述

数字音频技术MP3的压缩编码原理与制作方法.docx

《数字音频技术MP3的压缩编码原理与制作方法.docx》由会员分享，可在线阅读，更多相关《数字音频技术MP3的压缩编码原理与制作方法.docx（13页珍藏版）》请在冰豆网上搜索。

数字音频技术MP3的压缩编码原理与制作方法.docx

数字音频技术MP3的压缩编码原理与制作方法

第4卷第2期　　　　　长沙航空职业技术学院学报

CHANGSHAAERONAUTICALVOCATIONALANDTECHNICAL2004　年6月

COLLEGEJOURNAL

Vol.4No.2

Jun.2004

数字音频技术（MP3）的压缩编码原理与制作方法

张晓婷

（珠海市工业学校,广东珠海　519015）

　　摘要:

,同时介绍专业制作

MP3的方法。

关键词;制作经验与技巧+11　文献标识码:

A　文章编号:

1671-9654（2004）02-051-06

CompressionCodingPrincipleandFactureof

DigitalAudioFrequencyTechnique（MP3）

ZHANGXiao2ting

（ZhuhaiIndustrySchool,ZhuhaiGuangdong519015）

　　Abstract:

　FromtheperspectiveofAudioCompressionTheory,thepaperdiscussesformatofaudioFrequencytech2

nique（MP3）andcompressioncodingprincipleandalsointroducesthefactureofaudioFrequencytechnique（MP3）.

　　Keywords:

　FomatofaudioFrequencytechnique（MP3）;compressioncodingprinciple;facture

　　一、引言

数字技术的出现与应用为人类带来了深远的影响,特别是互联网的普及,使数字音频技术得到更为广泛的应用,并具有良好的市场前景。

与之相关的数字音频压缩技术也得到了充分的发展,一些著名的研究机构和公司都致力于开发专利技术和产品。

其中,MP3便是目前为止开发得最为成功的数字音频压缩技术之一。

二、MP3简介

（一）数字音频MP3的格式

MP3音频格式诞生于20世纪80年代,全名MPEGAudiolayer3,是MPEG（MovingPicturesEx2pertGroup运动图像专家组）当初和影像压缩格式同时开发的音频压缩格式,是MPEG21标准中的第三个层次,是综合了MPEGAudiolayer2和ASPEC优点的混合压缩技术,音频质量好,主要用于MP3音频压缩,典型的码流为每通道64Kbit/s。

（二）数字音频MP3压缩的优点

使用数字音频MP3压缩方式的处理,能增加更多的存储空间。

由于MP3的压缩比约在十到十二倍之间,一分钟的CD音乐经MP3压缩后,只需要一兆左右的存储空间,即一张光盘可以存储六百五十分钟到七百五十分钟的音乐;MP3典型的码流是每通道64Kbit/s,只有CD音乐每通道大约十分之一的码流,非常适合网上传输。

更重要的是,即使压缩比如此惊人

音乐的品质依然较好,这主要是利用了人类听觉掩蔽效应（MaskingEffect）的缘故。

MP3具有容量小、数码化、制作简单、传输方便、成本低廉等特点,虽历经14余年,仍然是网上最流行的音乐格式之一。

三、MP3压缩编码原理在MPEG21的音频压缩中,采样频率可分为32、44.1和48KHz,可支持的声道有单声道（mono2phonic）、双—单声道（dual2monophonic）、立体声模式

收稿日期:

2004-03-20

作者简介:

张晓婷（1964-）,女,上海市人,讲师,主要从事计算机教学与研究。

・51・

长沙航空职业技术学院学报　　　　　　　　　　　　　　　　　　　　第4卷　　　　　　　　　　　　　　　　　　　　　　　

（stereomode）、联合立体声（joint2stereo）等。

常见的MP3大都是采用联合立体声模式实验表明人类听

觉存在一个极限,即声音的频率范围是20Hz到

20KHz,但人耳对整个音频频段音量的反应不是平直的。

2KHz到5KHz是人耳最灵敏的频段,依其特性将整个音频频段分成多个临界频带。

因为人类听觉系统是依据频率来分辨声音能量的,

任何频率的

细小声音因掩蔽效应会被其在临界频带内附近的频率声音所覆盖,故对其不作量化处理,从而将一大部分人类听觉系统所无法察觉的频率去掉,以达到压缩的目的。

MP3压缩编码是一个国际性全开放的编码方案,。

图1是MP3单声道图1　MP3单声道编码制作过程流程图

（一）多相滤波器组

PCM信号首先经过多相滤波器组。

多相滤波

在MP3中,混合多相MDCT采用临界频带方式,在人耳敏感的中低频带,使用较窄的临界频带,高频带则使用较宽的临界频带。

这意味着对中低频有较高频率分辨率,在高频端时则相对有较低一点的分辨率。

这样的分配,更符合人耳的灵敏度特性,可以改善对低频端压缩编码时的失真。

MDCT的特点是即使不经量化也不会产生失

器组的作用是将声音信号分成32个频宽大小相同的子频带,但这32个子频带对音频压缩的效果并不好,因此通过加入混合多相MDCT的处理来改善信号的失真。

（二）FFT（FastFourierTransform）快速傅立叶转换

PCM信号的另一路经过FFT,用快速傅立叶转

真;将子带的信号进一步细分到频谱上,便于提供较好的分析和效果;在编码时,能消除多相滤波器组产生的叠频效应,增加解压后的还原效果。

（四）心理声学模型

心理声学模型主要作用是用于后面的编码。

为了最大程度压缩音频信号,根据人类心理声学模型,结合FFT提供的频率电平信息,将人类听觉系统较不敏感的或听不到的声音去掉,将较敏感的如中频的2Khz到5Khz的信号保留,在其音量或音色不大时,人耳都能清楚地听到,即掩蔽效应（掩蔽效应是指只对比较突出的容易引起注意的声音编码）。

同时,每个临界频带的样值与FFT输出的同频电平同步计算,得到每个临界频带的掩蔽阈值,最后计算每・52・

换将信号从时间轴转换到频率轴,即时频映射。

在MP3中,FFT使用1024点的运算方式（在MPEGAudiolayer1中FFT是512点）,提高了频率的分辨

率,能得到原信号更准确的瞬间频谱特性。

转换到频率轴后,信号进入心理声学模型中,为其提供频率电平信息作为参考。

（三）混合多相MDCT（ModifiedDiscreteCosineTransform修饰离散余弦变换）

MDCT

有18个通道,将分成的32个子带信号

进一步细分,产生32318=576的输出。

其输出信号同时进入心理声学模型和量化器中。

第2期　　　　　　　　　　　　　张晓婷,等:

数字音频技术（MP3）的压缩编码原理与制作方法　　　　　　　　　　　　　　　　

个子带的最大信号/掩蔽阈值率即信号掩蔽比,输入给量化器。

（五）量化（Quantization）

MDCT输出的信号,经过失真控制环和非均量

化率控制环,即量化器的处理,配合心理声学模型输出的信号掩蔽比、附加信息编码和外部控制,对信号进行量化。

（六）编码（Encoder）量化好的数据变成一连串的系数,码（Huffmancode）串由符号组成的信息内容,使用霍夫曼编码可以节约20%的空间。

我们会发现,用WinZip、WinRAR等压缩的MP3文件,其压缩程度有限,原因就是这些软件也是用了类似霍夫曼编码的技术。

（七）位流格式化（Bit2streamFormatting）及CRC（CyclicRedundancyCode）循环冗余码校验

经霍夫曼编码的数据先加入位流同步信息,为的是在解码时,通过搜索同步字便可获得同步,再经CRC校验,最后生成编码好的位流,即MP3。

加之音质部分的先天不足,建议不采用。

2.AudioCD:

CD标准采样频率为44.1KHz,16Bit,stereo（112KBit/s或128KBit/s）。

一般采集成WAV的方法是音轨数据直接拷贝法,用专门的CDCopy软件直接拷贝音轨即抓轨。

它的优点是采集到的WAV文件音质绝对无损,是制作成MP3的CDCopy软,在抓轨时常常,导致报错,有时甚者还会产。

解决方法是尽量使用Windows下的CDCopy软件,然后将光驱降速使用。

在Windows9x

下CDCopy的软件很多,如CdCopy、WinDAC、Au2dioGrabber、AudioCatalyst等。

笔者首选能完全无失真抓取音轨的ExactAudioCopyV0.9Bate4汉化版软件,免费下载网址

的方法也是录音法,一般采用超级解霸中的音频解霸进行录音;或是用VCD机播放,音频线的连接与录音带的采集相同。

常见的问题是声音发飘且小,听上去有水中听歌的感觉。

解决方法是降低制成MP3时选定的采样率（如128Kbit/s→112Kbit/s）以及通过软件控制音量

（如AudioCatalyst的Normal2ize）。

它的优点是自由性,只要你喜欢,可以将VCD上任何一段声音制成MP3。

另外,在用VCD制作MP3的时候,推荐使用MTV。

（二）MP3压缩软件的选择

将WAV文件压缩一般采用软件压缩的方式,除了音源的音质外,压缩软件的好坏也直接影响MP3的质量。

笔者首选LAMEnc（Lame3.9）,免费下载网址

（三）专业制作MP3的方法

专业级制作MP3一般采用CD作为音源,其参数设置也尽可能地高,下面是制作方法:

1.抓轨:

1）运行ExactAudioCopy软件,放入CD碟片,点击“选择驱动器”下拉箭头,选择碟片所在的CD2ROM,机器只有一个选择驱动器可不作选择,出现如图2所示的界面。

以上是MP3的整个压缩编码制作过程的介绍,可以看出,MP3在中低频段的失真较小,在高频段的失真较大,虽与CD音质相比还是有一定的差距,这是MP3的先天缺陷,但对于绝大多数网民来说,已大大方便了音乐的欣赏。

四、MP3的制作方法与技巧

制作MP3的步骤是:

首先对音频源进行采集并保存为WAV文件,然后使用MP3压缩软件将WAV文件压缩成MP3文件。

所要用到的硬件有:

具有自动降速的光驱、声卡;外部设备有:

录音机、VCD机等。

（一）常见的音频源种类及采集方法

1.录音带:

标准采样频率为22KHz,8/16bit,stereo/mono。

采集WAV的方法是用录音法,用一根音频线将声卡输入口（LineIn）和录音机（音响）输出口（LineOut）连接起来,使用声卡的回放功能,再利用Windows9x的录音机功能即可。

可用较好的声卡、降噪软件（CoolEdit等）等改善录音中的信噪比等。

虽然录音带收集WAV方法较简单,但是由于其做成的WAV在处理上的复杂性和技术性,

・53・

长沙航空职业技术学院学报　　　　　　　　　　　　　　　　　　　　第4

卷　　　　　　　　　　　　　　　　　　　　　　　

图2　ExactAudioCopy界面

　　在抓轨前,首先进行参数设置,正确的参数设置,可以采集到完美的WAV文件。

2）点击“EAC”/“驱动器选项”,选择“抓取模

式”选项卡,设置如图3所示,使抓轨更精确

。

　　4）点击“EAC”/“压缩选项”,设置如图5所示,设置成Windows标准的WAV文件,同时设置成44.1kHz的采样频率,16位置化及立体声模式。

5）在图2所示中,用Ctrl+鼠标单击同时选择

要抓取的多个音轨,点击左边的“WAV”图标,在“保存波形文件”对话框中,输入文件名,点击“保存”,完成抓轨,如图6所示。

2.压缩:

1）运行RazorLame软件,RazorLame软件是

LAMEnc压缩软件的外壳软件,它可以通过调用LAMEnc这个免费的MP3制作引擎（只有命令行界面）来制作MP3音乐,可以很方便地对压缩参数进行设置,界面如图7所示

。

图3　驱动器选项中抓取模式选项卡设置

　　3）点击选“EAC”/“驱动器选项”,选择“Speed”

项卡,设置如图4所示,在“速度选择”下拉箭头中,选择尽可能低的速度以保证读取数据的准确性

。

图5　压缩选项中Waveform选项卡设置

图4　驱动器选项中Speed选项卡设置

・54・

第2期　　　　　　　　　　　　　张晓婷,等:

数字音频技术（MP3）的压缩编码原理与制作方法　　　　　　　　　　　　　　　　

文件的目录相同。

图8

　General选项卡设置

图　　3）在“Advanced”选项卡中,设置如图9所示。

“Optimization（最优化）”选“Quality（质量）”优先“,Op2tions”选“IncludeCRC2Checksums（包含CRC校验码）”,带有校验码的文件可以让播放器更正确的播放,并可检查文件是否破损,不过文件的长度会增加。

4）在“VBR”选项卡中,设置如图10所示。

在“EnableVariableBitRate”前打勾,打开VBR方式,设置“MaximumVBRBitRate”为320Kbit,此时,在“Gen2eral”选项卡中设置的BitRate成为下限“;Quality”选0,0最好,但最慢,4是默认值。

VBR的使用使得文件的编码可以随编码器的运算去判断使用什么方式进行压缩,可以提高音质,但文件大小可能会增加。

5）在“AudioProcessing（音频处理）”选项卡中,设置如图11所示。

在“Outputsamplingfrequency（输出采样频率）”选44.1KHz。

如果选“default（默认）”,则LAME会将CD音质的频率界限下调为32kHz,目的是为了保留更多相对更重要的中低频

图7　RazorLame软件界面

　　工具栏上常用按钮说明:

Add:

添加将要压缩为MP3的WAV文件加入到任务列表窗口中。

Remove:

删除任务列表窗口中的WAV文件。

Clear:

删除任务列表窗口中的所有WAV文件。

Encode:

将任务列表窗口中的所有WAV文件编码,即WAV→MP3。

Decode:

将任务列表窗口中的所有文件MP3解码,即MP3→WAV。

LAME:

参数设置

在编码前,首先进行参数设置,正确的参数设置,可以使MP3的压缩更为完美。

2）点击“LAME”按钮,在“General”选项卡中,设置如图8所示。

用“BitRate（比特率）”设置码流,要保持CD音质,一般设置为128Kbit,这也是默认值。

BitRate越高,音质越好,但所占空间越大;用“Mode”设置声道模式,一般设置为JointStereo（

联合立体声模式）“;Outputdirectory”用于设置输出文件的目录,一般选“Sameasinputdirectory”,与输入

信号质量。

也可以硬性规定为44.1kHz。

图9　Advanced选项卡设置

・55・

长沙航空职业技术学院学报　　　　　　　　　　　　　　　　　　　　第4卷　　　　　　　　　　　　　　　　　　　　　　　

　　（四）制作MP3注意事项

1.音源问题:

尽可能使用CD作为音源,最好

是采用DDD（数字录音、数字混音、数字制作）。

2.声卡问题:

尽量使用信噪比高的声卡,音频

线采用镀金线以减少损耗。

3.爆音问题:

图10　VBR

选项卡设置,尽量使用连续空

2。

VBR与CBR的选择:

在制作节奏感较为强

烈的MP3音乐时,如POP流行乐和R&B摇滚乐,可采用VBR进行压缩,能在容量近似的前提下提高MP3的音质。

五、结束语

综上所述,数字音频mp3技术,通过选取重要

的声音信号忽略次要信号,在人耳能承受的音频质量的范围内来达到高压缩比,使一个三分钟的一般要占用约30M的硬盘空间的声音文件,利用数字音频mp3技术在仅有少许音质损失的情况下只需占用3M左右的空间。

随着计算机网络的飞速发展,在e时代中mp3已经成为了音乐的代名词。

参考文献:

[1]　小小洛克1漫谈数字音乐2压缩音频格式[J]1

新潮电子,2002,（9）:

104-105.

[2]　新潮评测室1六款“梭鱼”胸挂式MP3随身听

横向测试[J]1新潮电子,2002,（11）:

28-

29.

[3]　胡晓峰,吴玲达,

老松杨1多媒体技术教程

[M]1北京:

人民邮电出版社,2002.52-56.

[4]　王伟1课件制作中的视频采集方法综述[J]1

武汉职业技术学院学报,2002,（4）:

57-62.

[责任编辑　何　丹]图11　AudioProcessing选项卡设置　　6）压缩。

在以上参数设置好后,点击工具栏上的“Add”按钮,在“打开”对话框中选择要压缩的WAV文件,加入到任务列表窗口中,点击“Encode”按钮,完成压缩,如图12所示

。

图12　压缩进程界面

・56・

展开阅读全文