数字信息处理理技术书稿.docx
《数字信息处理理技术书稿.docx》由会员分享,可在线阅读,更多相关《数字信息处理理技术书稿.docx(13页珍藏版)》请在冰豆网上搜索。
数字信息处理理技术书稿
数字信息处理理技术
◇教学目标
本章主要介绍有关数字音频的基本知识;常用的音频文件格式及特点;获取(采集)音频数据的方法;对获取的音频数据进行编辑处理的方法;音频文件的播放及格式转换。
◇教学耍求
通过对本章的学习,要求了解数字音频的基本概念、常用的数字音频的文件格式及特点;掌握音频素材的采集和音频文件格式的转换;掌握常用的音频播放软件的使用;掌握音频编辑处理软件GoldWave的使用。
2.1数字音频基础
2.1.1数字音频的产生与表示
在计算机内,所有的信息均以数字形式表示。
各种命令是不同的数字;各种幅度的物理量是不同的数字;声音信号也用一系列数字表示,称为数字音频,其特点是保真度好,动态范围大。
在数字音频技术中,首先将幅值连续的模拟电压信号即模拟量表示的音频信号按一定的频率(称为采样频率)进行采样,即把时问上连续的信号,变成在时间上不连续的信号序列。
然后把采样得到的表示声音强弱的模拟电压信号用数字表示,这一过程称为数字化过程。
在用数字表示音频幅度时,只能把无穷多个电压幅度用有限个数字表示(把某一幅度范围内的电压用一个数字表示),称之为量化。
数字音频是通过采样和量化把模拟量表示的音频信号转换成由许多二进制数l和0组成的数字音频信号。
采样和量化过程所用的主要硬件是模拟到数字的转换器(A/D转换器),在数字音频回放时,采用由数字到模拟的转换器(D/A转换器),将数字音频信号转换成原始的模拟电信号。
影响数字音频质量的参数有:
采样频率、量化级。
采样频率是对原始模拟信号每秒钟进行采样的次数。
采样频率越高,声音“回放”出来的质量也越高,但是要求的存储容量也越大。
常用的音频采样率有:
8kHz,11.025kHz,16kHz,22.05kHz,37.8kHz,44.1kHz,48kHz。
其中最常用的两种采样频率是:
22.05kHz,44.1kHz。
量化级也称量化数据位数,是每个采样点能表示的数据范围,其常用的二进制位有8位、16位和32位。
以8位的量化级为例,每个采样点可以表示2(256)个不同的量化值;量化级为16位,则对应有2(65536)个不同的量化值。
量化级越高,则数据量越大,音质越好。
2.1.2数字音频文件的格式与特点
在多媒体技术中存储声音信息的文件格式主要有:
WAV文件、VOC文件、MIDI文件、AIF文件、SN()文件以及RMl文件等。
1.WAV文件
WAV文件,又名波形文件,扩展名为.WAV。
是Windows本身存放数字声音的标准格式,由于Microsolt公司的影响力,WAV目前也成为一种通性的数字声音文件格式,几乎所有的音频处理软件都支持WAV格式。
WAV文件来源于对声音模拟信号(即模拟波形)的采样。
用不同的采样频率对声音的模拟信号进行采样可以得到一系列离散的采样点,以不同的量化位数(8位或16位)把这些采样点的值转化成二进制数,然后存入磁盘,它所需要的存储容量很大。
用下列公式可以简单地推算出WAV文件所需的存储空间的大小。
WAV文件的字节数/秒一采样频率(Hz)×量化位数(位)×声道数/8
例如,用44.1kHz的采样频率对声波进行采样,每个采样点的量化位数选用16位,则录制一秒的立体声节目,其波形文件所需的存储容量为:
44100×16x2/8—176400(字节)
WAV直接记录声音的波形,所以只要采样频率高、量化位数多、机器速度快,利用该格式记录的声音文件能够和原声基本一致,但文件体积都很大(一分钟的波形文件需要10MB),不适合在网络上传播。
2.VOC文件
VOC文件是Creative公司的波形音频文件格式,也是声霸卡(SotmdBlaster)使用的音频文件格式。
每个VOC文件由文件头块(HeaderBlock)和音频数据块(DataBlock)组成。
文件头块包含一个标识、版本号和一个指向数据块起始的指针。
数据块分成各种类型的字块,如声音数据,静音,标识,ASCII码文件,重复的结束、重复以及终止标志,扩展块等。
该文件的扩展名为.VOC。
利用声霸卡提供的软件可以实现VOC和WAV文件转换。
3.MIDI文件
乐器数字接口(MusicalInstrumentDigitalInterface,简称MIDI)是由世界上主要电子乐器制造厂商建立起来的一个通信标准,规定了计算机音乐程序、电子合成器和其他电子设备之间交换音乐信息与控制信号的方法。
MIDI文件中包含音符、定时和16个声道的乐器定义,每个音符包括键、声道号、持续时间、音量和力度等信息。
所以MIDI文件记录的不是乐曲本身,而是一些描述乐曲演奏过程的指令,主要用于计算机声音的重放和处理。
该文件的扩展名为.MID。
由于MIDI文件记录的是一系列指令而不是数字化后的波形数据,因此它占用的存储空间比WAV文件小得多,所以预先装入MIDI文件比装入WAV文件要容易得多。
这为设计多媒体应用系统和指定何时播放音乐带来很大的灵活性。
但是MIDI文件的录制比较复杂,要学习一些MIDI的专业知识,并且还必须有专门工具,如键盘合成器。
文件扩展名.RMI是Microsoft公司的MIDI文件格式,它可以包括图片、标记和文本。
4.MP3文件
MPEGAudio一3是现在最流行的声音文件格式,其扩展名为.MP3,它是采用MPEG标准音频数据压缩编码中层Ⅲ技术压缩之后的数字音频文件,MP3格式压缩音乐的典型比例有10:
1、17:
1,甚至70:
1,比如一分钟CD音质的音乐,未经压缩需要10MB存储空问,而经过MP3压缩编码后只有1MB左右,同时其音质基本保持不失真,所以MP3是目前最为流行的一种音乐文件。
该文件的特点是压缩比高,文件数据量小,音质好,能够在个人计算机和MP3播放机上进行播放。
某些多媒体平台软件和算法语言支持该格式,被广泛应用在互联网和可视电话通信等许多领域,但和CD唱片相比,音质不能令人非常满意。
5.WMA文件
Microsoft公司的WindowsMediaAudio7是一种压缩的离散文件和流式文件,其文件扩展名为.WMA,是继MP3之后最受欢迎的音乐格式,在压缩比和音质方面都超过了MP3,WMA(WindowsMediaAudio)相对于MP3的主要优点是在较低的采样频率下保持良好的音质。
WMA有Microsoft的WindowsMediaPlayer做强大的后盾,支持音频流(Stream)技术,适合在网络上在线播放,目前网上的许多音乐纷纷转向WMA格式。
6.PCM文件
PCM(PulseCodeModulation)文件由模拟的音频信号经模/数转换(A/D转换)直接形成的二进制序列组成,没有附加的文件头和结束标志。
在声霸卡提供的软件中,可以利用VOC—HDR程序,为PCM格式的音频文件加上文件头,而形成VOC格式,Windows的“Convert”工具也可以将PCM音频文件转换成Mierosoft的WAV格式。
该文件扩展名为.PCM。
7.RA文件
RA(.RealAIadio)是Realnetworks推出的一种音乐压缩格式,其压缩比可以达到96:
1,因此,在网上比较流行。
经过压缩的音乐文件可以在速率为14.4Kb/s的用Modem上网的计算机中流畅回放。
其最大特点是可以采用流媒体的方式实现网上实时播放,即边下载边播放。
该文件扩展名为.RA。
8.CDA文件
CDAladioCD又称为CD音乐,其扩展名为.CDA,是标准的激光盘文件。
它是唱片采用的格式,又叫红皮书格式,记录的是波形流,该文件的特点是音质好,缺点是数据量大,无法编辑。
在Windows环境中,使用CD播放器播放。
2.1.3MIDI与音乐合成
随着计算机的诞生,计算机奏乐出现了,不过最初仅仅是通过计算机的扬声器发出一个个单音,听起来很单调。
现在通过多媒体计算机的音乐合成技术,可以产生优美动听的旋律。
MIDI是1983年由Yamaha、Roland等公司联合制定的一种将电子乐器与计算机连接起来的规范,是多媒体计算机所支持的又一种声音产生的方法。
它特别适合于音乐创作和长时间的音乐播放,现已成为数字式音乐的一种国际标准。
MIDI规定了电子乐器与计算机进行连接的电缆与硬件方面的标准,以及电子乐器之间、电子乐器与计算机之间传送数据的通信接口标准,用于保证各种乐器设备之间数据、控制命令的信号传送。
任何电子乐器,只要具有处理MIDI信息的处理器并配有合适的硬件接口,符合MIDI协议标准,均可以构成一个MIDI设备。
数字式电子乐器出现以来,它的产品性能日趋完善,对音乐界产生了革命性的影响,也为计算机处理音乐(作曲、修改、记录、检索、播放……)创造了极为有利的条件。
MIDI声音与前面所介绍的数字化波形声音完全不同。
它不是把音乐声音用数字化波形进行采样、量化和编码,而是将电子乐器键盘的弹奏过程记录下来。
例如按了哪一个键,力有多大.时间有多长等,这实际上就是乐谱的一种数字式描述。
这种描述称之为MIDI消息(MIDIMessage)。
当需要再次播放这支乐曲时,只需要从相应的MIDI文件中读出MIDI消息,生成所需要的乐器声音波形,经放大后由扬声器输出。
多媒体计算机中,MIDI声音的处理过程如图2—1所示。
图2—1多媒体计算机中MIDI声音的处理过程
与波形声音信息相比较,MIDI声音有许多优点。
最主要的是对存储容量的要求比波形声音小得多。
半小时的立体声音乐使用CDA格式存储时,需要300MB存储量;而用MIDI记录时,则只要约200KB,两者相差1000多倍;即使与采用ADPCM压缩编码的波形声音相比,MIDI声音的数据量也要小2个数量级以上。
另一个优点表现在声音配音方面。
利用MIDI技术,当多媒体PC机播放波形声音文件(例如一段解说词)时,可以同时在Windows下播放用MIDI文件记录下来的音乐,这就为解说词实现了配乐。
而2个波形声音文件是无法同时播放的。
与波形声音相比,MIDI在编辑修改方面也十分灵活。
例如可任意修改曲子的速度、音调,也可改换不同的乐器等。
MIDI的不足之处主要是,合成后输出的声音质量依赖于MIDI硬件。
多媒体PC机配置的声音卡,其合成器仅适于重现打击乐器或一些电子乐器的声音。
为了得到与手风琴、小提琴真正相同的声音,还需要再添置MIDI声音混合器,或者外接一些高质量的MIDI电子乐器。
MIDI规范规定,每一种MIDI装置通常由一个接收器和一个发送器组成,如果该装置只作输入端或输出端,则可以省去其中之一。
接收器可以接收MIDI格式的消息,并执行MIDI命令。
发送器则生成符合MIDI格式的消息并向外发送。
一个接收器和一个发送器构成一对MIDI消息输入输出组合,它们之间通过一种通用的异步收发器互相连接,数据传送速率为3125bit/s,每个数据字节的前后各有一起始位和一停止位。
MIDI设备有3种端口:
MIDIIn(输人口)、MIDIOut(输出口)和MIDIThru(传送口)。
每一个MIDI设备至少有1个端口,也可以3种都有。
MIDIIn用来接收其他MIDI设备发送来的消息;MIDIOut用来发送本设备生成的原始MIDI消息;MIDIThru则能向其他相连的MIDI设备传送需要从MIDIIn端口接收的消息。
这种设计允许连接若干个MIDI设备同时工作。
MIDI规范规定,MIDI键盘共有128个键。
MIDI消息可以描述每个音符对应的键号、按键的持续时间、音量和力度等信息。
MIDI规范还规定,MIDI接收器有16个声道(Channel),它们可以同时向声音合成器传送16路不同的声音,就好像同时指挥16个演员一起进行演奏一样。
MIDI文件中的控制指令会将不同的音符发送到相应的通道进行演奏。
每个声道在逻辑上对应着一个合成器。
该合成器可以产生128种不同乐器的声音,不同乐器声音称为合成器的不同“程序”。
为某个声道选择某种乐器就必须预先为其设定对应的程序号。
但MIDI没有统一规定哪种乐器使用哪一个程序号,因此同一个MIDI文件使用不同的合成器播放可能效果不完全相同。
合成器可以以单音方式发声,也可以用复音方式(即能同时发出几个字符),因此它能演奏和声。
每个声道选择什么工作模式,则需使用“选择声道模式”消息来进行控制。
简明的MIDI信息可以通过合成器产生美妙的乐曲,因而MIDI文件要比等效的波形文件小得多。
由于MIDI文件比波形文件小,所以在设计多媒体应用和播放指定音乐时有很大的灵活性。
在以下几种情况下,使用MIDI乐曲比使用波形音频更合适:
(1)播放长时间的高质量音乐。
(2)需要以音乐做背景音响效果,同时从CD-ROM中装载其他媒体数据。
(3)需要以音乐做背景音响效果,同时播放波形音频。
MIDI作品可以购买现成的产品,也可以自己制作。
当然,开发自己的MIDI作品时,除了必须拥有计算机方面的知识与设备外,还需要具备专业音乐知识和专用工具。
一般情况下,可以使用一个电子键盘乐器和MIDI音序器来逐步完成作品的旋律、低音、和弦以及打击乐器的配乐,并反复演奏、录制、播放和编辑,直到满意为止。
要生成最后的乐谱,必须用音序器录制每个音轨并指定相应的声道。
通常,音序器将每个声道的数据作为一个音轨,并允许独立地播放和编辑这些数据。
一旦总谱存人MIDI文件,便可以从应用程序中播放它了。
多媒体计算机要求声卡上包含一个MIDI合成器和一个MIDI输入/输出端口。
声音合成器可以把用数字形式表示的声音信号转换成可用音箱播放的模拟信号。
大多数合成器都能同时播放几种不同乐器的声音。
MIDI合成器接收到MIDI命令后按要求合成不同的声音,合成声音的质量是由合成方式决定的。
目前,MIDI合成方式主要是调频合成法和波表合成法。
2.2数字音频的采集、编辑与转换
2.2.1数字音频的采集方式
数字音频的采集方式有很多种,可以通过声卡转换,或者使用软件采集。
这里介绍一种大众化的数字音频采集方式。
使用windows录音机程序来采集数字音频。
1.如何录制声音
把声卡的MICIN插孔与话筒相连,或者把LINEIN与其他声音输入设备(例如,录像机的Audio插孔)相连,启动附件中的录音机,就可以录制声音。
(1)在声卡MIC插孔中插入话筒,打开话筒开关。
(2)在Windows【附件】组中启动【录音机】,打开声音源同时单击【录音】按钮开始录音.此时,声波窗口中出现声音波形。
(3)单击【停止】按钮,结束录音。
(4)执行【文件】|【保存】命令,输入文件名后单击【保存】按钮。
录音时,声波窗口右侧记录了当前录制声音文件的时间长度。
2.如何插入另一个声音文件
(1)执行【文件】|【打开】命令打开一个声音文件。
(2)用【播放】和【停止】按钮或拖动滚动条上的滑块以定位欲插入声音文件的位置。
(3)执行【编辑】|【插入文件】命令。
(4)在“插入文件”对话框中输入或直接选定欲插入的另一个声音文件的文件名。
(5)单击【打开】按钮,完成插入。
3.如何混合声音文件
利用编辑菜单的“与文件混音”命令,可将一个声音文件与另一个声音文件相互混合,产生特殊效果。
例如,将一个解说词文件与一个音乐文件相混合,在播放时,则可同时听到解说词和音乐,即在解说词中增加背景音乐。
(1)打开一个声音文件。
(2)用【播放】和【停止】按钮或拖动滚动条上的滑块定位欲混入声音文件的位置。
(3)执行【编辑】|【与文件混音】命令。
(4)在“混放文件”对话框中输入欲混入的另一个文件名。
(5)单击【打开】按钮,完成混音。
4.如何删除声音文件中的某一部分内容
(1)打开需要删除的声音文件。
(2)用【播放】和【停止】按钮或拖动滚动条上的滑块定位欲删除的位置。
(3)执行【编辑】|【删除当前位置以前的内容】命令,或【删除当前位置以后的内容】命令。
(4)确认是否删除。
以上操作需要多次尝试才会有一个满意的结果,如果不满意可使用文件菜单中的【还原】命令,使文件还原成原样。
录音机程序并不是声音制作的最好软件,AnimatorStudio中的Soundlab和UleadNediaStudio的Soundedit都更完善,同时用一些声卡自带的软件处理声音也很方便。
2.2.2使用GoldWave编辑数字音频
GoldWave。
是一个集声音编辑、播放、录制和转换功能为一体的音频工具,它虽然体积小巧,但功能却一点也不弱。
使用GoldWave可以打开很多音频文件,如WAV、OGG、VOC、IFF、AIF、AFC、AU、SND、MP3、MAT、DWD、SMP等音频格式文件,除此之外,用户也可以从CD、VCD、DVD或其他视频文件中提取声音。
GoldWave内含丰富的音频处理特效,从一般特效如多普勒、回声、混响、降噪到高级的公式计算(利用公式在理论上可以产生任何用户想要的声音)。
1.GoldWave特性
(1)直观、可订制的用户界面,使操作更简便。
(2)多文档界面可以同时打开多个文件,简化了文件之间的操作。
(3)编辑较长的音乐时,GoldWave会自动使用硬盘;而编辑较短的音乐时,GodWave就会在速度较快的内存中编辑。
(4)GoldWave允许使用很多种声音效果,如倒转(Invert)、回音(Echo)、摇动、边缘(FIange)、动态(dynamic)和时问限制、增强(strong)、扭曲(warp)等。
(5)精密的过滤器(如降噪器和突变过滤器)帮助修复声音文件:
(6)批转换命令可以把一组声音文件转换为不同的格式和类型。
该功能可以转换立体声为单声道,转换8位声音到16位声音,或者是文件类型支持的任意属性组合。
如果安装了MPEG多媒体数字信号编解码器,还可以把原有的声音文件压缩为MP3的格式,在保持出色的声音质量的前提下使声音文件的尺寸缩小为原有尺寸的十分之一左右。
(7)CD音乐提取工具可以将CD音乐拷贝为一个声音文件。
为了缩小尺寸,也可以把CD音乐直接提取出来并存为MP3格式。
(8)表达式求值程序在理论上可以制造任意声音,支持从简单的声调到复杂的过滤
器。
内置的表达式有电话拨号音的声调、波形和效果等。
2.GoldWave的界面
GoldWave的界面如图2—2所示,这是一个空白的窗口。
刚进入GoldWave时,窗口是空白的,而且GoldWave窗口上的大多数按钮、菜单均不能使用,需要先建立一个新的声音文件或者打开一个声音文件。
GoldWave窗口右下方的小窗口是设备控制器窗口。
设备控制器的作用是播放声音以及录制声音,设备控制器面板上按钮的作用,如表2-1所示。
图2—2G。
ldwave的主界面
表2—1控制器中按钮的作用
┏━━━━━━━┳━━━━━━━┳━━━━━━━━━━┓
┃播放┃自定义播放┃停止回放┃
┣━━━━━━━╋━━━━━━━╋━━━━━━━━━━┫
┃快退播放┃快进播放┃暂停回放┃
┣━━━━━━━╋━━━━━━━╋━━━━━━━━━━┫
┃开始录制┃停止录制┃设置控制器属性┃
┗━━━━━━━┻━━━━━━━┻━━━━━━━━━━┛
在此要特别说明一点,设备控制器面板上的【播放】按钮和【自定义播放】按钮是有区别的,如表2—2所示。
表2—2播放按钮与自定义播放按钮的区别
按钮作用
播放用于播放选中的那部分声音
自定义播放根据播放属性的定义来播放声音
设置控制器属性用于调整播放方式、录音方式、音量、波形图及声音设备
3.声音的打开与保存
(1)打开一个已有的声音文件
执行【文件】|【打开】命令或使用工具栏上的【打开】按钮都可以打开一个声音文件。
GoldWave支持多种声音格式,它不但可以编辑扩展名是WAV、MP3、AU、VOC、AVI、MPEG、MOV、RAW、SDS等格式的声音文件,还可以编辑Apple电脑使用的声音文件;并且Goldwave还可以把Matlab中的MAT文件当作声音文件来处理,这些功能可以很容易地制作出所需要的声音。
现在我们打开一个WindowsXP中的一段波形文件(可以在windows目录下的Media子目录中找到)。
单击工具栏上的【打开】按钮,在弹出的“打开音频”对话框中找到所要打开的波形文件,单击【打开】按钮(或直接用鼠标双击这个波形文件)即可打开文件。
打开波形文件之后在Goldwave的窗口中即显示出了波形文件的声音的波形。
如果是立体声,G0ldwave会分别显示两个声道的波形,绿色部分代表左声道,红色部分代表右声道。
而此时设备控制面板上的按钮也变得可以使用了(即由黑白变为彩色)。
单击设备控制面板上的【播放】按钮,Goldwave就会播放这个波形文件。
播放波形文件的时候,在Goldwave窗口中会看到一条白色的指示线,指示线的位置表示正在播放的波形。
与此同时,在设备控制面板上会看到音量显示以及各个频率段的声音的音量大小,如图2-3所示。
图2-3播放一个已有的声青文件
在播放波形文件的过程中可以随时暂停、停止、倒放、快放播放进度,使用方法与Windows的录音机一样。
在设备控制面板上还有一个【开始录制】按钮,用户可以用它录制自己的声音,或者把自己的声音录制到一个已有的声音文件中与原有的声音混合,甚至可以把原有的声音覆盖。
用户也可以在设备控制面板上调整音量、左右均衡和播放速度。
前面已经介绍过,在设备控制面板上由两个播放按钮,即【播放】和【自定义播放】按钮。
使用播放按钮时,总是播放选中的波形;如果使用【自定义播放】按钮,就可以自己决定播放哪一段波形。
用户还可以进行播放选中的波形、未选中的波形等操作。
此外,通过【设置控制器属性】按钮,可以定义【自定义播放】按钮的功能,单击设备控制面板上的【设备控制器属性】按钮,弹出如图2-4所示“控制器属性”对话框。
图24“控制器属性”对话框
在“控制器属性’’对话框中用户可以调整播放属性、录制属性、音量、显示图的内容以及声卡设备等。
(2)保存波形文件
保存文件的方法和打开文件的方法类似,最简单的方法是使用工具栏上的【保存】按钮:
如果要把声音文件保存为其他的格式,就要执行【文件】|【另存为】命令,然后在“另存音额为”对话框中选择要保存的文件格式。
建议将声音文件保存为WAV、MP3、RAW格式中的一种,其中RAW用于网上广播。
4.对波形文件进行简单操作
(1)选择波形
选择波形是GoldWave中一个重要的操作。
因为在GoldWave中,用户所进行的操作都是针对选中的波形。
所以,在处理波形之前,要先选择需要处理的波形。
为了便于选择波形.建议改变显示比例(用1:
10或1:
100较为合适,其中,在1:
100条件下选择语音中的一字是很容易的)。
选择波形的方法是:
在波形上按下鼠标左键并进行拖动,在需要结束的地方松开鼠标即可。
这样,我们就选择了一段波形,选中的波形用较亮的颜色并配以蓝色底色显示,如图2-5所示,未选中的波形以较淡的颜色并配以黑色底色显示,现在,可以对选中波形进行各种各样的处理了。
图2-5选中与未选中波形的对比界面
(2)复制波形段
与其他windows应用程序一样,复制分为复制和粘贴两个步骤:
首先,选择波形段以后.单击工具栏上的【复制】按钮,选中的波形即被复制;然后,用鼠标选择需要粘贴波形的位置(配合使用左键和右键来选择插入点);最后,单击工具栏上的【粘贴】按钮,刚才复制的波形就会被粘贴到所选的位置了。
(3)剪切波形段
剪切波形段与复制波形段的区别是:
复制波形段是把一段波形复制到某个位置,而剪切波形段是把一段波形剪切下来,粘贴到某个位置。
剪切波形段与复制波形段的操作方法一样,只是复制的时候所用的按钮是【复制】,而剪切的时候所用的按钮是【剪切】。
(4)删除波形段
删除波形段