数字化.docx
《数字化.docx》由会员分享,可在线阅读,更多相关《数字化.docx(23页珍藏版)》请在冰豆网上搜索。
数字化
音频定义
1.Audio,指人说话的声音频率,通常指300Hz-3400Hz的频带。
2.指存储声音内容的文件。
音频这个专业术语,人类能够听到的所有声音都称之为音频,它可能包括噪音、声音被录制下来以后,无论是说话声、歌声、乐器都可以通过数字音乐软件处理。
把它制作成CD,这时候所有的声音没有改变,因为CD本来就是音频文件的一种类型。
而音频只是储存在计算机里的声音。
演讲和音乐,如果有计算机加上相应的音频卡--就是我们经常说的声卡,我们可以把所有的声音录制下来,声音的声学特性,音的高低都可以用计算机硬盘文件的方式储存下来。
反过来,我们也可以把储存下来的音频文件通过一定的音频程序播放,还原以前录下的声音。
数码录音最关键一步就是要把模拟信号转换为数码信号。
就电脑而言是把模拟声音信号录制成为Wave文件
描述Wave文件主要有两个指标,一个是采样精度,另一个是比特率。
什么是采样精度?
因为Wave是数码信号,它是用一堆数字来描述原来的模拟信号,所以它要对原来的模拟信号进行分析,我们知道所有的声音都有其波形,数码信号就是在原有的模拟信号波形上每隔一段时间进行一次“取点”,赋予每一个点以一个数值,这就是“采样”,然后把所有的“点”连起来就可以描述模拟信号了,很明显,在一定时间内取的点越多,描述出来的波形就越精确,这个尺度我们就称为“采样精度”。
我们最常用的采样精度是44.1kHz/s。
它的意思是每秒取样44100次,之所以使用这个数值是因为经过了反复实验,人们发现这个采样精度最合适,低于这个值就会有较明显的损失,而高于这个值人的耳朵已经很难分辨,而且增大了数字音频所占用的空间。
一般为了达到“万分精确”,我们还会使用48k甚至96k的采样精度,实际上,96k采样精度和44.1k采样精度的区别绝对不会象44.1k和22k那样区别如此之大,我们所使用的CD的采样标准就是44.1k,目前44.1k还是一个最通行的标准,有些人认为96k将是未来录音界的趋势。
采样精度提高应该是一件好事,可有时我也想,我们真的能听出96k采样精度制作的音乐与44.1k采样精度制作的音乐的区别吗?
普通老百姓家里的音响能放出他们的区别吗?
比特率是大家常听说的一个名词,数码录音一般使用16比特,20比特,24比特制作音乐,什么是“比特”?
我们知道声音有轻有响,影响轻响的物理要素是振幅,作为数码录音,必须也要能精确表示乐曲的轻响,所以一定要对波形的振幅有一个精确的描述,“比特”就是这样一个单位,16比特就是指把波形的振幅划为216即65536个等级,根据模拟信号的轻响把它划分到某个等级中去,就可以用数字来表示了。
和采样精度一样,比特率越高,越能细致地反映乐曲的轻响变化。
20比特就可以产生1048576个等级,表现交响乐这类动态十分大的音乐已经没有什么问题了。
刚才提到了一个名词“动态”,它其实指的是一首乐曲最响和最轻的对比能达到多少,我们也常说“动态范围”,单位是dB,而动态范围和我们录音时采用的比特率是紧密结合在一起的,如果我们使用了一个很低的比特率,那么我们就只有很少的等级可以用来描述音响的强弱,我们当然就不能听到大幅度的强弱对比了。
动态范围和比特率的关系是;比特率每增加1比特,动态范围就增加6dB。
所以假如我们使用1比特录音,那么我们的动态范围就只有6dB,这样的音乐是不可能听的。
16比特时,动态范围是96dB。
这可以满足一般的需求了。
20比特时,动态范围是120dB,对比再强烈的交响乐都可以应付自如了,表现音乐的强弱是绰绰有余了。
发烧级的录音师还使用24比特,但是和采样精度一样,它不会比20比特有很明显的变化,理论上24比特可以做到144dB的动态范围,但实际上是很难达到的,因为任何设备都不可避免会产生噪音,至少在现阶段24比特很难达到其预期效果。
CD格式:
天簌
当今世界上音质最好的音频格式是什么?
当然是CD了。
因此要讲音频格式,CD自然是打头阵的先锋。
在大多数播放软件的“打开文件类型”中,都可以看到*.cda格式,这就是CD音轨了。
标准CD格式也就是44.1K的采样频率,速率88K/秒,16位量化位数,因为CD音轨可以说是近似无损的,因此它的声音基本上是忠于原声的,因此如果你如果是一个音响发烧友的话,CD是你的首选。
它会让你感受到天籁之音。
CD光盘可以在CD唱机中播放,也能用电脑里的各种播放软件来重放。
一个CD音频文件是一个*.cda文件,这只是一个索引信息,并不是真正的包含声音信息,所以不论CD音乐的长短,在电脑上看到的“*.cda文件”都是44字节长。
注意:
不能直接的复制CD格式的*.cda文件到硬盘上播放,需要使用象EAC这样的抓音轨软件把CD格式的文件转换成WAV,这个转换过程如果光盘驱动器质量过关而且EAC的参数设置得当的话,可以说是基本上无损抓音频。
推荐大家使用这种方法。
WAV:
无损
是微软公司开发的一种声音文件格式,它符合PIFFResourceInterchangeFileFormat文件规范,用于保存WINDOWS平台的音频信息资源,被WINDOWS平台及其应用程序所支持。
“*.WAV”格式支持MSADPCM、CCITTALAW等多种压缩算法,支持多种音频位数、采样频率和声道,标准格式的WAV文件和CD格式一样,也是44.1K的采样频率,速率88K/秒,16位量化位数,看到了吧,WAV格式的声音文件质量和CD相差无几,也是目前PC机上广为流行的声音文件格式,几乎所有的音频编辑软件都“认识”WAV格式。
这里顺便提一下由苹果公司开发的AIFF(AudioInterchangeFileFormat)格式和为UNIX系统开发的AU格式,它们都和和WAV非常相像,在大多数的音频编辑软件中也都支持它们这几种常见的音乐格式。
MP3:
流行
MP3格式诞生于八十年代的德国,所谓的MP3也就是指的是MPEG标准中的音频部分,也就是MPEG音频层。
根据压缩质量和编码处理的不同分为3层,分别对应“*.mp1"/“*.mp2”/“*.mp3”这3种声音文件。
需要提醒大家注意的地方是:
MPEG音频文件的压缩是一种有损压缩,MPEG3音频编码具有10:
1~12:
1的高压缩率,同时基本保持低音频部分不失真,但是牺牲了声音文件中12KHz到16KHz高音频这部分的质量来换取文件的尺寸,相同长度的音乐文件,用*.mp3格式来储存,一般只有*.wav文件的1/10,而音质要次于CD格式或WAV格式的声音文件。
由于其文件尺寸小,音质好;所以在它问世之初还没有什么别的音频格式可以与之匹敌,因而为*.mp3格式的发展提供了良好的条件。
直到现在,这种格式还是风靡一时,作为主流音频格式的地位难以被撼动。
但是树大招风,MP3音乐的版权问题也一直是找不到办法解决,因为MP3没有版权保护技术,说白了也就是谁都可以用。
MP3格式压缩音乐的采样频率有很多种,可以用64Kbps或更低的采样频率节省空间,也可以用320Kbps的标准达到极高的音质。
我们用装有FraunhoferIISMpegLyaer3的MP3编码器(现在效果最好的编码器)MusicMatchJukebox6.0在128Kbps的频率下编码一首3分钟的歌曲,得到2.82MB的MP3文件。
采用缺省的CBR(固定采样频率)技术可以以固定的频率采样一首歌曲,而VBR(可变采样频率)则可以在音乐“忙”的时候加大采样的频率获取更高的音质,不过产生的MP3文件可能在某些播放器上无法播放。
我们把VBR的级别设定成为与前面的CBR文件的音质基本一样,生成的VBRMP3文件为2.9MB。
MIDI:
作曲家最爱
经常玩音乐的人应该常听到MIDI(MusicalInstrumentDigitalInterface)这个词,MIDI允许数字合成器和其他设备交换数据。
MID文件格式由MIDI继承而来。
MID文件并不是一段录制好的声音,而是记录声音的信息,然后在告诉声卡如何再现音乐的一组指令。
这样一个MIDI文件每存1分钟的音乐只用大约5~10KB。
今天,MID文件主要用于原始乐器作品,流行歌曲的业余表演,游戏音轨以及电子贺卡等。
*.mid文件重放的效果完全依赖声卡的档次。
*.mid格式的最大用处是在电脑作曲领域。
*.mid文件可以用作曲软件写出,也可以通过声卡的MIDI口把外接音序器演奏的乐曲输入电脑里,制成*.mid文件。
WMA:
最具实力
WMA(WindowsMediaAudio)格式是来自于微软的重量级选手,后台强硬,音质要强于MP3格式,更远胜于RA格式,它和日本YAMAHA公司开发的VQF格式一样,是以减少数据流量但保持音质的方法来达到比MP3压缩率更高的目的,WMA的压缩率一般都可以达到1:
18左右,WMA的另一个优点是内容提供商可以通过DRM(DigitalRightsManagement)方案如WindowsMediaRightsManager7加入防拷贝保护。
这种内置了版权保护技术可以限制播放时间和播放次数甚至于播放的机器等等,这对被盗版搅得焦头乱额的音乐公司来说可是一个福音,另外WMA还支持音频流(Stream)技术,适合在网络上在线播放,作为微软抢占网络音乐的开路先锋可以说是技术领先、风头强劲,更方便的是不用象MP3那样需要安装额外的播放器,而Windows操作系统和WindowsMediaPlayer的无缝捆绑让你只要安装了windows操作系统就可以直接播放WMA音乐,新版本的WindowsMediaPlayer7.0更是增加了直接把CD光盘转换为WMA声音格式的功能,在新出品的操作系统WindowsXP中,WMA是默认的编码格式,大家知道Netscape的遭遇,现在“狼”又来了。
WMA这种格式在录制时可以对音质进行调节。
同一格式,音质好的可与CD媲美,压缩率较高的可用于网络广播。
虽然现在网络上还不是很流行,但是在微软的大规模推广下已经是得到了越来越多站点的承认和大力支持,在网络音乐领域中直逼*.mp3,在网络广播方面,也正在瓜分Real打下的天下。
因此,几乎所有的音频格式都感受到了WMA格式的压力。
RealAudio:
流动旋律
RealAudio主要适用于在网络上的在线音乐欣赏,现在大多数的用户仍然在使用56Kbps或更低速率的Modem,所以典型的回放并非最好的音质。
有的下载站点会提示你根据你的Modem速率选择最佳的Real文件。
现在real的的文件格式主要有这么几种:
有RA(RealAudio)、RM(RealMedia,RealAudioG2)、RMX(RealAudioSecured),还有更多。
这些格式的特点是可以随网络带宽的不同而改变声音的质量,在保证大多数人听到流畅声音的前提下,令带宽较富裕的听众获得较好的音质。
近来随着网络带宽的普遍改善,Real公司正推出用于网络广播的、达到CD音质的格式。
如果你的RealPlayer软件不能处理这种格式,它就会提醒你下载一个免费的升级包。
许多音乐网站如提供了歌曲的Real格式的试听版本。
现在最新的版本是RealPlayer9.0。
VQF:
无人问津
雅马哈公司另一种格式是*.vqf,它的核心是减少数据流量但保持音质的方法来达到更高的压缩比,可以说技术上也是很先进的,但是由于宣传不力,这种格式难有用武之地。
*.vqf可以用雅马哈的播放器播放。
同时雅马哈也提供从*.wav文件转换到*.vqf文件的软件。
此文件缺少特点外加缺乏宣传,现在几乎已经宣布死刑了。
OGG:
新生代音频格式
ogg格式完全开源,完全免费,和mp3不相上下的新格式。
前途无量
时下的MP3支持格式最常见的是MP3和WMA。
MP3由于是有损压缩,因此讲求采样率,一般是44.1KHZ。
另外,还有比特率,即数据流,一般为8---320KBPS。
在MP3编码时,还看看它是否支持可变比特率(VBR),现在出的MP3机大部分都支持,这样可以减小有效文件的体积。
WMA则是微软力推的一种音频格式,相对来说要比MP3体积更小。
经典的WAVE
WAVE文件作为最经典的Windows多媒体音频格式,应用非常广泛,它使用三个参数来表示声音:
采样位数、采样频率和声道数。
声道有单声道和立体声之分,采样频率一般有11025Hz(11kHz)、22050Hz(22kHz)和44100Hz(44kHz)三种。
WAVE文件所占容量=(采样频率×采样位数×声道)×时间/8(1字节=8bit)。
传统的MOD
MOD是一种类似波表的音乐格式,但它的结构却类似MIDI,使用真实采样,体积很小,在以前的DOS年代,MOD经常被作为游戏的背景音乐。
现在的MOD可以包含很多音轨,而且格式众多,如S3M、NST、669、MTM、XM、IT、XT和RT等。
电脑音乐MIDI
MIDI是MusicalInstrumentDataInterface的简称,它采用数字方式对乐器所奏出来的声音进行记录(每个音符记录为一个数字),然后,播放时再对这些记录通过FM或波表合成:
FM合成是通过多个频率的声音混合来模拟乐器的声音;波表合成是将乐器的声音样本存储在声卡波形表中,播放时从波形表中取出产生声音。
龙头老大MP3
MP3可谓是大名鼎鼎,它采用MPEGAudioLayer3技术,将声音用1∶10甚至1∶12的压缩率压缩,采样率为44kHz、比特率为112kbit/s。
MP3音乐是以数字方式储存的音乐,如果要播放,就必须有相应的数字解码播放系统,一般通过专门的软件进行MP3数字音乐的解码,再还原成波形声音信号播放输出,这种软件就称为MP3播放器,如Winamp等。
网上霸主RA系列
RA、RAM和RM都是Real公司成熟的网络音频格式,采用了“音频流”技术,所以非常适合网络广播。
在制作时可以加入版权、演唱者、制作者、Mail和歌曲的Title等信息。
RA可以称为互联网上多媒体传播的霸主,适合于网络上进行实时播放,是目前在线收听网络音乐最好的一种格式。
高压缩比的VQF
VQF即TwinVQ是由NipponTelegraphandTelephone同YAMAHA公司开发的一种音频压缩技术。
VQF的音频压缩率比标准的MPEG音频压缩率高出近一倍,可以达到1∶18左右甚至更高。
而像MP3、RA这些广为流行的压缩格式一般只有1∶12左右。
但仍然不会影响音质,当VQF以44kHz-80kbit/s的音频采样率压缩音乐时,它的音质会优于44kHz-128kbit/s的MP3,以44kHz-96kbit/s压缩时,音乐接近44kHz-256kbit/s的MP3。
迷你光盘MD
MD(即MiniDisc)是SONY公司于1992年推出的一种完整的便携音乐格式,它所采用的压缩算法就是ATRAC技术(压缩比是1∶5)。
MD又分为可录型MD(Recordable,有磁头和激光头两个头)和单放型MD(Pre-recorded,只有激光头)。
强大的编辑功能是MD的强项,可以快速选曲、曲目移动、合并、分割、删除和曲名编辑等多项功能,比CD更具个性化,随时可以拥有一张属于自己的MD专辑。
MD的产品包括MD随身听、MD床头音响、MD汽车音响、MD录音卡座、MD摄像枪和MD驱动器等。
音乐CD
即CD唱片,一张CD可以播放74分钟左右的声音文件,Windows系统中自带了一个CD播放机,另外多数声卡所附带的软件都提供了CD播放功能,甚至有一些光驱脱离电脑,只要接通电源就可以作为一个独立的CD播放机使用。
潜力无限的WMA
微软在开发自己的网络多媒体服务平台上主推ASF(AudioSteamingformat),这是一个开放支持在各种各样的网络和协议上的数据传输的标准。
它支持音频、视频以及其他一系列的多媒体类型。
而WMA是WindowsMediaAudio的缩写,相当于只包含音频的ASF文件。
WMA文件在80kbps、44kHz的模式下压缩比可达1∶18,基本上和VQF相同。
而且压缩速度比MP3提高一倍。
所以它应该比VQF更具有竞争力。
免费音乐格式Vorbis
为了防止MP3音乐公司收取的专利费用上升,GMGI的iCast公司的程序员开发了一种新的免费音乐格式Vorbis,其音质可以与MP3相媲美,甚至优于MP3。
并且将通过网络发布,可以免费自由下载,不必担心会涉及侵权问题。
但MP3在网上已经非常流行,微软的WindowsMedia技术也开始普及,Vorbis的前景还是不容乐观。
其它音频格式
AIF/AIFF:
苹果公司开发的一种声音文件格式,支持MAC平台,支持16位44.1kHz立体声。
AU:
SUN的AU压缩声音文件格式,只支持8位的声音,,是互连网上常用到的声音文件格式,多由SUN工作站创建。
CDA:
CD音轨文件。
CMF:
CREATIVE公司开发的一种类似MIDI的声音文件。
DSP:
DigitalSignalProcessing(数字信号处理)的简称。
通过提高信号处理方法,音质会极大地改善,歌曲会更悦耳动听。
S3U:
MP3播放文件列表
RMI:
MIDI乐器序列
有损压缩:
AAC:
在高比特率下音质仅次于MPC,在高比特率和低比特率下表象都很不错。
就是编码速度太慢!
MPC:
低比特率下表现一般,不及Mp3Pro编码的MP3和OGG,高比特率下音质最好,编码速度快!
OGG:
低比特率下音质最好,高比特率同样也不错。
编码速度稍慢。
MP3(MP3Pro):
在低比特率下音质次于OGG,其他方面同MP3
WMA:
高低比特率下都一般,不支持VBR,最高192Kbit/s
无损压缩:
FLAC:
压缩率在四个中最差,编码速度不错,平台支持很好。
PAC:
稍慢的编码速度,压缩率排第三,平台支持良好。
APE:
编码速度最快、最好的压缩率,平台支持一般。
WV:
编码速度非常快,压缩率在四个种排第二,仅支持Windows平台
数字图像文件存储方式:
(1)位映射图像。
以点阵形式存取文件,读取时候按点排列顺序读取数据。
(2)光栅图像。
也是以点阵形式存取文件,但读取时候以行为单位进行读取。
(3)矢量图像。
用数学方法来描述图像。
MacPaint格式,也称PNTG格式:
Apple系列上通用的图像格式,Macitosh的屏幕是以白色为底,而PC的屏幕是以黑色为底,所以在MAC和在PC上读取MacPaint格式的图像数据要互为反相。
PNTG文件图像的宽和高固定为576*720象素。
PNTG图像由三部分构成:
MacBinaryHeader、图案数据和压缩后的图像数据。
在PC上,MacBinaryHeader和图案数据没有任何用处,所以可以直接读取图像数据。
BMP格式:
Windows采用的图像存储格式,由四部分组成:
位图文件头、位图信息头、调色板和位图数据。
位图文件头定义了位图的类型、文件大小等,位图信息头定义位图的高、宽、色彩位数、是否压缩、分辨率等信息。
调色板是一个4B的结构数组,前三个Byte分别定义了Blue、Green和Red三个颜色的值,最后一个Byte保留。
BMP每个象素点颜色组成的顺序是BGR,与其他格式的RGB不同,因此进行格式转换的时候需要变换字节顺序。
调色板并不是位图文件所必须的,当位图为单色、16色或者256色的时候,位图数据存储的并不是真实的象素颜色值,而是该颜色在调色板的一个索引值。
而对于24位或者32位真彩色的BMP,其图像数据存储的就是每个象素点对应的BGR值,所以不需要调色板。
位图数据里面,单色、16色和256色存储的是调色板的颜色索引,所以单色位图用1位就能表示该象素的颜色,所以1个B可以存储8个象素。
16色位图,需要4位表示一个象素的颜色,所以1B表示2个象素。
256色位图,1B刚好表示一个象素。
真彩色位图,需要一个B表示Blue,一个B表示Green,一个B表示Red,因此需要三个字节才能表示一个象素。
对于BMP图像,宽度必须是4的倍数,如果不足需要补齐。
图像数据是从下到上,从左到右,即第一个数据是左下角第一个象素,第二个是左下角第二个象素……因此用BMP进行格式转换的时候,需要对象素点进行倒置。
GIF图像格式:
CompuSrve公司版权的一种网络图像格式,目前有两个版本:
GIF87a和GIF89a。
GIF能够存储多幅图像,调色板数据包括全局调色板和局部调色板,采用LWZ压缩算法,每个调色板只能存储256色,因此图像数据一个B表示一个象素的颜色,以光栅的方式显示图像数据。
GIF图像以数据块为单位存储图像的相关信息,一个GIF文件由表示图形的数据快、数据字块一级显示图形的控制信息块组成。
控制块包括逻辑屏幕描述块、全局彩色表等。
逻辑屏幕块定义了图片的高度和宽度,图片文件内部任意一张图片的高宽均不能超过这个值。
GIF文件可以由多张彩色图像构成,所以文件有全局彩色表,每张图片也有局部彩色表,如果图片有局部彩色表,则有局部彩色表显示,如果没有,则调用全局彩色表。
每幅图像由图像描述块、局部彩色表和图像数据组成,图像描述块定义图像相对图片逻辑屏幕的位置和高宽,还定义了两种存放方式:
按图像行连续顺序存储和交叉方式存储。
交叉显示的方法错开图像行的显示,使得图像打开的时候无须将图片全部解压缩就可以看到图像的概貌。
此外还有图形控制扩展块、无格式文本扩展块和注释扩展块等。
图形扩展块有个延迟时间,定义了一幅图片的等待时间,GIF就是通过图片等待一个延迟时间后换成另外一幅图片的方式实现动画播放。
此外还可以定义是否保留上一幅图片、是否恢复背景图片等。
1.BMP:
Windows系统下的标准位图格式,使用很普遍。
其结构简单,未经过压缩,一般图像文件会比较大。
它最大的好处就是能被大多数软件“接受”,可称为通用格式。
2.JPEG:
也是应用最广泛的图片格式之一,它采用一种特殊的有损压缩算法,将不易被人眼察觉的图像颜色删除,从而达到较大的压缩比(可达到2:
1甚至40:
1),所以“身材娇小,容貌姣好”,特别受网络青睐。
3.GIF:
分为静态GIF和动画GIF两种,支持透明背景图像,适用于多种操作系统,“体型”很小,网上很多小动画都是GIF格式。
其实GIF是将多幅图像保存为一个图像文件,从而形成动画,所以归根到底GIF仍然是图片文件格式。
4.PSD:
图像处理软件“大哥大”Photoshop的专用图像格式,图像文件一般较大。
5.PCX:
ZSOFT公司在开发图像处理软件Paintbrush时开发的一种格式,存储格式从1位到24位。
它是经过压缩的格式,占用磁盘空间较少,并具有压缩及全彩色的优点。
6.PNG:
(PortableNetworkGraphics可移植的网络图形)与JPG格式类似,网页中有很多图片都是这种格式,压缩比高于GIF,支持图像透明,可以利用Alpha通道调节图像的透明度。
7.DXF:
三维模型设计软件AutoCAD的专用格式,文件小,所绘制的图形尺寸、角度等数据十分准确,是建筑设计的首选。
8.CDR:
著名的图形设计软件——CorelDRAW的专用格式,属于矢量图像,最大的优点“体重”很轻,便于再处理。
视频文件格式分类
视频文件格式分类
广义的视频文件细分起来,又可以分两类,即动画文件和影像文件:
动画文件指由相互关联的若干帧静止图像所组成的图像序列,这些静止图像连续播放便形成一组动画,通常用来完成简单的动态过程演示;影像文件,主要指那些包含了实时的音频、视频信息的多媒体文件,其多媒体信息通常来源于视频输入设备,由于同时包含了大量的音频、视频信息,影像文件往往相当庞大,动辄几MB甚至几