音视频编码技术与格式大全.docx

上传人:b****5 文档编号:5848424 上传时间:2023-01-01 格式:DOCX 页数:12 大小:33.24KB
下载 相关 举报
音视频编码技术与格式大全.docx_第1页
第1页 / 共12页
音视频编码技术与格式大全.docx_第2页
第2页 / 共12页
音视频编码技术与格式大全.docx_第3页
第3页 / 共12页
音视频编码技术与格式大全.docx_第4页
第4页 / 共12页
音视频编码技术与格式大全.docx_第5页
第5页 / 共12页
点击查看更多>>
下载资源
资源描述

音视频编码技术与格式大全.docx

《音视频编码技术与格式大全.docx》由会员分享,可在线阅读,更多相关《音视频编码技术与格式大全.docx(12页珍藏版)》请在冰豆网上搜索。

音视频编码技术与格式大全.docx

音视频编码技术与格式大全

音视频编码技术与格式大全

一、常见视频格式中采用的技术

当PC开始拥有FPU(浮点处理器)后,PC如何处理多媒体信息的问题也被摆上台面。

无数专家开始为音频视频编码技术运用在PC上开始忙碌了,视频技术也因此得到了飞快的进步。

1、无声时代的FLC

FLC、FLI是Autodesk开发的一种视频格式,仅仅支持256色,但支持色彩抖动技术,因此在很多情况下很真彩视频区别不是很大,不支持音频信号,现在看来这种格式已经毫无用处,但在没有真彩显卡没有声卡的DOS时代确实是最好的也是唯一的选择。

最重要的是,Autodesk的全系列的动画制作软件都提供了对这种格式的支持,包括著名的3DStudioX,因此这种格式代表了一个时代的视频编码水平。

直到今日,仍旧有不少视频编辑软件可以读取和生成这种格式。

但毕竟廉颇老矣,这种格式已经被无情的淘汰。

2、载歌载舞的AVI

AVI——AudioVideoInterleave,即音频视频交叉存取格式。

1992年初Microsoft公司推出了AVI技术及其应用软件VFW(VideoforWindows)。

在AVI文件中,运动图像和伴音数据是以交织的方式存储,并独立于硬件设备。

这种按交替方式组织音频和视像数据的方式可使得读取视频数据流时能更有效地从存储媒介得到连续的信息。

构成一个AVI文件的主要参数包括视像参数、伴音参数和压缩参数等。

AVI文件用的是AVIRIFF形式,AVIRIFF形式由字串“AVI”标识。

所有的AVI文件都包括两个必须的LIST块。

这些块定义了流和数据流的格式。

AVI文件可能还包括一个索引块。

只要遵循这个标准,任何视频编码方案都可以使用在AVI文件中。

这意味着AVI有着非常好的扩充性。

这个规范由于是由微软制定,因此微软全系列的软件包括编程工具VB、VC都提供了最直接的支持,因此更加奠定了AVI在PC上的视频霸主地位。

由于AVI本身的开放性,获得了众多编码技术研发商的支持,不同的编码使得AVI不断被完善,现在几乎所有运行在PC上的通用视频编辑系统,都是以支持AVI为主的。

AVI的出现宣告了PC上哑片时代的结束,不断完善的AVI格式代表了多媒体在PC上的兴起。

说到AVI就不能不提起英特尔公司的Indeovideo系列编码,Indeo编码技术是一款用于PC视频的高性能的、纯软件的视频压缩/解压解决方案。

Indeo音频软件能提供高质量的压缩音频,可用于互联网、企业内部网和多媒体应用方案等。

它既能进行音乐压缩也能进行声音压缩,压缩比可达8:

1而没有明显的质量损失。

Indeo技术能帮助您构建内容更丰富的多媒体网站。

目前被广泛用于动态效果演示、游戏过场动画、非线性素材保存等用途,是目前使用最广泛的一种AVI编码技术。

现在Indeo编码技术及其相关软件产品已经被LigosTechnology公司收购。

随着MPEG的崛起,Indeo面临着极大的挑战。

3、容量与质量兼顾的MPEG系列编码

  

和AVI相反,MPEG不是简单的一种文件格式,而是编码方案。

  MPEG-1(标准代号ISO/IEC11172)制定于1991年底,处理的是标准图像交换格式(standardinterchangeformat,SIF)或者称为源输入格式(SourceInputFormat,SIF)的多媒体流。

是针对1.5Mbps以下数据传输率的数字存储媒质运动图像及其伴音编码(MPEG-1Audio,标准代号ISO/IEC11172-3)的国际标准,伴音标准后来衍生为今天的MP3编码方案。

MPEG-1规范了PAL制(352*288,25帧/S)和NTSC制(为352*240,30帧/S)模式下的流量标准,提供了相当于家用录象系统(VHS)的影音质量,此时视频数据传输率被压缩至1.15Mbps,其视频压缩率为26∶1。

使用MPEG-1的压缩算法,可以把一部120分钟长的多媒体流压缩到1.2GB左右大小。

常见的VCD就是MPEG-1编码创造的杰作。

MPEG-1编码也不一定要按PAL/NTSC规范的标准运行,你可以自由设定影像尺寸和音视频流量。

随着光头拾取精度的提高,有人把光盘的信息密度加大,并适度降低音频流流量,于是出现了只要一张光盘就存放一部电影的DVCD。

DVCD碟其实是一种没有行业标准,没有国家标准,更谈不上是国际标准的音像产品。

当VCD开始向市场普及时,电脑正好进入了486时代,当年不少朋友都梦想拥有一块硬解压卡,来实现在PC上看VCD的夙愿,今天回过头来看看,觉得真有点不可思议,但当时的现状就是486的系统不借助硬解压是无法流畅播放VCD的,上万元的486系统都无法流畅播放的MPEG-1被打上了贵族的标志。

随着奔腾的发布,PC开始奔腾起来,直到后来WindowsMediaPlayer也直接提供了MPEG-1的支持,至此MPEG-1使用在PC上已经完全无障碍了。

MPEG-2(标准代号IOS/IEC13818)于1994年发布国际标准草案(DIS),在视频编码算法上基本和MPEG-1相同,只是有了一些小小的改良,例如增加隔行扫描电视的编码。

MPEG-2它追求的是大流量下的更高质量的运动图象及其伴音效果。

MPEG-2的视频质量看齐PAL或NTSC的广播级质量,事实上MPEG-1也可以做到相似效果,MPEG-2更多的改进来自音频部分的编码。

目前最常见的MPEG-2相关产品就是DVD了,SVCD也是采用的MPEG-2的编码。

MPEG-2还有一个更重要的用处,就是让传统的电视机和电视广播系统往数码的方向发展。

MPEG-3最初为HDTV制定,由于MPEG-2的快速发展,MPEG-3还未彻底完成便宣告淘汰。

MPEG-4于1998年公布,和MPEG-2所针对的不同,MPEG-4追求的不是高品质而是高压缩率以及适用于网络的交互能力。

MPEG-4提供了非常惊人的压缩率,如果以VCD画质为标准,MPEG-4可以把120分钟的多媒体流压缩至300M。

MPEG-4标准主要应用于视像电话(VideoPhone),视像电子邮件(VideoEmail)和电子新闻(ElectronicNews)等,其传输速率要求较低,在4800-64000bits/sec之间,分辨率为176X144。

MPEG-4利用很窄的带宽,通过帧重建技术,压缩和传输数据,以求以最少的数据获得最佳的图象质量。

  MJPEG,这并不是专门为PC准备的,而是为专业级甚至广播级的视频采集与在设备端回放的准备的,所以MJPEG包含了为传统模拟电视优化的隔行扫描电视的算法,如果在PC上播放MJPEG编码的文件,效果会很难看(如果你的显卡不支持MJPEG的动态补偿),但一旦输出到电视机端,你立刻会发现这种算法的好处。

  4、属于网络的流媒体

  

RealNetworksRealVideo,采用的是RealNetworks公司自己开发的RealG2Codec,它具有很多先进的设计,例如,SVT(ScalableVideoTechnology);双向编码(Two—Encoding,类似于VBR)。

RealMedia音频部分采用的是RealAudio,可以接纳很多音频编码方案,可实现声音在单声道、立体声音乐不同速率下的压缩。

最新的RealAudio竟然采用ATRAC3编码方案,以挑战日益成熟的MP3。

  WindowsMedia,视频编码采用的是非常先进的MPEG-4视频压缩技术,被称作MicrosoftMPEG-4VideoCodec,音频编码采用的是微软自行开发的一种编码方案,目前没有公布技术资料,在低流量下提供了令人满意的音质和画质。

最新的WindowsMediaEncodingUtilityV8.0将流技术推向到一个新的高度,我们常见的ASF、WMV、WMA就是微软的流媒体文件。

事实上我们常见的MPG文件,也具有流媒体的最大特征——边读边放。

二、常见的编码与常见的文件格式的对应关系及其常用用途

1、AudodeskFLC

这是一种古老的编码方案,常见的文件后缀为FLC和FLI。

由于FLC仅仅支持256色的调色板,因此它会在编码过程中尽量使用抖动算法(也可以设置不抖动),以模拟真彩的效果。

这种算法在色彩值差距不是很大的情况下几乎可以达到乱真的地步,例如红色A(R:

255,G:

0,B:

0)到红色B(R:

255,G:

128,B:

0)之间的抖动。

这种格式现在已经很少被采用了,但当年很多这种格式被保留下来,这种格式在保存标准256色调色板或者自定义256色调色板是无损的,这种格式可以清晰到像素,非常适合保存线框动画,例如CAD模型演示。

现在这种格式很少见了。

2、MicrosoftRLE

这是微软开发为AVI格式开发的一种编码,文件扩展名为AVI,使用了RLE压缩算法,这是一种无损的压缩算法,我们常见的tga格式的图像文件就使用了RLE算法。

什么是RLE算法呢?

这是一种很简单的算法,举一个很简单的例子:

假设一个图像的像素色彩值是这样排列的:

红红红红红红红红红红红红蓝蓝蓝蓝蓝蓝绿绿绿绿,经过RLE压缩后就成为了:

红12蓝6绿4。

这样既保证了压缩的可行性,而且不会有损失。

而且可以看到,但颜色数越少时,压缩效率会更高。

由于MicrosoftRLE仅仅支持256色,而且没有抖动算法,在色彩处理方面,FLC明显的比MicrosoftRLE要好很多。

当然这也不表示MicrosoftRLE一无是处,和FLC一样,MicrosoftRLE在处理相邻像素时也没有色染,可以清晰的表现网格。

因此同样可以优秀的表现单色字体和线条。

只要色彩不是很复杂,FLC能做的,MicrosoftRLE也可以做到。

由于AVI可以拥有一个音频流,而且Windows系统给与了直接的支持,MicrosoftRLE最常用的用途是,在256色显示模式下,通过配合抓屏生成AVI的工具制作一个软件的操作演示过程,以达到图文并茂,形声兼备的效果。

3、MicrosoftVideo1

这也是由微软提供的一个AVI编码,任何Windows系统都自带了了它的Codec,这个编码支持真彩,画面质量很不错,MicrosoftVideo1的压缩效率非常低下,编码后的文件庞大得让人受不了。

这个MicrosoftVideo1究竟有什么用呢?

一般被用在保存一些没有渐变的小型视频素材方面。

4、IndeovideoR3.2

这个编码由intel架构实验室开发,对应的文件格式是AVI,相对之前的流行的编码,IndeovideoR3.2最大的特点就是高压缩比(当然,比起现在的压缩方案,实在是不值得一提),intel声称压缩比可达8:

1而没有明显的质量损失,解码速度也非常快,对系统要求不高,由于Windows9X中自带IndeovideoR3.2的Codec,所以IndeovideoR3.2一度成为了最流行的AVI编码方案。

有不少游戏的过场动画和启动动画都是IndeovideoR3.2编码的。

IndeovideoR3.2同样不适合高要求的环境,在要表现细线条或大色彩值变化的渐变时,IndeovideoR3.2会表现得非常糟糕。

如果画面的色彩值差异不是很大,也没有明显的色彩区域界限,IndeovideoR3.2还是合适的,例如海天一色的场景。

IndeovideoR3.2已经基本被淘汰,如果不是为了播放以前遗留的一些IndeovideoR3.2编码视频,恐怕WindowsME/2000都不会有IndeovideoR3.2的Codec了。

5、Indeovideo5.10

这个编码方案同样也是intel架构实验室开发的,它继承了IndeovideoR3.2的优点,对应的文件格式仍然是AVI,解码速度同样非常快。

WindowsME/2000自带了Indeovideo5.1的Codec,很多游戏也适用Indeovideo5.10来编码自己的演示动画。

在没有DivX普及前,这几乎是最流行的AVI编码了,由于微软和intel的同时支持,这种编码方案被广泛采用。

6、None

顾名思义,这是一个没有损失的视频编码方案,对应的文件扩展名为AVI。

这种编码几乎是不压缩的,文件大得惊人!

那么这种编码有什么用途呢?

用途就是保存视频素材,因为是无损的,保存素材非常合适,代价就是大量的存储空间。

7、MPEG1

我们熟知的VCD就是MPEG1编码的,对应的文件扩展名为MPG、MPEG或者DAT。

事实上MPEG1可以工作于非PAL制和非NTSC制标准下。

它可以自由设置数据流量和画面尺寸,只是这样非标准的文件无法直接刻录成VCD。

8、MPEG2

DVD的视频部分就是采用的MPEG2,SVCD同样也采用了MPEG2编码。

对应的文件扩展名一般为VOB、MPG。

MPEG2的设计目标就是提供接近广播级的高品质输出。

9、DivX

DivX是近2年开始被大家认识的,DivX视频编码技术可以说是一种对DVD造成威胁的新生视频压缩格式(有人说它是DVD杀手)对应的文件扩展名为AVI或者DivX,它由Microsoftmpeg-4v3修改而来,使用MPEG-4压缩算法。

据说是美国禁止出口的编码技术。

DivX最大的特点就是高压缩比和不错的画质,更可贵的是,DivX的对系统要求也不高,只要主频300的CPU就基本可以很流畅的播放了,因此从DivX诞生起,立刻吸引了大家的注意力。

DivX拥有比Indeovideo5.10高太多的压缩效率,编码质量也远远比Indeovideo5.10好,我实在想不出Indeovideo5.10还会有什么前途。

10、PICVideoMJPEG

MJPEG是很多视频卡支持的一种视频编码,随卡提供了Codec,安装完成后可以象使用其它编码一样生成AVI文件。

MJPEG编码常用于非线性系统,批上了一层很专业的外衣。

MJPEG的编码质量是相当高的,是一种以质量为最高要求的编码,这种编码的设置比较复杂,可以得到很高的压缩比,但牺牲了解码速度,如果要保证解码速度,编码后的压缩比确不是很理想,如果您希望从专业的非线性系统上捕捉视频,然后自行进行处理,这种格式是很有必要去了解一些的。

11、RealNetworksRealVideo

REALVIDEO(RA、RAM)格式由RealNetworks公司开发的,一开始就定位在视频流应用方面的,也可以说是视频流技术的始创者。

它可以在用56KMODEM拨号上网的条件实现不间断的视频播放。

从RealVideo的定位来看,就是牺牲画面质量来换取可连续观看性。

其实RealVideo也可以实现不错的画面质量,由于RealVideo可以拥有非常高的压缩效率,很多人把VCD编码成RealVideo格式的,这样一来,一张光盘上可以存放好几部电影。

REALVIDEO存在颜色还原不准确的问题,RealVideo就不太适合专业的场合,但RealVideo出色的压缩效率和支持流式播放的特征,使得RealVideo在网络和娱乐场合占有不错的市场份额。

12、WindowsMediavideo

WindowsMediavideo就是微软为了和现在的RealNetworks的RealVideo竞争而发展出来的一种可以直接在网上观看视频节目的文件压缩格式!

由于它使用了MPEG4的压缩算法,所以压缩率和图像的质量都很不错。

我们经常看到的ASF和WMV就是WindowsMediavideo。

WindowsMediavideo的编码质量明显好于RealVideo,因为WindowsMediavideo是微软的杰作,所以Windows系统给WindowsMediavideo给与了很好的支持,WindowsMediaPlayer可以直接播放这些文件。

13、中国AVS编码标准简介如下:

2002年,国家信息产业部科学技术司批准成立数字音视频编解码技术标准工作组,制定具有自主知识产权的AVS系列信源编码标准,AVS标准为《信息技术先进音视频编码》系列标准的简称,它包括了系统、视频、音频、版权管理、文件格式、网络传输等从视频压缩技术到系统规范的一整套标准,AVS标准的制定和推广对减轻国内的音视频相关产业的专利费负担以及提升核心竞争力具有极其重要的意义。

与MPEG-4AVC/H.264的baselineprofile相比,AVS视频增加了B帧interlace等技术,因此其压缩效率明显提高,而与MPEG-4AVC/H.264的mainprofile相比,又减少了CABAC等实现难度大的技术,从而增强了可实现性。

基于AVS标准的上述优点,本文选择对该标准进行研究。

AVS视频当中具有特征性的核心技术包括:

8×8整数变换、量化、帧内预测、四分之一精度像素插值、特殊的帧间预测运动补偿、以及熵编码、去块效应环内滤波等。

  

●帧间预测算法研究

  

AVS标准采用了16×16、16×8、8×16和8×8的块模式进行运动补偿,较少的块模式(相比于MPEG-4AVC/H.264),能降低运动矢量和块模式编码传输的开销,从而提高压缩效率、降低编解码实现的复杂度。

而AVS采用不同的4抽头滤波器进行半像素插值和四分之一像素插值,在不降低性能的情况下减少了插值所需要的参考像素点,降低了数据存取带宽需求。

AVS中的P帧预测可以利用至多2帧的前向参考帧,而B帧采用前后各1个参考帧,P帧与B帧(包括后向参考帧)的参考帧数相同,其参考帧存储空间与数据存取的开销均不多于传统视频编码。

另外,AVS中B帧的双向预测的多种模式的设定,也有效的节省了运动矢量的编码开销。

视觉特性表明,人眼对活动图像中的静止部分和运动部分有着不同的分辨率要求,即对静止部分有较高的空间分辨力和较低的时间分辨力,而对运动部分有着较低的空间分辨力和较高的时间分辨力。

因此可以将图像分割成静止部分和运动部分分别进行处理。

对于静止部分可以重复上一帧的数据,对于运动部分则需设法测定其位移量,以位移量来预测其运动,并将运动信息发送给接收端,以压缩运动部分的数据量,构成完整的图像,称为图像帧间编码中的运动补偿预测。

运动补偿的方法是跟踪画面内的运动情况对其加以预测以后再加以补偿。

这项技术的关键是运动矢量计算。

通常的方法是采用块匹配法。

运动估计和补偿是活动图像编码和计算机视觉领域的一项关键技术。

能够对视频序列进行帧间编码主要有两个方面的依据:

首先,从信源的角度看,自然景物大多处于相对不变或缓变状态,且其运动状态必然是连续的,这是帧间相关性存在的前提条件。

其次,在用摄像机摄取图像时,根据不同场合的需要有不同的取景方式,这样帧间相关性表现的形式也不相同。

目前视频编码中考虑的主要是一些简单形式。

帧间预测考虑的典型情况是头肩序列,例如可视电话图像,图像的内容通常是在一个细节不十分复杂的背景前,一个活动量不大的单人图像。

假定人的位置在第K帧与第K-1帧相比有一定的位移,可以将画面分成3个各具特点的区域:

1.背景区:

这部分图像一般是静止的,前后两帧的绝大部分数据相同,有着极强的相关性,且只是对人物起陪衬作用。

2.运动物体区:

如将物体看作简单的平面位移,则第K帧和第K-1帧的该部分数据也是几乎相同的,只是位置发生了改变,相关性还是极强的。

这部分数据需要运动估计和运动补偿。

3.暴露区:

这是指运动后所暴露出来的原来被物体盖住的区域。

如果有存储器将这些暴露区的数据暂时存储,则再次经遮盖再暴露出来的数据与原来存储的数据也是相同的,还是有强相关性。

虽然以上三类区域的相关性是比较理想的划分结果,实际中并无如此严格的划分,但是它们为帧间编码算法提供了重要依据。

如果存在场景切换则谈不上帧间相关性。

●结论

  

研究表明,人类视觉对图像中的静止部分有较高的分辨率,必须给予充分的空间(spatial)分辨率,即在传输静止图像或序列图像的静止部分时,要保证较高的水平和垂直分辨率;但与此同时,却可以减少传输帧数,在接收端,依靠帧存储器把未传输的帧补充出来,而按照一定周期传输的数据对帧存储器刷新。

因此对传输序列图像而言,可恰当降低时间(temporal)分辨率。

另一方面,人的视觉对于序列图像中的运动物体的空间分辨率将随着物体的运动速度的增加而显著降低,摄像器材的灵敏度也会造成运动部分的灵敏度下降。

此外,电视监视器的显示器件也有一定的积分模糊效应。

这样在传输序列图像中的运动物体时,可以降低这部分图像的清晰度,且这部分图像的运动速度愈高,就可以用更低的图像清晰度进行传输。

“AVS标准已经具有了大规模应用商业化推广的条件。

”昨日,AVS产业联盟秘书长张伟民透露,在产业化过程中,我国自主研发的数字音视频编码标准AVS得到了中国网通和中国电信两大电信运营商的支持。

记者获悉,10月9日中国网通在大连对使用AVS标准的IPTV系统进行了验收,UT斯达康、中兴通讯、华为以及上海贝尔阿尔卡特四大设备厂商率先过关,试验结果则表明AVS与国际上的最新标准已处于同一档次。

张伟民表示,在大连实验的基础之上,中国网通将继续推进AVS标准的商用,与此同时,中国电信也正在进行AVS标准的测试。

除了获得电信运营商的支持,AVS标准还在杭州得到了深层次的应用。

在试商用过程中,杭州地区基于AVS标准发射的电视节目内容已经有21套,并有望达到25套。

谈及AVS标准在其他领域的发展前景时,张伟民指出,手机电视的传输标准暂时处于扑朔迷离的阶段,而AVS将面临着洋标准H.264的竞争。

此外,由于不涉及到兼容、互联互通的问题,AVS在视频监控系统中也应该有很好的应用。

去年3月1日,国家标准委颁布实施AVS音视频编码国家标准,这项自主创新的成果最大的效益是把数字电视产业的专利使用费从2.5美元降到了1元人民币。

三、有关音频编码

自然界中的声音非常复杂,波形极其复杂,通常我们采用的是脉冲代码调制编码,即PCM编码。

PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。

1、什么是采样率和采样大小(位/bit)?

声音其实是一种能量波,因此也有频率和振幅的特征,频率对应于时间轴线,振幅对应于电平轴线。

波是无限光滑的,弦线可以看成由无数点组成,由于存储空间是相对有限的,数字编码过程中,必须对弦线的点进行采样。

采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k次采样,用40kHz表达,这个40kHz就是采样率。

我们常见的CD,采样率为44.1kHz。

光有频率信息是不够的,我们还必须获得该频率的能量值并量化,用于表示信号强度。

量化电平数为2的整数次幂,我们常见的CD位16bit的采样大小,即2的16次方。

采样大小相对采样率更难理解,因为要显得抽象点,举个简单例子:

假设对一个波进行8次采样,采样点分别对应的能量值分别为A1-A8,但我们只使用2bit的采样大小,结果我们只能保留A1-A8中4个点的值而舍弃另外4个。

如果我们进行3bit的采样大小,则刚好记录下8个点的所有信息。

采样率和采样大小的值越大,记录的波形更接近原始信号。

2、有损和无损

根据采样率和采样大小可以得知,相对自然界的信号,音频编码最多只能做到无限接近,至少目前的技术只能这样了,相对自然界的信号,任何数字音频编码方案都是有损的,因为无法完全还原。

在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。

因此,PCM约定俗成了无损编码,因为PCM代表

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 外语学习 > 英语学习

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1