视频编解码器.docx

上传人:b****6 文档编号:5891141 上传时间:2023-01-01 格式:DOCX 页数:11 大小:141.37KB
下载 相关 举报
视频编解码器.docx_第1页
第1页 / 共11页
视频编解码器.docx_第2页
第2页 / 共11页
视频编解码器.docx_第3页
第3页 / 共11页
视频编解码器.docx_第4页
第4页 / 共11页
视频编解码器.docx_第5页
第5页 / 共11页
点击查看更多>>
下载资源
资源描述

视频编解码器.docx

《视频编解码器.docx》由会员分享,可在线阅读,更多相关《视频编解码器.docx(11页珍藏版)》请在冰豆网上搜索。

视频编解码器.docx

视频编解码器

视频编解码器,是指一个能够对数字视频进行压缩或者解压缩的程序或者设备。

通常这种压缩属于有损数据压缩。

历史上,视频信号是以模拟形式存储在磁带上的。

随着CompactDisc的出现并进入市场,音频信号以数字化方式进行存储,视频信号也开始使用数字化格式,一些相关技术也开始随之发展起来。

有损数据压缩,也有简称有损压缩。

即将次要的信息数据舍弃,牺牲一些质量来减少数据量,使压缩比提高。

一个复杂的平衡关系存在于以下因素之间:

视频的质量、用来表示视频所需要的数据量(通常称之为码率,kbps,千位每秒)、编码算法和解码算法的复杂度、针对数据丢失和错误的鲁棒性(Robustness)、编辑的方便性、随机访问、编码算法设计的完美性、端到端的延时以及其它一些因素。

鲁棒性,鲁棒性就是系统的健壮性。

它是在异常和危险情况下系统生存的关键。

比如说,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性。

所谓“鲁棒性”,是指控制系统在一定(结构,大小)的参数摄动下,维持某些性能的特性。

根据对性能的不同定义,可分为稳定鲁棒性和性能鲁棒性。

典型的数字视频编解码器的第一步是将从摄像机输入的视频从RGB色度空间转换到YCbCr色度空间,而且通常还伴有色度抽样来生成4:

2:

0格式的视频(有时候在隔行扫描的情况下会采用4:

2:

2的抽样方式)。

转换到YCbCr色度空间会带来两点好处:

1)这样做部分的解除了色度信号中的相关性,提高了可压缩能力。

2)这样做将亮度信号分离出来,而亮度信号对视觉感觉是最重要的,相对来说色度信号对视觉感觉就不是那么重要,可以抽样到较低的分辨率(4:

2:

0或者4:

2:

2)而不影响人观看的感觉。

输入的视频图像通常被分区为宏块分别进行编码,宏块的大小通常是16x16的亮度块信息和对应的色度块信息。

然后使用分块的运动补偿从已编码的帧对当前帧的数据进行预测。

之后,使用块变换或者子带分解来减少空域的统计相关性。

最常见的变换是8x8的离散余弦变换(DCTfordiscretecosinetransform)。

变换的输出系数接下来被量化,量化后的系数进行熵编码并成为输出码流的一部分。

实际上在使用DCT变换的时候,量化后的二维的系数通常使用Zig-zag扫描将系数表示为一维的,再通过对连续0系数的个数和非0系数的大小(Level)进行编码得到一个符号,通常也有特殊的符号来表示后面剩余的所有系数全部等于0。

这时候的熵编码通常使用变长编码。

运动补偿是一种描述相邻帧(相邻在这里表示在编码关系上相邻,在播放顺序上两帧未必相邻)差别的方法,具体来说是描述前面一帧(相邻在这里表示在编码关系上的前面,在播放顺序上未必在当前帧前面)的每个小块怎样移动到当前帧中的某个位置去。

这种方法经常被视频压缩/视频编解码器用来减少视频序列中的空域冗余。

它也可以用来进行去交织(deinterlacing)的操作。

通常,图像帧是一组一组进行处理的。

每组的第一帧(通常是第一帧)在编码的时候不使用运动估计的办法,这种帧称为帧内编码帧(Intraframe)或者I帧。

该组中的其它帧使用帧间编码帧(Interframe),通常是P帧。

这种编码方式通常被称为IPPPP,表示编码的时候第一帧是I帧,其它帧是P帧。

在进行预测的时候,不仅仅可以从过去的帧来预测当前帧,还可以使用未来的帧来预测当前帧。

当然在编码的时候,未来的帧必须比当前帧更早的编码,也就是说,编码的顺序和播放的顺序是不同的。

通常这样的当前帧是使用过去和未来的I帧或者P帧同时进行预测,被称为双向预测帧,即B帧。

这种编码方式的编码顺序的一个例子为IBBPBBPBBPBB。

全局运动补偿,运动模型基本上就是反映摄像机的各种运动,包括平移,旋转,变焦等等。

这种模型特别适合对没有运动物体的静止场景的编码。

分块运动补偿,每帧被分为若干像素块(在大多数视频编码标准,如MPEG中,是分为16x16的像素块)。

从参考帧的某个位置的等大小的块对当前块进行预测,预测的过程中只有平移,平移的大小被称为运动矢量。

子带分解,子带编码,sub-bandcoding(SBC),一种以信号频谱为依据的波形编码方法,它首先用一组带通滤波器将输入信号按频谱分开,然后让每路子信号通过各自的自适应PCM编码器(ADPCM)编码,经过分接和解码再复合成原始信号。

优点是:

1、每个子带独立自适应,可按每个子带的能量调节量化阶;2、可根据各个子带对听觉的作用大小共设计最佳的比特数;3、量化噪声都限制在子带内某一频带的量化噪声串到另一频带中去。

PCM编码器,优先编码器,在数字系统中,特别是在计算机系统中,常常要控制几个工作对象,例如微型计算机主机要控制打印机、磁盘驱动器、输入键盘等。

当某个部件需要实行操作时,必须先送一个信号给主机(称为服务请求),经主机识别后再发出允许操作信号(称为服务响应),这里会有几个部件同时发出服务请求的可能,而在同一时刻只能给其中一个部件发出允许操作信号。

因此,必须根据轻重缓急,规定好这些控制对象允许操作的先后次序,即优先级别。

识别这类请求信号的优先级别并进行编码的逻辑部件称为优先编码器。

离散余弦变换(DCTforDiscreteCosineTransform)是与傅里叶变换相关的一种变换,它类似于离散傅里叶变换(DFTforDiscreteFourierTransform),但是只使用实数。

离散余弦变换相当于一个长度大概是它两倍的离散傅里叶变换,这个离散傅里叶变换是对一个实偶函数进行的(因为一个实偶函数的傅里叶变换仍然是一个实偶函数),在有些变形里面需要将输入或者输出的位置移动半个单位。

经常被信号处理和图像处理使用,用于对信号和图像(包括静止图像和运动图像)进行有损数据压缩。

这是由于离散余弦变换具有很强的"能量集中"特性:

大多数的自然信号(包括声音和图像)的能量都集中在离散余弦变换后的低频部分,而且当信号具有接近马尔科夫过程(Markovprocesses)的统计特性时,离散余弦变换的去相关性接近于K-L变换(Karhunen-Loève变换--它具有最优的去相关性)的性能。

马尔科夫过程(Markovprocesses),在已知目前状态(现在)的条件下,它未来的演变(将来)不依赖于它以往的演变(过去)。

DCT是一种空间变换,在MPEG-2中DCT以8x8的像块为单位进行,生成的是8x8的DCT系数数据块。

DCT变换的最大特点是对于一般的图像都能够将像块的能量集中于少数低频DCT系数上,即生成8x8DCT系数块中,仅左上角的少量低频系数数值较大,其余系数的数值很小,这样就可能只编码和传输少数系数而不严重影响图像质量。

DCT不能直接对图像产生压缩作用,但对图像的能量具有很好的集中效果,为压缩打下了基础。

熵编码法是一种进行无损数据压缩的技术,在这个技术中一段文字中的每个字母被一段不同长度的比特(Bit)所代替。

Zig-zag扫描:

量化系数的Z行排序。

为了保证低频分量先出现,高频分量后出现,以增加行程中连续“0”的个数,这63元素采用了“之”字型(Zig-Zag)的排序方法。

Zig-Zag-标准顺序定义如下:

staticintZig_Zag【8】【8】={

{0,1,5,6,14,15,27,28},

{2,4,7,13,16,26,29,42},

{3,8,12,17,25,30,41,43},

{9,11,18,24,37,40,44,53},

{10,19,23,32,39,45,52,54},

{20,22,33,38,46,51,55,60},

{21,34,37,47,50,56,59,61},

{35,36,48,49,57,58,62,63}

};

变长编码,霍夫曼编码(HuffmanCoding)是一种编码方式,是一种用于无损数据压缩的熵编码(权编码)算法。

在电脑资料处理中,霍夫曼编码使用变长编码表对源符号(如文件中的一个字母)进行编码,其中变长编码表是通过一种评估来源符号出现机率的方法得到的,出现机率高的字母使用较短的编码,反之出现机率低的则使用较长的编码,这便使编码之后的字符串的平均长度、期望值降低,从而达到无损压缩数据的目的。

例如,在英文中,e的出现机率最高,而z的出现概率则最低。

当利用霍夫曼编码对一篇英文进行压缩时,e极有可能用一个位元来表示,而z则可能花去25个位元(不是26)。

用普通的表示方法时,每个英文字母均占用一个字节(byte),即8个位元。

二者相比,e使用了一般编码的1/8的长度,z则使用了3倍多。

倘若我们能实现对于英文中各个字母出现概率的较准确的估算,就可以大幅度提高无损压缩的比例。

解码基本上执行和编码的过程完全相反的过程。

其中不能被完全恢复原来信息的步骤是量化。

这时候,要尽可能接近的恢复原来的信息。

这个过程被称为反量化,尽管量化本身已经注定是个不可逆过程。

视频编解码器的设计通常是标准化的,也就是说,有发布的文档来准确的规范如何进行。

实际上,为了使编码的码流具有互操作性(即由A编码器编成的码流可以由B解码器解码,反之亦然),仅仅对解码器的解码过程进行规范就足够了。

通常编码的过程并不完全被一个标准所定义,用户有设计自己编码器的自由,只要用户设计的编码器编码产生的码流是符合解码规范的就可以了。

因此,由不同的编码器对同样的视频源按照同样的标准进行编码,再解码后输出图像的质量往往可能相差很多。

常用的视频编解码器

H.261

H.261主要在老的视频会议和视频电话产品中使用。

H.261是由ITU-T开发的,第一个使用的数字视频压缩标准。

实质上说,之后的所有的标准视频编解码器都是基于它设计的。

它使用了常见的YCbCr颜色空间,4:

2:

0的色度抽样格式,8位的抽样精度,16x16的宏块,分块的运动补偿,按8x8分块进行的离散余弦变换,量化,对量化系数的Zig-zag扫描,run-level符号影射以及霍夫曼编码。

H.261只支持逐行扫描的视频输入。

run-level,运行级别

0关机

1单用户,无网络服务

2多用户,默认无网络服务

3多用户,网络服务,文本环境

4保留,默认同运行级别3

5多用户,网络服务,图形环境

6重启

MPEG-1第二部分

MPEG-1第二部分主要使用在VCD上,有些在线视频也使用这种格式。

该编解码器的质量大致上和原有的VHS录像带相当,但是值得注意的是VCD属于数字视频技术,它不会像VHS录像带一样随着播放的次数和时间而逐渐损失质量。

如果输入视频源的质量足够好,编码的码率足够高,VCD可以给出从各方面看都比VHS要高的质量。

但是为了达到这样的目标,通常VCD需要比VHS标准要高的码率。

实际上,如果考虑到让所有的VCD播放机都可以播放,高于1150kbps的视频码率或者高于352x288的视频分辨率都不能使用。

大体来说,这个限制通常仅仅对一些单体的VCD播放机(包括一些DVD播放机)有效。

MPEG-1第三部分还包括了目前常见的*.mp3音频编解码器。

如果考虑通用性的话,MPEG-1的视频/音频编解码器可以说是通用性最高的编解码器,几乎世界上所有的计算机都可以播放MPEG-1格式的文件。

几乎所有的DVD机也支持VCD的播放。

从技术上来讲,比起H.261标准,MPEG-1增加了对半像素运动补偿和双向运动预测帧。

和H.261一样,MPEG-1只支持逐行扫描的视频输入。

VHS是VideoHomeSystem的缩写,意为家用录像系统。

VCD,影音光碟(VideoCompactDisc;VCD),是一种在光碟(CompactDisk)上存储视频信息的标准。

分辨率为352x240像素,每秒29.97幅画面(适合NTSC制式电视播放)

分辨率为352x240像素,每秒23.976幅画面

分辨率为352x288像素,每秒25幅画面(适合PAL制式电视播放)

整体来说分辨率大约是对应电视制式分辨率的四分之一。

VCD的视频采用MPEG-1压缩编码,音频采用MPEG1/2Layer2编码。

码率分别为视频1150kbit/s,音频224kbit/s。

整个视频质量和VHS录像带相当。

Layer:

MPEGAudio分为MPEG1和MPEG2两大类。

而MPEG1中主要有Layer1、Layer2和Layer3三种。

MPEG1Audio编码方式之间的主要区别从外部看来主要是对音频文件的压缩率和要求播放媒体提供数据的速率不同,并且内部采取的算法也有很大的不同,基本上是随Layer数增大而越来越复杂。

经Layer1编码的音频文件后缀为MP1,另外两种分别为MP2和MP3。

MPEG-1和MPEG-2用同一个家族的声音多媒体数字信息编码器,不管是第一层,第二层还是第三层。

MPEG-2的新的音频特性是“低采样频率的扩展”和“多声道扩展”。

“低采样频率的扩展”是指为那些限制了带宽需求的位速率非常低的应用系统服务的场合,新的采样频率是16,22.05或24kHz,位速率扩展到8kbps以下。

“多声道扩展”是指服务于那些拥有5个主要声道(左、右、中置、左环绕和右环绕)的环绕声系统,有的环绕声系统甚至还要额外加一个低频增进声道来处理低频音信号,对这种系统,“多声道扩展”允许包含直至7个声道。

MPEG-2第二部分

MPEG-2第二部分等同于H.262,使用在DVD、SVCD和大多数数字视频广播系统和有线分布系统(cabledistributionsystems)中。

当使用在标准DVD上时,它支持很高的图像质量和宽屏;当使用在SVCD时,它的质量不如DVD但是比VCD高出许多。

但是不幸的是,SVCD最多能在一张CD光盘上容纳40分钟的内容,而VCD可以容纳一个小时,也就是说SVCD具有比VCD更高的平均码率。

MPEG-2也将被使用在新一代DVD标准HD-DVD和Blu-ray(蓝光光盘)上。

从技术上来讲,比起MPEG-1,MPEG-2最大的改进在于增加了对隔行扫描视频的支持。

MPEG-2可以说是一个相当老的视频编码标准,但是它已经具有很大的普及度和市场接受度。

SVCD,SuperVideoCD,超级VCD,是一种在标准CD媒体上储存视讯的格式。

以技术能力和影像品质来说,它的水准落在VCD和DVD之间。

SVCD是VCD的改进标准,它采用MPEG-2压缩,采用可变压缩率来获得较好的视频质量。

SVCD与CVD采用的标准相同,清晰度也达到了350线,但一些相关的技术不同;SVCD也可以提供2路立体声和4路单声道。

SVCD的图像质量介于VCD与DVD之间,当然,同时,它的体积也介于VCD与DVD之间,一张普通光盘可以刻60分钟VCD,但是只能刻40分钟SVCD。

同时,SVCD还增加了多种语言字幕的功能。

帧大小:

480×480,NTSC或480×576,PAL

帧速率:

29.97帧/秒,NTSC或25帧/秒,PAL

视频数据速率:

可高达2600kbps的变动位速率

音频设定:

32~384kbps,44.1kHz,MPEG-1/2,Layer2,立体声/双声道/多声道

播放设备:

具备CD-R或CD-RW播放功能的DVD播放机,带DVD或CD-ROM光驱P2以上的电脑。

DVD,数字多功能光盘(英文:

DigitalVersatileDisc),是一种光盘存储器,通常用来播放标准电视机清晰度的电影,高质量的音乐与作大容量存储数据用途。

H.263

H.263主要用在视频会议、视频电话和网络视频上。

在对逐行扫描的视频源进行压缩的方面,H.263比它之前的视频编码标准在性能上有了较大的提升。

尤其是在低码率端,它可以在保证一定质量的前提下大大的节约码率。

H.263是国际电联ITU-T的一个标准草案,是为低码流通信而设计的。

但实际上这个标准可用在很宽的码流范围,而非只用于低码流应用,它在许多应用中可以认为被用于取代H.261。

H.263最初设计为基于H.324的系统进行传输(即基于公共交换电话网和其它基于电路交换的网络进行视频会议和视频电话)。

后来发现H.263也可以成功的应用与H.323(基于RTP/IP网络的视频会议系统),H.320(基于综合业务数字网的视频会议系统),RTSP(流式媒体传输系统)和SIP(基于因特网的视频会议)。

H.263的编码算法与H.261一样,但做了一些改善和改变,以提高性能和纠错能力。

H.263标准在低码率下能够提供比H.261更好的图像效果,两者的区别有:

1、H.263的运动补偿使用半象素精度,而H.261则用全象素精度和循环滤波;

半象素:

许多视频应用中都会需要一些亚像素运动估计,如半像素或者是四分之一像素估计。

分数像素的像素估计将会有更好的图像预测效果。

半像素估计是在先前最好的整数像素估计上继续操作。

搜索区域是目标周围的区域。

像素值的插值由周围的在这个范围中间的像素一起计算得到。

插值中一般采用线性插值的方法。

计算出整像素最优的运动矢量后,在其附近进行插值,然后再比较得出的新最优的运动矢量。

流程如下:

1.从前一个模块输入计算得到的整像素的运动矢量;

2.在此运动矢量附近进行半像素插值,插值时只需要原先最优的宏块和这个宏块周围的一圈像素来进行插值。

这样除了原先的宏块,另外在每个像素点的附近又插值出8个半像素点,这些对应的半像素点构成了8个相同规模的宏块;

3.在插值后,将新的8个模块与原始参考模块进行比较,计算出8个SAD(累计误差和)。

然后比较出最优的匹配宏块,输出计算结果。

最后再将最优的与原先整像素的最优比较,输出其中最优的结果。

2、数据流层次结构的某些部分在H.263中是可选的,使得编解码可以配置成更低的数据率或更好的纠错能力;

3、H.263包含四个可协商的选项以改善性能;

4、H.263采用无限制的运动向量以及基于语法的算术编码;

5、采用事先预测和与MPEG中的P-B帧一样的帧预测方法;

6、H.263支持5种分辨率,即除了支持H.261中所支持的QCIF(QCIF=176×144像素)和CIF(CIF=352×288像素)外,还支持SQCIF(SQCIF=128×96像素)、4CIF和16CIF,SQCIF相当于QCIF一半的分辨率,而4CIF和16CIF分别为CIF的4倍和16倍。

1998年IUT-T推出的H.263+是H.263建议的第2版,它提供了12个新的可协商模式和其他特征,进一步提高了压缩编码性能。

如H.263只有5种视频源格式,H.263+允许使用更多的源格式,图像时钟频率也有多种选择,拓宽应用范围;另一重要的改进是可扩展性,它允许多显示率、多速率及多分辨率,增强了视频信息在易误码、易丢包异构网络环境下的传输。

另外,H.263+对H.263中的不受限运动矢量模式进行了改进,加上12个新增的可选模式,不仅提高了编码性能,而且增强了应用的灵活性。

H.263已经基本上取代了H.261。

在H.263之后,ITU-T(在与MPEG的合作下)的下一代视频编解码器是H.264,或者叫AVC以及MPEG-4第10部分。

由于H.264在性能上超越了H.263很多,现在通常认为H.263是一个过时的标准(虽然它的开发完成并不是很久以前的事情)。

大多数新的视频会议产品都已经支持了H.264视频编解码器,就像以前支持H.263和H.261一样。

MPEG-4第二部分

MPEG-4第二部分标准可以使用在网络传输、广播和媒体存储上。

比起MPEG-2和第一版的H.263,它的压缩性能有所提高。

和之前的视频编码标准的主要不同点在于,“面向对象”(Object-oriented)的编码方法和一些其它并非用于提高通常视频编码压缩率的技术。

当然它也引入了一些提高压缩能力的技术,包括一些H.263的技术和1/4像素的运动补偿。

和MPEG-2一样,它同时支持逐行扫描和隔行扫描。

MPEG-4第十部分

MPEG-4第十部分技术上和ITU-TH.264是相同的标准,有时候也被叫做“AVC”)。

这个刚刚制定完成的标准是ITU-TVCEG和ISO/IECMPEG合作完成的性能最优的视频编码标准,并且在已经得到了越来越多的应用。

该标准引入了一系列新的能够大大提高压缩性能的技术,并能够同时在高码率端和低码率端大大超越以前的诸标准。

已经使用和将要使用H.264技术的产品包括例如索尼公司的PSP,Nero(尼禄)公司的NeroDigital产品套装,苹果公司的MacOSXv10.4,以及新一代DVD标准HD-DVD和蓝光光盘(Blu-ray)。

AVS

AVS是中国制定的音视频压缩编码标准,故准确来说,其不仅仅包括视频编码标准。

它最主要的目的是通过采用与H.264不同的专利授权方式,来避免付出大笔的专利授权费用。

在技术上,AVS的视频编码部分采用的技术与H.264非常相似,但采取了一些简化措施。

这样做,其一可以回避一些非必要专利,另外据称也可以在几乎不影响编码压缩效率的基础上,提高编解码速度。

AVS的与MPEG-4得性能相当。

DivX,XviD和3ivx

DivX,XviD和3ivx视频编解码器基本上使用的都是MPEG-4第二部分的技术,以后缀*.avi,*.mp4,*.ogm或者*.mkv结尾的文件有一部分是使用这些视频编解码器的。

DivX文件的视频数据采用MPEG4技术压缩,而音频数据采用WMA或MP3压缩,VCD的音频数据则是采用MPEG-1Layer2即MP2压缩,并以AVI文件的格式存在的数字多媒体压缩格式。

DivX视频编码技术是为了打破微软ASF的种种协定的束缚,由Microsoftmpeg4v3修改而来,使用MPEG-4压缩算法。

Xvid(旧称为XviD)是一个开放源代码的MPEG-4视频编解码器,它是基于OpenDivX而编写的。

XviD是目前世界上最常用的视频编码解码器(codec),而且是第一个真正开放源代码的,通过GPL协议发布。

在很多次的codec比较中,XviD的表现令人惊奇的好,总体来说是目前最优秀、最全能的codec。

XviD的文件扩展名可以是AVI、MKV、MP4等。

需要说明的是,仅从扩展名并不能看出这个视频的编码格式。

比如说一部电影是.avi格式,但是实际上的视频编码格式可以是DVCode,也可以是XviD或者其他的;音频编码格式可以是PCM、AC3或者MP3。

PCM文件:

模拟音频信号经模数转换,直接形成的二进制序列,该文件没有附加的文件头和文件结束标志。

Windows的Convert工具可以把PCM音频格式的文件转换成Microsoft的WAV格式的文件。

MP4和MKV格式比AVI更先进,支持更多的功能,比如字幕。

AVI视频的字幕需要另外的SRT文件。

目前国外绝大多数的影视资源都是AVI格式。

XviD影视资源的文件名含义解释

剧名.S季数E集数.集名.信号采集源.音频编码(默认的MP3可以不标).视频编码-制作组  例如:

  Prison.Break.S02E01.Manhunt.HR.HDTV.AC3.5.1.XviD-DiMENSION

剧名-PrisonBreak

S季数-S02

E集数-E01

集名-Manhunt

信号采集源-HDTV

音频编码-AC3.5.1

视频编码-XviD

制作组–DiMENSION

WMV

WMV(WindowsMediaVideo)是微软公司的视频编解码器家族,包括WMV7、WMV8、WMV9、WPV10。

这一族的编解码器可以应用在从拨号上网的窄带视频到高清晰度电视(HDTV)的宽带视频。

使用WindowsMediaVideo用户还可以将视频文件刻录到CD、DVD或者其它一些设备上。

它也适用于用作媒体服务器

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 考试认证 > 司法考试

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1