09MPEG编码Word格式文档下载.docx-资源下载

09MPEG编码Word格式文档下载.docx

1、知识冗余收发两端对事物的共有认识基于知识的编码视觉冗余人的视觉特性非线性量化，位分配其他不确定性因素MPEG-1/2的视频压缩所采用的技术有两种：在空间上（帧内），图像数据压缩采用JPEG压缩算法来去掉冗余信息。在时间方向上（帧间），视频数据压缩采用运动补偿（motion compensation）算法来去掉冗余信息。图9-1 MPEG定义的三种视频图像为了在保证图像质量基本不降低的同时，又能够获得高的压缩比，MPEG专家组为视频的帧系列定义了三种图像：帧内图像I（Intra），预测图像P（Predicted）和双向插值图像B（Bidirectionally interpolated），它

2、们典型的排列如图9-1所示。在MPEG-1/2的视频编码中，对这三种图像将分别采用了三种不同的算法来进行压缩。9.1.2 I帧压缩算法帧内图像I的解码，不需要参照任何过去的或后来的其他图像帧，其压缩编码采用类似JPEG压缩算法，它的框图如图9-2所示。如果视频是用RGB空间表示的，则首先要把它转换成YCrCb空间表示的图像。每个图像平面分成88的图块，对每个图块进行离散余弦变换DCT。DCT变换后经过量化的交流分量系数按照Z字形排序，然后再使用无损压缩技术进行编码。DCT变换后经过量化的直流分量系数用差分脉冲编码DPCM，交流分量系数用行程长度编码RLE，然后再用霍夫曼或算术编码。图9-2

3、帧内图像I的压缩编码算法框图9.1.3 P帧压缩算法在MPEG-1/2视频编码中，对P帧图像采用的是以宏块为单位的前向预测压缩算法。1算法概述图9-3 移动矢量的概念预测图像的编码是以图像宏块（macroblock）为基本编码单元，一个宏块定义为IJ像素的图像块，一般取为1616。预测图像P用两种类型的参数来表示：一种是当前要编码的图像宏块与参考图像的宏块之间的差值，另一种是宏块的移动矢量（motion vector运动向量）。移动矢量的概念可用图9-3表示。假设编码图像宏块MPI是参考图像宏块MRJ的最佳匹配块，它们的差值就是这两个宏块中相应像素值之差。对所求得的差值进行彩色空间转换，并作4

4、:1:1的子采样得到Y，Cr和Cb分量值，然后仿照JPEG压缩算法对差值进行编码（对计算出的移动矢量也要进行霍夫曼编码）。求解图像宏块差值的方法如图9-4所示。图9-4 预测图像P的压缩编码算法框图求解移动矢量的方法见图9-5。在求两个宏块差值之前，需要找出编码图像中的预测图像编码宏块MPI相对于参考图像中的参考宏块MRJ所移动的距离和方向，这就是移动矢量。图9-5 移动矢量的算法框图要使预测图像更精确，就要求找到与参考宏块MRJ最佳匹配的预测图像编码宏块MPI。所谓最佳匹配是指这两个宏块之间的差值最小。通常以绝对值AE（absolute difference）最小作为匹配判据：有些学者提出了

5、以均方误差MSE（mean-square error）最小作为匹配判据：或以平均绝对帧差MAD（mean of the absolute frame difference）最小作为匹配判据：其中，dx和dy分别是参考宏块MRJ的移动矢量d （dx, dy）在X和Y方向上的矢量。从以上分析可知，对预测图像的编码，实际上就是寻找最佳匹配图像宏块，找到最佳宏块之后就找到了（最佳）移动矢量d （dx, dy），从而可进一步计算出对应图像宏块的差值参数。2最佳宏块搜索法为减少寻找最佳匹配宏块的搜索次数，已经开发出了许多简化算法用来加快搜索过程。注意，编码时采用哪种具体的搜索方法，不会影响到解码过程，而只

6、会影响编码时的速度和解码后的图像质量。下面介绍三种常用的最佳宏块搜索法。二维对数搜索法二维对数搜索法（2D-logarithmic search）采用的匹配判据是MSE为最小，它的搜索策略是沿着最小失真方向搜索。具体搜索方法如图9-6所示，图中的标有数字i的小方框表示第i步的搜索点、箭头表示搜索移动的方向和大小。图9-6 二维对数搜索法在搜索时，每移动一次就检查上下左右和中央这5个搜索点。如果最小失真在中央或在图像边界，就减少搜索点之间的距离。在这个例子中，步骤1，2，5得到的近似移动矢量d为（i，j-2）、（i，j-4）、（i+2，j-4）、（i+2，j-6）和（i+2，j-6），最后得到

7、的移动矢量为d（i+2，j-6）。三步搜索法三步搜索法（three-step search）与二维对数搜索法很接近。不过在开始搜索时，搜索点离（i，j）这个中心点有3个像素远，每一步测试周围的8个搜索点，然后减小搜索点的距离，三步完成，如图9-7所示。在这个例子中，点（i+3，j-3）作为第一个近似的移动矢量；第二步，搜索点在（i+3，j-3）附近，找到的点假定为（i+3，j-5）；第三步给出了最后的移动矢量为d（i+2，j-6）。本例采用MAD作为匹配判据。图9-7 三步搜索法对偶搜索法对偶搜索法（conjugate search）是一个很有效的搜索方法，采用先横向后纵向的单步搜索，该法

8、使用MAD作为匹配判据，搜索过程参见图9-8。在第一次搜索时，通过计算点（i-1，j）、（i，j）和（i+1，j）处的MAD值来决定i方向上的最小失真。如果计算结果表明点（i+1，j）处的MAD为最小，就计算点（i+2，j）处的MAD，并从（i，j），（i+1，j）和（i+2，j）的MAD中找出最小值。按这种方法一直进行下去，直到在i方向上找到最小MAD值及其对应的点。图9-8 对偶搜索法在这个例子中，假定在i方向上找到的点为（i+2，j）。在i方向上找到最小MAD值对应的点之后，就沿j方向去找最小MAD值对应的点，方法与i方向的搜索方法相同。最后得到的移动矢量为d（i+2，j-6）。在整个M

9、PEG-1/2图像压缩过程中，寻找最佳匹配宏块要占据相当多的计算时间，匹配得越好，重构的图像质量越高。9.1.4 B帧压缩算法图9-9 双向预测图像B的压缩编码算法框图双向插值图像B的压缩编码框图如图9-9所示。具体计算方法与预测图像P的算法类似，这里不再重复。9.1.5 视频帧结构I帧可以用于视频的随机定位和快进快退，但是占用的存储空间较多。MPEG-1/2编码器算法允许选择I图像出现的频率和位置。I图像的频率是指每秒钟出现I图像的次数，位置是指时间方向上帧所在的位置。一般情况下，I图像的频率为2。MPEG-1/2编码器也允许在一对I图像或者P图像之间选择B图像的数目。I图像、P图像和B图像

10、数目的选择依据主要是根节目的内容。例如，对于快速运动的图像，I图像的频率可以选择高一些，B图像的数目可以选择少一点；对于慢速运动的图像，帧内图像I的频率可以低一些，而B图像的数目可以选择多一点。此外，在实际应用中还要考虑媒体的播放速率。一个典型的I、P、B图像安排如图9-10所示。编码参数为：帧内图像I的距离为N=15，预测图像（P）的距离为M=3。图9-10 MPEG-1/2电视帧编排I、P和B图像压缩后的大小如表9-2所示，单位为比特。从表中可以看到，I帧图像的数据量最大，而B帧图像的数据量最小。表9-2 三种图像的压缩后的典型值（KB）图像类型IPB平均数据/帧MPEG-1 CIF 格式

11、（1.15 Mb/s）150502038MPEG-2 601 格式（4.00 Mb/s）400200801309.2 MPEG-4视频编码MPEG-4视频编码算法支持由MPEG-1和MPEG-2提供的所有功能，包括对各种输入格式下的标准矩形图像、帧速率、位速率和隔行扫描图像源的支持。MPEG-4视频算法的核心是支持基于内容（content-based）的编码和解码功能，也就是对场景中使用分割算法抽取的单独的视听对象进行编码和解码。MPEG-4视频还提供管理这些视频内容的最基本方法。MPEG视频专家组建立了一个用来开发图像和视频编码技术的模型，叫做“试验模型（Test Model）”或“验证模型

12、（VM = Verification Model）”。这个模型描述了一个核心的编码算法平台，包括编码器、解码器以及位流（bitstream）的语法和语义。本节就MPEG-4视频的编码和解码的基本方法作一个简单介绍，其他内容请看有关的参考文献和网页。9.2.1 视频对象平面的概念为了实现预想的基于内容交互等功能，MPEG-4 视频验证模型引进了一个叫做“视频对象平面（Video Object Plane，VOP）”的概念。如图9-11所示，图中的上图表示支持MPEG-1和MPEG-2的普通（generic）MPEG-4编码器，图中的下图表示MPEG-4的甚低速率视频（Very Low Bitra

13、te Video，VLBV）的核心编码器（core coder）。MPEG-4视频验证模型，不像MPEG-1/2视频那样，把视频都认为是一个矩形区，而是假设每帧图像被分割成许多任意形状的图像区，每个图像区都有可能覆盖描述场景中感兴趣的物理对象或者内容，这种区被定义为视频对象平面（VOP）。编码器输入的是任意形状的图像区，图像区的形状和位置也可随帧的变化而改变。属于相同物理对象的连续的VOP组成视频对象（Video Objects，VO）。例如，一个没有背景图像的正在演讲的人，如图9-11的下图所示。图9-11 MPEG-4的两种编码器MPEG-4可单独对属于相同视频对象（VO）的VOP的形状（

14、shape）、移动（motion运动）和纹理（texture）信息进行编码和传送，或者把它们编码成一个单独的视频对象层（Video Object Layer，VOL）。VOP、VO和VOL的关系如图9-12所示。此外，标识每个视频对象层（VOL）的信息也包含在编码后的位流（bitstream）中，这些信息包括各种VOL的视频在接收端应该如何进行组合，以便重构完整的原始图像序列。这样就可以对每个VOP进行单独解码，提供了管理视频序列的灵活性。9.2.2 视频编码方案图9-12 VOP、VO和VOL的关系图视频对象平面VOP：视频帧场景中人们感兴趣的物理对象或内容之图像区视频对象VO：在视频帧

15、序列中属于相同物理对象的VOP序列视频对象层VOL：属于同一VO的诸VOP的形状、移动和纹理等信息的编码MPEG-4视频验证模型对每个视频对象（VO）的形状、移动和纹理信息进行编码形成单独的VOL层，以便能够单独对视频对象（VO）进行解码。如果输入图像序列只包含标准的矩形图像，就不需要形状编码，在这种情况下，MPEG-4视频所使用的编码算法结构也就与MPEG-1和MPEG-2使用的算法结构相同。图9-13 视频序列中的I-VOP和P-VOP编码方式和宏块结构MPEG-4视频验证模型对每个视频对象平面（VOP）进行编码使用的压缩算法是在MPEG-1和MPEG-2视频标准的基础上开发的，它也是以

16、图像块为基础的混合DPCM和变换编码技术。MPEG-4编码算法也定义了帧内视频对象平面（Intra-Frame VOP，I-VOP）编码方式和帧间视频对象平面预测（Inter-frame VOP prediction，简写为P-VOP）编码方式，它也支持双向预测视频对象平面（B-directionally predicted VOP，B-VOP）方式。在对视频对象平面（VOP）的形状编码之后，颜色图像序列分割成宏块进行编码，如图9-13所示。图中的Y1、Y2、Y3和Y4表示亮度宏块，U、V分别表示红色差和蓝色差宏块。图9-14 MPEG-4视频编码器的算法方框图图9-14描绘了MPEG-4视频

17、的编码算法，用来对矩形和任意形状的输入图像序列进行编码。这个基本编码算法结构图包含了移动矢量（motion vector, MV）的编码，以及以离散余弦变换（DCT）为基础的纹理编码。MPEG-4采用基于内容编码方法的一个重要优点是，使用合适的和专门的基于对象的移动预测工具，可以明显提高场景中某些视频对象的压缩效率。图9-15 MPEG-4电视序列编码举例图9-15表示MPEG-4对视频序列进行编码的一个实际例子。左上角的图是背景全景图。右上角的图是一个没有背景的子图像全景图，可以把网球运动员当作是一个视频对象（VO），经常把这种可以独立移动的小图像称为子图像（sprite子画面）。下面的图是

18、接收端合成的全景图。在编码之前这个子图像全景图从背景全背景图序列中抽出来，然后分别对它们进行编码、传送和解码，最后再合成。9.2.3 视频分辨率可变编码“视频分辨率”是指视频空间分辨率（spatial resolution）和时间分辨率（temporal resolution）。空间分辨率是指一帧图像包含的行数与每行显示的像素数之乘积，而时间分辨率是指每秒种显示或者传输的图像帧数。设置视频分辨率可变编码功能的一个重要目的是为了能够灵活支持性能不同（例如不同传输带宽）的各种视频接收或显示设备，或者支持浏览视频数据库等网络方面的应用。另一个目的是提供分层次的视频数据位流，这样可按应用所要求的先后次

19、序进行传输。MPEG-2也有视频分辨率可变编码功能，但它是以图像的帧为基础进行编码。而MPEG-4视频分辨率可变编码是以任意形状的视频对象平面（VOP）为基础进行编码。对那些没有能力或者不愿意接收高分辨率图像的接收器，它可以接收分辨率比较低的视频，降低空间分辨率或者时间分辨率意味降低图像的质量。图9-16 VOP空间分辨率可变编码方法空间分辨率可变性（spatial scalability）和时间分辨率可变性（temporal scalability）的实现方法类似。图9-16描述了多分辨视频编码（multiscale video coding）方案。该方案提供三个层次的编码/解码，每一层都支

20、持在不同空间分辨率下进行编码/解码。从图中可以看到，多种空间分辨率的实现是通过降低输入电视信号的采样率来获得的。MPEG-4/AVC（H.264）标准压缩系统由视频编码层（Video Coding Layer，VCL）和网络提取层（Network Abstraction Layer，NAL）两部分组成。VCL中包括VCL 编码器与VCL 解码器，主要功能是视频数据压缩编码和解码，它包括运动补偿、变换编码、熵编码等压缩单元。NAL 则用于为VCL 提供一个与网络无关的统一接口，它负责对视频数据进行封装打包后使其在网络中传送，它采用统一的数据格式，包括单个字节的包头信息、多个字节的视频数据与组帧、

21、逻辑信道信令、定时信息、序列结束信号等。通过NAL 单元，H.264可以支持大部分基于包的网络。9.3 MPEG音频编码近些年来，人类在利用自身的听觉系统特性来压缩声音数据方面取得了很大的进展，先后制定了采用音感编码的MPEG-1 Audio, MPEG-2 Audio和MPEG-2 AAC等标准。而MPEG-4则采用了基于音频对象的编码方法，包括自然声音的编码和音乐与语音的合成。现在十分流行的MP3采用的就是MPEG-1 Audio Layer 编码，而MP4采用的则是MPEG-2 AAC的音频编码（MP4的另一个含义是MPEG-4视频编码）。本节先较为详细地讨论MPEG-1和MPEG-2的

22、音频编码方法，然后再简单介绍MPEG-4的音频编码。9.3.1 MPEG-1 Audio在第3章中，已经介绍了人的各种听觉特性，MPEG的音频编码正是利用人类的这些听觉系统的特性来达到压缩声音数据的目的。称这种压缩编码为感知声音编码（perceptual audio coding），简称为音感编码（musicality coding）。1MPEG Audio与感知特性MPEG Audio标准在这里是指MPEG-1/2的音频编码，包括MPEG-1 Audio、MPEG-2 Audio、MPEG-2 AAC和MPEG-2中使用的Dolby AC-3，它们处理10 Hz20000 Hz范围里的声音数

23、据，数据压缩的主要依据是人耳朵的听觉特性，使用“心理声学模型（psychoacoustic model）”来达到压缩声音数据的目的。心理声学模型中一个基本的概念就是听觉系统中存在一个听觉阈值电平，低于这个电平的声音信号就听不到，因此就可以把这部分信号去掉。听觉阈值的大小随声音频率的改变而改变，各个人的听觉阈值也不同。大多数人的听觉系统对2 kHz5 kHz之间的声音最敏感。一个人是否能听到声音取决于声音的频率，以及声音的幅度是否高于这种频率下的听觉阈值。心理声学模型中的另一个概念是听觉掩饰特性，意思是听觉阈值电平是自适应的，即听觉阈值电平会随听到的不同频率的声音而发生变化。声音压缩算法可以确立

24、这种特性的模型来取消更多的冗余数据。MPEG Audio采纳两种感知编码，一种叫做感知子带编码（perceptual subband coding ），另一种（用于MPEG-2）是由杜比实验室（Dolby Laboratories）开发的Dolby AC-3 （Audio Code number 3）编码，简称AC-3。它们都利用人的听觉系统的特性来压缩数据，只是压缩数据的算法有所不同。图9-17 MPEG Audio压缩算法框图感知子带编码的简化算法框图如图9-17所示。输入信号通过“滤波器组（filter bank）”进行滤波之后被分割成许多子带，每个子带信号对应一个“编码器（coder）

25、”，然后根据心理声学模型对每个子带信号进行量化和编码，输出量化信息和经过编码的子带样本，最后通过“多路复用器（multiplexer）”把每个子带的编码输出按照传输或者存储格式的要求复合成数据位流。解码过程与编码过程相反。感知子带编码将在后面的第4小小节“子带编码”中做进一步介绍。图9-18 Dolby AC-3压缩编码算法框图Dolby AC-3是MPEG-2采纳的声音编码技术，为便于和感知子带编码作比较，也安排在这里进行简单的介绍。Dolby AC-3是一种支持5.1声道环绕立体声的多通道（multichannel）音乐信号压缩技术，它可支持5个3 Hz20 000 Hz频率范围的全频通道

26、和1个3Hz120Hz的低频效果声道（LFE）。AC-3压缩编码算法的简化框图如图9-18所示。它的输入是未被压缩的PCM样本，而PCM样本的采样频率必须是32, 44.1或者48 kHz，样本精度可多到20位，输出位流的速率为32 640 kbps。图9-18中各部分的功能如下：分析滤波器组（analysis filter bank）：它的功能是把用PCM时间样本表示的声音信号变换成用频率系数块（frequencies coefficients block）表示的声音信号。输入信号从时间域变换到频率域是用时间窗（time window）乘由512个时间样本组成的交叠块（overlappin

27、g block）来实现的。在频率域中用因子2对每个系数块进行抽取，因此每个系数块就包含256个频率系数。单个频率系数用浮点二进制的指数（exponent）和尾数（mantissa）表示；频谱包络（spectral envelope encoding）：它的功能是对“分析滤波器组”输出的指数进行编码。指数代表粗糙的信号频谱，因此称为（频）“谱包络编码”；位分配（bit allocation）：它的功能是使用“谱包络编码”输出的信息确定尾数编码所需要的位数；尾数量化（mantissa quantization）：它的功能是按照“位分配”输出的位分配信息对尾数进行量化； AC-3帧格式（AC-

28、3 frame formatting）：它的功能是把“尾数量化”输出的量化尾数和“谱包络编码”输出的频谱包络组成AC-3帧。一帧由6个声音块（1356个声音样本）组成。“AC-3帧格式”输出的是AC-3编码位流。有关AC-3的进一步信息，可以参考ATSC的A/52B号标准文档，http:/atsc.org/standards/ a_52b.pdf。2声音编码第3章所介绍的A-Law、ADPCM、LPC等话音编码方法，都属于音源特定编码法（source specific methods），它们的编码对象主要是针对人说话的话音。当这些算法用来压缩宽带声音（如音乐）信号时，在相同压缩比的情况下，输出

29、的声音质量比较低。MPEG-1 Audio的编码对象是2020000Hz的宽带声音，因此它采用了感知子带编码，（简称为子带编码sub-band coding，SBC）。子带编码是一种功能很强而且很有效的声音数据编码方法。与音源特定编码法不同，SBC的编码对象不局限于话音数据，也不局限于哪一种声源。这种方法的具体思想是首先把时域中的声音数据变换到频域，对频域内的子带分量分别进行量化和编码，根据心理声学模型确定样本的精度，从而达到压缩数据量的目的。MPEG声音数据压缩的基础是量化。虽然量化会带来失真，但MPEG标准要求量化失真对于人耳来说是感觉不到的。在MPEG标准的制定过程中，MPEG-Audi

30、o委员会作了大量的主观测试实验。实验表明，采样频率为48 kHz、样本精度为16位的立体声音数据压缩到256 kb/s时，即在6:1的压缩率下，即使是专业测试员也很难分辨出是原始声音还是编码压缩后的声音。3声音的性能MPEG-1 Audio（ISO/IEC 11172-3）压缩算法是世界上第一个高保真声音数据压缩国际标准，并且得到了极其广泛的应用。虽然MPEG声音标准是MPEG标准的一部分，但它也完全可以独立应用。MPEG-1声音标准的主要性能如下：1）图9-19 MPEG编码器的输入/输出MPEG编码器的输入信号为线性PCM信号，采样率为32, 44.1或48 kHz，输出码率为32 kb/s384 kb/s，参见图9-19。2） MPEG-1声音标准提供三个独立的压缩层次：层1 （Layer I,）、层2 （Layer II）和层3 （Layer III），用户对层次的选择可在复杂性和声音质量之间进行权衡。（1）层1的编码器最为简单，编码器的输出数据率为384 kb/s，主要用于小型数字盒式磁带（digital

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？