第四章多媒体数据压缩编码技术.docx

资源描述

第四章多媒体数据压缩编码技术.docx

《第四章多媒体数据压缩编码技术.docx》由会员分享，可在线阅读，更多相关《第四章多媒体数据压缩编码技术.docx（15页珍藏版）》请在冰豆网上搜索。

第四章多媒体数据压缩编码技术.docx

第四章多媒体数据压缩编码技术

学习要点:

1、多媒体数据要所编码的重要性和分类。

2、常用压缩编码算法的基本原理及实现技术，预测编码、交换编码（K-L变换、DCT变换）、统计编码（Ｈｕｆman编码、算术编码）。

3、量化的基本原理和量化器的设计思想。

4、静态图象压缩编码的国际标准（ＪＰＥＧ）原理、实现技术,以及动态图像压缩编码国际标准（MPＥG）的基本原理。

一、多媒体数据压缩编码的重要性和分类

1、多媒体数据压缩的重要性

多媒体技术最大难题是海量数据存储与传送电视信号数字化后的数据量。

２、多媒体数据压缩的可能性

（1）空间冗余

例:

图象中的“A”是一个规则物体。

光的亮度、饱和度及颜色都一样,因此，数据A有很大的冗余。

（2）时间冗余

（3）信息熵冗余

信息量:

　指从N个相等的可能事件中选出一个事件所需要的信息度量和含量。

信息熵：

指一团数据所带的信息量，平均信息量就是信息熵（entroｐy）。

例：

从６4个数中选出某一个数，可先问“是否大于３2?

”消除半数的可能,这样只要6次就可选出某数。

这是因为每提问一次都会得到1比特的信息量。

因此，在６4个数中选定某一数所需的信息量是　ｌoｇ264=6（bits）。

设从N个数中选任意一个数Ｘ的概率为P（ｘ），假定选定任意一个数的概率都相等，P（x）＝1／N，因此定义信息量Ｉ（x）=loｇ２N=-log2（1/N）=-log２P（ｘ）＝I［Ｐ（x）］,如果将信源所有可能事件的信息量进行平均，就得到了信息熵（entｒopy）。

熵就是平均信息量。

信息源的符号集为Xj（j=１,２,3…….．N）设X出现的概率为P（ｘj），则信息源X的熵为　

（4）　结构冗余

图象有非常强的纹理结构。

如草席图结构上存在冗余。

（5）　知识冗余

图像的理解与某些基础知识有关。

例:

人脸的图像有同样的结构:

嘴的上方有鼻子,鼻子上方有眼睛，鼻子在中线上……

（6）　视觉冗余

视觉冗余是非均匀、非线性的。

例:

人类视觉分辨率为２　，但常用2就是数据冗余。

（7）　其他冗余：

空白的非定长性

3、多媒体数据压缩方法的分类

按压缩方法分：

有失真压缩、无失真压缩

按编码算法原理分:

（1）预测编码

（2）变换编码

（3）量化与向量量化编码

（4）信息熵编码

（5）　子带编码

（6）结构编码

（7）基于知识的编码

二、量化

1、量化原理

　　量化处理是使数据比特率下降的一个强有力的措施。

脉冲编码调制（ＰCM）的量化处理是采样之后进行,从理论分析的角度，图像灰度值是连续的数值，而我们通常看到的是以（0～255）的整数表示图像灰度,这是经A/D变换后的以256级灰度分层量化处理了的离散数值，这样可以用log２256=8比特表示一个图像像素的灰度值，或色差信号值。

数据压缩编码中的量化处理,不是指A／D变换后的量化,而是指以PCＭ码作为输入，经正交变换、差分、或预测处理后,熵编码之前，对正交变换系数、差值或预测误差的量化处理。

量化输入值的动态范围很大，需要以多的比特数表示一个数值，量化输出只能取有限个整数，称作量化级,希望量化后的数值用较少的比特数便可表示。

每个量化输入被强行归一到与其接近的某个输出，即量化到某个级。

量化处理总是把一批输入,量化到一个输出级上，所以量化处理是一个多对一的处理过程，是个不可逆过程，量化处理中有信息丢失，或者说，会引起量化误差（量化噪声）。

2、标量量化器的设计

通常设计量化器有下述两种情况:

▲给定量化分层级数,满足量化误差最小。

▲限定量化误差，确定分层级数,满足以尽量小的平均比特数，表示量化输出。

量化方法有标量量化和矢量量化之分,标量量化又可分为,均匀量化、非均匀量化和自适应量化。

3、矢量量化

矢量量化编码是近年来图像、语音信号编码技术中颇为流行的一种新型量化编码方法。

矢量量化编码方法一般是有失真编码方法。

矢量量化的名字是相对于标量量化而提出的。

对于PCM数据，一个数一个数地进行量化叫标量量化。

若对这些数据分组,每组Ｋ个数构成一个K维矢量，然后以矢量为单元，逐个矢量进行量化,称矢量量化。

三、统计编码

1、统计编码原理——信息量和信息熵

图像的概率分布、信息量和信息熵之间有什么关系?

在图像编码压缩理论研究中，为什么要引入信息论中“熵”值的概念,有什么重要意义？

这是我们下面需要说明的问题。

概念：

（1）信息:

是用不确定性的量度定义的。

（2）信息量：

从N个相等可能事件中选出一个事件所需要的信息度量或含量。

（３）熵:

如果将信源所有可能事件信息量进行平均就得到信息的熵（熵就是平均信息量）。

传输包括：

（1）传输所需要的信息。

（2）以任意小的失真或零失真接收这些信息。

已经证明:

只要符号速率不超过信道容量C符号可以以任意小的差错概率向该信道中传输。

另外几种典型的方法是：

Ｆaｎs,Huffman,编码方法定理,变字长编码最佳编码定理。

在变字长编码中,对于出现概率大的信息符号,编以短字长的码，对于出现概率小的信息符号编以长字长的码,如果码字长度严格按照符号概率的大小的相反顺序排列，则平均码字长一定小于按任何其他符号顺序排列方式得到的码字长度。

（１）熵、熵编码原理、变字长编码最佳编码定理

（2）Ｈuffmａn就是利用了这个定理进行编码。

2、哈夫曼编码

　　　Huffman编码就是利用变字长最佳编码实现信源符号按概率大小顺序排列。

信源符号按概率大小顺序排列:

（1）出现概率最小的两个符号概率相加合成一个概率。

（2）将合成概率看成一个新组合符号概率,重复上述做法，直到最后只剩下两个符号概率为止。

（3）反过来逐步向前编码，每一步有两个分支各赋予一个二进制码,可以对概率大的赋编码为“0”，概率小的赋编码为“1”。

（反之，也可以大的赋“１”,小的赋“０”）

特点:

Hufｆｍan编码字长参差不齐。

Ｈuffmａｎ编码在信源编码概率分布不均匀时效率高，所以效率比较均匀时，不用Huffmａn编码。

Ｈuffman编码表省缺。

　　好处:

解决对称性，降低了编码时间。

概率统计和Hｕfｆman编码一般不对称。

3、算术编码

　２０世纪60年代初，E1iａs提出了算术编码概念。

1976年，Bisｓanen和Pasco首次介绍了它的实用技术。

算术编码在图像数据压缩标准（如JＰEＧ，ＪＢIG）中扮演了重要的角色。

在算术编码中,消息用0到1之间的实数进行编码，算术编码用到两个基本的参数：

符号的概率和它的编码间隔。

信源符号的概率决定压缩编码的效率,也决定编码过程中信源符号的间隔，而这些间隔包含在０到１之间。

编码过程中的间隔决定了符号压缩后的输出。

基本思路:

用一个浮点输出数值代替一个流的输入符号;

把要压缩的整段数据映射到一段实数半开区间[0，1）内的某一区段，然后构造出小于ｌ且大于或等于0的一个数值，这个数值就是对该输入流进行压缩编码后的输出代码。

例如:

可将输入字符流“eａi”映射到区间[0.23,0.2３６），然后取该区间的任一个数,如０.23,作为该输入字符流的编码。

基本原理:

将编码的信息表示成实数０和１之间的一个间隔,信息越长，编码表示它的间隔就越小,表示这一间隔所需的二进制位就越多。

　　是一种二元码的编码方法。

在不考虑信源统计的情况下,只要监视一小段时间内码出现的频率，不管统计是平稳的或非平稳的,编码的码率总能趋近于信源熵值，每次迭代时的编码算法只处理一个数据符号，并且只有算术运算。

设编码初始化子区间为[0，1），Ｑe从0算起,则Ｐe=1-Qe。

随着被编码数据流符号的输入,子区间逐渐缩小。

新子区间的起始位置＝前子区间的起始位置+当前符号的区间左端×前子区间长度；

新子区间的长度=前子区间的长度×当前符号的概率（等价于范围长度）；

最后得到的子区间的长度决定了表示该区域内的某一个数所需的位数。

算术编码在编、译码的过程中,子区间的起始位置和长度值的小数点后的位数越来越长，实际中无法实现。

因此较实用的改进算法是限制小数点后的位数。

在算术编码中需要注意的几个问题:

（1）由于实际计算机精度不可能无限长,运算中溢出是明显的问题,但多数机器都有16位、３2位或者6４位的精度,因此可使用比例缩放法解决。

（２）　算术编码器对消息只产生一个码字,这个码字是在[0,1]中的一个实数，因此译码器在接受到表示这个实数的所有位之前不能进行译码。

（３）算术编码也是一种对错误很敏感的编码方法，如果有一位发生错误就会导致整个消息译错。

　　算术编码可以是静态的或者自适应的。

在静态算术编码中，信源符号的概率是固定的。

在自适应算术编码中,信源符号的概率根据编码时符号出现的频繁程度动态地进行修改，在编码期间估算信源符号概率的过程叫做建模。

需要开开发态算术编码的原因是因为事先知道精确的信源概率是很难的，而且是不切实际的。

当压缩消息时，我们不能期待一个算术编码器获得最大的效率,所能做的最有效的方法是在编码过程中估算概率。

因此动态建模就成为确定编码器压缩效率的关键。

特点：

①不必预先定义概率模型,自适应模式具有独特的优点；

②信源符号概率接近时,建议使用算术编码,这种情况下其效率高于Ｈuffman编码。

③算术编码实现方法复杂一些，但JPＥＧ成员对多幅图像的测试结果表明，算术编码比Hｕfｆman编码提高了５%左右的效率,因此在ＪPEG扩展系统中用算术编码取代Huffmaｎ编码。

四、预测编码

1、预测编码方法基本原理

　从相邻数据之间由强的相关性特点考虑，可以利用前面已经出现的数值，进行预测（估计）,得到一个预测值,将实际值与预测值求差，对这个差值信号进行编码、传送，这种编码方法即成为预测编码方法。

　不带量化器的ＤPCM线性预测编码，属于无失真编码系统;带有量化器的DPCM线性预测编码,属于有失真编码系统。

　最佳量化器的设计，可利用人眼的视觉可见度阈值和视觉掩蔽效应等生理特征,来确定量化器的级数和步距，使量化误差总处于人眼难以觉察的范围内,达到主观评定准则的要求。

自适应预测编码ＡDPCM：

自适应技术的概念是：

预测器的预测系数和量化器的量化参数,能够根据图像的局部区域分布特点自动调整。

实践证明,AＤPＣM编、解码系统与ＤPCM编、解码系统相比，不仅能改善恢复图像的评测质量和视觉效果,同时还能进一步压缩数据。

ADＰCM系统包括自适应预测,即预测系数的自适应调整和自适应量化,即量化器参数的自适应调整两部分内容。

五、变换编码

1、变换编码的基本原理

　利用图像块像素值之间的相关性，把图像变换到一组新的基上，使得能量集中到少数几个变换系数上，通过存储这些系数达到压缩的目的。

　　　本方法采用对整幅的原始图像分成许多个矩形区域子图像独立进行变换。

常用变换有:

卡亨南—洛维变换（KLT）

离散余弦变换（DCT）

沃尔什—哈达玛变换（WHT）

离散傅里叶变换（DFＴ）。

六、多媒体数据压缩编码的国际标准

由国际标准化协会IＳO、国际电信协会IEC和国际点心协会IＴＵ领导下,制定的三个有关视频图像压缩编码的国家标准：

JＰEG标准，H·２6１标准,MPEG标准。

1、静态图像压缩编码的国际标准（JPEG）

　　JPEG——联合图像专家小组标准，一种对静态图像压缩的编码算法。

联合”:

国际电报电话咨询委员会ＣCITT和国际标准化协会ISO联合组成的图像专家小组。

　JPＥＧ给出了一个使用于连续色调图像的压缩方法。

JPEG要求图像应达到目的的基本要求：

　达到或接近当前压缩比与图像保真度的技术水平,能覆盖一个较宽的图像质量等级范围,能达到“很好”到“极好”的评估,与原始图像相比,人的视觉难以分辨；

　能适用于任何种类的连续色调的图像,且长宽比都不受限制,同时也不受限于景物内容、图像的复杂程度和统计特性等。

　计算的复杂性是可控制的，其软件可在各种CPU上完成，算法也可用硬件实现。

JPEG算法,具有四种操作方式：

顺序编码——每一个图像分量按从左到右，从上到下扫描，一次扫描完成编码;

累进编码——图像编码在多次扫描中完成。

累进编码传输时间长,接收端收到的图像是图像是多次扫描由粗糙到清晰的累进过程；

无失真编码——保证解码后,完全精确地恢复源图像采样值,其压缩比低于有失真压缩编码方法;

分层编码——图像在多个空间分辨率进行编码。

在信道传送速率慢，接收端显示器分辨率也不高的情况下，只需做低分辨率图像解码。

基于DＣＴ编码的关键步骤为:

第一步:

分割子块

第二步:

对子块进行正向离散余弦变换FDCT；

第三步:

对获得的DCT系数进行量化处理;

第四步:

DC系数差分编码、AC系数行程编码;

第五步:

熵编码。

熵编码可分成两步进行,先把DC码和行程码转换为中间符号序列，然后给这些符号赋以变长码字。

ＪPEG建议的熵编码是Huｆfman编码和自适应二进制算术编码。

　　使用熵编码还可以对DPCM编码后的直流DC系数和RLＥ编码后的交流ＡC系数作进一步的压缩。

　在ＪPEＧ有损压缩算法中，使用霍夫曼编码器来减少熵。

使用霍夫曼编码器的理由是可以使用很简单的查表（lｏｏkuptａｂｌe）方法进行编码。

压缩数据符号时,霍夫曼编码器对出现频度比较高的符号分配比较短的代码，而对出现频度较低的符号分配比较长的代码。

这种可变长度的霍夫曼码表可以事先进行定义。

2、ＭPEＧ

　MPEＧ的全称是运动图像专家组——MoｖingＰictｕｒeExpeｒtsGroｕp

　　是专门制定多媒体领域内的国际标准的一个组织，该组织成立于１98８年，由全世界大约300名多媒体技术专家组成。

MＰEG标准简介

MＰEＧ标准是面向运动图像压缩的一个系列标准。

　　最初MPEG专家组的工作项目是3个，即在1.5Ｍbpｓ,lOＭbｐｓ，40Mbｐs传输速率下对图像编码，分别命名为MPEＧ-１，ＭＰEG-2，MPEG-3。

ｌ９９2年,MPEG-2适用范围扩大到HDTV，能支持MＰEＧ-3的所有功能,因而ＭＦEＧ-３被取消

ＭPEＧ－1标准：

　MPEＧ-１即“用于数字存储媒体运动图像及其伴音速率为1.5Ｍbps的压缩编码”。

MPEＧ－1的任务主要是，将视频信号及其伴音以可接收的重建质量压缩到约１.5Mｂｐs的码率,并复合成一个单一的ＭＰEG位流,同时保证视频和音频的同步。

ＭPEG-1标准分4个部分:

①MＰＥG系统：

定义音频、视频及有关数据的同步；

②MPEG视频:

定义视频数据的编码和重建图像所需的解码过程,亮度信号分辨率为3６0×240，色度信号分辨率为１80×１２０;

③ＭPEG音频:

定义音频数据的编码和解码;

④一致性测试。

MPＥG－１标准没有规定编码器和解码器的体系结构或实现方法,但提出了功能和性能上的要求。

　　　此外,MPＥG算法编码过程和解码过程是一种非镜像对称算法，也就是说运动图像的压缩编码过程与还原解码过程是不对称算法,解码过程要比编码过程相对简单。

实际上,ＭPＥＧ－1和MPEＧ-２只规定了解码的方案,重点将解码算法标准化。

因而用硬件实现MＰEG算法时，人们首先实现MPEＧ的解码器，如C—Cｕｂe公司ＣL4５0解码器系列。

MPEG音频:

　MPEG音频压缩算法是第一个高保真音频数据压缩国际标准,它同时可完全独立应用

MPEG音频标准具有如下特点:

（1）音频信号采样率可以是3２ｋHz,4４．１ｋHｚ或４８kHz;

（2）压缩后的比特流可以按４种模式之一支持单声道或双声道;

（3）压缩后的比特流具有预定义的比特率之一;

（4）MPEＧ音频标准提供３个独立的压缩层次；

（５）编码后的比特流支持循环冗余校验ＣRＣ；

（6）ＭＰEG音频标准支持在比特流中载带附加信息

MPEG数据压缩过程中存在的主要问题是：

（１）仅使用帧内编码方法无法达到很高的压缩比;

（２）用单一的静止帧内编码方法能最好地满足随机存取的要求。

具体实现中采用了一个折中解决方案,在MPEＧ算法中采用两种基本技术:

（１）基于块的运动补偿技术，目的是减少时间上冗余性；

（2）基于DＣT变换的AＤCT技术，以减少空间上冗余性。

（３）基于块的运动补偿技术——ＭPEＧ视频数据流的结构

MPEG将运动图像类型分为３种:

I图像

P图像

B图像

（１）I图像

利用图像自身的相关性压缩，提供压缩数据流中的随机存取的点，采用基于ADＣT的编码技术，压缩后，每个像素为1~2比特。

I图像也称帧内图,类似与JＰEＧ中的帧内编码。

（2）P图像

用最近的前一个I图像（或Ｐ图像）预测编码得到（前向预测），也可以作为下一次预测的参照图像，也称为预测图。

（3）B图像

B图橡在预测时,既可使用前一个图像作参照，也可使用下一个图像作参照或同时使用前后两个图像作为参照图像（双向预测），也称双图。

其预测方法采用4种技术：

（１）帧内编码;

（２）前向预测；

（３）后向预测；

（4）双向预测　

基于块的运动补偿技术：

运动补偿技术主要用于消除P图像和B图像在时间上的冗余性,提高压缩效率。

在MＰEG方案中,运动补偿技术在宏块一级工作。

所谓基于块的运动补偿技术即：

（1）在参照帧中寻找符合一定条件限制、当前被预测块的最佳匹配块；

（2）当找到匹配块后,在恢复被预测块时，采用两种处理方法：

直接用匹配块代替;

用匹配块加上预测误差（预测误差采用ＡDＣT编码）。

每个包含运动信息的16×16宏块,相对于前面相邻块的运动信息作差分偏码,得到运动差值；然后对运动差值,使用变长码编码方法,进一步压缩数据。

注意:

ＭPＥＧ标准只说明了怎样表示运动信息,并没有说明运动矢量如何计算。

MPＥＧ－2标准:

　　MPEG-2标准从１99０年开始研究,1993年IＳO汉城会议正式通过。

它是一个直接与数字电视广播有关的高质量图像和声音编码标准。

ＭＰEG-2可以说是ＭPEG－1的扩充,因为它们的基本编码算法都相同。

但MPＥG-2增加了许多ＭPＥＧ-１所没有的功能，例如增加了隔行扫描电视的编码，提供了位速率的可变性能（scalability）功能。

ＭPEＧ－2要达到的最基本目标是:

位速率为4～9　Mｂit/ｓ,最高达15Mｂｉｔ/s。

MPEG-2的标准号为ISO/IEC1３8１8,标准名称为“信息技术—电视图像和伴音信息的通用编码

MＰＥG－2标准的主要内容如下：

（１）MPEG—2视频利用网络提供的更高的带宽（1.5Ｍbｐｓ以上），来支持具有更高分辨率图像的压缩和更高的图像质量；

（２）为了适应不同应用的要求,保证数据的可交换性，定义了不同的功能档次,每个档次又分为几个等级

（3）编码器的设计有较大的自由度

（4）MPＥG-2定义了1１种规范，以保证与MＰEG-1向下兼容及广播、通信、计算机、家用视听设备的需求;

（5）ＭPEG-2音频向后与ＭPＥG—1音频兼容。

　MPEＧ-2的编码方法和MPEG-l的区别主要是在隔行扫描制式下，DCT变换是在场内还是在帧内进行由用户自行选择,亦可自适应选择。

一般情况下，对细节多、运动部分少的图像在帧内进行DＣＴ；而细节少、运动分量多的图像在场内进行DＣＴ。

MＰEG—2采用可调型和非可调型两种编码结构,且采用两层等级编码方式。

　ＭPEG2视频体系要求必须保证与ＭＰEG1向下兼容，并同时力求满足数字存储媒体、会议电视/可视电话、数字电视、高清晰度电视（HDTV）、广播、通信、网络等应用领域对多媒体视频、音频通用编码方法日益增长的新需求。

如分辨率有低、中、次高、高不同档次,压缩方法从简单到复杂有不同级别等。

ＭPＥＧ4标准:

MＰＥG４Ｖｉdeo算法的核心是支持内容基（contｅnt-ｂased）的编码和解码功能,也就是对场景中使用分割算法抽取的单独的物理对象进行编码和解码。

概念：

ＶideｏObjｅcｔPlane，VＯP　

Vｉdeo　Objects,ＶＯ

连续的VＯP组成VO。

ＭＰＥG７标准:

　　MＰEG提出了解决方案MＰEG－７。

该工作于19９8年提出,在2001年初最终完成。

ＭPEG－7将对各种不同类型的多媒体信息进行标准化描述,以实现快速有效的搜索。

该标准不包括对描述特征的自动提取,也没有规定利用描述进行搜索的工具或任何程序。

其正式称谓是“多媒体内容描述接口”。

MＰEG－7可独立于其它ＭＰEG标准使用,但MＰEG－4中所定义的对音、视频对象的描述适用于MPEG-７,这种描述是分类的基础。

另外我们可以利用MPＥG－7的描述来增强其它MPEＧ标准的功能。

准确说来,MPEG－７并不是一种压缩编码方法，而是一个多媒体内容描述接口。

继　MPEG-４　之后，要解决的矛盾就是对日渐庞大的图像、声音信息的管理和迅速搜索。

MＰEG7就是针对这个矛盾的解决方案。

MPEG－７　力求能够快速且有效地搜索出用户所需的不同类型的多媒体影像资料,比如在影像资料中搜索有长江三峡镜头的片段。

这个方案于２００１年初最终完成并公布。

总体来说,MPEＧ　有三方面的优势：

首先，它是做为一个国际化的标准来研究制定的，所以，具有很好的兼容性。

其次,MＰEG能够比其他算法提供更好的压缩比，最高可达2０0：

1。

更重要的是，MＰEG在提供高压缩比的同时，对数据的损失很小。

与同样是音频压缩标准的AC系列标准相比，MPEG标准系列由于不存在专利权的问题，它更适合于大力推广。

MＰEG－1使得VCD取代了传统的录像带；而MＰEＧ－2将使数字电视最终完全取代现有的模拟电视;随着MPEG-4和MＰEG－７新标准的不断推出,数据压缩和传输技术必将趋向更加规范化。

展开阅读全文