多媒体数据压缩编码的国际标准文档格式.docx
《多媒体数据压缩编码的国际标准文档格式.docx》由会员分享,可在线阅读,更多相关《多媒体数据压缩编码的国际标准文档格式.docx(32页珍藏版)》请在冰豆网上搜索。
一.量化原理
量化处理是使数据比特率下降的一个强有力的措施。
数据压缩编码中的量化处理,不是指A/D变换后的量化,而是指以PCM码作为输入,经正交变换、差分、或预测处理后,熵编码之前,对正交变换系数、差值或预测误差的量化处理。
量化输入值的动态范围很大,需要以多的比特数表示一个数值,量化输出只能取有限个整数,称作量化级,希望量化后的数值用较少的比特数便可表示。
每个量化输入被强行归一到与其接近的某个输出,即量化到某个级。
量化处理总是把一批输入,量化到一个输出级上,所以量化处理是一个多对一的处理过程,是个不可逆过程,量化处理中有信息丢失,或者说,会引起量化误差(量化噪声)。
二.标量量化器的设计
1.量化器的设计要求
●给定量化分层级数,满足量化误差最小。
●限定量化误差,确定分层级数,满足以尽量小的平均比特数,表示量化输出。
三.量化方法:
●标量量化:
对于PCM数据,一个数一个数地进行量化叫标量量化。
分为:
均匀量化、非均匀量化和自适应量化。
四.矢量量化
1.矢量量化概念:
对PCM数据分组,每组K个数构成一个K维矢量,然后以矢量为单元,逐个矢量进行量化,称矢量量化。
矢量量化编码方法是有失真编码方法。
4.3统计编码
一.统计编码原理——信息量和信息熵
1.概念:
(1)信息:
是用不确定性的量度定义的。
(2)信息量:
从N个相等可能事件中选出一个事件所需要的信息度量或含量。
(3)熵:
如果将信源所有可能事件信息量进行平均就得到信息的熵(熵就是平
均信息量)。
(4)信源均含有的平均信息量(熵),就是进行无失真编码的理论极限。
(5)信源中或多或少的含有自然冗余。
(6)信息源X的熵为H(X):
式(4.2)
二.哈夫曼编码
1.变字长编码定理:
最佳编码定理
在变字长编码中,对于出现概率大的信息符号,编以短字长的码,对于出现
概率小的信息符号编以长字长的码,如果码字长度严格按照符号概率的大小的
相反顺序排列,则平均码字长一定小于按任何其他符号顺序排列方式得到的码
字长度。
证明:
(P108)
2.Huffman编码方法用变字长最佳编码定理
(1).把信源符号按概率大小顺序排列,设法按逆次序分配码字的长度。
(2).在分配码字长度时,将出现概率最小的两个符号的概率相加合成一个概率。
(3).把这个合成概率看成是一个新组合符号地概率,重复上述做法直到最后只剩下
两个符号概率为止。
(4).完成以上概率顺序排列后,再反过来逐步向前进行编码,每一次有三个分支各赋予
一个二进制码,对概率大的赋为零,概率小的赋为1。
3.Huffman编码步骤
(1)信源符号按概率大小顺序排列,按逆次序分配码字的长度。
(2)出现概率最小的两个符号概率相加合成一个新概率。
(3)将合成概率看成一个新组合符号概率,重复上述做法,直到最后只剩下两个符
号概率为止。
(4)反过来逐步向前编码,每层有两个分支,分别赋予0和1,构成Huffman码字。
总结:
●Huffman编码构造出的码不唯一
●Huffman编码字长参差不齐
●Huffman编码在信源编码概率分布不均匀时效率高,
效率比较均匀时,效率低,不用Huffman编码。
●对出现频率较高的码分配短码字;
对出现频率较低的码分配长码字。
三.算术编码
1.原理:
算术编码方法是将被编码的信息表示成实数0和1之间的一个间隔。
信息越长编码表示它的间隙就越小,表示这一间隙所须二进位就越多,
大概率符号出现的概率越大对应于区间愈宽,可用长度较短的码字表示;
小概率符号出现的概率越小对应于层间愈窄,需要长度较长的码字表示。
信息源中连续的符号根据某一模式生成概率的大小来减少间隔。
可能出现的符号要比不太可能出现的符号减少范围少,因此只增加了较少的比特位
2.自适应二进制算术编码
(1)编码算法举例
设编码初始化子区间为[0,1]设大概率MPS,Pe小概率LPSQe
Pe=1-Qe
编码时,设置两个专用寄存器(C,A)
初始时:
令
C寄存器的值为子区域的起始位置
A寄存器的值为子区域的宽度
(该宽度恰好是已输入符号串的概率)
初始化时:
C=0A=1
随着被编码数据源输入,C和A的内容按以下规律修正:
当低概率符号LPS到来时:
C=C
A=AQe
当高概率符号MPS到来时:
C=C+AQe
A=APe=A(1-Qe)
(2)解码算法举例
解码:
按QePe分成两个子区间,判断被解码的码字落在哪个区间,并赋予对应符号:
设c’=(0.0101)b是被解码的值
初始值:
A=1Qe=0.001
当c’落在0-QeA之间,解码符号为D=0;
C’=C’
A=QeA;
当c’落在QeA-A之间,解码符号为D=1;
C’=C’-QeA;
A=A(1-Qe)
算术解码原理图P114
得解码为11011111同编码输入
●算术编码的特点:
(1).不需要码表;
(2).当信源概率比较接近时,建议使用算术编码。
(3).JPEG成员对多幅图进行算术编码效率可以提高5%。
JPEG扩展系统用算术编码代替Huffman。
4.4预测编码
一.预测编码的基本概念
预测编码是统计冗余数据压缩理论的三个重要分
支之一,用预测编码减少数据时间和空间的相关性。
二.预测编码基本原理
预测编码方法分类
●线性预测编码:
DPCM
●非线性预测编码
1.DPCM差分脉冲编码调制
DPCM编/解码原理图P116
2.ADPCM自适应预测编码
这种编码方法中,量化器的步长和预测器的参数均能根据图象的局部特征作自
适应的调整。
ADPCM分成两类
1).线性自适应预测器
2)非线性自适应预测器
引进几个和临近象素有关的值,入i和di非线性改变预测的数。
所以,叫非线性的自
适应预测。
采用四点预测
三.帧间预测编码
对于序列图象,把几帧的图象存起来(大规模集成电路技术的发展)使用帧
间相关性进一步消除图象信号的冗余度,提高压缩比。
●帧间压缩方法:
条件补充法
条件次取样法。
运动补偿
帧间预测
1.条件补充法
条件象素补充法规定:
若帧间各对应象素的亮度差超过阈值,则把这些象素存到缓存区中,
并以恒定传输速度传输,而阈值以下的象素则不传送,在接收端中用上一帧相应的象素代替。
在可视电话中用条件补充法传送的象素只占全部象素的6%左右。
2.条件次取样法
条件补充法和内插法相结合叫条件次取样法。
具体做法:
在时间轴采用次取样(两个取一个就是次取样)对于未取样的当前场的
某点可以采用隔场的四邻点亮度的均值,作为该点亮度的预测值。
条件补充:
S0=1/4(SA+SB+SC+SD)内
插预测值与实际值之差小于阈值后就不传。
3.运动补偿
(1)运动估计有下述三种方法:
●块匹配法:
以象素块为准进行运动估计。
●象素递归法:
以象素为准进行递归的运动估计。
●傅立叶变换法
1)块匹配法
将图象分成M*N个矩形块。
在(M+2Wx)*(N+2Wy)范围内进行搜索以求得最优匹配,从而求得运动矢量估值(dx,dy)
A.匹配算法
●归一化相关函数NCCF
●均方误差MSE
●帧间绝对差MAD
B.搜索方法:
●穷尽搜索法
●二维对数法(TDL)
●三步搜索法(TTS)
●交叉搜索法(CSA)
4.帧间预测,采用DPCM
(Ymn)N和(Ymn)N-1变化很小。
统计结果表明:
广播电视节目只有10%以内的象素有变化。
Y有2%的变化;
UV有千分之十以内的变化。
Xmn-Xmn=emn只传差值
4.5变换编码
一.变换编码的特点
利用预测编码可以去除图象数据的时间和空间的冗余。
它的优点是直观、简捷、
易于实现,特别是用于硬件实现。
但压缩能力有限,DPCM一般只能压缩到2~4bit/像素。
变换编码是进行一种函数变换,映射变换从信号域变换到另一个信号域。
例:
有两个相邻采样值X1和X2,每一采样值用3bit编码,因此有8个幅度等级,
两个为:
8*8=64种。
见P122(b)
变换编码的系统构成:
二.变换种类
•K-L变换
•离散傅立叶变换
•离余弦变换
•WALSH变换
•Har
4.5.2K-L变换
•它是以统计特性为基础的,也称为特征向量变换。
•最优的正交变换:
特征向量矩阵向量指向数据变化最大的方向。
•缺点:
计算过程复杂,变换速度慢。
一.协方差矩阵
(4.18)
(4.22)
(4.23)
二.离散K-L变换表达式
特征值和特征向量定义:
设A是n阶方矩,如果有数入和n维非零向量x,使得:
AX=入x
则称:
入为A的特征值;
x为A对应于特征值入的特征向量。
(4.29)
(4.32)
(4.38)
结论:
●Y向量的平均向量为0,直流分量为0。
●Y的协方差矩阵:
协方差等于0
方差对角线按减序排列
4.5.3离散余弦变换(DCT变换)
一.二维离散傅立叶变换
正变换(4.56)
逆变换(4.57)
4.6.多媒体数据压缩编码的国际标准
4、6视频图像压缩编码的国际标准:
●JPEG标准
●H.261标准
●MPEG标准
1.1986年成立了联合图片专家组。
JPEG—JointPhotographicExpertsGroup
主要制定静态图像帧内压缩编码
2.CCITT第XV研究所
1984年成立了可视电话编码专家组。
1988年,提出了H.261标准视频编码器的建议。
满足ISDN日益增长的需要可适用于可视电视和视频电话会议。
3.1988年成立了MPEG-MOVINGPICTUREEXPERTGROUP。
4.6.1JPEG标准压缩编码算法及其实现技术
JPEG标准定义了两种基本压缩算法:
(1).基于DCT变换有失真的压缩算法。
(2).基于空间预测编码DPCM的无失真压缩算法。
一.无失真的预测编码
无失真编码器
(1).预测器
(2).熵编码器
二.基于DCT的有失真压缩编码
●两种不同性能的层次
基本系统
增强系统
●自适应算法编码框图:
P136-4.25
P136-4.26
1.离散余弦变换(DCT)
JPEG采用8*8二维离散余弦变换。
DCT分成8*8小块。
8*8FDCT和IDCT表达式如下:
P136-(4.58)、(4.59)
2.量化:
均衡量化器其量化间隔是等长的
非均衡量化器其量化间隔是不等长的
自适应量化器其量化间隔是随传送数据而变
为了达到压缩的目的,对DCT系数进行量化处理,JPEG利用线性均匀量化器,多到
一的映射产生误差。
FQ(u,v)=IntegerRound(F(u,v)/Q(u,v))
Q(u,v)是量化器步长,随位量和彩色分量不同。
FQ(u,v)=FQ(u,v)*Q(u,v)
●量化特性P137-4.27
●量度量化表
●色度量化表
3.熵编码
对于DC和AC行程码,再作基于统计特性的熵编码。
分两步进行:
1)把DC码和AC行程码转换成中间符号序列。
2)对这些符号序列赋以变长的码字。
(1)中间格式由两个符号组成:
符号1,行程,尺寸(分组)
符号2,幅值
(2)可变长熵变码
63个AC系数表示符号1
符号2
零行程长度超过15,有多个符号1
块结束EOB只有符号1(00)
P140-表4.5
例题:
设某亮度子块的序列如下
zz(k)
K012345-789-303132-63
系数125-202010-10
按JPEG基本系统编码给出该子块的编码。
∙符号2的编码规则:
正数
负数
●结论:
1.零不需编码。
2.正数编码为原码,且高位为“1”(码长为最高位为1)。
3.负数为该数绝对值的反码,且高位为“0”(码长同其绝对值码长一致)。
在由程序实现时,负数的编码只须“负数=负数-1”,然后直接取低位。
4.6.2MPEG压缩编码标准
一.引言
1988-1992提出标准化方案。
1991年11月提出草案,1992年通过ISO/SEC11172
JPEG和MPEG同属于一个工作组。
1993年11月通过ISO/IEC138181995年5月15日正式通过。
1.MPEG-1和MPEG-2特点:
1)MPEG-1:
三百多线*三百多线,适合家庭或终端用,标准不太高,演播级。
传输率1.5Mbit/s
MPEG-2:
最高两千多线*两千多线,可适合HDTV,共有15个标准,我国采用了四个。
传输率1.5Mbit/s-100Mbit/s
2.MPEG标准包括四个部分:
MPEG系统
MPEG视频
MPEG音频
MPEG测试(检测)
二.MPEG数据流结构
数据流
视频流(运动序列)有:
序列头、一组或多组图像序列、序列尾。
1.序列头
序列头码32bit
水平大小12bit
垂直大小12bit
像素的长宽比4bit
图像速率(传输率)4bit
位码率4bit
结束码32bit
2.一组或多组图像序列
●图像组:
由一系列图像组成,这些图像可以从运动序列中随机抽取。
●图像:
一个图像(静止图像)由三个部分组成
一个亮度信号Y
两个色差信号UV
●图像切片:
一个或多个宏块组成。
切片中宏块的顺序由左到右,由上到下,如果有误差跳到下一个切片位置,使用越多的切片,误差的隐蔽性就越好。
●宏块:
一个宏块由四个亮度块,两个色度块组成(U一个,V一个)。
一个16*16亮度信息,8*8色度信息。
●块:
8*8亮度,8*8色度
MPEG视频位流分层图结构P157图4.37
三.帧间编码技术
MPEG将图像分成三种类型:
1.I图像(IntraPicture)
I图像(I帧)就是静态图像,用JPEG帧内压缩的方法得到,压缩比适度。
2.P图像(PredictedPicture)预测图
P图像(P帧)由最近的I帧或P帧经过预测编码得到。
称为前向预测,可以作为下一个B或P参照图像。
3.B图像(BidirectionalPicture)双向预测图
B图像(B帧)可以使用前一个和后一个图像作参考图像,也可以使用前后
两个参考图像。
(双向预测)
帧间编码
前向编码
后向编码
双向预测
●帧间编码P154-4.31
●运动视频流的组成
四.运动补偿技术
主要用于消除P.B图像在时间上的冗余,提高压缩效率是在宏块一级。
1.四种类型的宏块
I块帧内宏块
F块前向预测宏块
B块后向预测宏块
A块平均宏块(内插宏块、双向预测宏块
2.三种类型的图像:
I图像
B图像
P图像
3.求运动矢量要解决两个问题
1)匹配算法:
归一化函数(4.15)
均方误差(4.16)
帧间绝对差(4.17)
2)搜索方法
穷尽搜索法MAD
二维对数法TDL采用MSE均方误差
三步搜索法9个点/步MSE均方误差
采用绕参考点逐渐向外生长的方式:
五.帧内编码技术
帧内编码技术与JPEG相同。
4.6.3MPEG-2国际标准
1.MPEG-2与MPEG-1的区别:
可支持多种采样格式:
逐行,隔行。
支持恒速率和变速率两种格式。
支持对比特流的编辑。
MPEG-2是MPEG-1的扩展,丰富,完善。
MPEG-2从1.5M—100M分成了很多的Profile,具有可扩充性(Scalable).
2.MPEGII视频数据流
采用分层编码技术:
每个视频节目接不同的空间分辨率和帧速率;
MPEG采用可扩展性编码的办法
逐步嵌入若干层结构,解码时可以得到不同时间、空间分辨率的视频信号。
3.MPEG2提供四种工具:
1)空间可扩展性
金字塔编码技术
低通滤波器基本层比特流STV
预测层HDTV
2)时间可扩充性
可以跨过某些帧,形成基本图象与MPEG-1兼容。
隔行15帧/秒
逐行60帧/秒
3)信噪比可扩展性
量化
第一次量化
第二次量化
4:
2:
04:
2
4)数据划分
优先级不同的比特流
(1).头信息,运动矢量,量化参数,低频DCT系数放到高优先级
(2).将高频DCT级数转到低优先级
4.6.4MPEG-4标准介绍
1.MPEG-4主要特点:
(1)MPEG-4的编码是基于对象的,这样就便于操作和控制对象;
可以实现许多基于内容的交互性功能,主要用于基于内容的多媒体数据存取、游戏或多媒体家庭编辑、网上购物和电子商店、远程监控、医疗和教学等。
(2)MPEG-4在扩展性上具有很好的灵活性,可进行时域和空域的扩展(兼容MPEG-2扩展功能);
主要用于互联网和无线网等窄带的视频通讯、多质量视频服务和多媒体数据库预览等服务。
(3)MPEG-4的编码具有鲁棒性和纠错功能。
主要用于在移动通信的易错通讯环境下实现安全的低码率编码和传输,采用再同步、数据恢复、错误隐藏等三种策略。
2.MPEG-4编码方法
1)MPEG-4中的数据结构类
有四个层次的数据结构,以类的形式定义:
●VS(VideoSession):
是包含其它三个类的一个类,一个完整的视频序列可以由几个VS组成。
●VO(VideoObject):
是场景中的某个物体,它是有生命期的,由时间上连续的许多帧构成。
●VOL(VideoObjectLayer):
VO的三种属性信息编码于这个类中,这个类的引入主要用来扩展VO的时域或空域分辨率。
●VOP(VideoObjectPlane):
可以看作是VO在某一时刻的表象,即某一帧VO。
以上四个类的关系可以用下图表示:
MPEG-4中形状编码P167图4.51
VOP侦编码类型P167图4.52
VM中的数据结构类分级图P168图4.54
3.MPEG-4在视频编码技术方面的改进
(1)MPEG-4采用基于对象的编码、基于模型的编码等第二代编码技术,提高编码效率;
(2)Sprite编码技术应用;
Sprite编码方法分为三种:
1)静态Sprite编码(Off-line)
Sprite在编码之前生成,解码时使用指定的运动参数直接将sprite变形(Warp)得到重构的VOP,原始VOP和重构的VOP之间的残差并不编码。
2)Sprite编码(On-line)
在编码过程中动态生成Sprite,对于利用Sprite参考后的残差进行编码。
3)局运动补偿(GMC)
在编码过程中不生成Sprite,只是将前一帧当成Sprite,对于利用Sprite参考后的残差进行编码。
4.MPEG-4现状
(1)MPEG-4标准从1993年开始制定;
(2)MPEG-4标准1.0已于1999年1月正式公布,标准2.0版本的FDIS也在1999年12月MPEG大会通过;
(3)MPEG-4的某些领域的扩展工作仍在进行。
4.6.5MPEG-7标准介绍
1.MPEG-7产生背景
2.MPEG-7目标
3.MPEG-7的应用领域