多媒体论文Word文件下载.docx
《多媒体论文Word文件下载.docx》由会员分享,可在线阅读,更多相关《多媒体论文Word文件下载.docx(15页珍藏版)》请在冰豆网上搜索。
1948年,Shannon在提出信息熵理论的同时,也给出了一种简单的编码方法——Shannon编码。
1952年,R.M.Fano又进一步提出了Fano编码。
这些早期的编码方法揭示了变长编码的基本规律,也确实可以取得一定的压缩效果,但离真正实用的压缩算法还相去甚远。
D.A.Huffman在1952年的论文“最小冗余度代码的构造方法(AMethodfortheConstructionofMinimumRedundancyCodes)”中提出第一个实用的编码方法。
1968年前后,P.Elias发展了Shannon和Fano的编码方法,构造出从数学角度看来更为完美的Shannon-Fano-Elias编码。
沿着这一编码方法的思路,1976年,J.Rissanen提出了一种可以成功地逼近信息熵极限的编码方法——算术编码。
1982年,Rissanen和G.G.Langdon一起改进了算术编码。
之后,人们又将算术编码与J.G.Cleary和I.H.Witten于1984年提出的部分匹配预测模型(PPM)相结合,开发出了压缩效果近乎完美的算法。
今天,那些名为PPMC、PPMD或PPMZ并号称压缩效果天下第一的通用压缩算法,实际上全都是这一思路的具体实现。
迄今为止,人们已经陆续实现了静态模型、半静态模型、自适应模型、Markov模型、部分匹配预测模型等概率统计模型。
相对而言,编码方法的发展历程更为曲折一些。
4数据压缩技术的必要性和可行性
4.1多媒体数据的必要性
信息时代,人们对使用计算机获取信息、处理信息的依赖性越来越高。
多媒体信息网与信息中心的主要任务是实时地综合处理图、文、声等信息。
要使多媒体通信的理想变为现实,必须在宽带网络和数据压缩等关键技术上取得重大突破。
由于多媒体通信是一种综合业务数字通信,它要求通信网络能提供宽带宽、高质量和高智能,这正是宽带网络技术和宽带综合业务数字网(B-ISDN)要实现的目标。
而数据压缩技术是多媒体通信中的核L-技术之一,是多媒体通信得以普及和发展的重要基础。
多媒体计算机系统面临的是数值、文字、语言、音乐、图形、动画、静止图像、电视视频图像等多种媒体承载的、由模拟量转化成数字量、信息的吞吐、存储和传输的问题。
主要应用于电信、卫星通讯、电影制造、有线电视、游戏动画、DVD等领域。
计算机中的所有信息(包括音频、视频等)都是以数字形式存储和传输的,数字化了的视频和音频信号的数量之大是惊人的,未经压缩的数据信息通常要占据巨大的存储空间,与硬件技术所能提供的计算机存储资源和网络带宽之间有很大差距。
这样,对多媒体信息的存储和传输造成了很大困难,成为阻碍人们有效获取和利用信息的一个瓶颈问题。
多媒体信息使用的前提是进行有效的压缩。
例如,一幅640×
480的256色(8位)图像的数据量约为300KB,65536色(16位)图像的数据量约600KB,而一分钟CD音质的音频文件一般需要IMB左右的存储空间,至于由成百上千帧彩色图像和几十分钟音频信息所组成的视频文件,其巨大的数据量更是令计算机的存储设备和数据处理能力捉襟见肘,如影像要求每秒播放25-30帧图像。
对于640×
480的256色全活动图像,要求达到每秒7.5--9MB的数据处理能力,而对于真彩色视频信息,则数据量将更大。
如此庞大的数据量,如果不进行压缩,则给多媒体信息的传输、存贮以及读出造成了难以克服的困难。
即使宽带网络能提供这么宽的带宽·
其传输也是非常不经济的。
因此,在音、视频信息的处理及应用过程中,必须对这些多媒体信息进行数据压缩,从而降低数据量和所要求的传输带宽及存储容量,使之适应计算机的数据处理能力和网络的数据传输速率,同时尽可能保证其视听质量不低于人们的一般接受水平。
4.2多媒体数据压缩的可行性
多媒体数据之所以能够压缩,是因为视频、图像、声音这些媒体具有很大的压缩潜力,也就是这些信息之间存在大量的数据冗余。
以目前常用的位图格式的图像存储方式为例,像素与像素之间无论是在行方向还是在列方向都具有很大的相关性.因而整体上数据的冗余度很大。
在允许一定限度失真的前提下,能够对图像数据进行很大程度的压缩。
常见的数据冗余分类
(1)空间冗余
空间冗余是静态图像中存在的最主要的一种数据冗余。
同一景物表面上采样点的颜色之间往往存在着空问连贯性.但是基于
离散像素采样来表示物体颜色的方式通常没有利用这种连贯性。
例如:
图像中有一片连续的区域,其像素为相同的颜色.空间冗余产生。
(2)时间冗余
时间冗余是序列图像中经常包含的冗余。
一组连续的画面之间往往存在着时间和空间的相关性。
但是基于离散时间采样来表示运动图像的方式通常没有利用这种连贯性。
房间里的两个人在聊天,在这个聊天的过程中,背景(房间和家具)一直是相同的,同时也没有移动,而且是同样的两个人在聊天,只有动作和位置的变化。
(3)结构冗余
结构冗余是在某些场景中,存在着明显的图像分布模式。
这种分布模式称作结构。
图像中重复出现或相近的纹理结构,结构可以通过特定的过程来生成。
方格状的地板,蜂窝,砖墙,草席等结构图上存在冗余。
已知分布模式,可以通过某一过程生成图像。
(4)视觉冗余
视觉冗余是人类的视觉系统对图像场的敏感性是非均匀和非线性的。
对亮度变化敏感,丽对色度的变化相对不敏感;
在高亮度区,人眼对亮度变化敏感度下降;
对物体边缘敏感,内部区域相对不敏感;
对整体结构敏感,而对内部细节相对不敏感。
可以根据这些视觉特性对图像信息进行取舍。
5数据压缩方法的分类
自1948年Oliver提出脉冲编码调制(PCM)编码理论以后,人们已经研究了各种各样的多媒体数据压缩方法。
若对数据压缩方法分类,从不同的角度会有不同的分类结果。
按照压缩方法是否产生失真可将压缩方法分为无损压缩和有损压缩。
根据压缩的原理划分为:
预测编码、变换编码、量化与向量量化编码、信息熵编码、模型编码。
5.1按照压缩方法是否产生失真分类
5.1.1无损压缩
无损压缩是利用数据的统计冗余进行压缩,可完全回复原始数据而不引起任何失真,但压缩率是受到数据统计冗余度的理论限制,一般为2:
1到5:
l这类方法广泛用于文本数据.程序和特殊应用场合的图像数据(如指纹图像,医学图像等)的压缩。
由于压缩比的限制,仅使用无损压缩方法是不可能解决图像和数字视频的存储和传输的所有问题。
经常使用的无损压缩方法有Shannon—Fano编码,Huffman编码,游程(Run—length)编码,LZW(Lempel-Ziv—Welch)编码和算术编码等。
5.1.2有损压缩
有损压缩利用了人类视觉和听觉器官对图像或声音中的某些频率成分不敏感的特性,允许在压缩过程中损失一定的信息:
虽然不能完全恢复原始数据,但是所损失的部分对理解原始图像或声音的影响较小,却换来了大得多的压比.有损压缩广泛应用于语音、图像和视频数据的压缩。
常用的有损压缩方法有:
PCM(脉冲编码调制)、预测编码、变换编码(主要是离散余弦变换方法)、插值和外推法(空域亚采样、时域亚采样、自适应)等。
5.2按照压缩方法的原理分类
根据编码原理进行分类,大致有预测编码、变换编码、量化与向量量化编码、信息熵编码、子带编码、模型编码。
5.2.1预测编码
它是基于线性原理的编码。
主要用于对数据冗余进行压缩。
由于图像中相邻像点的相关性较强,若其中一点已经被编码,便可预测并估计相邻点像的编码模式。
通常用的方法有差分脉冲编码调制(DPCM)和自适应差分脉冲编码调制(ADPCM).
(1)差分脉冲编码调制(DPCM)
DPCM的基本原理是基于图像中相邻像素间之间有较强的相关性。
每个像素可以通过以前已知的几个像素来做预测。
因此在预测编码中,编码和传输的并不是像素采样值本身,而是这个采样值的预测值与其真实值之间的差值。
(2)自适应差分脉码调制(ADPCM)
为了进一步改善量化性能或压缩数据率,可采用自适应量化或自适应预测的方法.只要采用了其中的任一种自适应方法,均称为ADPCM。
预测参数的最佳化依赖于信源的统计特性,要得到最佳的预测参数是一件繁琐的工作而采用固定的预测参数往往又得不到好的性能.
5.2.2变换编码
预测编码主要在时域上进行,变换编码则利用频域中能量较集中的特点,在频域(变换域)中进行。
输入图像经正交变换到频域空间,像素之间相关性下降,能量集中在变换域中少数变换系数上,已经达到了数据压缩的效果。
为了进一步提高压缩效果,可对变换系数中那些幅度大的元素予以保留,其他幅度小的数量大的变化系数,全部当做零不予编码,在辅以非线性量化,还可以进一步压缩图像数据。
由于量化器存在,量化后变换系数与量化前的变化系数之间必然存在量化误差。
变换编码的一个特点是把图像分割成合适尺寸的块,在对每块进行变换编码。
5.2.3信息熵编码
信息熵编码又称统计编码,它是根据信源符号出现的概率的分布特性而进行的压缩编码。
其目的在于信源符号和码子之间建立明确的一一对应关系,以便在恢复时能准确地在现原信号,同时要使平均码长或码率尽可能小。
(1)Huffman编码
在变长编码中对出现概率大的信源符号赋予短码字,而对于出现概率小的信源符号赋予长码字。
如果码字长度严格按照所对应符号出现概率大小的逆序排列,则编码结果平均码字长度一定小于任何其他排列方式。
Huffman编码的特点:
当信源符号概率是2的负幂次方时,Huffman编码效率达到100%.一般情况下,它的编码效率要比其它编码方法的效率高,是最佳变长编码.Huffman码依赖于信源的统计特性,必须先统计得到信源的概率特性才能编码,这就限制了实际的应用.通常可在经验基础上预先提供Huffman码表,此时性能有所下降。
(2)算术编码
算术编码把一个信源集合表示为实数线上的0到1之间的一个区间,这个集合中的每个元素都要用来缩短这个区间。
信源集合的元素越多,所得到的区间就越小,当区间变小时,就需要一些更多的数位来表示这个区间,这就是区间作为代码的原理,算术编码首先假设一个信源的概率模型,然后用这些概率来缩小表示信源集的区间。
算术编码的特点:
一是它不必预先定义概率模型,自适应模型具有独特的特点;
二是信源符号概率接近时,使用算术编码的效率高于Huffman编码。
5.2.4量化与向量量化编码
对模拟信号进行数字化时,要经历一个量化的过程。
为了使整体量化失真最小,就必须依照统计的概率分布设计最优的量化器。
最优量化器一般是非线性的,已知最优量化器是Max量化器。
我们对像元点进行量化时,除了每次仅量化一个点的做法外,也可以考虑一次量化多个点的做法,这种方法称为向量量化。
例如每次量化相邻的两个点,将两个点用一个量化码字表示。
向量量化的数据压缩能力实际上与预测方法相近。
5.2.5自带编码
将图像数据变换到频域后,按频域分带,然后用不同的量化器进行量化,从而达到最优的组合。
或者分步渐近编吗,在初始时,对某一频带的信号进行解码,然后逐渐扩展到所有频带。
随着解码数据的增加,解码图像也逐渐变得清晰。
5.2.6模型编码
编码时首先将图像中的边界、轮廓、纹理等结构特征找出来,然后保存这些参数信息。
解码时根据结构和参数信息进行合成,恢复原图像。
具体方法有轮廓编码、域分割编码、分析合成编码、识别合成编码、基于知识的编码和分形编码等。
6多媒体数据压缩标准
衡量多媒体数据压缩技术的主要标准是:
压缩比例和失真率;
压缩比越高,失真率越小,则越好。
为了使不同厂商的产品具有兼容性,各国都十分重视建立通用的数据压缩标准。
国际上制定了很多数据压缩标准,主要可分为三大类:
静态图像压缩标准JEPG,音频压缩标准,以及视频压缩标准。
6.1静态图像压缩标准JEPG
静止图像压缩标准ISO和CCITT于1986年底成立了“联合图片专家组”,简称为JPEG,研究连续色调(包括灰度和彩色)静止图像压缩的国际标准。
到1987年3月,JPEG共收到12种候选方案。
1987年6月使用4幅图像进行了广泛的客观测试,从中选出了三种初选方案。
其中,由ESPRITPICA组提出的ADCT方案最佳,另两种初选方案是基于DPCM的自适应算术编码和递增分层编码。
从1988年至1990年,JPEG进行了大量的改进工作后,于1991年4月形成了ISOCD10918号标准草案。
JPEG标准草案(DIS)包括两部分,部分1为要求和指标,描述连续色调静止图像编码和解码过程的要求和要实现的指标,以及用于应用间交换压缩图像数据的编码表示(即交换格式)。
这些过程和表示是通用的,可适用于很广的应用范围,例如通信和计算机系统中的彩色和灰度图像编码。
6.2音频压缩标准
音频信号的数据压缩主要是根据声音信号的特点以及人耳听觉特性进行压缩的。
在多媒体音频处理中,一般需要对数字化后的音频信号进行压缩编码,使其成为具有一定字长的二进制数字序列,并以这种形式在计算机内传输和存储,最后由解码器将二进制编码恢复成原来的音频信号播放,如图6-1。
图6-1音频压缩处理过程
压缩编码技术,就是利用某种方法使数字化信息变啊率降低的技术。
音频信号能进行压缩编码的依据主要有两个,一是声音信号中存在河大的冗余度,通过识别和除去这些冗余度,便能达到压缩编码的目的;
二是人的听觉具有一个强音能抑制一个同时存在的弱音现象,这样就可以抑制与信号同时存在的量化噪声。
另外,人耳对低频端比较敏感,而对高频端不太敏感,由此引出了“子带编码技术”。
数字音频压缩技术标准分为电话质量的语音压缩标准、调幅广播质量的语音压缩标准和调频广播及高保真立体声音频压缩标准3种。
(1)电话质量的语音压缩标准
电话质量语音信号的频率范围是200Hz—3.4kHz,用标准的PCM,当采样频率为8KHz,量化位数为8bit时,所对应的速率为64Kbit/s,为了压缩音频数据,国际上ITU-TS从最初的G7.11kbit/sA(
)PCM编码标准开始,已制定了一系列的语音压缩编码的标准。
这些压缩标准充分利用了线性预测技术、矢量化技术和综合分析技术,典型的算法有ADPCM、码本激励线性预测编码(CELP)、短时延码本激励线性预测编码(LD-CELP)、长时延线性预测规则码激励(RPE-LP)、矢量和激励线性预测编码(VSELP)等。
表6-1为ITU建议的用于电话质量的语音压缩标准。
标准
说明
G.711
采用PCM编码,采样速率为8kHz,量化位数为8bit,对应的比特流速率为64kbit/s,使用了非线性量化技术
G.721
将64kbit/s的比特流转换成32kbit/s的流,基于ADPCM编码;
每个数值差分用4位编码,采样频率为8kHz
G.722
一种以24kbit/s运行的基于ADPCM的有损压缩标准
G.728
采用LD-CELP压缩技术;
比特率为16kbit/s,带宽限于3.4kHz;
质量与32kbit/s的G.711标准相当
表6-1ITU建议的用于电话质量的语音压缩标准
(2)调幅广播质量的音频压缩标准
调幅广播质量音频信号的频率范围是50Hz-7kHz,又称“7kHz音频信号”,当使用16kHz的抽样频率和14bit的量化位数时,信号速率为224kbit/s。
1988年ITU制定了G.722标准,它可把信号速率压缩成64kbit/s。
G.722标准采用基于子带ADPCM技术(SB-ADPCM),将现有的带宽分成两个独立的子带信道,使输入信号进入滤波器组分成高子带信号和低子带信号,然后分别进行ADPCM编码,最后进入缓和器形成输出码流。
压缩信号的带宽范围是50Hz-7kHz。
在标准模式下,采样频率为16kHz,幅度深度为14bit。
同时G.722标准还可以提供数据插入的功能(最高插入速率为16kbit/s)。
利用G.722标准可以在窄带ISDN的一个信道B信道上传输调幅广播质量的音频信号。
(3)高保真立体声音频压缩标准
高保真立体声音频信号的频率范围是50Hz-20kHz,在44.1kHz抽样频率下用16bit量化,信号速率为每声道705kbit/s,目前国际上比较成熟的高保真立体声音频压缩标准为“MPEG音频”。
MPEG是动态图像编码的国际标准,“MPEG音频”是该标准中的一部分。
根据应用的需要,可以使用不同层次的编码系统,编码气的复杂性和性能也随之不同。
MPEG音频分为三个层次。
第一层把数字音频分为32个子带的基本映像,将数据格式化成块的固定分段,决定自适应的心理学分配模型,使用了量化器。
第二层提供了位分配、缩放因子和抽样附加编码,使用了不同的帧格式。
第三层采用混合带通滤波器来提高分辨率,它增加了差值非均匀量化、自适应分段和量化值的熵编码。
编码器处理数字音频信号,并生成数据存储所需的数据流。
但编码器的算法并没有标准化,可以使用多种算法,如音频掩蔽阈值估计的编码、量化和缩放,只要编码输出的数据符合标准即可。
编码器的原理框图如图6-2所示。
图6-2编码器的原理框图
6.3视频的压缩标准
视频压缩标准视频是多媒体通信中最重要的媒体之一。
一方面视频媒体能给人以“百闻不如一见”的感受,与话音相比,视频可以说是一种高级媒体,能给人带来高级的视觉享受;
另一方面由于视频的信息量非常大(尤其是数字化后),例如,按CCTTT601建议,广播质量的数字视频的码率约为216MbIT/S(常规电视),而高清晰度电视HDTV则在1.2GbIT/S以上,如果没有高效率的压缩技术,则是很难传输和存储的。
按质量划分,视频可大致分为以下三类:
(1)低质量视频,画面较小,通常为QCIF或CIF格式,帧速率低,通常为5~10帧/秒,既可为黑白视频也可为彩色视频。
其典型的应用包括电视电话和会议电视。
(2)中等质量的视频,中等大小的画面,通常为CIF或CCIR601视频格式。
帧速率典型应用有CD和数字音频磁带等数字存储媒体。
(3)高质量视频,其画面较大,通常为CCIR601视频格式至高清晰度电视视频格式。
帧速率≥25帧/秒,高质量的彩色图像。
其典型应用包括广播质量的普通数字电视和高清晰度电视等。
针对上述三种视频.国际上制定了相应的视频压缩标准:
H.261、MPEG1和MPEG2。
值得一提的是1992年成立了一个专家组来制定非常低码率的视频标准MPEG4。
打算用于未来的电视电话和移动多媒体通信系统,例如视频蜂窝电话等.
视频压缩技术标准主要有:
(1)ITUH.261建议,用于ISDN信道的PC电视电话、桌面视频会议和音像邮件等通信终端。
(2)MPEG-1视频压缩标准,用于VCD、MPC、PC/TV一体机、交互电视ITV和电视点播VOD。
(3)MPEG-2/ITUH.262视频标准,主要用于数字存储。
视频广播和通信,如HDTV、CATV、DVD、VOD和电影点播MOD等。
(4)ITUH.263建议,用于网上的可视电话、移动多媒体终端、多媒体可视图文、遥感、电子邮件、电子报纸和交互式计算机成像等。
(5)MPEG-4和ITUH.VLC/L低码率多媒体通信标准仍在发展之中。
7数据压缩的实现
在各种数据类型中,最难实现的是数字视频的实时压缩,因为视频信号尤其是HDTV信号所占据的带宽甚宽,实时压缩需要很高的处理速度。
现在,视频解码以及音频的编码、解码多依赖于专用芯片或数字信号处理器(DSP)未完成,并已有许多厂商推出了音视合一的单片MPEG-1、MPEG-2解码器。
我国在发展数据压缩技术过程中,则充分利用了软件人才优势。
在软件实现方面,由于PC主机的处理能力正在飞速提高,直接利用主CPU编程实现各种视听压缩和解码算法对于桌面系统及家用多媒体将越来越有吸引力。
1996年上半年,Intel向全球软件界发布了它的微处理器媒体扩展(MMX)技术。
这种技术主要是在Pentium或PentiumPro芯片中增加了8个64位寄存器和57条功能强大的新指令,以提高多媒体和通信应用程序中某些计算密集的循环速度。
MMX采用单指令多数据(SIMD)技术并行处理多个信号采样值,可使不同的应用程序性能成倍提高。
如:
视频压缩可提高1.5倍,图像处理可提高40倍,音频处理可提高3.7偌,语音识别可提高1.7倍,三维动画可提高20倍。
与Pentium完全兼容的P55C芯片是1998年3月正式推出的。
以后推出的Pentium、Pentiumpro或P7等CPU,均将支持MMX指令。
在数据压缩的硬件实现方面,根本的出路是要有自己的音像压缩芯,不管是专用集成电路(ASIC)实现,还是借助于通用DSP来编程。
8数据压缩技术存在的问题及其对策
数据压缩技术虽说用途开始扩大,但也有令人担心的问题,一是兼容性问题,二是专利问题。
首先是如何取得压缩数据的兼容性。
好不容易压缩后将数据量削减,就要把压缩数据进行拷贝,或经LAN等网络进行传输。
为此,发送方和接收方具有相同方式的压缩工具是必要条件。
但从现实情况看,使数据压缩方式实现标准化还有一定距离。
在中大型机领域,美国IBM采用独自的方式。
这如果封闭在IBM世界的单机环境里使用数据压缩技术,也许没有障碍。
但是如果在其他公司个人机和工作站作客户机连接的多机环境中,就会出现兼容性的问题。
INM公司对于其他公司的数据压