MPEG4技术及应用综述.docx

资源描述

MPEG4技术及应用综述.docx

《MPEG4技术及应用综述.docx》由会员分享，可在线阅读，更多相关《MPEG4技术及应用综述.docx（12页珍藏版）》请在冰豆网上搜索。

MPEG4技术及应用综述.docx

MPEG4技术及应用综述

MPEG-4技术及应用综述

一．概述　

　关于图象视频压缩已有n×384kbps电视会议H.120建议、p×64kbps视频编码标准H.261、连续色调静止图象压缩标准JPEG、PSTN等低比特率活动图象压缩标准H.263。

1988年ISO与CCITT成立活动图象专家组MPEG（MovingPictureExpertsGroup），研究数字存储媒体上的活动图象及其伴音的编码表示,1992年通过1.5Mbps编码标准MPEG-1,1994年通过2Mbps、30Mbps高质量视频音频编码标准MPEG-2。

以上标准均偏重于某（几）个应用领域,交互性较差,至多允许视频序列可变速度的双向播放,可重用性只限于矩形视频区域及其相关音频的线性片段,无法在同一场景集成自然信息与合成信息,不能提供对各种网络的一致性访问，容错性、灵活性和可扩展性比较差。

　　MPEG于1991年5月提出关于视频音频编码的MPEG-4项目，设系统、音频、视频、需求、实现研究、测试及自然合成混合编码（SNHC）子组,1998年11月成为国际标准。

MPEG-4提供更强的交互能力。

场景中的每个对象独立编码,用户可以选择性地与其中某（几）个对象交互,具有良好的重用性。

重新组合音视对象AVO（AudioVisualObject）构造新场景,可以集成各种对象,无缝地集成自然信息与合成信息,实时信息与存储信息,AVO可以是单/双/多声道音频信息、单/双/多镜头2D/3D视频信息。

可以透明地访问信息,通过各种网络传输的信息最终映射为本地信息,整个过程给用户的感觉就如同访问本地信息。

而且允许基于内容（比特率、分辨率、帧率、防错保护和解码优先级）的可伸缩性和服务质量（QoS）参数,更加灵活,可扩展,充分考虑未来技术的发展及应用需求,将解码器可编程能力分为:

不可编程的标准工具集合（Flex-0）；由标准化工具及其接口灵活配置的算法（Flex-1）；多种工具构成可能算法的标准化可扩展机制（Flex-2）。

二．技术部分

2.1MPEG-4标准概要

　　MPEG-4引入了对象基表达（object-basedrepresentation）的概念，用来表达视听对象AVO（audio/visualobjects）；MPEG-4扩充了编码的数据类型，由自然数据对象扩展到计算机生成的合成数据对象，采用合成对象/自然对象混合编码SNHC（Synthetic/NaturalHybridCoding）算法；在实现交互功能和重用对象中引入了组合、合成和编排等重要概念。

MPEG-4中制定了一个称为传输多媒体集成框架DMIF（DeliveryMultimediaIntegrationFramework）的会话协议，它用来管理多媒体数据流。

该协议在原则上与文件传输协议FTP（FileTransferProtocol）类似，其差别是：

FTP返回的是数据，而DMIF返回的是指向到何处获取数据流的指针。

DMIF覆盖了三种主要技术：

广播技术，交互网络技术和光盘技术。

　　MPEG-4将应用在移动通信和公用电话交换网PSTN（publicswitchedtelephonenetwork）上，并支持可视电话（videophone）、电视邮件（videomail）、电子报纸（electronicnewspapers）和其他低数据传输速率场合下的应用。

　　MPEG-4的标准名是Very-lowbitrateaudio-visualcoding（甚低速率视听编码）。

截止到1998年9月，已作为国际标准草案DIS（DraftInternationalStandard）的MPEG-4文件有5个部分，它们是：

　　①MPEG-4系统标准，标准名是ISO/IECDIS14496-1Very-lowbitrateaudio-visualcoding-Part1:

　Systems。

　　②MPEG-4电视图象标准，标准名是ISO/IECDIS14496-2Verylowbitrateaudio-visualcoding-Part2:

Video。

　　③MPEG-4声音标准，标准名是ISO/IECDIS14496-3Verylowbitrateaudio-visualcoding-Part3:

Audio。

　　④MPEG-4一致性测试标准，标准名是ISO/IECDIS14496-4Very-lowbitrateaudio-visualcoding-Part4:

ConformanceTesting。

　　⑤MPEG-4参考软件，标准名是ISO/IECDIS14496-5Very-lowbitrateaudio-visualcoding-Part5:

Referencesoftware

　　⑥MPEG-4传输多媒体集成框架，标准名是ISO/IECDIS14496-6Very-lowbitrateaudio-visualcoding-Part6:

DeliveryMultimediaIntegrationFramework（DMIF）。

2.2MPEG-4标准的范围和特点

　　MPEG-4标准提供了一整套技术来满足作者的需要、服务提供商和最终用户的偏好。

　　*对于作者来讲，MPEG-4使得基于内容的产品成为现实，这种产品具有大得多的可用性，具有比现在的独立技术例如数字电视、动态图象、WWW网页及其扩展技术所能提供的更大的灵活性。

而且，现在有可能进行更好的管理和著作权的保护。

　　*对于网络服务提供商来说，MPEG-4提供了透明的信息，它能够在相对标准的实体的帮助下解释并翻译成每个网络相应的本地信号讯息。

不仅预先考虑到服务质量（QoS），MPEG-4还为不同的媒介提供一个通用的QoS描述符。

为每种媒质从QoS的参数设置到网络服务质量的精确翻译超出了MPEG-4的范围，留给了网络提供商。

端到端的发送MPEG-4媒质　QoS描述符就能够在异种网络间进行传输优化。

　　*对于最终用户来说，MPEG-4在作者所置的限制内提供更高水平的内容交互。

它也为新兴网络，包括那些应用相对低速率的网络以及移动网络提供多媒体服务。

MPEG主页上的一份MPEG-4应用文档描述了很多最终用户应用，包括交互式多媒体广播和移动通信。

　　对所有相关方面，MPEG力求避免大量的所有权、非交错格式和播放器的使用。

为实现以上目标，MPEG-4提供标准化方式来：

　　1．代表语音、视觉或语音视觉内容的单元，称为"媒体对象"。

这些媒体对象可能来自自然或合成源；这就是说他们能够被相机或话筒所记录，或者由计算机产生；

　　2．描述这些对象的组合以创建构成语音视频屏幕的组合媒体对象；

　　3．复用和同步与媒体对象相关的数据，这样他们能在提供了适于特殊媒体对象特性的QoS的网络通道上传输；而且

　　4．与接收端产生的语音视频景象交互。

2.2.1媒体对象的编码表示

　　MPEG-4语音视频场景由一些媒体对象组成，以分层方式组织起来。

在这层次结构中，我们找到了基本的媒体对象，例如：

　　*静态图象（例如固定背景）

　　*视频对象（例如正在说话的人-没有背景）

　　*语音对象（例如和这个人相关的声音）

　　MPEG-4把这样大量的能够表现2-D或3-D自然和合成内容类型的基本媒体对象标准化。

附加在上面提到的、除媒体对象之外，MPEG-4定义了如下对象的编码表示法，

　　*文本和图形；

　　*用来合成语言和运动头部的正在讲话的合成的头部和相关的文本；

　　*合成的声音

　　编码形式的媒体对象是由在语音视频景象中处理该对象的描述元素和相关流数据组成。

重要的是在编码形式下每个媒体对象都能独立与它的环境或背景独立表现。

考虑到要求的功能，这种媒体对象的编码表示法是尽可能的高效的。

这些功能包括差错鲁棒性、易释性和可编辑性。

2.2.2媒体对象的组合

　　基本媒体对象相应于描述树中的叶子，而组合媒体对象包含了整个子树。

例如：

相应于正在说话的人的视频对象和相应的声音捆绑在一起形成一个新的组合媒体对象，包含了那个人的语音和视频部分。

　　*这样的组成允许作者构建复杂的景象，使客户能处理有意义的对象。

　　*更普遍地，MPEG-4提供了一种描述景象的标准化方式，例如允许：

　　*在给定坐标系内随处放置媒体对象；

　　*应用变换来改变媒体对象的几何和声学表现；

　　*整合基本媒体对象以形成组合媒体对象；

　　*应用流数据于媒体对象以更改属性（例如声音，属于某对象的移动中的文本，驱动合成面孔的动态参数成面孔的动态参数；

　　*交互式地改变用户在景象中的任何视听点。

景象描述是建立在来自于对象合成结点的结构和功能意义上的虚拟现实（VRML）的一些基本概念而且扩展为完全实现上述特点。

2.2.3媒体对象流数据的描述和同步

　　一个MPEG-4影音场景的例子媒体对象可能需要在一个或多个基本流中传输的流数据。

对象描述符把与媒体对象相关的所有流中区分开来。

这就允许处理分层编码数据、内容变化信息的联系（称?

quot;对象内容信息"）和相关的知识产权。

每个流自身由一套配置信息的描述符所区别，例如用来决定需要编码源和编码的时间信息精度。

而且描述符可以携带传输需要的QoS的线索（例如最大位速率、位差错速率、优先级等）。

基本流的同步是通过基本流内单个访问单元的时标实现的。

同步层管碚庋姆梦实ピ褪北甑氖侗稹６懒⒂诿教謇嘈椭猓貌阍市硎侗鸪龇梦实ピ睦嘈突指疵教宥韵蠡蚓跋竺枋龅氖被夷茉谄浼涫迪滞健８貌愕挠锓梢远嘀址绞脚渲茫市碓谛矶嘞低持惺褂谩?

2.2.4流数据的传输

　　在不同QoS的网络中从源到目的的流信息的同步传输，是由上述的同步层和包含两子层的复合传输层确定的。

第一个复用层根据MPEG-4标准的Part6中的DMIF规范进行管理。

这种复用可在MPEG定义的FlexMux工具中体现，该工具允许以低复用费用组合基本流（ESS）。

例如该层的复用可用来组合相似QoS需求的基本流，减少网络连接数或者端-端延迟，TransMux（传输复用）层搭建了提供匹配需求QoS的传输服务的层。

MPEG-4仅确定了该层的接口而具体的数据包和控制信号的规划必须与各传输协议上有权的实体进行协商。

任何现存的合适的传输协议栈，例如（RTP）/UDP/IP、（AAL5）/ATM或者MPEG-2在适合链路层上的传输流都可能成为TransMux的实例。

选择权留给了最终用户和服务提供商，而允许MPEG-4用于广泛的运行环境中。

　　FlexMux复用工具的使用是可选的，如果下层的TransMux实例提供了所有要求的功能，该层必须为空。

而同步层总是存在的。

以下是可行的：

　　1．识别访问单元，传输时标和时钟参考信息以及检测数据丢失；

　　2．传输控制信息以实现：

　　*为每个基本流和FlexMux流指示需要的QoS；

　　*翻译这样的QoS需求为实际网络资源；

　　*连接基本流到媒体对象；

　　*转换基本流的映射为FlexMux和TransMux通道。

　　部分控制功能在和DMIF框架这样的传输控制实体联结后才可实现。

2.2.5与媒体对象交互

　　总体来说用户看到的是依据作者设计组合而成的影象。

然而，用户和影象交互的可能性依赖于作者所允许的自由度。

用户可能被允许进行的操作包括：

　　*改变景象的视/听点，例如在景象中漫游；

　　*把景象中的对象拖到不同的位置上；

　　*点击特定对象以触发一系列事件，例如开始或终止视频流；

　　*多语言音轨时选择想要的语言。

　　更复杂的动作也能被触发，例如一个虚拟的电话铃响，用户接听并建立通信链路。

2.2.6知识产权的管理和识别

　　能够在MPEG-4媒体对象中识别出知识产权是重要的。

为支持这一点，MPEG与不同制造商的代表就语法定义和工具进行合作。

MPEG-4通过存储唯一标识来实现识别，该标识由国际编号系统公布。

该数字可用于识别媒体对象的当前所有者。

因为并非所有的内容都由此数字识别，MPEG-4Version1提供用关键值对来识别知识产权的可能。

而且MPEG-4为想使用控制访问知识产权的系统的人提供一个紧密结合进系统层的标准化系统的人提供一个紧密结合进系统层的标准化接口。

通过该接口，所有权控制系统可轻易地与解码器的标准化部分组合。

2.3MPEG-4标准的技术细节

　　显示了从网络（或存储设备）来的流作为TransMux流，复用为FlexMux流并传给适当的获取基本流的FlexMux解复器的。

基本流（ES）被解析并传递给适当的解码器。

解码是从编码形式中恢复出AV对象中的数据并进行必要的操作以重建初始的AV对象以备在适当设备上演示。

重建的AV对象可为影象演示中的潜在需要组合成层。

解码的AV对象和影象描述信息都被用来组合作者所描述的影象。

用户可在作者允许的程度上与最终演示展现的影象交互。

2.3.1传输多媒体集成框架DMIF

　　传输多媒体集成框架DMIF（DeliveryMultimediaIntegrationFramework）是在通用传输技术上的管理多媒体流的会话协议。

原理上与FTP相似，唯一也是基本的差别是FTP返回数据，DMIF返回获取（流）数据的指针。

类似地，当DMIF运行时，第一个动作是和远端建立会话。

然后，选择流并发要求（request）流注，DMIF对端将返回连接流注点的指针，并建立连接。

　　MPEG-4终端（接收侧）的主要部分与FTP相比，DMIF既是框架又是协议。

DMIF提供的功能是由称为DMIF应用接口（DAI）的接口来表达，并翻译为协议消息。

这些协议消息可能基于运行的网络而不同。

服务质量同样为DMIF设计所考虑，DAI允许DMIF用户为所需的流指定要求。

这样就要求DMIF执行时保证要求得以实现。

DMIF规格提供了在几个新网络类型，例如Internet上实现该任务的线索。

　　DAI也用来访问广播介质和本地文件，这意味着在多传输技术上定义访问多媒体内容的单一、统一的接口。

　　因此，我们适合这样说，DMIF的集成框架涵盖了三种主要技术，交互网络技术、广播技术和磁盘技术。

DMIF如此以至依赖于DMIF通信的应用不必关心底层的通信方法。

DMIF执行以处理关于简单应用接口的传输技术细节。

应用通过DMIF应用接口访问数据，无论该数据来自广播源、本地存储器或远端服务器。

在所有的情况下本地应用只通过统一接口（DAI）交互。

不同的DMIF实例考虑到采用传输技术的特性把本地应用翻译为送至远端应用的特定消息。

类似地，（从远端服务器、广播网络或消息。

类似地，（从远端服务器、广播网络或本地文件）进入终端的数据通过DAI统一地传给本地应用。

不同的、特定的DMIF实例被管理各种特定传输技术的应用唤醒，虽然这对于应用是通明的，它只是和单一的"DMIF过滤器"交互。

该过滤器负责为特定DAI向正确的实例粗定向。

DMIF不规定该机制，只假设它是运行的。

这在该图的阴影框内有所强调，目的是澄清DMIF应用的边界，此时DMIF通信构架定义了若干模块，实际的DMIF应用只需要在边界上保持他们的表现。

这样，通过例如基于IP的或ATM的网络访问的"真实的"远程应用，和从广播源或磁盘获取内容的模拟远端制造者应用。

然而在前一种情况中，两实体间交换的信息必须规范定义以确保互操作性。

在后一种情况中，两个DMIF实体间的接口和模拟远端应用在单一实现中不需考虑该规范。

对于广播和本地存储，该图展示了一条"本地DMIF、远端DMIF（模拟）、远端应用（模拟）"的链条。

该链条只表达概念化模型而不需对应为实际实现（全部在阴影区内）。

　　DMIF构架考虑广播和本地存储时，假设模拟远端应用了解数据如何发送和存储。

如何可以得到处理中的应用种类的信息。

对于MPEG-4，这实际就是如基本流ID、首对象描述符、服务名之类的概念。

虽然DMIF层理论上不了解正提供支持的应用，由于（模拟）远端应用的存在，对广播和本地存储等特殊情况该概念并不完全正确。

因为（模拟）远端应用不了解数据是如何传送/存储的，对于这样的DMIF应用数据传送/存储的细致描述是无意义的。

　　而当考虑远端交互时，DMIF层是完全不了解应用的。

引入附加接口-DMIF网络接口（DNI）以确定DMIF对需要交换何种信息。

该附加模块负责把DNI原语映射为特定网络使用的消息。

应当注意DNI原语只是为信息目的所指定，并不需要在实际应用中表现DNI接口。

为了支持相同的终端多传输技术甚至多场景（广播、本地存储器、远端交互），DMIF支持允许一个或多个DMIF实例同时出现，每个面对特定的传输技术。

多传输技术可被相同应用激活，这样就能够管理被广播网络、本地文件系统和远端交互点传送的数据。

2.3.2流数据的多路复用，同步和描述

　　必须要在传输层从网络连接或存储设备来的数据中获得各基本流。

在MPEG-4系统模型中每个网络连接或文件被单独看成一个TransMux通道。

依应用而异复用部分或完全地作用于MPEG-4范围之外的层。

MPEG-4唯一定义的复用工具是FlexMux工具，它对于低延迟、低负载复用及为节省网络连接资源来说是可选的。

　　为了在系统环境中集成MPEG-4的目的，DMIF应用接口成为可作为同步层--打包流访问的基本流的参考点。

DMIF网络接口确定了同步层-打包流-无FlexMux或FlexMux流如何从TransMux层得到的。

这就是不被MPEG定义的传输功能的接口。

这里考虑接口的数据部分，控制部分由DMIF处理。

　　与MPEG-1和MPEG-2以位流语法和语意描述理想解码设备的方式相同，MPEG-4定义了系统解码模型。

这就允许不做非必要假设和精确细节准确定义终端操作。

这对于以不同方式自由地实现设计真实MPEG-4终端和解码设备是必要的。

这些设备包括从不能与发端通信的电视接收机到能完全双向交互的计算机。

一些设备通过同步网络MPEG-4流，另一些通过非同步方式（例如Internet）交换MPEG-4信息。

系统编码模块提供所有MPEG-4终端应用基于的通用模块。

确定缓冲和延迟模型对不知道如何接收编码流的编码设备是必要的。

虽然MPEG-4使编码设备可通知资源需求的解码设备，如前所述，该设备也可能不响应发端。

同样有可能一个MPEG-4会话同时接受不同设备的信息。

但这将根据设备的容量来进行。

2.3.3语法描述

　　MPEG-4定义了一种语法描述语言来描述位流传送媒体对象和景象描述信息位流的精确位语法。

该语言从C语言出发，是C++语言的扩展，用来以综合方式描述对象的句法表达、所有媒体对象的类定义和景象描述信息。

这提供了精确地恒定统一描述语法的方式，同时简化位流依从测试。

软件工具可用来进行语法描述，产生进行判定的程序的必要代码。

2.3.4音频对象编码

　　MPEG-4音频对象编码为表达自然声音（例如话音和音乐）和基于机构化描述的合成声音都提供工具。

合成声音的表达可从文本数据或所谓的结构描述，以编码参数提供反射、空间定向等效果的方式实现。

该方式提供压缩和其他例如可伸缩性和效果处理等其他功能。

覆盖6kbit/s到24kbit/s速率的MPEG-4语音编码工具已和NADIB合作通过AM数字语音广播应用检验性测试。

为辩识合适的数字语音广播格式以改进现有的AM模式服务，包括MPEG-4CELP、TwinVQ、和AAC工具一些编码设置与一个参考AM系统进行了比较。

发现数字技术可在同样带宽上实现更高质量，而且编码设置提供了优于联播的效果。

MPEG还进行了附加检验测试，把话音和普通语音编码的工具与现存标准进行比较。

2.3.5视频对象（VO）编码

　　为了支持基于内容的交互性,即支持对内容（场景中的物理对象）独立地进行编解码，MPEG-4视频检验模型（即发展完善中的视频编码算法和工具集）引入了视频对象面（VOP）的概念。

假设输入的视频序列的每一帧都被分割成多个任意形状的图像区域（视频对象面），每个区域可能覆盖场景中特定的感兴趣的图像或视频内容。

输入进行编码的VOP可以是任意形状的,且形状和位置可随帧而变。

属于场景中同一物理对象的连续VOP序列称为视频对象（VO）。

同一视频对象的VOP序列的形状、运动和纹理信息被编码传输,或者编码为一个隔离的视频对象层（VOL）。

除此之外,辨别各个视频对象层,以及接收端合成不同的视频对象层以重建完整的原序列所需的相关信息也包含在比特流中。

这使得可以对每个VOP独立地进行编解码,且可以对视频序列进行灵活操作。

输入进行编码的源视频对象序列可以是独立实体,也可以由在线或脱线的分割算法产生。

　　有些多媒体业务需要提供面向对象的操作和编辑功能,如远程数据库访问、视频编辑等。

有些情况下,人们只对场景中的某个对象感兴趣,如多媒体会议,人们感兴趣的只是与会者的头肩像,而不关心背景。

因此,为了节省带宽,可以只传送头肩像的视频信息,接收端再把收到的头肩像信息解码重建,并置于一间虚拟会议室中。

基于内容的视频编码系统可以在比特流层支持这种基于对象的访问和操作功能。

　　有两种类型的视频编码系统支持基于内容的交互性,一种是模型基编码;另一种是在传统的基于块的视频编码系统的基础上扩充而成的。

对于前者,在此不做讨论。

而后者则是传统的,基于块的混合运动预测/补尝编码系统扩展到任意形状的视频序列而成的。

传统的、基于块的编码方法已被MPEG-1/2和H.261/3等标准所采用。

这种系统主要由场景分析和对象分割、形状编码、运动编码、纹理编码等模块构成,具体的编码算法则做为实现系统中各个功能模块的工具,可根据实际需要选取组合。

首先对输入的原图像序列进行场景分析和对象分割,以划分不同的VOP，得到各个VOP的形状和位置信息。

VOP的形状和位置信息可以用上文提到的alpha平面来表示。

发送端只需传送alpha平面,接收端就可以确定VOP的形状和位置。

alpha平面所需的比特数是比较多的,需要进行压缩编码。

显然,只要对VOP的轮廓进行编码和传送，接收端就可以恢复alpha平面,轮廓信息在轮廓编码器中进行编码。

提取出的形状和位置信息又用来控制VOP的运动和纹理编码。

对运动和纹理信息编码仍然采用经典的类似停校牛呛虷.261/3标准的运动预测/补偿法。

输入的第N帧的VOP与帧存储器中存储的N

展开阅读全文