第7章视音频信号.docx

资源描述

第7章视音频信号.docx

《第7章视音频信号.docx》由会员分享，可在线阅读，更多相关《第7章视音频信号.docx（16页珍藏版）》请在冰豆网上搜索。

第7章视音频信号.docx

第7章视音频信号

第七章数字视音频压缩编码

7.1数字视频压缩编码基础

　7.1.1压缩编码概论

　由于电视信号数字化后码率太高，必须先对数据进行压缩编码，然后再进行存储和传输。

压缩编码的主要任务，就是要在人眼不能察觉有失真条件下，尽可能采用比较简单有效的编码方法，降低码率。

　　图像数据的压缩机理来自两个方面：

一是利用图像中存在大量冗余度可供压缩；二是利用人眼的视觉特性。

1）图像信号的冗余度

　为了提出有效的数据压缩方法，首先必修搞清楚图像数据中存在哪些冗余。

　　空间冗余：

在同一幅图像中规则的物体和规则的背景都具有很强的相关性,称之为空间冗余。

　　时间冗余：

在图像序列中的两幅相邻的图像之间有较大的相关性,称之为时间冗余。

　结构冗余：

有些图像从大域上看存在着非常强的纹理结构。

　　视觉冗余：

图像最终是由人观看的，人眼的视觉特性是图像压缩编码的另一个重要根据。

人眼的视觉系统对于图像的注意是非均匀和非线性的，图像的编码和解码处理尽管引入了噪声使图像发生了变化，但这些变化如果不一定被视觉所查觉,称之为视觉冗余。

2）数据压缩编码方法的分类

根据解码后的数据与原始数据是否完全相同来进行分类，可分为两类：

　　无损压缩：

这种方法解码后的图像与原始图像严格相同，即压缩是完全可以恢复的没有误差的。

　　有损压缩：

次种方法解码后的图像与原始图像存在一定的误差，但视觉效果一般是可被接受的。

根据压缩方法的原理来分，又大致分为：

预测编码（predictivecoding）、变换编码（transformcoding）、信息熵编码（entropycoding）等。

第七章数字视音频压缩编码

7.1数字视频压缩编码基础

　7.1.2预测编码

　预测编码主要是减少数据在时间和空间上的相关性，根据某一模型利用过去的样值对当前样值进行预测，然后将当前样值的实际数值与预测值相减得到一个差值，只对这一预测误差值进行编码。

如果预测模型足够好，且样值序列在时间轴上有较强的相关性，预测误差信号则比原始信号小的多，再用通过适当的量化器和编码器将会使数据量大幅度减少。

　1）差分脉冲编码调制（DPCM）基本原理

在编码端，预测器的作用是利用当前时刻n之前的相邻样值x1,x2,…,xn-1对当前时刻输入的信号样值xn作预测.

预测误差为：

量化后的预测误差信号为Q（en）；编码器对预测误差信号Q（en）用进行编码以便于传输。

2）预测器的设计

　　预测器的预测精度越高，误差信号en就越小，编码后的码率就会越低。

按预测值选用的相邻像素不同，预测器可分为帧内预测和帧间预测

（点击查看大图）

3）帧内预测

　　帧内预测是根据已经传送的同一帧内的像素来预测当前像素，又可分为：

前值预测--用同一扫描行中最相邻的前一个亮度信号的样值来预测

预测器电路框图（点击查看大图）

4）帧间预测：

　　帧间预测又称为三维预测是用前一帧的像素来预测当前像素。

这种预测器需要使用大容量的帧存储器来存储前一帧的图像。

　5）预测误差的统计特性

　　由于图像信号的帧内和帧间存在着高度相关性，预测误差en的概率分布高度集中在0附近，如图所示。

（点击查看大图）

6）量化器设计

　　在预测编码中根据人眼的视觉特性采用非均匀量化。

因为绝对值小的en主要出现在图像的平坦区,所以给以细量化；大的en主要出现在图像亮度的突变区，给以粗量化。

7.1数字视频压缩编码基础

　7.1.3正交变换编码

　正交变换编码的基本思想是将图像信号变换到变换域进行描写。

然后再根据图像在变换域中系数的特点和人眼的视觉特性进行适当量化编码。

正交变换编码也有变换、量化、编码三大过程。

在图像处理中，正交变换编码有很多类型，在数字电视和多媒体领域中得到广泛应用的是离散余弦变换压缩编码（DCT）。

　1）二维DCT变换公式

对于一个N×N图像f（x,y）的二维DCT定义为：

正变换

（7-12）

反变换

（7-13）

其中u,v=0，1,…..,N-1；x,y=0，1,…..,N-1

2）变换举例

一个8×8图像块f（x,y）的DCT变换系数F（u,v）如图7-10所示。

其中变量u代表了f（x,y）的水平空间频率，v代表了f（x,y）的垂直空间频率。

由图可见，F（u,v）的能量主要集中在低频部分区域，左上角F（0,0）对应于该像块的平均亮度值，称为直流系数，其余的63个系数称为交流系数。

DCT变换示意图（点击查看）

3）量化器特性

在DCT变换中图像信号在变换域里能量主要集中在低频区，根据人眼对图像的低频分量比对高频分量更敏感的视觉特性，可以对变换系数矩阵中的不同变换系数分别乘以不同视觉加权系数，这一加权系数应随空间频率的增加而逐渐减小。

7.2视频压缩标准

　7.2.1JPEG数字视频压缩

　国际标准化协会（ISO）、国际电子学委员会（IEC）、国际电信协会（ITU）等国际组织，于90年代领导制定了许多重要的多媒体数据压缩标准。

如JPEG、H.261、H.263、MPEG-1、MPEG-2、MPEG-4等等。

这些标准已在数字电视、多媒体领域得到广泛应用。

JPEG（JointPhotographicExpertsGroup）是联合图像专家组的英文缩写。

JPEG主要是针对静止图像的压缩编码标准，但是在电视图像序列的帧内压缩中也常采用JPEG，是一个适用范围广泛的通用标准。

（1）基于DCT的JPEG算法框图

该算法主要有三个步骤：

（1）用DCT去除图像数据的空间冗余；

（2）用人眼视觉最佳效果的量化表来量化DCT系数；

（3）对数据进行熵编码。

（2）JPEG算法编码过程

1）分块：

把原始图像分成8×8像块f（x,y）之后分别进入DCT变换器。

2）电平搬移：

由于平均电平较高，在作变换之前首先将电平下移128。

3）DCT变换:

然后作DCT变换得系数块F（u,v）。

在DCT系数块中，直流系数F（0,0）最大，能量主要集中在左上角低频区，高频系数较小。

4）量化：

对系数F（u,v）进行量化，[F（u,v）]Q=[F（u,v）/Q（u,v）]取整数,Q（u,v）为量化系数矩阵。

JPEG推荐了Q（u,v）量化表,量化后的[F（u,v）]Q高频系数已经大部分为零，能量主要集中在低频系数上。

5）之字型扫描读出：

由于右下角高频区的大部分系数为0，编码时不对单个0编码，而只对0的游程（连续0的个数）编码，为了制造更长的0游程，对变换系数矩阵采用之字型扫描读出方式如下图所示。

由于直流系数F（0,0）较大，应和前一个块的直流系数进行差值编码。

6）变字长熵编码：

为了消除编码码字中存在的统计冗余，采用变字长熵编码。

分别对非0系数和0系数游程这两个事件合并成一个二维联合事件（一维是0游程的长度，另一维是紧接在此0游程后的非0系数的幅值）出现的概率作统计，设计Huffman码表。

7.2视频压缩标准

　7.2.2MPEG-2数字视频压缩编码

　MPEG（MovingPicturesExpertGroup）是ISO和IEC两个国际组织的联合技术委员会领导下的运动图像专家组。

MPEG专家组于1992年制定了MPEG-1标准。

标准的文件编号为ISO/IEC11172。

MPEG-1在VCD中得到最广泛的应用。

为满足广播电视对图像质量的应用要求，MPEG专家组制定了MPEG-2。

MPEG-2主要的三个部分为：

第一系统部分：

主要涉及多路音频、视频和数据的复用和同步；

第二视频部分：

主要涉及各种比特率的数字视频编码；

第三音频部分，扩充了MPEG-1的音频标准，达到了5.1声道之多。

MPEG-2已在多媒体技术和广播电视领域中得到广泛的应用。

（1）MPEG-2视频的型和级

MPEG-2视频标准充分考虑了各种应用的不同要求，有较强的通用性。

标准规定了四种图像格式，称为级（Levels）；还规定了不同的压缩处理方法，称为型（Profiles）。

级（Levels）

低级LL：

信源格式是CI格式；主级ML：

信源格式是SDTV的图像格式；高1440级H-1440：

是HDTV发展过渡中的信源格式；高级HL：

是高清晰度电视（HDTV）的信源格式。

型（Profiles）

简单型SP（SimpleProfile）、主型MP（MainProfile）、信杂比可分级SNR（SNRScalable）、空间可分级型SSP（SpatiallyScalable）、高型HP（HighProfile）。

（2）MPEG-2视频结构

视频序列（VideoSequence）：

由一系列图像组（GOP）组成。

图像组（GroupofPictures）：

由连续的几个图像组成，GOP是编码后视频码流进行编辑的随机存取视频单元。

图像（Pictures）：

是一个独立的显示单元，也是图像编码的基本单元，分为I、P、B三种编码图像。

像条（Slice）：

由一系列连续的宏块组成。

像条的宏块应处在同一水平宏块行内。

象条是发生误码后且不可纠正时，数据重新获得同步从而能正常解码的基本单元。

宏块（Macroblock）：

一个宏块由一个16×16像素的亮度阵列和相应区域内的Cb、Cr色差信号阵列共同组成，它是运动预测的基本单元。

块（Block）：

一幅图像以亮度数据阵列为基准被分成为若干个8×8像素的阵列，简称为块。

它是DCT变换编码的基本单元。

（3）MPEG-2的三种图像及编码原理

MPEG-2定义了三种编码图像。

I帧（Intrapictures）帧内编码图像：

是只使用本帧内的数据进行编码的图像。

压缩比一般不高。

在一个GOP中的第一个编码帧应为I帧。

P帧（Predicatedpictures）前向预测编码图像：

是根据前面最靠近的I帧或P帧作为参考帧进行前向预测编码的图像。

由于P帧使用了运动补偿压缩方法，压缩比高于I帧。

P帧可以作为B帧和后面的P帧的参考帧。

B帧（Bidrectionalpictures）双向预测编码图像：

是根据一个过去的参考帧和一个将来的参考帧进行双向预测的编码图像。

由于B帧是在两个参考帧基础上双向预测得出的，它的预测精度能做到很高，其压缩比较大。

（4）MPEG编码器工作原理

MPEG压缩编码算法包括了帧内编码、帧间编码，DCT变换编码、自适应量化、熵编码和运动估计和运动补偿等一系列压缩方法。

（5）帧重排

由于在编码B帧时，需要用将来的一个帧作为参考帧，因此需要把按显示顺序送进来的图像序列重新排列后再进入编码器，这称为帧重排。

帧重排后图像序列的编码顺序如下图所示

7.2视频压缩标准

　7.2.3H261视频压缩

H.261标准主要应用于在综合数字业务网ISDN上传输电视电话会议。

1990年12月国际电报电话咨询委员会（CCITT）通过了H.261建议书，即“采用p×64kbps的声象业务的图像编码”，其中p=1,2,…..32。

随着多媒体技术应用的发展，CCITT又提出了H.263和H.263+建议，它既适应低速通信网又适应高速通信网，将成为多媒体通信的主要视听业务编码标准。

H.261主要技术参数

1）图像格式

H.261与H.263的图像格式如下表所示

其中：

CIF（CommonIntermediateFormat）为公用中间格式；QCIF（QuarterCIF）为1/4公用中间格式；SQCIF为扩展的公用中间格式；4CIF为4倍的公用中间格式；16CIF为16倍的公用中间格式。

CIF和QCIF的基本帧频是30帧/秒。

但是视频编码器并不一定要对每幅图像都编码。

尤其是在低比特率时，H.261允许在每两帧传送的图像之间有0到3帧图像不传，这是因为电视电话的图像有较强的相关性，不传的图像可以由已传的前后帧图像插值出来，又称为插帧。

2）视频信号的传输码率：

当p取1或2时，只支持QCIF视频格式，信号的传输码率达到128kbps，只能传清晰度不太高的图像，一般用于窄带电视电话、静止图像传送。

当p≥6时，支持CIF视频格式，码率≥384kbps，可以传输清晰度尚好的图像，适用用于电视会议。

当p=32时，32×64kbps=208kbps，已经超过了窄带ISDN的通道容量。

3）H.261的编码器框图

H.261编码器框图如下图所示

（点击查看大图）

7.2视频压缩标准

　7.2.4MPEG-4数字视频压缩

随着多媒体技术的发展，MPEG（运动图像专家组）在制定了MPEG-1和MPEG-2标准之后，又制定一种新的压缩标准--MPEG-4，并已于1999年1月正式发布。

与MPEG-1、MPEG-2不同，MPEG-4并不仅仅着眼于定义不同码流下的压缩编码标准，而是更多的强调多媒体通信的交互性和灵活性，以及多工业领域的融合。

1）MPEG-4视频的主要特点

MPEG-4标准视频的主要特征就是采纳了基于对象（Object-Based）的编码等第二代编码技术。

所谓的对象是在一个场景中能够访问和操纵的实体，对象的划分可以根据其独特的纹理、运动、形状、模型和高层语义为依据。

这种编码是一种基于内容的数据压缩方式,如将图像分割为运动物体对象和静止不动的背景对象平面，并对这两个对象进行分别处理，如下图所示。

MPEG-4可以对不同来源的视音频对象进行合成。

视音频对象可以是自然的（摄像机或麦克风捕捉到的）也可以是人工合成的；这些对象可以是单声道、立体声和多声道音频，2D和3D立体视频，也可以是计算机图形，动画，文字等。

各种对象通过各自的解码工具进行解码，同时可以创建新的视音频对象。

基于对象的分级功能是MPEG-4提供的又一个新的功能，同时兼容于MEPG-2标准中的图像分级功能，分级工具主要用于因特网和无线网等窄带的视频通信、多质量视频服务和多媒体数据库预览等服务。

2）MPEG-4的主要内容

MPEG-4主要包括系统、视频、音频和多媒体传送集成框架（DMIF）等部分，随着标准的发展，MPEG-4的内容也不断充实和改进。

①MPEG-4基于对象的视频编解码总体框图如下图所示。

②视频部分

MPEG-4的视频编码包括：

形状编码、运动估计和补偿、纹理编码、可分级编码、Sprite编码等。

纹理编码：

MPEG4中静止图像的编码又称为静态纹理编码，并单独提供了一种模式，与基于DCT的活动纹理编码技术相比，这种静态纹理编码技术提供了更强的可分级能力，其主要基于小波变换和算术编码。

视频序列都可以分为两层：

基本层和增强层，基本层提供了视频序列的基本信息，增强层提供了视频序列更高的分辨率和细节，基层可以单独传输和解码，而增强层则必须与基层一起传输和解码。

Sprite编码：

Sprite是指一个相对静止的长背景。

例如，在摄像机摇镜头过程中拍摄到的背景可以组成一个Sprite，Sprite包括了整个过程中所拍摄到的全部背景像素。

实际上，Sprite只需在传送开始时发送一次，因此使压缩效率很高。

③音频部分

MPEG-4的音频编码分为两种：

自然声音和合成声音。

自然声音的频率范围维2～64kbps，又分为三种类型的压缩：

对于最低比特率2～6kbps，运用采样速率为8kHz的参数语音编码；对于中等比特率6～24kbps，采用8或16kHz采样速率的激励线性预测优化后的语音编码；而大于16kbps的音频，MPEG-4采用MPEG-2AAC压缩算法提供高质量音频压缩。

3）MPEG-4的主要应用

MPEG-4标准的目标是多媒体的多领域应用，包括实时通信（视频会议、可视电话等）、移动多媒体（PDA等）、交互媒体存储（DVD等）、交互视频游戏、节目制作及广播业务等。

MPEG-4为不同应用定义了编解码器和码流的不同型（Profile）和级（Level），从而支持各种码率（5kbps至4Mbps）、格式（逐行和隔行）和分辨率（QCIF至HDTV）。

7.3MPEG-2系统复用

　7.3.1MPEG-2系统复用

MPEG-2系统部分主要规范如何将一个或多个视频流、音频流和其他辅助数据流复合成一个数据流以适应存贮和传送。

单路节目的视音频数据流的复用框图如下图所示。

视频和音频信号压缩编码后的码流称为基本数据流ES。

1）打包了的基本码流（PESPacketizedElementaryStream）

一帧一个PES包。

为实现解码的同步，还需插入相关的标志信息。

2）节目流（PSProgramStream）

ES流经过PS复用器后输出PS流，PS流是针对误码比较小的环境设计的，适用于演播室、家庭环境和存储媒介的应用。

3）传输流（TSTransportStream）

ES流经过TS复用器后输出TS流，TS流是针对那些容易发生误码的环境而设计的。

TS包的长度是固定的，为188字节。

它适用于差些的信道环境中应用。

包头为4个字节（32比特）,其中同步占8比特,包标识符（PID）占13比特。

4）多路节目视音频数据流的系统复用

如果一个电视频道内传多套数字电视节目，需要将诸个TS流进一步时分复用成一路总的多节目TS流，多路节目视音频数据流的系统复用框图如下图所示。

5）节目专用信息

在MPEG-2中定义了节目特定信息（PSI），PSI提供了使接收机能够自动配置的信息，用于对复用流中的不同节目流进行解复用和解码。

PSI信息由以下几种类型表组成。

节目关联表（PATProgramAssociationTable）：

PAT表由PID为0的TS包传送。

它提供传输流中节目映射表（PMT）、网络信息表（NIT）的位置等信息。

条件接收表（CATConditionalAccessTable）：

CAT表由PID为1的TS包传送。

它提供在复用流中条件接收系统的有关信息。

节目映射表（PMTProgramMapTable）：

它提供该节目包含的内容，以及组成该节目的流的位置等。

网络信息表（NITNerworkInformationTable）：

网络信息表提供关于多组传输流和传输网络相关的信息。

传输流描述表（TSDTTransportStreamDescriptionTable）：

传输流描述表由PID为2的TS包传送，提供传输流的一些主要参数。

专用段（private_section）：

MPEG-2还定义了一种专用段用于传送用户自己定义的专用数据。

描述符（Descripter）：

除了上述的表之外，MPEG-2还定义了许多描述符，这些描述符提供关于视频流、音频流、语言、层次、系统时钟、码率等多方面的信息。

7.4数字音频压缩编码标准

　在音频压缩技术中通常使用信源编码技术来去除音频信号的冗余，使用心理声学掩蔽技术来找出并去除不相关的内容（听不到的样值）。

两种主要的数据压缩技术为：

•时域预测编码：

对连续样值间的差值进行差分编码。

•频域变换编码：

将线性PCM音频样值块从时域变换到频域，再分成一些特定的频带。

7.4.1MPEG-1音频标准

MPEG-1（ISO/IEC11172）主要用于“最高码率到1.5Mbps的活动图象和音频的编码”。

标准的音频部分定义了以32，44.1和48kHz取样的PCM信号进行编码的三种层（层I、层II和层III）。

MPEG-1音频标准的基础为MUSICAM（掩蔽型通用子带综合编码和复用）和ASPEC（自适应（声频）频谱感知熵编码）。

MPEG音频编码器和解码器的基本结构框图示于下面两个图。

MPEG音频编码器的基本结构

MPEG音频解码器的基本结构

在MPEG音频标准中有三种编码层，支持下列工作方式：

•单声道（一路声道）；

•双路单声道（两个不同的音频声道）；

•立体声；

•联合立体声（利用了立体声声道之间的相关性）。

层I采用了基本的算法，而层II和层III相应于层I进行了一些增强。

MPEG层I和层II的帧结构不同但长度相同，这样可使比特流的解码简单。

层II与层I相类似,但在设计上较层I更复杂精密一些。

层II的目的是想通过一个合适数据率及并不太高的成本来实现高保真的音质。

层III结合了与MUSICAM和ASPEC一样的基本要素,并且较层I和层II更加复杂;

下图示出一个MPEG音频编码器。

7.4数字音频压缩编码标准

　7.4.2MPEG-2音频标准

MEPG-2的音频标准（ISO/IECDIS13818-3）是在原MEPG-1音频标准（ISO/IEC11172-3）的基础上发展起来的。

MPEG-2的成功之处就在于它在低比特率情况下对音质的提高和对声音信号空间表现的改善，这其中包括多声道立体声（环绕声）和多语种节目。

MPEG-2音频标准可分为低取样频率标准、多声道标准及多语种标准。

在此仅对MPEG-2与MPEG-1的不同之处做以下介绍。

1．低采样频率算法

为了在低于64kbps的低取样频率下能得到高质量质量声音，相对于MPEG-1标准，采用了三个新取样频率：

16kHz、22.05kHz和24kHz。

在比特流中增加了记有新取样频率和比特率的部分，并且更改了加入的比特分配表及心理声学模型。

2．多声道/多语种算法

它是为了将MPEG-1标准与三声道以上的多声道音频及多语种音频相对应而引入的。

它的一个特点是与MPEG-1标准具有兼容性。

1）多声道格式

多声道输入音频信号表

输入

输出

3/2（L,C,R,Ls,Rs）

3/0（L,C,R）+2/0（Ls,Rs）

3/1（L,C,R,S）

2/2（L,R,Ls,Rs）

2/1（L,R,S）

2/0（L,R）+2/0（Ls,Rs）

3/0（L,C,R）

2/0（L,R）

2/1（L,R,S）

1/0

2/0（L,R）

1/0

共有9种,有7种输出可与之对应。

基本方式为ITU-R等标准化机构推荐的3-2方式，即前方左（L）右（R）声道、中央声道（C）和后方的左（Ls）右（Rs）环绕声道组成。

另外，在主声道以外，还可以附加电影使用的LFE（低频加强声道）供使用者选用。

LFE声道的频带为15～120Hz，取样频率为主声道的1/96。

它的扬声器置于L与C的中间。

2）MPEG-1的前向/后向兼容性

多声道方式具有与MPEG-1的后向兼容性，这是非常重要的。

所以，多声道编码后的比特流能用MPEG-1解码器恢复为双声道，但用MPEG-1解码器重放的两声道声音不仅是有左右声道信息，其中也包括了中间声道及环绕声道信息。

当然用MPEG-2解码器重放时L,C,R,Ls,Rs各信号可分别重放出来。

7.4数字音频压缩编码标准

　7.4.3AC-3音频编码

AC-3音频编码由Dolby（杜比）开发用于多声道音频编码，它将5个全带宽音频声道（3Hz到20kHz，包括左、中、右、左环绕、右环绕和一个低频增强声道（3Hz到120Hz））编码成一个384kbps的数据流。

这种音频编码

展开阅读全文

第7章 视音频信号.docx

第7章视音频信号.docx