最新多媒体信息处理技术5.docx

资源描述

最新多媒体信息处理技术5.docx

《最新多媒体信息处理技术5.docx》由会员分享，可在线阅读，更多相关《最新多媒体信息处理技术5.docx（11页珍藏版）》请在冰豆网上搜索。

最新多媒体信息处理技术5.docx

最新多媒体信息处理技术5

多媒体信息处理技术（5）

多媒体信息处理技术

1多媒体数据的分类

媒体是承载信息的载体，是信息的表示形式。

信息媒体元素是指多媒体应用中可以显示给用户的媒体组成元素，目前主要包括文本、图形、图像、声音、动画和视频等媒体。

一、多媒体数据的特点

多媒体数据具有数据量巨大、数据类型多、数据类型间差别大、数据输入和输出复杂等特点。

多媒体数据类型多，包括图形、图像、声音、文本和动画等多种形式，即使同属于图像一类，也还有黑白、彩色、高分辨率和低分辨率之分，由于不同类型的媒体内容和格式不同，其存储容量、信息组织方法等方面都有很大的差异。

二、多媒体数据的分类

1．文字

在计算机中，文字是人与计算机之间信息交换的主要媒体。

文字用二进制编码表示，也就是使用不同的二进制编码来代表不同的文字。

文本是各种文字的集合，是人和计算机交互作用的主要形式。

文本数据可以在文本编辑软件里制作，如Word编写的文本文件大都可以直接应用到多媒体应用系统中。

但多媒体文本大多直接在制作图形的软件或多媒体编辑软件时一起制作。

2．音频

音频泛指声音，除语音、音乐外，还包括各种音响效果。

将音频信号集成到多媒体中，可提供其他任何媒体不能取代的效果，从而烘托气氛、增加活力。

3．图形、图像

凡是能被人类视觉系统所感知的信息形式或人们心目中的有形想象都称为图像。

图形文件基本上可以分为两大类：

位图和向量图。

位图图像是一种最基本的形式。

位图是在空间和亮度上已经离散化的图像，可以把一幅位图图像看成一个矩阵，矩阵中的任一元素对应于图像的一个点，而相应的值对应于该点的灰度等级。

图形是指从点、线、面到三维空间的黑白或彩色几何图形，也称向量图。

图形是一种抽象化的图像，是对图像依据某个标准进行分析而产生的结果。

向量图形文件则用向量代表图中的文件，以直线为例，在向量图中，有一数据说明该元件为直线，另外有些数据注明该直线的起始坐标及其方向、长度或终止坐标，

图形文件保存的不是像素点的值，而是一组描述点、线、面等几何图形的大小、形状、位置、维数等其他属性的指令集合，通过读取指令可以将其转换为屏幕上显示的图像。

由于大多数情况下不需要对图形上的每一个点进行量化保存，所以，图形文件比图像文件数据量小很多。

图形与图像是两个不同的概念。

4．动画

图像或图形都是静止的。

由于人眼的视觉暂留作用，在亮度信号消失后亮度感觉仍可保持1／20s～1／10s。

利用人眼视觉惰性，在时间轴上，每隔一段时间在屏幕上展现一幅有上下关联的图像、图形，就形成了动态图像。

任何动态图像都是由多幅连续的图像序列构成的，序列中的每幅图像称为一帧，如果每一帧图像是由人工或计算机生成的图形时，称为动画；若每帧图像为计算机产生的具有真实感的图像时，称为三维真实感动画；当图像是实时获取的自然景物图像时就称为动态影像视频，简称视频。

用计算机制作动画的方法有两种：

一种称为造型动画，另一种称为帧动画。

帧动画由一幅幅连续的画面组成图像或图形序列，是产生各种动画的基本方法。

造型动画则是对每一个活动的对象分别进行设计，赋予每个对象一些特征（如形状、大小、颜色等），然后用这些对象组成完整的画面。

5．视频

影像视频是动态图像的一种。

与动画一样，由连续的画面组成，只是画面图像是自然景物的图像。

计算机视频图像可来自录像带、摄像机等视频信号源，这些视频图像使多媒体应用系统功能更强、更精彩。

2多媒体信息的计算机表示

一、文本文件格式

常用的文本文件的格式有TXT、RTF以及WORD格式的DOC、DOT文件。

二、声音文件格式

常用的声音文件格式有WAV、MID和MP3等。

1．WAV文件

Windwos使用的标准数字音频称为波形文件，文件的扩展名为WAV，记录了对实际声音进行采样的数据。

在适当的硬件及计算机控制下，使用波形文件能够重现各种声音，无论是不规则的噪音还是CD音质的音乐，也无论是单声道还是立体声。

通过Windows的对象连接与嵌入技术，波形文件可以嵌在其他Windows应用系统中使用。

由于波形文件记录的是数字化音频信号，因此，可由计算机对其进行处理和分析。

如放慢或加快放音速度，将声音重新组合或抽取一些片段单独处理等等。

WAV文件还原成的声音的音质取决于声音卡采样样本的尺寸。

一般来说，采样的样本尺寸越大，采样频率越高，音质就越好，但波形音频文件也就越大，开销就越大。

因此，波形音频一般适用于以下几个场合：

①播放的声音是讲话语音，音乐效果对声音的质量要求不太高的场合。

②需要从CD-ROM光盘驱动器同时加载声音和其他数据，声音数据的传输不能独占处理时间的场合。

③需要在PC硬盘中存储的声音数据在1分钟以下以及可用存储空间足够的场合。

2．MIDI文件

MIDI（MusicalInstrumentDigitalInterface）是指乐器数字化接口，MIDI文件的扩展名是MID。

MIDI标准是数字式音乐的国际标准。

把一个MIDI设备连接到PC的主要目的是记录MIDI乐器产生的声音。

然后，对记录的音乐进行编辑和后期处理，把它们与其他乐器的录音进行组合，以产生出类似管弦乐队演奏效果的音乐。

3．MP3文件

MP3格式的音乐越来越受到人们的欢迎。

MP3文件是一种压缩格式的声音文件，其扩展名为MP3。

MP3文件的特点是音质好、数据量小。

三、图形、图像文件格式

常见的图形文件的格式有如下几种：

BMP、PCX、GIF、TIF、JPG、TGA等。

1．GIF（GraphicInterchangeFormat）文件

2．BMP（bitmap）文件

3．JPG文件

4．TGA文件

5．TIF文件

6．PCX文件

7．PCD文件

四、影像文件格式

影像文件通常泛指自扫描仪或视频卡读入的静态画面（影像）。

在动态图像的文件格式中，常用的有AVI、MOV、MPG和DAT文件等。

1．AVI

2．MOV文件

3．MPG文件格式

4．DAT文件格式

5．DIR文件格式

五、动画文件格式

多媒体应用中使用的动画文件主要有GIF、AVI、SWF等等。

1．GIF文件

2．SWF文件

3多媒体数据压缩和编码技术

一、多媒体的数据量、信息量和冗余

多媒体计算机面临的最大难题是大量数据的存储与传送问题。

在所有可能的数据库中，图像是数据量最大的数据类型。

数据是用来记录和传送信息的，或者说数据是信息的载体。

对于人类而言，真正有用的不是数据本身，而是数据所携带的信息。

信息量与数据量的关系是：

信息量=数据量+数据冗余

多媒体数据中存在的数据冗余类型有：

空间冗余、时间冗余、编码冗余、结构冗余、知识冗余和视觉冗余等。

1．空间冗余

空间冗余是图像数据中经常存在的一种冗余。

在同一幅图像中，规则物体和规则背景的表面物理特性具有相关性，这些相关性在数字化图像中表现为数据冗余。

2．时间冗余

时间冗余是序列图像如电视图像、运动图像和语音数据中经常包含的冗余。

图像序列中的两幅相邻的图像，后一幅与前一幅之间有较大的相关，反映为时间冗余。

在语音中，由于人在说话时其发音的音频是一个连续渐变的过程，而不是一个时间上完全独立的过程，因而存在时间冗余。

3．编码冗余

编码冗余也称为信息熵冗余，信息熵是指对一团数据所携带的信息量。

4．结构冗余

有些图像从大域上看存在着非常强的纹理结构，表现为结构冗余。

5．知识冗余

对有许多图像的理解与某些背景知识使有相当大的相关性。

例如，人脸的图形有固定的结构等。

这类规律性的结构可由先验知识和背景知识得到，表现为知识冗余。

6．视觉冗余

人类的视觉系统对于图像场的注意是非均匀的、非线性的，视觉系统并不能对于图像场的任何变化都有所感知。

换句话说，尽管在对图像的编码和解码处理时，由于压缩或者量化引入噪声而使图像发生了一系列的变化，如果这些变化不能被视觉所察觉的话，我们仍认为图像是完好的或足够好的。

事实上，人类视觉系统的一般分辨能力约为26灰度级，而一般图像的量化采用的是28灰度级，这样的冗余称为视觉冗余。

7．其他冗余

例如由图像的空间非定常特性所带来的冗余等。

正是由于多媒体数据中存在各种各样的冗余，才使得多媒体数据可以被压缩。

针对冗余的类型不同，人们已经提出了各种各样的方法实施对多媒体数据的压缩。

二、数据压缩的基本方法

数据压缩处理一般由两个过程组成：

一是编码过程，将原始数据经过编码进行压缩，以便存储与传输；二是解码过程，对编码数据进行解码，还原为可以使用的数据。

数据压缩处理方法的分类：

1．按照解码后的数据与原始数据一致性分类

根据解码后的数据与原始数据是否完全一致来进行划分，数据压缩方法有两类：

可逆编码方法和不可逆编码方法。

2．按方法的原理分类

根据方法的原理进行分类，可以划分为预测编码、变换编码、量化与向量量化编码、信息熵编码、分频带编码、结构编码和基于知识的编码等。

三、音频信号的压缩编码

音频信号分为电话质量的语音、调幅广播质量的音频信号和高保真立体声信号。

语音信号的频率范围是300Hz到3400Hz。

随着带宽的增加，信号的自然度将逐步得到改善。

高保真音频信号的频率范围是20Hz到20000Hz。

声音信号的编码方式可以分为三大类：

波形编码：

要求重构的声音信号尽可能地接近于原始声音。

典型的波形编码技术有脉冲编码调制（PCM）、自适应差分脉冲编码调制（ADPCM）、自适应预测编码（APC）、子带编码（SDC）、自适应变换编码（ATC）等。

分析合成编码：

以声音信号产生模型为基础，将声音信号变换成模型参数后再进行编码，又称为参数编码方法。

典型的分析和合成技术有通道声码器、共振峰声码器、同态声码器、线性预测声码器等。

混合型编码：

是一种在保留分析合成编码技术精华的基础上，引用波形编码准则去优化激励源信号的方案，可以在4.8k位/秒~9.6k位/秒的编码率上获得较高质量的合成声音。

最简单的数字编码方法是对声音信号作直接的模/数转换。

只要采样频率足够高，量化位数足够多，就能保证解码器恢复的声音有很好的质量。

四、视频信号的压缩编码

1．视频信号的压缩编码分类

图像压缩方法可以分成两种类型：

有损压缩和无损压缩。

2．视频信号的压缩编码标准

JPEG和MPEG就是得到国际标准化组织认可并推荐的两个国际标准。

JPEG是联合专家小组（JointPhotographicExpertsGroup）的英文缩写。

MPEG是运动图像专家组（MovingPictuerExpertsGroup）的英文缩写。

MPEG标准包括MPEG视频、MPEG音频和MPEG系统三大部分。

3．JPEG静止图像压缩算法

JPEG标准是面向连续色调、多级灰度、彩色或单色静止图像的压缩标准，它定义了两种基本的压缩算法：

一种是无失真压缩算法；另一种是有失真压缩算法。

4．MPEG运动图像压缩算法

4音乐合成与MIDI

一、音乐合成

乐音必备的三要素是：

音高、音色和音强。

若把一个乐音放在运动的旋律中，它还应具备时值，即持续时间。

这些要素的理想配合是产生优美动听的旋律的必要条件。

音高指声波的基频，基频越低，给人的感觉越低沉。

音色由声音的频谱决定，各个谐波的比例不同，随时间衰减的程度不同，音色就不同。

音强是对声音强度的衡量，它是听判乐音的基础。

时值具有明显的相对性，时值的变化导致旋律或平缓、均匀，或跳跃、颠簸以表达不同的情感。

调频（FM）是使高频振荡波的频率按照调制信号规律变化的一种调制方式。

二、MIDI规范

MIDI是乐器数字接口（musicalinstrumentdigitalinterface）的英文缩写。

MIDI文件记录的不是声音本身，因此比较节省空间。

MIDI标准规定了不同厂家的电子乐器与计算机连接的电缆和硬件。

它还指定从一个装置传送数据到另一个装置的通信协议。

MIDI标准中规定了多媒体个人计算机（MPC）包括一个内部合成器和标准MIDI端口。

6视频卡

一、视频卡的功能

视频卡是一种处理活动影像数据的扩展卡。

视频卡种类：

①视频转换卡用来将视频信号转换成计算机存储的数字视频信号保存在计算机中或在VGA显示器上显示，或将VGA信号转换成电视信号，使计算机信号可以在电视或录像机上播放。

②视频捕捉卡用来从正在播放的动态画面中截取一些画面。

③窗口动态视频卡用来利用重叠、淡入、淡出等功能，提供窗口显示功能和数字化静止画面。

④动态视频捕捉播放卡用来同时抓取动态视频信号和声音信号并加以压缩、存储和播放。

⑤视频压缩卡用来根据JPEG/MPEG的标准对数据进行压缩和还原。

⑥视频还原卡用来实现将压缩后保存在计算机中的视频信号在计算机的显示器上播放出来。

也称为视频回放卡、解压缩卡或电影卡。

⑦电视卡用来将计算机变成一台电视机，收看不同频道的电视节目。

二、视频信息的处理

1．视频处理系统简介

多媒体计算机系统中，对视频信号的应用大致分为三个过程：

视频信息的采集、视频信息的编辑以及视频信息的应用。

⑴视频信号的捕获

⑵视频信息的编辑

⑶视频信息的应用

2．视频采集和编辑软件的功能

视频采集和编辑软件的基本功能：

①提供视频获取功能，可以与视频采集卡协同工作以实现视频图像截取。

②提供无硬件视频回放功能。

借助于某些算法可以在窗口中播放活动视频图像。

③提供AVI文件格式，它保存了声音和视频的所有信息，并有相应的同步机制以确保播放时声音和视频同步。

④从硬盘或CD-ROM中有效地读出并播放视频信息。

⑤将多种媒体数据综合处理为一个视频文件。

⑥具有多种活动图像的特技处理功能。

展开阅读全文