多媒体知识点总结.docx

资源描述

多媒体知识点总结.docx

《多媒体知识点总结.docx》由会员分享，可在线阅读，更多相关《多媒体知识点总结.docx（26页珍藏版）》请在冰豆网上搜索。

多媒体知识点总结.docx

多媒体知识点总结

第一章多媒体技术概论

1.媒体是信息表示、信息传递和信息存储的载体。

媒体有两种含义

①信息的表示载体:

文本、音频、图形、图像、动画、视频

②存储信息的实体:

纸张、磁盘、光盘、半导体存储器

2.媒体的分类：

感觉媒体、表示媒体、显示媒体、存书媒体、传输媒体。

3.多媒体定义：

文本、声音、图形、图像和动画这些都是载递信息的媒体，它们的两个或多于两个的组合称为多媒体。

4.多媒体技术是以数字技术为基础，把通信技术（电话、传真）视听技术（电台、电视）和计算机技术融于一体，能够对文字、图形、图像、声音、视频等多种媒体信息进行存储、传送和处理的综合性高新技术。

5.多媒体技术的研究内容：

（1）多媒体数据压缩/解压缩技术

（2）数字化多媒体信息存储技术（3）多媒体数据库技术（4）超文本与超媒体技术（5）　多媒体网络与通信技术（6）　虚拟现实技术（7）智能多媒体技术

6.多媒体技术应用：

（1）、教育与培训

（2）、出版与图书（3）、商业与咨询（4）、网络与通信（5）、军事与娱乐

课内习题：

1.媒体中的表示媒体是为了加工、处理和传输感觉媒体而人为构造出来的一种媒体，如文字、音频、图像和视频等的数字化编码表示等。

2.多媒体技术的主要特性有

（1）多样性

（2）集成性（3）交互性

3.请根据多媒体的特性判断以下哪些属于计算机多媒体的范畴？

（1）交互式视频游戏

（2）有声图书

4.一般认为，多媒体技术研究的兴起，从1984年，美国Apple公司推出Macintosh系列机开始。

5.多媒体技术未来发展的方向是：

（1）高分辨率,提高显示质量;

（2）高速度化，缩短处理时间；（3）简单化，便于操作；（4）智能化，提高信息识别能力。

6.下列哪些说法正确?

（1）多媒体技术促进了通信、娱乐和计算机的融合。

（2）多媒体技术可用来制作V-CD及影视音响、卡拉OK机。

（3）多媒体技术极大地改善了人一机界面。

（4）利用多媒体是计算机产业发展的必然趋势。

7.下列哪些说法正确?

（1）媒体之间的关系也代表着信息；（3）不同的媒体所表达信息的程度不同。

；（4）有格式的数据才能表达信息的含义。

8.媒体有两种含义，即表示信息的载体和存储信息的实体

9.多媒体技术是将计算机技术、视听技术和通信技术融合在一起的新技术

10.多媒体技术交互式应用的高级阶段是虚拟现实

第二章多媒体音频技术

1.声波有三个重要的参数：

振幅、周期和频率。

2.声音质量分为四级：

电话、AM广播、FM广播、CD-DA（激光唱盘）。

3.声音的数字化:

采样（对模拟音频信号的连续波形进行分割使之变成离散数字信号的方法，称为采样）、量化（对声波波形幅度的数字化表示称为量化。

）和编码。

4.影响数字音频质量的技术参数：

采样频率、量化位数和声道数。

5.数字音频文件的存储量

声音数字化计算公式

数据量＝采样频率（Hz）×量化位数（b）×声道数/8（字节/秒）

例子：

例如，数字激光唱盘的标准采样频率为44.1kHz，量化位数为16位，立体声，录制一分钟所需的存储量为

44.1k×16×2×60÷8=10335KB

6.数字音频的文件格式：

（1）.WAVE文件:

对实际声音进行采样的数据,没有采用压缩算法，产生的文件数据量大。

（2）.MP3文件：

有损压缩，11：

1压缩率。

（3）.WMA文件：

保证在只有MP3文件一半大小的前提下，保持相同的音质。

（4）.MIDI文件：

将每个音符记录为一个数字，所有音频格式中最小的。

（5）.RM文件：

网络连接速率不同，客户端所获得的声音质量也不同。

（6）.cda文件：

取样频率为44.1kHz，16位量化位数，跟WAV一样，但CD存储采用了音轨的形式，又叫“红皮书”格式，记录的是波形流，是一种近似无损的格式。

7.数字音频压缩标准：

常用的音频信号的压缩编码分为无损压缩和有损压缩。

典型的无损压缩方法有：

哈夫曼编码、算术编码、行程编码、LZW等。

典型的有损压缩方法有：

预测编码、变换编码、PCM、子带编码等。

8.音频压缩技术标准：

电话语音压缩200Hz~3.4kHz、调幅广播语音压缩50Hz~7kHz和高保真立体声音频压缩50Hz~20kHz3种。

9.声卡的主要功能：

声卡是负责录音、播音和声音合成的多媒体板卡。

①录制、编辑和回放数字音频文件②控制和混合各声源的音量

③记录和回放音频时进行压缩和解压缩④文语转换与语音识别

⑤具有MIDI接口（乐器数字接口）和音乐合成

11.什么是MIDI？

MIDI是MusicalInstrumentDigitalInterface（乐器数字接口）的缩写，MIDI是用来连接电子乐器或者将MIDI设备与电脑连接成系统的一种通信协议。

MIDI是各种电子乐器之间以及它们与计算机之间用来互相沟通的一种语言，可以使不同厂家生产的电子音乐合成器互相发送和接收音乐信息，并且还能满足音乐创作和长时间播放音乐的需要。

12.MIDI合成方式：

（1）.调频合成法FM（FrequencyModulation）利用傅立叶级数原理将其分解为若干个不同频率的正弦波，然后生成MIDI音乐信息中指定乐器的各个正弦波分量

（2）.波形表合成法WT（WaveTable）MIDI合成器的ROM中预先存放各种实际乐器的声音样本。

在进行音乐合成时，合成器以查表的方式调用这些样本，使其与MID音乐信息的要求完全相配，然后合成器将这些分段合成的样本送至扬声器播放。

13.MIDI音乐制作系统：

音源、音序器、MIDI键盘。

14.MIDI的工作过程

15.语音识别的基本原理

语音识别属于模式识别，分为训练和识别两个过程。

在训练阶段，语音识别系统对人类的语言进行学习，学习结束把学习内容组成模式库存储起来；在识别阶段就可以对人们当前输入的语音在模式库中查找相应的词义或语义。

预处理部分包括语音信号采样、反混叠带通滤波（去除个体发音差异和设备、环境引起的噪声影响）、并涉及到语音识别基元的选取和端点检测问题。

特征提取部分用于提取语音中反映本质特征的声学参数，如平均能量、平均跨零率、共振峰等。

训练在识别之前进行，通过让讲话者多次重复语音，从原始语音样本中去除冗余信息，保留关键数据，再按照一定规则对数据加以聚类，形成模式库。

模式匹配部分是整个语音识别系统的核心，它是根据一定的准则（如某种距离测度）以及专家知识（如构词规则、语法规则、语义规则等），计算输入特征与库存模式之间的相似度（如匹配距离、似然概率），判断出输入语音的语意信息。

16.语音识别系统的分类

（1）.根据词汇量多少

小词汇量语音识别系统：

几十词

中词汇量语音识别系统：

几百词

大词汇量语音识别系统：

几千-几万词

（2）.根据对说话人依赖程度

特定人语音识别系统：

专人

非特定人语音识别系统：

所有人

限定人识别系统：

一组人

（3）.根据对说话人说话方式

孤立词语音识别系统：

每词后停顿

连接词语音识别系统：

连音

连续语音识别系统：

连音、变音

17.语音识别软件ViaVoiceetc

中文听写

语音识别软件语音命令

语音合成

IBMViaVoice中文语音识别系统

18.文本-语音转换技术:

文本-语音转换（Text-to-Speech）是指将文本信息转换成自然语音，最终目标是使计算机能够以清晰自然的声音和各种语言，甚至是各种表情来朗读任意的文本。

也就是说，要使计算机具有象人一样、甚至比人更强的说话能力。

因而它是一个十分复杂的问题，涉及到语言学、韵律学、语音学、自然语言处理、信号处理、人工智能等诸多的学科。

19.数字音频处理软件:

CoolEdit

标题栏

菜单栏

工具栏

状态栏

显示范围条

波形显示区

声音播放工具

水平缩放工具

时间显示区

垂直缩放工具

CD播放栏

VU电平监控

第三章图形与图像处理

1.光和颜色：

光的本质是一种电磁波。

红、橙、黄、绿、青、蓝、紫（色散）。

不能再分解的色光叫做单色光。

由单色光所混合的光称为“复色光”。

太阳光及一般光源发出的光都是复色光。

2.光的内涵：

色彩是人类视觉对可见光感知的结果，在可见光的七色光谱内不同波长的光会引起不同的颜色感觉。

红与青，绿与品红，蓝与黄互为补色。

3.颜色的三要素：

色调（色相），饱和度和亮度。

色调表示颜色的种类，如红、橙、黄、绿、青、蓝、紫等，取决于光的波长，是决定颜色的基本特征。

饱和度：

表示颜色的纯度，或者说是颜色的深浅程度，即掺入白光的程度。

亮度：

指光作用于人眼时所引起的明暗程度的感觉，它与被观察物体的发光强度有关，反光能力大的看起来就亮一些，反之就暗一些

4.色彩模式：

（RGBCMYK对比优缺点？

特点？

混合颜色？

）

RGB:

RGB分别代表红（Red）、绿（Green）、蓝（Blue）三种基本颜色，每种颜色的亮度大小用数字0-255表示，共有1670万种颜色。

最大表示：

28×28×28=224=16,777,216（16.7M）

R=G=B=0

黑色

R=G=B=255

白色

灰色

任何一种颜色都可以用这三种基本颜色按不同比例混合得到，称为相加混色，或称为RGB相加模式。

CMYK：

CMY模式由青（Cyan）、品红（Magenta）、黄（Yellow）三种基本颜色按一定比例合成，每种颜色用百分数0-100%来表示。

最大表示：

28×28×28×28=232=4294967296（4294M）

CMY模式和RGB模式不同，其色彩的产生不是直接来自于光线，而是由照射在颜料上反射回来的未被吸收的光线产生的，因为颜料会吸收一部分光线，所以这种色彩的产生方式称相减混色。

C=M=Y=K=0%白色

C=M=Y=K=100%黑色

理论上利用CMY三基色混合可以得到所需要的各种色彩，但实际上同量的CMY混合后并不能产生完善的黑色或灰色。

因此在印刷时必须加上一种真正的黑色（Black），这样CMY模式又称为CMYK模式。

在白光照射下，青色颜料能吸收红色而反射青色，黄色颜料吸收蓝色而反射黄色，品红颜料吸收绿色而反射品红。

White–Red=（R+G+B）–R=G+B=Cyan（C，青）

White–Green=（R+G+B）–G=R+B=Magenta（M,品红）

White–Blue=（R+G+B）–B=R+G=Yellow（Y,黃）

混合青、品红、黃三种颜料会得到黑色。

C+M+Y=W–R–G–B=0（Black,K,黑色）

RGB与CMYK这两大色彩模式的区别：

1.RGB色彩模式是发光的，存在于屏幕等显示设备中。

不存在于印刷品中。

CMYK色彩模式是反光的，需要外界辅助光源才能被感知，它是印刷品唯一的色彩模式。

2.色彩数量上RGB色域的颜色数比CMYK多出许多。

但两者各有部分色彩是互相独立（即不可转换）的。

5.HSB模式：

HSB模式由色调（Hue）、饱合度（Saturation）、亮度（Brightness）来生成颜色。

用HSB模式描述颜色更加自然，比较符合人的主观感受，适合绘画艺术，但使用时不方便，显示时要转换成RGB模式。

6.图形与图像，比较说明？

图形：

图形又称矢量图或几何图，是用数学模型表示图形的形状、位置、颜色等属性和参数。

例如，圆是由圆心坐标、半径和色彩组成的。

矢量图形的精度高、灵活性大，并且用它们设计出来的作品可以任意放大、缩小而不会变形失真。

它不会像一些位图图像，在进行高倍放大后图像会不可避免的方块化。

优点：

图形文件占用空间较少。

缺点：

图形复杂时，耗时相对较长，尤其在生成三维图形时，除绘出线条外，还要计算光照、着色等效果。

图像：

图像又称点阵图或位图，是空间和亮度上离散化的图像，它通过描述画面中每一像素的颜色或亮度来表示该图像，非常适合表现如明暗、浓淡、层次和色彩变化等包含大量细节的图片。

优点：

色彩和色调变化丰富，景物逼真。

缺点：

缩放或旋转处理后产生失真，图像文件的数据量大。

图形（Graphics）

图像（Image）

数据量很少

数据量很大

有结构，便于编辑修改

无结构，不便于编辑修改

不会产生失真现象

可能出现失真现象

生成视图需要复杂的计算，显示速度慢

生成视图不需复杂的计算，显示速度快

自然景物的表示很困难

自然景物的表示不困难

国际标准：

OpenGL

国际标准：

JPEG，TIFF

绘图软件:

AutoCAD，

CorelDraw等

图像处理软件：

Photoshop，PhotoDraw等

文件大小与色彩的关系：

图形的颜色作为绘制图元的参数在指令中给出，所以图形的颜色数目与文件的大小无关；

图像中每个像素所占据的二进制位数与图像的颜色数目有关，颜色数目越多，占据的二进制位数也就越多，图像的文件数据量也会随之迅速增大。

缩放效果：

图形在进行缩放、旋转等操作后不会产生失真；

图像有可能出现失真现象，特别是放大若干倍后可能会出现严重的颗粒状，缩小后会吃掉部分像素点。

适用场合：

图形适应于表现变化的曲线、简单的图案和运算的结果等

图像的表现力较强，层次和色彩较丰富，适应于表现自然的、细节的景物。

7.影响图像数字化质量的主要参数有分辨率、颜色深度等，其中，分辨率分为显示分辨率、图像分辨率和像素分辨率。

8.图像文件的大小：

指存储整幅图像所需的字节数，计算公式为：

图像文件的字节数=图像分辨率*颜色深度/8

例如，一幅640*480的真彩色图像，未经压缩的原始数据量为：

640*480*24/8=921600B=900KB

9.图像的文件格式:

BMP（Bitmap）文件是一种与设备无关的图像文件，是Windows系统推荐使用的位映射存储形式，可达32位全彩色模式，BMP文件通常都不采用压缩格式。

GIF（GraphicsInterchangeFormat）CompuServe公司开发,是压缩图像交换格式文件，适合于动画制作、网页制作等领域，图像文件短小，下载速度快，但不能存储超过256色的图像，可以在web浏览器中播放，有小动画的效果。

GIF采用两种排列顺序存储图像，即顺序排列和交叉排列，交叉排列使GIF具有”渐显”特色

JPEG（JointPhotographicExpertsGroup）是采用JPEG压缩标准储存图像的文件格式，压缩率较高，用于灰度和彩色图像的存储和网络传送

TIFF（TagImageFileFormat）Aldus公司开发，用于精确描述图像的场合,是一种通用的位映射图像文件格式，支持从单色的二值图像到32位真彩色的所有图像；适用于多种操作平台和多种机型，支持多种压缩方法。

TIFF格式的优点主要是适用于各种应用程序，与计算机体系结构、操作系统和图形处理硬件无关。

10.图像数据的压缩机理

空间冗余：

指同一幅图象中规则的物体和规则的背景都具有的很强的相关性；例如，在静态图像中有一块表面颜色均匀的区域，在此区域中所有点的光强和色彩以及饱和度都是相同的，因此数据有很大的空间冗余。

时间冗余：

运动图像一般为位于一时间轴区间的一组连续画面，其中的相邻帧往往包含相同的背景和移动物体，只不过移动物体所在的空间位置略有不同，所以后一帧的数据与前一帧的数据有许多共同的地方，这种共同性是由于相邻帧记录了相邻时刻的同一场景画面，所以称为时间冗余。

结构冗余：

在有些图像的纹理区，图像的像素值存在着明显的分布模式。

例如，方格状地板图案等，我们称此为结构冗余。

已知分布模式，可以通过某一过程生成图像。

视觉冗余：

人类的视觉敏感度一般小于图像的表现力，图像的微小色彩变化、亮度层次的细腻变化，以及轮廓的细微差别不易察觉，产生了视觉冗余

知识冗余　　有些图像的理解与某些知识有相当大的相关性。

例如，人脸的图像有固定的结构，嘴的上方有鼻子，鼻子的上方是眼睛，鼻子位于正脸图像的中线上。

这类规律性的结构可由先验知识和背景知识得到，称为知识冗余。

知识冗余是模型编码主要利用的特性

11.无损压缩是指在压缩时不丢失数据，解压缩后的还原图像与原始图像完全一致，是一种可逆压缩。

也叫做无失真编码或冗余压缩或熵编码。

常见的图像无损压缩编码有哈夫曼编码、行程编码、算术编码，LZW编码。

无失真压缩法去掉或减少数据中的冗余，恢复时再重新插到数据中，因此是可逆过程。

根据目前的技术水平，无损压缩算法一般可以把普通文件的数据压缩到原来的1/2－1/4

有损压缩也叫有失真编码，是指压缩时舍弃部分数据，解压后的还原图像与原始图像存在一定的误差，但视觉效果可以接受，压缩比较高。

图像有损压缩编码有预测编码、变换编码、矢量量化编码等。

图像包含的数据往往多于我们的视觉系统和听觉系统所能接收的信息，丢掉一些数据而不至于对声音或者图像所表达的意思产生误解，但可大大提高压缩比。

12.常用的编码方法

一、统计编码

统计编码也称为信息熵编码，它是根据信源符号出现概率的分布特性而进行的压缩编码，属于无损压缩编码。

统计编码包括哈夫曼编码、行程编码、算术编码等。

设信息源X的符号集为xi（i=1,2….n），设xi出现的概率为p（xi），则信息源X的熵定义为：

H（X）在信息论中称为信源X的熵（Entropy），单位为bit/符号，-log2P（xi）表示包含在xi中的信息量，因此熵就是信源X发出任意一个随机变量的平均信息量，是进行无失真压缩编码的理论极限。

如果我们设计的编码方法的码字的平均比特率接近熵，那么说明这个编码方法是最佳的。

例如：

信源X中有16个随机事件，即n=16。

每个随机事件的概率都相等，即

用信息熵H来评价压缩编码

用熵衡量压缩方法的效果

如果信号序列经压缩后，熵H不变，则表明信息量没有下降，这种压缩方法是无损的编码方法，所以无损编码又称为熵（不变）编码。

用熵衡量压缩是否为最佳码

如以N表示编码器输出码字的平均码长，则当：

N>>H（X）时，有冗余，不是最佳，有进一步压缩的潜力；

而N

当N稍大于H（X）最佳码。

熵值是平均码长N的下限。

13.哈夫曼编码（画图，写步骤，码长，码字，计算平均码长）

思想：

由于图像中表示颜色的数据出现的概率不同，对于出现频率高的赋予较短字长的码，对出现频率小的赋予较长字长的码，从而减少总的代码量，但不减少总的信息量,实现数据压缩。

方法：

（1）把信源符号（共N个）按其出现概率的值由大到小顺序排列；

（2）将出现概率最小的两个符号的概率相加，合成一个概率，这时概率个数减为n-1个，将n-1个概率重新按概率大小顺序排列；

（3）重复第2步做法，直到概率为1；

（4）用线将符号连接起来，逐步从后向前进行编码，每个节点有两个分支，对概率大的赋1，概率小的赋0，（也可以对概率大的赋0，概率小的赋1），经过几个节点后到达端点；

（5）将一路遇到的0或1按顺序排列起来，就是这个端点所对应的信源符号的码字。

在理解上述步骤的基础上，学会给已知的信源编码。

平均码长N为：

可见，Huffman编码后的冗余仅为：

2.73-2.61=0.12bit/码字。

14.算术编码（画图，写步骤）

Huffman编码的局限性：

Huffman编码使用整数个二进制位对符号进行编码，这种方法在许多情况下无法得到最优的压缩效果。

假设某个字符的出现概率为80%，该字符事实上只需要-log2（0.8）=0.322位编码，但Huffman编码一定会为其分配一位0或一位1的编码。

可以想象，整个信息的80%在压缩后都几乎相当于理想长度的3倍左右。

基本思想：

算术编码不是将单个信源符号映射成一个码字，而是把整个信源表示为实数线上的0到1之间的一个区间，其长度等于该序列的概率，再在该区间内选择一个代表性的小数，转化为二进制作为实际的编码输出。

消息序列中的每个元素都要用来缩短这个区间。

消息序列中元素越多，所得到的区间就越小，当区间变小时，就需要更多的数位来表示这个区间。

采用算术编码每个符号的平均编码长度可以为小数。

例：

假设信源符号为{A,B,C,D}，这些符号的概率分别为{0.1,0.4,0.2,0.3}，根据这些概率可把间隔[0,1]分成4个子间隔：

[0,0.1],[0.1,0.5],[0.5,0.7],[0.7,1]，其中[x,y]表示半开放间隔，即包含x不包含y，如下表所示。

如果消息序列的输入为：

CADACDB，其编码过程如下：

首先输入的符号是C，找到它的编码范围是[0.5,0.7]；

由于消息中第2个符号A的编码范围是[0,0.1]，因此它的间隔就取[0.5,0.7]的第一个1/10作为新间隔[0.5,0.52]；

表：

信源符号、概率和初始编码间隔

符号

概率

0.1

0.4

0.2

0.3

初始编码间隔

[0,0.1]

[0.1,0.5]

[0.5,0.7]

[0.7,1]

编码第3个符号D时取新间隔为[0.514,0.52]；

编码第4个符号A时，取新间隔为[0.514,0.5146]，…。

消息的编码输出可以是最后一个间隔中的任意数，整个编码过程如图4-3所示。

最后在[0.5143876,0.51442]中选择一个数作为编码输出值：

0.5143876。

解码时，解码器由编码输出值：

0.5143876，可马上解得一个字符为C，然后依次得到唯一解A,D,A,C,D,B。

15.预测编码意义：

预测编码（PredictionCoding）是统计冗余数据压缩理论的三个重要分支之一，用预测编码减少数据时间和空间的相关性。

预测编码的基本思想

建立一个数学模型利用以往的样本数据对新样本值进行预测将预测值与实际值相减对其差值进行编码

这时差值很少，可以减少编码码位。

预测编码主要是减少数据在时间和空间上的相关性。

它是利用原始的离散信号之间存在一定相关性的特点，建立一个预测模型，然后根据这个模型及以往的样本值，预测下一个信号的值，然后由实际值和预测值计算出预测误差，再对这个误差编码后发送到接收端，接收端通过预测值加差值信号来重建原信号。

如果模型选取得足够好且样本序列在时间上相关性较强，误差信号就会很小，从而可以用较少的码数进行编码，以达到数据压缩的目的。

常用的预测编码算法主要有DPCM和ADPCM。

16.变换编码的意义：

变换编码是进行一种函数变换，不是直接对空域图像信号编码，而是首先将空域图像信号映射变换到另一个正交矢量空间（变换域、或频域），产生一批变换系数，然后对这些变换系数进行编码处理。

图像经过正交变换后能够实现图像数据压缩的本质在于：

经过多维坐标系中的适当坐标旋转和变换，能够把散布在各个坐标轴上的原始图像数据，在新的适当的坐标系中集中到少数坐标轴上，因而有可能用较少的编码字节数来表示一幅图像，实现图像的压缩编码

变换编码的基本方法是将数字图像分成一定大小的子图像块，用某种正交变换对子像块进行变换，得到变换域中的系数矩阵，然后选用其中的主要系数进行量化编码

17.基于DCT编码的关键步骤

展开阅读全文