《多媒体技术基础》考前复习资料.docx
《《多媒体技术基础》考前复习资料.docx》由会员分享,可在线阅读,更多相关《《多媒体技术基础》考前复习资料.docx(34页珍藏版)》请在冰豆网上搜索。
《多媒体技术基础》考前复习资料
一、绪论
1.多媒体的定义
多媒体是融合两种或者两种以上媒体的一种人-机交互式信息交流和传播媒体,使用的媒体包括文字、图形、图像、声音、动画和电视图像等。
2.多媒体的特点
多样性、集成性、交互性。
3.多媒体的分类
感觉媒体:
能直接作用于人们的感觉器官,从而能使人产生直接感觉的媒体。
(内容为视觉媒体、听觉媒体、触觉媒体、嗅觉媒体、味觉媒体)
表示媒体:
计算机内部计算机与计算机之间交换信息所使用的媒体。
(内容为图象、图形、文本、视频、动画、合成语音、MIDI音乐、MP3音乐、波形声音)
表现媒体:
用于传递出入于计算机。
(内容为输出媒体:
纸张、屏幕、扬声器;输入媒体:
键盘、鼠标、摄像头)
存储媒体:
存储信息的媒体。
(内容为纸张、软盘等)
传输媒体:
传送信息的媒体,网络。
(内容为同轴电缆、光纤、无线电等)
二、无损压缩编码
1.指标
压缩比、图像质量、压缩解压速度、硬件和软件。
2.霍夫曼(Huffman)编码
无损。
是统计独立信源能达到最小平均码长的编码方法。
编码效率高。
编码步骤:
(1)初始化,根据符号概率的大小按由大到小顺序对符号进行排序。
(2)把概率最小的两个符号组成一个节点。
(3)重复步骤2。
(4)从根节点开始到相应于每个符号的“树叶”,从上到下标上“0”(上枝)或者“1”(下枝),至于哪个为“1”哪个为“0”则无关紧要,最后的结果仅仅是分配的代码不同,而代码的平均长度是相同的。
(5)从根节点开始顺着树枝到每个叶子分别写出每个符号的代码。
注意点
霍夫曼编码没有错误保护功能,如果码中有错误,则可能引起接下来的一连串译码错误。
霍夫曼编码是可变长编码,因此很难随意查找或调用中的文件内容。
霍夫曼依赖于信源的统计特性。
霍夫曼编码的每个码字都是整数,因此实际上平均码长很难达到信息熵的大小。
霍夫曼编码解码必须要有码表,如果消息数目很多,那么所需要存储的码表也很大,这将影响系统的存储量及编、译码速度。
3.算术编码
把一个信源集合表示为实数线上的0到1之间的一个区间。
这个集合中的每个元素都要用来缩短这个区间。
信源集合的元素越多,所得到的区间就越小,当区间变小时,就需要一些更多的数位来表示这个区间,这就是区间作为代码的原理。
算术编码首先假设一个信源的概率模型,然后用这些概率来缩小表示信源集的区间。
新子区间的起始位置=前子区间的起始位置+当前符号的区间左端×前子区间长度
新子区间的长度=前子区间的长度×当前符号的概率(等价于范围长度)
最后得到的子区间的长度决定了表示该区域内的某一个数所需的位数。
[例]假设信源符号为{00,01,10,11},这些符号的概率分别为{0.1,0.4,0.2,0.3},根据这些概率可把间隔[0,1)分成4个子间隔:
[0,0.1),[0.1,0.5),[0.5,0.7),[0.7,1),其中[x,y)表示半开放间隔,即包含x不包含y。
上面的信息可综合在下表中。
符号
00
01
10
11
概率
0.1
0.4
0.2
0.3
初始编码间隔
[0,0.1)
[0.1,0.5)
[0.5,0.7)
[0.7,1)
要注意的几个问题:
由于实际的计算机的精度不可能无限长,运算中出现溢出是一个明显的问题,但多数机器都有16位、32位或者64位的精度,因此这个问题可使用比例缩放方法解决。
算术编码器对整个消息只产生一个码字,这个码字是在间隔[0,1)中的一个实数,因此译码器在接受到表示这个实数的所有位之前不能进行译码。
算术编码也是一种对错误很敏感的编码方法,如果有一位发生错误就会导致整个消息译错。
4.LZW编码
全称Lempel-Ziv-WelchEncoding,简称LZW的压缩算法。
LZW通过建立一个字符串表,用较短的代码来表示较长的字符串来实现压缩。
字符串和编码的对应关系是在压缩过程中动态生成的,并且隐含在压缩数据中,解压的时候根据表来进行恢复,是一种无损压缩。
三个重要的对象
数据流
编码流
编译表
在编码时,数据流是输入对象(文本文件的数据序列),编码流就是输出对象(经过压缩运算的编码数据);在解码时,编码流则是输入对象,数据流是输出对象;而编译表是在编码和解码时都须要用借助的对象。
基本原理
提取原始文本文件数据中的不同字符,基于这些字符创建一个编译表,然后用编译表中的字符的索引来替代原始文本文件数据中的相应字符,减少原始数据大小。
看起来和调色板图象的实现原理差不多,但是应该注意到的是,我们这里的编译表不是事先创建好的,而是根据原始文件数据动态创建的,解码时还要从已编码的数据中还原出原来的编译表.
LZW算法
LZW算法基于转换串表(字典)T,将输入字符串映射成定长(通常为12位)的码字。
在12位4096种可能的代码中,256个代表单字符,剩下3840给出现的字符串。
1)初始化:
将所有的单字符串放入串表
2)读第一个输入字符给前缀串ω
3)Step:
读下一个输入字符K;
if没有这样的K(输入已穷尽):
码字(ω)输出;结束。
IfωK已存在于串表中:
ωK:
=ω;repeatStep;
elseωK不在于串表中:
码字(ω)输出;
ωK加进串表;
K:
=ω;repeatStep.
LZW编码举例
见书本P60的示例
做课后练习4.2
LZW编码的特点
LZW码能有效利用字符出现频率冗余度进行压缩,且字典是自适应生成的。
LZW压缩技术对于可预测性不大的数据具有较好的处理效果,常用于GIF格式的图像压缩,其平均压缩比在2:
1以上,最高压缩比可达到3:
1。
对于数据流中连续重复出现的字节和字串,LZW压缩技术具有很高的压缩比。
除了用于图像数据处理以外,LZW压缩技术还被用于文本程序等数据压缩领域。
LZW压缩技术有很多变体,例如常见的ARC、RKARC、PKZIP高效压缩程序。
对于任意宽度和像素位长度的图像,都具有稳定的压缩过程。
压缩和解压缩速度较快。
对机器硬件条件要求不高,在Intel80386的计算机上即可进行压缩和解压缩。
三、声音
1.声音的基本参数
频率、幅度
2.音频范围
人的发音器官的发音频率80~3400Hz,人说话的信号频率范围通常为300~3000Hz。
音频信号:
20~20KHz,耳朵可以听到。
小于20Hz为次音信号,大于20KHz为超声波信号。
3.声音数字化
A时间及幅值都连续的信号叫模拟信号。
时间及幅值都离散的信号叫数字信号。
B声音信号数字化实际上就是采样和量化。
采样(采样定律)量化(信噪比)
声音质量的的好坏等级如图。
4.语音编码
脉冲编码调制(PCM)。
基本原理如图。
输入是模拟声音信号,输出是PCM样本。
均匀量化:
采用相等的量化间隔对采样得到的信号进行量化。
非均匀量化原理:
对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔。
又分为A律、律。
律:
A律:
可以在满足精度要求情况下用较少的位数表示。
ADPCM编码原理(自适应差分脉冲编码调制)
①利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值;
②使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。
要求能够对着框图讲原理
子带编码(SBC)的好处
对每个子带信号分别进行自适应控制,量化阶的大小可以按照每个子带的能量电平加以调节。
具有较高能量电平的子带用大的量化阶去量化,以减少总的量化噪声。
可根据每个子带信号在感觉上的重要性,对每个子带分配不同的位数,用来表示每个样本值。
子带-自适应差分脉冲编码调制(SB-ADPCM()(G.722标准)
用正交镜象滤波器(QMF)把频带分割成两个等带宽的子带,分别是高频子带和低频子带。
在每个子带中的信号都用ADPCM进行编码
对高子带分配2位表示每个样本值,而低子带分配6位。
因为64kb/s的G.722标准主要还是针对宽带话音,其次才是音乐
音频标准:
G.711:
采样率为8kHz、8位/样本、数据率为64kb/s、话音信号频率为300~3400Hz、属于窄带音频信号编码(PCM)。
A律3.4k,律64kb/s。
G.721:
8kHz采样率、4位/样本、32kb/s的G.721标准,以及G.721的扩充标准G.723(ADPCM)
G.722:
音频信号带宽为7kHz、数据率为64kb/s的编译码原理、算法和计算细节;音频信号采样频率由8kHz提高到16kHz,是G.711PCM采样率的2倍,因而要被编码的信号频率由原来的3.4kHz扩展到7kHz。
这就使音频信号的质量有很大改善,由数字电话的话音质量提高到调幅(AM)无线电广播的质量
5.MPEG声音
当声音弱到人的耳朵刚刚可以听见时,此时声音强度为“听阈”。
声音强到使人耳感到疼痛时的声音强度为痛阈。
掩蔽效应
一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。
前者称为掩蔽声音,后者称为被掩蔽声音。
掩蔽可分成频域掩蔽和时域掩蔽。
频率掩蔽:
一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽。
一般来说,弱纯音离强纯音越近就越容易被掩蔽。
时域掩蔽:
在时间上相邻的声音之间也有掩蔽现象,并且称为时域掩蔽。
时域掩蔽又分为超前掩蔽和滞后掩蔽。
超前掩蔽很短,只有大约5~20ms,而滞后掩蔽可以持续50~200ms。
频率掩蔽特点:
①在250Hz、1kHz、4kHz和8kHz纯音附近,对其他纯音的掩蔽效果最明显;②低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的掩蔽作用则不明显。
MPEG声音编码用了哪些听觉特性
音高和掩蔽效应。
听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号就听不到,因此就可以把这部分信号去掉。
听觉阈值的大小随声音频率的改变而改变,各个人的听觉阈值也不同。
一个人是否能听到声音取决于声音的频率,以及声音的幅度是否高于这种频率下的听觉阈值。
听觉掩饰特性,听觉阈值电平是自适应的,即听觉阈值电平会随听到的不同频率的声音而发生变化。
MPEGAudio压缩的主要依据是人耳朵的听觉特性。
总之,时域和频域都有用到。
四、图像
1.颜色的三个特性
色调、饱和度、亮度
2.颜色的度量体系
称为颜色制或叫颜色体制,实际上就是人们组织和表示颜色的方法,有时候又翻译成“颜色系统”分为两种:
颜色模型(颜色空间):
RGB、HSB、CMY……编目系统:
Munsell、Pantone3.常用的颜色空间及其使用场合
RGB型/计算机图形颜色空间:
这类模型主要用于电视机和计算机的颜色显示系统。
XYZ型/CIE颜色空间:
这类颜色是由国际照明委员会定义的颜色空间,能常作为国际性的颜色空间标准,用作颜色的基本度量方法,是设备无关的颜色表示法。
YUV型/电视系统颜色空间:
由广播电视需求的推动而开发的颜色空间,主要目的是通过压缩色度信息以有效地传播彩色电视图像。
HSI型/计算机图形颜色空间:
这类颜色空间是以色调为基础的颜色空间,这些颜色空间在计算机应用软件中得到广泛的应用,使用都可以方便的指定所需要的颜色。
C=
M=
Y=
1-R
1-G
1-B
CMY:
打印机;HSI:
人;RGB:
显示器。
RGB与CMY是互补的关系。
4.图像的基本属性:
(1)分辨率(显示分辨率、图像分辨率)
显示分辨率:
指显示屏上能够显示出的象素数目。
同样大小显示屏能够显示的象素越多,说明显示设备的分辨率越高,显示的图像质量也就越高。
(640×480,1024×768)图像分辨率:
指组成一副图像的像素的密度,一般用单位长度上包含像素的个数来衡量。
常用单位为DPI(dotsperinch),即每英寸多少点。
(2)像素深度
像素深度是指存储每个像素所用的位数。
像素深度决定彩色图像每个像素可能有的颜色数,或者确定灰度图像每个像素可能有的灰度级数。
(3)真彩色、伪彩色与直接色
真彩色:
真彩色是指在组成一幅彩色图像的每个像素值中,有R,G,B三个基色分量,每个基色分量直接决定显示设备的基色强度,这样产生的彩色称为真彩色。
伪彩色:
每个像素的颜色不是由每个基色分量的数值直接决定,而是把像素值当作彩色查找表(调色板)的表项入口地址,去查找一个显示图像时使用的R,G,B强度值,用查找出的R,G,B强度值产生的彩色称为伪彩色。
直接色:
每个像素值分成R,G,B分量,每个分量作为单独的索引值对它做变换。
也就是通过相应的彩色变换表找出基色强度,用变换后得到的R,G,B强度值产生的彩色称为直接色。
5.图像种类
(1)点位图矢量图
点位图是将一副图像在空间上离散化,即将图像分成许许多多的像素,每个象素用若干个二进制位来指定该像素的颜色或灰度值。
点位图的优点是:
1)显示速度快。
2)真实世界的图像可以通过扫描仪、数码相机、摄像机等设备方便的转化为点位图。
点位图的缺点是:
1)存储和传输时数据量比较大。
2)缩放、旋转时算法复杂且容易失真。
矢量图是用一系列计算机指令来表示一幅图,如画点、画线、画曲线、画圆、画矩形等。
这种方法实际上是用数学方法来描述一幅图。
矢量图的优点是:
1)缩放、旋转、移动时图像不会失真。
2)存储和传输时数据量较小。
矢量图的缺点是:
1)图像显示时花费时间比较长。
2)真实世界的彩色图像难以转化为矢量图。
(2)灰度图彩色图
灰度图:
只有明暗不同的像素而没有彩色像素组成的图像。
彩色图:
书上及幻灯片上均没有相关定义。
根据灰度图的定义,为:
有彩色像素的图像。
6.α通道
定义:
属性中的透明位称为1位α通道。
在每个像素用32位的图像表示法中,最高8位称为8位α通道,用于表示像素在对象中的透明度。
作用:
应用于视图混合技术中。
总的来说就是设置透明度,应用于文字、图片的叠加。
7.γ校正
γ是幂函数的指数,它用来衡量非线性部件的转换特性。
幻灯片定义:
我们加入一个中间环节来校正整个系统的值,即补偿系统的非特性曲线,使之接近于应用环境所要求的值。
这个过程就叫做伽马()校正。
网络定义:
所谓伽玛校正就是对图像的伽玛曲线进行编辑,以对图像进行非线性色调编辑的方法,检出图像信号中的深色部分和浅色部分,并使两者比例增大,从而提高图像对比度效果。
作用:
重现真实图像。
8.JPEG编码
编码步骤:
图像进行88分块
对每个分块进行DCT正变换
对DCT系数进行量化
对88分块进行之字形扫描,并对扫描得到的数据进行熵编码
(简单地说,是:
8*8DCT量化Z扫描熵编码)
质量下降发生在量化这一步。
Z扫描的作用:
有利于游程编码、使系数按重要性排列
五、电视
1.电视制式图像大小帧数
NTSC制、PAL制和SECAM制。
PAL制电视的扫描特性
PAL电视制的主要扫描特性是:
(1)625行(扫描线)/帧,25帧/秒(40ms/帧)
(2)高宽比(aspectratio):
4:
3
(3)隔行扫描,2场/帧,312.5行/场
(4)颜色模型:
YUV
NTSC制的扫描特性
NTSC彩色电视制的主要特性是:
(1)525行/帧,30帧/秒(29.97fps,33.37ms/frame)
(2)高宽比:
电视画面的长宽比(电视为4:
3;电影为3:
2;高清晰度电视为16:
9)
(3)隔行扫描,一帧分成2场(field),262.5线/场
(4)在每场的开始部分保留20扫描线作为控制信息,因此只有485条线的可视数据。
Laserdisc约~420线,S-VHS约~320线
(5)每行63.5微秒,水平回扫时间10微秒(包含5微秒的水平同步脉冲),所以显示时间是53.5微秒。
(6)颜色模型:
YIQ
SECAM
这种制式与PAL制类似,其差别是SECAM中的色度信号是频率调制(FM),而且它的两个色差信号:
红色差(R'-Y')和蓝色差(B'-Y')信号是按行的顺序传输的。
法国、俄罗斯、东欧和中东等约有65个地区和国家使用这种制式,图像格式为4:
3,625线,50Hz,6MHz电视信号带宽,总带宽8MHz。
2.扫描方式
隔行扫描、非隔行扫描(逐行扫描)。
3.彩色电视采用Y、C1、C2颜色空间的优点
①Y和C1,C2是独立的,因此彩色电视和黑白电视可以同时使用,Y分量可由黑白电视接收机直接使用而不需做任何进一步的处理;
②可以利用人的视觉特性来节省信号的带宽和功率,通过选择合适的颜色模型,可以使C1,C2的带宽明显低于Y的带宽,而又不明显影响重显彩色图像的观看。
因此,为了满足兼容性的要求,彩色电视系统选择了一个亮度信号和两个色差信号,而不直接选择三个基色信号进行发送和接收。
4.图像子采样
对彩色电视图像进行采样时,可以采用两种采样方法。
一种是使用相同的采样频率对图像的亮度信号和色差信号进行采样,另一种是对亮度信号和色差信号分别采用不同的采样频率进行采样。
如果对色差信号使用的采样频率比对亮度信号使用的采样频率低,这种采样就称为图像子采样。
人的视觉系统对采样前后显示的图像质量没有感到有明显差别,但图像压缩了。
5.MPEG原理
①在空间方向上,图像数据压缩采用JPEG压缩算法来去掉冗余信息。
②在时间方向上,图像数据压缩采用移动补偿算法来去掉冗余信息。
6.I.P.B编码方法
为了在保证图像质量基本不降低而又能够获得高的压缩比,MPEG专家组定义了三种图像:
①帧内图像I(intra)
②预测图像P(predicted)
③双向预测图像B(bidirectionallyinterpolated),典型的排列如图所示。
这三种图像将采用三种不同的算法进行压缩。
帧内图像I不参照任何过去的或者将来的其他图像帧,压缩编码采用类似JPEG压缩算法。
预测图像P使用两种类型的参数来表示:
一种参数是当前要编码的图像宏块与参考图像的宏块之间的差值,另一种参数是宏块的移动矢量。
预测图像的编码也是以图像宏块(macroblock)为基本编码单元,一个宏块定义为I×J像素的图像块,一般取16×16。
求解差值的方法如图所示。
假设编码图像宏块MPI是参考图像宏块MRJ的最佳匹配块,它们的差值就是这两个宏块中相应像素值之差。
对所求得的差值进行彩色空间转换,并作4:
1:
1的子采样得到Y,Cr和Cb分量值,然后仿照JPEG压缩算法对差值进行编码,计算出的移动矢量也要进行霍夫曼编码。
双向预测B是同时使用前身参考帧和后向参考帧进行预测。
双向预测对于编码由物体运动引起的暴露区域有图像是非常有效的。
7.MPEG4算法核心是支持内容基的编码与解码。
六、光盘
1.CD光道结构恒定角速度恒定线速度各自的优点
螺旋形,恒定线速度。
角速度恒定的的好处之一是控制简单,便于随机存取。
采用了恒定线速度,内外光道的记录密度(比特数/每英寸)可以做到一样,这样盘片就得到充分利用,可以达到它应有的数据存储容量,但随机存储特性变得较差,控制也比较复杂。
2.CD的数据(0,1)是如何读出的
CD盘上的数据要用CD驱动器来阅读。
CD驱动器由光学读出头、光学读出头驱动机构、CD盘驱动机构、控制线路以及处理光学读出头读出信号的电子线路等组成。
凹坑和非凹坑本身不代表1和0,而是凹坑端部的前沿和后沿代表1,凹坑和非凹的长度代表0的个数。
3.EFM调制为什么如何做
幻灯片解释:
根据70年代的技术水平,把“0”的游程长度最短限制在2个,而最长限制在10,光盘上的信号就能够可靠读出。
2个“1”之间至少要有2个“0”最多不超过10个“0”。
8位数据有256种代码,14位数据有16384种代码,通过计算机的计算,在这16384种代码中有267种代码能够满足"0"游程长度的要求。
在这267种代码中,其中有10种代码在合并通道代码时限制长度仍有困难,再去掉一个代码,这样就得到了与8位数据相对应的256种通道码。
此外,当通道码合并时,为了满足游程长度的要求,在通道码之间再增加3位来确保读出信号的可靠性,于是在激光唱盘中8位的数据就转换成了17位通道代码。
网络解释:
八比十四调变。
在光学记录系统中,伺服系统在三种维度上准确地沿循轨道的位置:
半径、焦点和旋转速度。
日常操作的损害,诸如灰尘、指纹、刮伤,不只会影响接收的资料,也会破坏伺服功能(在一些情况中,必须跳过轨道或甚而卡住)。
在凹洞和平面连续序列的集合中,有一些特定序列特别容易受到碟片瑕疵的影响,假如可以避免这些序列的发生,就可以增强光碟的可靠性。
而EFM的用途就在于它能很有效率地解决这个工程问题。
在EFM规则下,要储存的资料首先被分割成8位元的区块(字节),然后利用查找表将各个8位元区块转译成相应的14位元代号。
14位元代码选择的原则,是让二进制的1之间,总是相隔最小两个、最多十个的0。
一个0011的序列会被改成1101或者倒转的0010,依照前一个写入的凹洞而有所不同。
如果两个1之间有两个0,那么写入的序列会有三个连续的0(或1)。
例如,010010会转译成100011(或011100)。
000100010010000100会被转译成111000011100000111(或它的逆转)。
因为EFM保证了每两个1之间一定至少有两个0,这代表每个凹洞和平面之间的长度至少会有三个单位时脉的位元长。
这个性质十分有用,因它降低了对回放机制中光学唱头的要求。
最多至连续十个0的要求,代表的是最糟情况下的时脉回复机制。
EFM要求相邻的14位元代码组之间,必须有三个位元用作结合码,以确保串连起来的代码亦不会破坏规定的最大最小游长。
这三个位元的结合码亦用于形塑编码后序列的频谱。
因此,在最终的结果中,保存8位元的资料必须使用17位元的空间。
4.DVD容量是如何提高的
DVD盘光道之间的间距由原来的1.6μm缩小到0.74μm,而记录信息的最小凹凸坑长度由原来的0.83μm缩小到0.4μm。
DVD盘的记录区域从CD盘的86cm2提高到86.6cm2,如图9-12所示,这样记录容量也就提高了1.9%。
提高DVD存储容量的另一个重要措施是使用盘片的两个面来记录数据,以及在一个面上制作好几个记录层。
DVD信号的调制方式和错误校正方法也做了相应的修正以适应高密度的需要,CD存储器采用8-14(EFM)加3位合并位的调制方式,而DVD则采用效率比较高的8-16+(EFMPLUS)的方式。
采用修改的数据编码和调制算法都可以减少DVD盘上的冗余位,从而为用户提供更多的存储空间。
现在的CD需要用17比特来表示一个8比特的数据(14个通道位和3个用于改善读出信号的合并位)。
新的算法将使用16比特来表示一个8比特的数据,这样也增加了DVD的容量。
5.存储格式的标准
CD-DA红皮书、CD-ROM黄皮书、VCD白皮书
6.从CD-DA过渡到CD-ROM需要解决哪些问题
①计算机如何寻找盘上的数据,也就是如何划分盘上的地址问题。
因为记录歌曲时是按一首歌作为单位的,一片盘也就记录20首左右的歌曲,平均每首歌占用30多兆字节的空间。
而用来存储计算机数据时,许多文件不一定都需要那么大的存储空间,因此需要在CD盘上写入很多的地址编号。
②把CD盘作为计算机的存储器使用时,要求它的