最新《多媒体计算机技术》学习笔记Word格式文档下载.docx
《最新《多媒体计算机技术》学习笔记Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《最新《多媒体计算机技术》学习笔记Word格式文档下载.docx(19页珍藏版)》请在冰豆网上搜索。
1995年
7、多媒体技术主要内容:
1)多媒体软硬件平台
2)专用芯片:
DSP
3)数据压缩及编码技术
4)多媒体同步:
集成模式:
制约式、交互式和协作式。
5)多媒体网络与分布式处理技术
6)信息的组织与管理
7)多媒体数据存储
8)虚拟现实技术
8、多媒体技术的应用
1)视频点播
2)电子出版物
3)CAI
4)游戏与娱乐
5)计算机视频会议
6)多媒体展示和信息查询系统
7)MIS与OA
8)传媒、广告
9)讲演辅助
10)联机服务
二、学习心得
基本上每本书的第一章都是提纲挈领地介绍整本书的主要内容,并提出一些基本的理论和概念。
第一章的学习是比较重要的,其内容是后面章节的概要性介绍。
估计会有10分左右的出题。
第二章多媒体计算机系统的组成
1、多媒体I/O设备分类
输入设备、输出设备、用于网络通信的通信设备。
2、输入设备
除了基本的键盘、鼠标等以外,还包括手写板、磁卡设备、IC卡设备、条码设备、图像扫描仪、数字化仪、触摸屏、视频卡和视频捕获卡等。
3、图像扫描仪主要性能指标
1)分辨率:
以每英寸上扫描象素点数(DPI)表示,通常在300DPI到1200DPI之间。
2)灰度,指图像亮度层次范围,目前可达250
3)色彩度,指彩色扫描仪支持的色彩范围,用象素的数据位表示,如24位支持16M色。
4)速度,在指定的分辨率和图像尺寸下的扫描时间。
5)幅面:
支持的幅面大小,如A4、A3
扫描仪按幅面大小份为台式和手持式,按图像类型分为灰度和彩色扫描仪。
4、触摸屏
一般由两部分组成:
触摸屏控制卡和触摸检测装置。
按介质及工作原理,可分为电阻式、电容式、红外线式和声表面波式。
5、视频捕获卡
将模拟视频信号转换为数字视频信号的转换卡。
选择时要考虑的问题:
1)是否有Overlay(叠加)功能,可直接把视频信号送到VGA显示器。
2)支持的输入视频标准、视频源和图形文件格式。
NTSC、PAL和S-Video。
3)与VGA卡的兼容性
4)是否采用了硬件压缩
5)“录像”质量:
图像尺寸、支持的颜色数、丢帧。
6、输出设备
1)CRT:
两大类:
图像显示、矢量图形方式。
种类:
存储型、随机扫描型、随机扫描彩色CRT。
2)液晶显示器(LCD):
低电压、低功耗。
按技术性质分单纯矩阵驱动和主动矩阵驱动,TFT是主要发展方向。
3)等离子体显示器(PDP)
4)显示卡:
主要作用是对图形函数进行加速。
5)打印机:
击打式和非击打式,点阵针击、激光、喷墨。
7、通信设备
1)调制解调器:
Modem
2)网卡,局域网最基本的部件之一,又称网络卡或网络接口卡,简称NIC。
主要工作是整理计算机上发往网线上的数据,并将数据分解为适当大小的数据包之后向网络上发送出去,还负责网线上传过来的数据。
3)传真/通讯卡
8、存储设备
1)软盘、硬盘、光盘
2)NAS:
网络附加存储,以数据为中心,将存储设备与服务器彻底分离,集中管理数据。
3)SAN:
存储局域网,以数据存储为中心,采用伸缩的网络拓扑结构,通过具有高传输速率的光通道的直接连接方式,提供SAN内部任意结点之间的多路可选择的数据交换,并且将数据存储管理集中在相对独立的存储区域网内。
9、USB设备
通用串行总线,主要特点:
即插即用、可热插拔,并具有自动配置能力。
1.1版12Mb/s,2.0版480Mb/s。
USB采用四线电缆,其中两根是用来传递数据的串行通道,另两根为下游设备提供电源。
USB支持4种基本的数据传输模式:
控制传输、等时传输、中断传输及数据块传输。
10、多媒体与CPU芯片
MMX技术:
重要特色是使用了单指令多数据流技术(SIMD),即一条指令并行处理多个数据,从而成倍地提高了机器计算速度。
这一章有不少常识性的内容,估计会有一些选择、填空、名词解释、简答的送分题。
第三章数字图像处理技术
***该章内容为重点内容***
1、彩色空间及变换
图像处理技术中最基本的问题是对颜色的处理。
颜色模式主要有:
1)RGB:
红、绿、蓝
2)Lab:
是由RGB转为HSB或CMYK模式的桥梁,发光率、颜色A、B。
3)HSB:
色泽、饱和度、亮度
4)YUV:
电视系统常用模式,亮度Y和色差U、V组成。
Y与U、V独立变化,可用于压缩。
5)CMYK:
彩色印刷使用。
2、冗余数据压缩
对多媒体数据进行压缩的前提是数据存在大量的冗余,压缩的目的就是尽可能消除这些冗余,分为:
1)统计冗余:
大量统计特征上的重复
2)信息熵冗余:
信息熵定义为一组数据所表示的信息量,等于各记录码元的二进制位数(即编码长度)与该码元出现的概率乘积之和。
3)结构冗余:
图像纹理
4)知识冗余:
5)视觉冗余:
人的视觉对某些细节不敏感
3、压缩算法评价
1)压缩比
2)算法的复杂性和运算速度
3)失真度:
无损编码、有损编码
4、行程长度编码(重点掌握并应用)
RLE,又称游程编码,就是把一系列的重复值用一个单独的值加上一个计数值来取代。
5、哈夫曼编码(重点掌握并应用)
基本思路:
出现频率越高的值其对应的编码长度越短,反之出现频率越低的值,其对应的编码长度越长。
步骤如下:
1)统计信源符号出现的概率
2)将信源符号按概率递减顺序排列
3)将两个最小的概率值加起来,作为一个新组合符号的概率。
4)重复2、3步,直到概率和达到1为止
5)在每次合并信源时,将合并的信源分别标记为“1”和“0”(例如,概率小的标记为“1”,概率大的标记为“0”)
6)寻找从每一信源符号到概率为1的路径,记录下路径上的“1”和“0”
7)对每一版本号写出“1”和“0”序列
缺点:
1)必须精确统计出每个值出现的频率,通常需要两遍操作,速度慢。
2)译码过程比较复杂,对于位的增删比较敏感。
6、预测编码
可分为线性预测和非线性预测编码。
前者常被称为差分脉冲编码调制,即DPCM。
其基本原理是基于图像中相邻象素之间的相关性,每个象素可通过与之相关的几个象素来进行预测。
7、变换编码
就是将时域信号变换到频域信号上进行处理的方法。
常用有K-L和DCT(离散余弦变换)。
8、模型法编码
预测编码、矢量量化编码以及变换编码都属于波形编码。
其理论基础是信号理论和信息论,其出发点是将图像信号看作不规则的统计信息,从象素之间的相关性这一图像信号统计模型出发设计编码器。
而模型编码则是利用计算机视觉和计算机图形学的知识对图像信号的分析与合成。
模型编码的关键是对特定的图像建立模型,并根据这个模型确定图像中景物的特征参数,如运动参数,形状参数等。
解码时则根据参数和已知模型用图像合成技术重建图像。
9、混合编码
以两种或两种以上方法对图像进行编码称为混合编码。
10、图的分类:
1)矢量图:
用数学方法描述的一系列点、线、弧和其它几何形状。
2)位映像图:
也称光栅图,由像点组成。
11、BMP格式
位图文件格式,三部分组成:
位图文件头数据结构、位图信息数据结构和位图阵列。
位图阵列数据支持RLE4和RLE8压缩格式。
12、GIF格式
CompuServe公司开发的格式,称为图形交换格式。
以数据块为单位来存储图像的相关信息,使用LZW压缩算法来存储,支持透明属性,可以在一个文件中存放多幅图像。
13、TIF格式
TIFF格式,与硬件无关,可以用几种不同的压缩方法压缩。
文件组成:
文件头、参数指针表、参数数据表。
14、PNG格式
便携网络图形格式,使用LZ77派生的无损数据压缩算法,目的是替换GIF和TIFF。
15、PNGvsGIFvsJPEG(掌握)
1)PNG兼有GIF和JPEG的色彩模式,GIF用256索引色,JPEG用真彩色,PNG都支持。
2)PNG能把图像压缩到极限,但又保留图像品质。
文字线条类图形用类GIF方式,相片类用类JPEG方式处理,但采用非破坏性压缩。
3)PNG更优化的传输显示。
支持类GIF的交错模式。
4)GIF只支持0/1透明,JPEG不支持透明,PNG支持“a”频段0-255的透明信息。
5)GIF在不同系统上显示的画面可能不同,PNG则可完全相同。
6)GIF支持一个文件多图像,PNG不支持。
7)PNG用无损压缩,虽然压缩比高于JPEG,但是JPEG可以牺牲品质换尺寸。
8)PNG不支持CMYK模式。
(后三个是PNG的缺点)
16、JPEG格式
ISO和CCITT静止图像编码联合专家组。
用于连续色调的静止图像压缩编码的通用算法的国际标准。
两种工作方式:
顺序方式和渐进方式。
顺序方式中,图像被分割成行成列的四方小块,编码时由左而右,由上而下地逐行逐列对每个小块进行运算,直到所有小块都被编码为止。
渐进方式下,先以一种低于最终质量要求的标准进行编码,完成后再以较上次高一级的质量要求再进行一次编译,但仅传送为改善质量所需增加的那部分信息。
重复若干次直至达到所需的最终质量要求。
三种级别编码算法:
基本系统、扩展系统、无失真系统。
基本系统编码以离散余弦变换为核心,采用顺序工作方式,适用于一般精度(8bit)的图像,有良好的压缩效果,压缩比可调。
将基本系统在若干方面增强并减少一些限制条件后就称为扩展系统,支持(4bit-12bit),可采用渐进方式,可选哈夫曼或算法码对离散余弦变换产生的统计事件进行压缩编码。
无失真系统采用二维DPCM技术,实现无失真压缩,压缩比较低。
17、JPEG基本系统编码过程(重点掌握)
1)二维DCT正变换,减少图像数据的相关性
2)系数量化,根据压缩精度将变换系数用较少的比特数表示
3)编码模型与统计事件,压缩系数矩阵中的零数据,从量化后的系数矩阵生成供熵编码的统计事件。
直流分量使用DPCM编码。
4)熵编码:
基本系统中用哈夫曼编码,扩展系统中可用算术编码。
5)数据结构,增加一些附加信息
18、JPEG渐进方式
1)谱选择法,对DCT变换后的系数,先低频后高频按级编码。
2)逐次逼近,第一级只送系数的近似值(如舍弃系数的几个低比特位),后面各级补上。
3)阶梯方式,先用小尺寸编码,再编码原图像与它的差值。
19、JPEG的压缩效果
0.15b/p,可识别,0.25有用,0.75极佳,1.5时基本与原图无区别。
20、JPEG2000
核心算法改用离散小波变换算法的多解析编码方式。
优势:
1)高压缩率,比JPEG高10%-30%
2)无损压缩,支持预测法无损压缩
3)渐进传输
4)感兴趣区域压缩,为感兴趣区域指定不同的压缩质量。
21、MPEG系统
运动图像专家组,下分三个小组:
MPEG-Video(视频组)负责视频压缩、MPEG-Audio(音频组)负责音频压缩、MPEG-System(系统组)解决多信道压缩视频音频和同步及合成问题。
22、MPEG-1标准
运动图像和伴随声音的编码-用于速率约在1.5Mb/s以下的数字存储媒体。
采用CIF视频格式(352x288),帧速率为25或30fps,码率为1.5Mb/s(其中视频约1.2Mb/s,音频约0.3Mb/s)。
1992年正式通过,由5部分组成:
1)MPEG-1System,规定电视图像数据、声音数据及其它相关数据的同步。
2)MPEG-1Video,规定视频数据的编码和解码。
3)MPEG-1Audio,规定音频数据的编码和解码。
4)MPEG-1Conformancetesting,规定如何测试比特数据流和解码器是否满足前3部分中所规定的要求。
5)MPEG-1Softwaresimulation
23、MPEG-1视频压缩算法(重点掌握)
系统参数:
图像宽度、高度、象素长宽比、帧速率、位速率、缓冲区尺寸等。
算法的两个基础:
基于16X16块的运动补偿缩减时间冗余,基于变换域(DCT)的缩减空间冗余技术。
1)缩减时间冗余度:
3种画面:
内帧(I)、预测帧(P)和内插帧(B)。
内帧经过中度压缩,可作为随机访问点,预测帧以参考帧(I或P)为基础进行编码,它又是后面预测帧的参考帧。
内插帧压缩比最高,它需要前后两参考帧,但它本身不能作为参考帧使用。
MPEG选择16X16宏块作为运动补偿单元。
每8个画面有一个内帧:
IBBBPBBBI。
2)缩减空间冗余度:
类似于JPEG,三个阶段:
第一阶段基于DCT的正交变换,计算变换系数,第二阶段对变换系数进行量化,将数据按Z字形扫描顺序重新组合,最后对变换系数按行程编码进行熵编码,以达到进一步压缩的目的。
24、MPEG-2标准
适于高于2Mb/s的视频压缩,基本算法也是运动补偿的预测和带有DCT的帧间内变长编码,与MPEG-1的主要区别:
1)能够有效地支持电视的隔行扫描格式。
2)支持可分级的可调视频编码,适用于需要同时提供多种质量的视频业务的情况。
系统分为9组,除了MPEG-1的五组,还有:
6)MPEG-2数字存储媒体命令和控制扩展协议
7)MPEG-2先进声音编码(AAC),多声道声音编码算法标准。
8)MPEG-2系统解码器实时接口扩展标准
9)MPEG-2DSM-CC一致性扩展测试
GOP-15:
IBBPBBPBBPBBPBBI,允许GOP-1到GOP-15甚至更多,支持变比特率(VBR)编码方案。
25、H.261标准
CCITT制定的国际上第一个视频压缩标准,主要用于电视电话和会议电视,1990年批准。
又称为Px64Kb/s标准,P=1,2时支持QCIF(172x144)。
P=6时支持CIF(352x288)。
核心是运算估值预测和DCT编码。
26、H.263标准
关于低于64Kb/s比特率的窄带通道视频编码建议,其目的是能在现有的电话网上传输活动图像。
提供两种编码模式:
帧内编码、帧间编码。
QCIF每帧分为若干宏块,每个宏块由4个8x8的亮度块、1个8x8的Cb块和1个8x8的Cr块组成,由若干个宏块行组成的块组称为1个GOB,行的数量取决于图像帧的分辨率。
QCIF格式中,1个GOB由一行(11个)宏块组成,每帧图像由9个GOB组成。
本章内容很重要,估计会有20分以上的题目,特别是几种简单压缩算法可能会出应用题。
JPEG、MPEG的算法和概念也可能出名词解释和简答题。
第四章音频信号和声卡
1、声音分类:
波形声音、语音、音乐
2、声音的3要素:
1)音调:
与声音的频率有关。
人耳对频率的感觉范围:
20Hz-18000Hz。
2)音强:
描述声音的强弱,体现在声音的幅度
3)音色:
由混入基音的泛音所决定
3、采样和量化
声音信号是连续的模拟信号,为了使计算机能够进行处理,必须首先对声音在时间轴和幅度两个方面进行离散化。
时间轴上的离散化称为采样,采样频率高于信号最高频率的2倍。
而对幅度的离散化称为量化,可采用线性量化和非线性量化两种方式。
对声音波形的采样,就是按采样的频率间隔、不断地获取幅度的量值,使离散的声音波形转变为离散的数字量。
4、常见音频文件格式
wav、au、aiff、snd、rm、mp3等。
wav称为波形文件格式,是一种资源交换文件格式(RIFF)。
5、声音质量
客观质量主要用信噪比SNR。
主观质量常用的有平均意见得分(MOS)。
数据语音通信中,分为:
广播质量、网络质量、通信质量和合成质量。
6、心理声学模型
一个基本概念就是听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号就听不到,因此可以把这部分信号去掉。
听觉阈值的大小随声音频率的改变而改变,各人也不同。
另一个概念是听觉掩饰特性,意思是听觉阈值电平是自适应的,即听觉阈值电平会随听到的不同频率的声音而发生变化。
7、脉冲编码调制(PCM)
概念上最简单、理论上最完善、最早研制成功、使用最为广泛的编码系统,但也是数据量最大的编码系统。
8、非线性量化
对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔,这样就可以在满足精度要求的情况下用较少的位数。
声音数据还原时,采用相同的规则
9、增量调制(DM)
是一种预测编码技术。
DM是PCM编码的一种变形。
PCM是对每个采样信号的整个幅度进行量化编码,因此它具有对任意波形进行编码的能力。
DM坚实际的采样信号与预测的采样信号之差的极性进行编码,将极性变成“0”和“1”这两种可能的取值之一。
有两个缺点:
1)斜率过载:
增量调制器的输出不能保持跟踪输入信号的快速变化的现象。
2)粒状噪声:
在输入信号缓慢变化部分,即输入信号与预测信号的差值接近零的区域,增量调制器的输出会出现随机交变的“0”和“1”。
解决方法:
自适应增量调制ADM。
10、自适应脉冲编码调制(APCM)
根据输入信号幅度的均方根值的变化来改变量化增量的一种编码技术。
11、差分脉冲编码调制(DPCM)
利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。
主要思想:
根据过去的样本去估算下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数。
12、自适应差分脉冲编码调制(ADPCM)
综合了APCM的自适应特性和DPCM系统的差分特性,是一种比较好的波形编码。
核心思想:
1)利用自适应的思想改变量化增量的大小,即用小的量化增量去编码小的差值,使用大的量化增量去编码大的差值。
2)使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。
13、音频编码标准
1)G.711:
1972年通过,速率64Kb/s,使用u律或A律的非线性量化技术,主要用于公共电话网中。
2)G.722:
1988年通过,使用子带编码(SBC)方案,分为高低两个子带信号,然后用ADPCM编码。
3)G.723:
1996年通过,“用于多媒体传输的5.3kb/s或6.3kb/s双速率话音编码”,多脉冲激励最大似然量化算法。
4)G.728:
1992年制定,使用基于低时延码本激励线性预测编码算法,16kb/s,公共电话网。
5)G.729:
1996年通过,8kb/s共轭结构代数激励线性预测算法。
14、MP3
是MPEGaudioLayer3音频文件的缩写,它是一超级声音文件的压缩方法,具有文件小、音质佳的特点。
采用“感官编码技术”,是一种有损压缩方式,但它以极小的声音失真换来较高的压缩比。
15、乐器数字接口MIDI
MIDI是乐器数字接口的英文缩写,是数字音乐/电子合成乐器的统一国际标准。
16、声卡的功能
1)录制、编辑和回放数字声音文件
2)控制各声源的音量,并混合在一起,以便数字化
3)在记录和回放数字文件时进行压缩和解压缩,以节省存储空间
4)采用语音合成技术,能让电脑朗读文件
5)MIDI接口
17、语音合成技术
主要包括特征提取技术、模式匹配准则和模型训练技术3个方面,另外还涉及到语音识别单元的选取。
18、语音识别系统
1)根据对说话人的信赖程度可分为特定人和非特定人语音识别系统。
2)根据对说话人说话方式的要求,可分为孤立字(词)、连接字以及连续语音识别系统。
3)根据词汇量大小,可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。
19、语音识别的应用
1)语音邮件集成
2)数据库输入和询问应用
3)语音命令和控制应用
本章内容较为重要,估计会有15分以上的出题。
第五章光盘存储原理及相关标准
1、几种光盘格式和标准
CD-DA:
数字激光唱盘,即“红皮书标准”
CD-ROM:
“黄皮书标准”
ISO9660:
光盘文件交换标准
2、CD盘片结构
由保护层、反射激光和铝反射层、刻槽和聚碳脂衬垫组成。
3、CD-ROM驱动器
CLV:
恒定的线速度
CAV:
恒定的角速度
单倍速光驱的速度:
150kb/s
4、VideoCD标准
又称为“白皮书”,描述的是一个使用CD格式和MPEG标准的数字电视播放系统。
5、DVD
数字电视光盘(系统)的缩写。
6、光驱应用技术
1)TrueX技术
2)人工智能纠错(AIEC)技术
3)自动平衡系统(ABS)
4)双动态抗震悬吊系统(DDSS)技术
5)数字伺服系统技术
光盘部分应该不是本课程重点,记住一些基本概念应该就可以了,估计会有选择题、填空和名词解释。
第六章多媒体计算机软件
1、多媒体软件分类
5类:
驱动程序、支持多媒体的操作系统或操作环境、多媒体数据库准备软件、多媒体编辑创作软件和多媒体应用软件。
2、Windows环境下声音数据的采集
1)打开波形输入设备
2)为采样数据分配缓冲空间
3)启动波形输入设备
4)关闭语音输入设备
3、Windows环境下视频数据的采集
使用VideoforWindows(VFW)来获得视频流
AVICap支持实时的视频流捕获和单帧捕获并提供对视频源的控制。
显示视频时提供两种模式:
1)预览(Preview)模式:
使用CPU资源,视频先从捕获硬件传到系统内存,接着采用GDI函数在捕获窗中显示。
2)叠加(Overlay)模式:
使用硬件叠加进行视频显示,叠加视频的显示不经过VGA卡,叠加视频的硬件将VGA的输出信号与其自身的输出信号合并,形成组合信号显示在监视器上。
4、多媒体创作工具
分4类:
1)媒体创建软件工具:
建立媒体模型、产生媒体数据
2)多媒体节目写作工具:
提供不同的编辑、写作方式
3)媒体播放工具:
在电脑或消费类电子产品中播出
4)其它各类媒体处理工具
本章内容主要面向软件应用,应该不是考试重点,记住基本概念即可。
第七章多媒体文档的