多媒体技术基础教案Word下载.docx
《多媒体技术基础教案Word下载.docx》由会员分享,可在线阅读,更多相关《多媒体技术基础教案Word下载.docx(52页珍藏版)》请在冰豆网上搜索。
存储媒体(StorageMedia)
传输媒体(TransmissionMedia)。
4、多媒体技术具有以下特征:
•多样性
•集成性
•交互性
•数字化
•实时性
多媒体计算机系统的关键技术应用
一、多媒体计算机技术的主要组成
•1.信息处理技术和信息压缩技术
•2.多媒体计算机技术
•3.多媒体数据库技术
•4.多媒体网络通信技术
二、多媒体计算机系统的关键技术
•视频和音频数据的压缩和解压缩技术
•多媒体计算机硬件体系结构和专用芯片技术
•多媒体计算机系统软件技术
•大容量信息存储技术
•多媒体网络通信技术
•超文本与超媒体技术
•人工智能技术
三、多媒体计算机系统的应用
•教育与培训
•电子出版领域
•文化娱乐
•咨询服务领域
•多媒体网络通信领域
•传递公用信息
多媒体技术的发展
•1984年,美国苹果(Apple)公司推出被认为是代表多媒体技术的Macintosh机
•1985年,美国微软(Microsoft)公司研制了自己的图形化操作系统Windows
•1986年,荷兰飞利浦(Philips)公司和日本的索尼(Sony)公司合作,研制出CD-I(CompactDiskInteractive)光盘系统
•1987年,美国RCA公司推出了交互式数字视频系统DVI(DigitalVideoInteractive)
•1990年11月,由美国Microsoft公司会同多家厂商召开了多媒体开发者会议,会议成立了多媒体计算机市场协会,制定了多媒体个人计算机标准
•1995年先后发布了多媒体个人计算机标准和
•1996年,Intel公司为了适应多媒体技术发展,将多媒体扩展(MultimediaExtension,MMX)技术加入到微处理器芯片PentiumPro中
第二章多媒体计算机系统
•多媒体计算机系统的层次结构
•多媒体计算机系统的组成
•多媒体计算机的硬件系统
•多媒体计算机的软件系统
•多媒体计算机硬件系统包括:
计算机主机系统
多媒体的接口
外部设备
多媒体计算机主机系统有两类:
一类是专用的多媒体计算机系统,如Philips、Apple公司生产的专用计算机(工作站),它们面向视频、音频的采集、播放,用于图像和音频的处理等专门用途。
另一类是利用通用的计算机系统(如PC机),进行升级,使其成为具有多媒体功能的计算机。
•显示卡
•音频卡
•视频卡
显示卡又称显示适配器,它是计算机主机与显示器之间的接口,用于将主机中的数字信号转换成图像信号并在显示器上显示出来。
音频卡是实现计算机对声音处理的功能的部件,借助它,计算机可以录制、编辑、回放数字音频文件,对音频文件进行压缩和解压缩;
控制各个声源的音量并加以混合和输出信号的功率放大;
采用语音处理技术实现语音合成和语音识别;
提供MIDI音乐设备数字接口等。
视频卡是对视频信号进行处理的接口,它可以汇集视频源(电视信号)、音频源、录像机、激光视盘机、摄像机等信息,进行编辑、存储、输出等。
按其功能又分有图像加速卡、视频播放卡、视频捕捉卡、电视卡等。
•输入设备
•输出设备
•存储设备
•音频输入设备有话筒(MIC)、激光唱盘和MIDI合成器等。
•视频设备有数字输入设备和模拟输入设备两种。
1、数字输入设备有扫描仪、数字录像机、数字照相机、光盘设备等。
2、模拟输入设备有摄像机、录像机以及各种制式的电视视频信号源
•音频输出播放设备有扬声器、立体声耳机(EAR)、MIDI播放器、立体声音响设备等。
•视频输出播放设备有电视机、投影电视、显示器、家庭影院等。
•显示器是一种计算机输出显示设备,它由显示器件(如CRT、LCD)、扫描电路、视频电路和接口转换电路组成,为了能清晰地显示出字符、汉字、图形,其分辨率和视频带宽比电视机要高出许多。
•投影仪是一种用于计算机信息的大屏幕显示设备。
使用投影仪时,通常配有大尺寸的幕布,计算机送出的显示信息通过投影仪投到幕布上。
多媒体的存储设备除了通常的软磁盘、硬磁盘、磁带等以外,最主要的外存设备是光盘。
有关光盘的知识将在第五章作详细介绍。
多媒体软件的基本特点
多媒体软件的层次
多媒体环境支撑软件
•多媒体软件运行于多媒体操作系统平台之上。
•多媒体软件可以高度集成各种媒体信息,将之融合在一起,进行综合处理。
能有效地组织图、文、声、像等多种信息。
•多媒体软件为用户提供良好的交互式界面,用户可以随意控制,使用方便灵活。
•多媒体环境支撑软件:
也就是操作系统,它是计算机软件的核心,作为多媒体的操作系统还应该解决以下的关键问题:
(1)对音频、视频信息必须建立具有时间参数的标准文档格式。
(2)解决图像和声音数据实时播放时所需要的同步控制机制,依靠软件硬件结合完成。
(3)对声像的数据必须通过软、硬件结合进行压缩和还原处理。
(4)要有标准化的对硬件透明的应用程序接口API、图形用户接口GUI或MMUI。
(二)教学方式及学时分配
1.教学方式:
采用知识单元讲授的形式,中间穿插多媒体案例展示;
2.学时分配:
2学时
(三)教学目的与要求
1.讲授该门课程的教学意义以及教学要求;
2.了解多媒体基本概念和知识;
3.掌握多媒体及MPC的基本概念,以及多媒体技术的应用领域;
4.了解多媒体产品的创造过程。
(四)教学重点和难点
1.重点:
多媒体的概念及特征;
多媒体产品的开发方法。
2.难点:
本讲内容属于基础知识介绍,学生比较容易理解,没有难点。
(五)教学组织形式
采用多媒体示例和教师讲授的形式,中间穿插提问。
(六)教学过程中应注意的问题
1.第一次课应该注意如何让学生认识到多媒体课程的重要性;
2.应采用事例教学的方法来提高学生的兴趣和积极性。
(七)参考资料
赵子江多媒体技术应用教程第一章第二章
(八)作业及习题
1.多媒体的英文原文是什么?
2.多媒体的媒体种类有哪些?
3.MPC是指什么?
第2讲
1.多媒体扩展设备:
主要讲述MPC的外围扩展设备的基本原理和技术特点等;
2.美学基础:
介绍美学的基本知识,平面构图的规则以及色彩构成的基本方法;
3.多媒体数据描述:
主要介绍多媒体数据(包括静态图像、动态图像和声音文件)的基本知识;
第二章音频信息的获取与处理
音频信号及其概念
数字音频基础
音频编码基础
音频编码标准
音乐合成和MIDI
语音识别
CoolEdit2000简介
本章要点
v1.数字化音频的获取与处理的概念,模拟音频与数字音频的区别。
数字化音频采样和量化的基本原理,以及数字音频的文件格式和音频信号的特点。
v2.音频卡的工作原理、功能、分类和音频卡的安装使用。
v3.音频编码的原理、标准以及编码的基本方法。
v4.音乐合成和MIDI的接口规范,以及MIDI在多媒体技术中的应用,语音识别和合成原理及其分类。
声音是多媒体信息的一个重要组成部分,也是表达思想和情感的一种必不可少的媒体。
无论其应用目的是什么,声音的合理使用可以使多媒体应用系统变得更加丰富多彩。
在多媒体系统中,音频可被用作输入或输出。
输入可以是自然语言或语音命令,输出可以是语音或音乐,这些都会涉及到音频处理技术。
◆声音处理技术历史回顾
语言、音乐和各种自然声是以声波为载体传递信息的基本形式。
人类很早就开始研究声音,并利用当时已掌握了的声音的某些规律来制造乐器、进行建筑设计或传声装置设计,使发出的声音传得更远。
可是几千年来,人类只能凭耳朵来辨别声音的高低、强弱,而不能把声音记录和储存起来。
所以与其他研究领域相比,声学的研究相对滞后。
直到19世纪爱迪生发明了留声机,人们才能用机械的方法把各种声音记录在唱片上。
可是声音、机械振动不容易传递,也不容易放大,机械方法很不方便。
随着电学、电子学的发展,人们开始尝试记录下这些真实的声音,利用把声的振动转换成电信号的原理,使声音的记录成为可能。
最终电声技术获得了迅速发展。
电声技术是研究可听声频率范围内声音的产生、传播、存储、重放和接收的技术。
顾名思义,电声技术是依靠“电”来记录并播放声音的,其基本原理是通过电压来产生模拟声波变化的电流信号,并记录下来,灌录成早期的唱片或磁带,这种电流信号便被称之为“模拟信号”。
传统的声音记录方式就是将模拟信号直接记录下来,例如磁带录音和密纹唱片就是将声音拾取处理后以磁记录或机械刻度的方式记录下来,此时磁带上磁极的变化或密纹唱片音槽内的纹路起伏变化都是与声音信号的变化相对应、成正比的。
这里,密纹唱片、盒式磁带等是记录储存这种模拟声音信号的载体,而能够播放和(或)记录这些软件的信号处理设备,诸如电唱机、磁带录音机等,则称为模拟音响设备。
v电声技术把声信号转换成电信号,经扩声系统直接进行扩声;
或者将其信号利用磁带、CD或其他存储形式,使声音可超越时间和空间,通过重放系统将其信号(数字的或模拟的)经过放大,由扬声器或耳机转换成声信号,进入最后的终端---人耳,以实现任何时间和地点的声音重现。
电声转换、音频信号的存储、重放技术、加工处理技术以及数字化音频信号的编码、压缩、传输、存取、纠错等技术,是音频技术的主要对象。
v随着计算机技术的发展,特别是海量存储设备和大容量内存在计算机上的实现,对音频媒体进行数字化处理便成为可能。
数字化处理的核心是对音频信息的采样,通过对采集到的样本进行加工,生成各种效果。
v音频信息在多媒体中的应用是极为广泛的,当计算机配有声卡和音箱后,就能够发出各种悦耳的声音,尤其是视频图像配以娓娓动听的音乐和语音,使计算机的操作得以藉由视觉以外的听觉加以辅助而成为一种愉快的过程。
静态或动态图像配以解说和背景音乐,可使图像充满生气;
立体声音乐可增加空间感,使人身临其境;
语音电子邮件,听声如见其人,游戏中的音响效果对于渲染气氛则为显得更为重要;
此外,在多媒体通信中,可视电话、电视会议、这些都离不开数字化音频处理技术。
音频信号的形式
v在日常生活中,音频(Audio)信号可分为两类:
语音信号和非语音信号。
语音是语言的物质载体,是社会交际工具的符号,它包含了丰富的语言内涵,是人类进行信息交流所特有的形式。
非语音信号主要包括音乐和自然界存在的其他声音形式。
非语音信号的特点是不具有复杂的语义和语法信息,信息量低、识别简单。
v我们之所以能听到日常生活中的各种声音信息,其实就是不同频率的声波通过空气产生震动,刺激人耳的结果。
在物理上,声音可用一条连续的曲线来表示。
这条连续的曲线无论多复杂,都可分解成一系列正弦波的线性叠加。
规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。
因声波是在时间和幅度上都连续变化的量,我们称之为模拟量。
用声音录制软件记录的英文单词¡
°
Hello¡
±
的语音实际波形
模拟音频信号的物理特征
v模拟音频信号有两个重要参数:
频率和幅度。
⏹声音的频率体现音调的高低
⏹声波幅度的大小体现声音的强弱。
◆一个声源每秒钟可产生成百上千个波,我们把每秒钟波峰所发生的数目称之为信号的频率,单位用赫兹(Hz)或千赫兹(kHz)表示。
◆例如一个声波信号在一秒钟内有5000个波峰,则可将它的频率表示为5000Hz或5kHz。
人们在日常说话时的语音信号频率范围在300Hz~3000Hz之间。
⏹频率小于20Hz的信号称为亚音(Subsonic);
⏹频率范围为20Hz~20kHz的信号称为音频(Audio),
频率高于20kHz的信号称为超音频(Ultrasonic)。
与频率相关的另一个参数是信号的周期。
它是指信号在两个峰点或谷底之间的相对时间。
周期和频率之间的关系是互为倒数。
信号的幅度是从信号的基线到当前波峰的距离。
幅度决定了信号音量的强弱程度。
幅度越大,声音越强。
对音频信号,声音的强度用分贝(dB)表示,分贝的幅度就是音量。
声音的A/D与D/A转换
模拟信号很容易受到电子干扰,因此随着技术的发展,声音信号就逐渐过渡到了数字存储阶段,A/D转换和D/A转换技术便应运而生。
这里,A代表Analog”(类比、模拟),D代表¡
Digital¡
(数字、数码),A/D转换就是把模拟信号转换成数字信号的过程,模拟电信号变为了由¡
0¡
和¡
1¡
组成的Bit信号。
A/D转换的一个关键步骤是声音的采样和量化,得到数字音频信号,它在时间上是不连续的离散信号。
借助于A/D或D/A转换器,模拟信号和数字信号可以互相转换
与声音有关的几个术语
音高是人对声波频率的主观属性,它首先与声波的频率有关。
声波的振动频率高,我们听到的声音就高,反之亦然,但它们之间并非线性关系。
音色是声波波形的主观属性。
不同的发音体所发出的音波都有自己的特异性。
声波的类型是多种多样的,一般可分为纯音和复合音两大类。
语音是特殊的复合音。
语音由元音和辅音所构成。
元音是一种能连续发出的乐音,辅音主要是不能连续发出的短促的噪音,元音与辅音合成汉语音节。
响度是声波振幅的主观属性,它是由声波的振幅引起的。
振幅越大则响度越大,但它们之间也不是线性关系。
声音质量的评价
我们经常会对某一位歌手的歌声发表意见,并与其他歌手进行比较,这其实是在对声音的质量进行评价。
声音质量的评价是一个很困难的问题,也是一个值得研究的课题。
目前来看,声音质量的度量有两种基本方法,一种是客观质量度量,另一种是主观质量的度量。
声音客观质量的度量方法
声波的测量与分析传统的方法是先用机电换能器把声波转换为相应的电信号,然后用电子仪表放大到一定的电压级进行测量与分析。
由于计算技术的发展,使许多计算和测量工作都使用了计算机或程序实现。
这些带计算机处理系统的高级声学测量仪器,能完成下列一些测量工作:
评价值的测量响度和响度级,噪音级,清晰度指数,噪音评价数。
声源的测量频谱的时间变化,声功率,指向性,效率,频谱特征,幅值分布等。
音质的测量混响时间,隔音量,吸音量。
声测量的基本仪器是声级计。
声级计是一种能对声音作出类似人耳的反应的仪器,同时,它能进行客观而可重复的声压和声级测量。
声压测量的好处很多:
它能帮助音乐厅提高音响效果;
能对烦扰声音进行精密的、科学的分析。
声级测量还能明确地告诉我们什么声音会引起听力损害,并提醒人们采用适当的听力保护措施。
因此,声测量是不可少的。
度量声音客观质量的一个主要指标是信噪比SNR(SignaltoNoiseRation),信噪比是有用信号与噪声之比的简称。
其单位是分贝(dB)。
声音主观质量的度量
采用客观标准方法很难真正评定某种编码器的质量,在实际评价中,主观的质量度量比客观质量的度量更为恰当和合理。
通常是对某编码器的输出的声音质量进行评价,例如播放一段音乐,记录一段话,然后重放给实验者听,再由实验者进行综合评定。
可以说,人的感觉机理最具有决定意义。
当然,可靠的主观度量值是较难获得的。
平均判分(MeanOpnionScose-MOS)过程是召集一批实验者,请每个实验者对某个编解码器的输出进行质量判分,采用类似于考试的五级分制,不同的MOS分对应的质量级别和失真级别见表4-1。
声音质量分级与带宽
声音的质量与它所占用的频带宽度有关,频带越宽,信号强度的相对变化范围就越大大,音响效果也就越好。
按照带宽可将声音质量分为4级:
4级声音质量的频率范围
数字音频基础
v2.1.1模拟音频和数字音频
v2.1.2数字音频的采样和量化
v2.1.3数字音频的文件格式
v2.1.4音频信号的特点
声音——机械振动在弹性介质中传播的机械波。
振动越强,声音越大。
模拟音频——将机械波转换成电信号记录在介质中。
播放时再将电信号还原。
以模拟电压的形式表示声音的强弱。
数字音频——声音信号以一系列数字的形式表示。
各种数字以不同的命令体现。
音幅的物理量也使用数字表示。
数字音频的特点——保真度好,动态范围大。
模拟音频是连续的;
数字音频是离散的数字序列。
把模拟音频转化成数字音频,需要进行“采样”。
采样——在一定的采样周期的模拟音频波形上取点(幅度值)。
采样周期——采样时所使用的时间间隔。
模拟信号的数字化过程
2.1.2 数字音频的采样和量化
为实现A/D转换,需要把模拟音频信号波形进行分割,以转变成数字信号,这种方法称为采样(Sampling)。
采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值,把时间上的连续信号,变成时间上的离散信号。
该时间间隔称为采样周期,其倒数为采样频率。
采样频率是指计算机每秒钟采集多少个声音样本。
采样频率越高,即采样的间隔时间越短,则在单位时间内计算机得到的声音样本数据就越多,对声音波形的表示也越精确。
采样定理
早在40年代,信息论的奠基者香农(Shannon)指出:
在一定条件下,用离散的序列可以完全代表一个连续函数,这是采样定理的基本内容。
即:
当连续信号
x(t)的频谱为x(f),以采样间隔T采样得到离散信号x(nT),如果满足:
当|f|≧fc时,
T≤1/2fc或 fc≤1/2T
则可以由离散信号x(nT)完全确定连续信号x(t)。
当采样频率等于fN=1/2T时,称fN为奈魁斯特频率。
(其中 fc——信号的高端截止频率。
)
量化
将采样值量化成一个有限个幅度值的集合x(nT)。
用二进制数字表示量化后的采样值;
用B位二进制码表示2N个不同的量化电平;
存储数字音频信号的比特率表示为:
I=B·
fs(b/s)
其中 fs——抽样率(抽样/秒);
B——每个样值的比特数(比特/抽样)。
量化采样的过程如下:
先将整个幅度划分成为有限个小幅度(量化阶距)的集合,把落入某个阶距内的样值归为一类,并赋予相同的量化值。
如果量化值是均匀分布的,我们称之为均匀量化。
设△为量化阶距,量化器的最大范围是Xmax,则:
△=2Xmax/2B
对于小于(i+1/2)△,而大于(i-1/2)△的样值,均规定为相同的量化值i△。
4.2.3采样与量化过程示例
以图4-1所示的原始模拟波形为例进行采样和量化。
假设采样频率为1000次/秒,即每1/1000秒A/D转换器采样一次,其幅度被划分成0~9共10个量化等级,并将其采样的幅度值取最接近0~9之间的一个数来表示,如图4-2所示。
图中每个长方形表示一次采样。
当D/A转换器从图4-2得到的数值中重构原来信号时,得到图4-3中蓝色(直线段)线段所示的波形。
从图中可以看出,蓝色线与原波形(红色线)相比,其波形的细节部分丢失了很多。
这意味着重构后的信号波形有较大的失真。
失真在采样过程中是不可避免的,如何减少失真呢?
可以直观地看出,我们可以把图中的波形划分成更为细小的区间,即采用更高的采样频率。
同时,增加量化精度,以得到更高的量化等级,即可减少失真的程度。
左图为采样率2000Hz,量化等级为20的采样量化过程
右图为采样率4000Hz,量化等级为40的采样量化过程
当采样率和量化等级提高一倍,从图中可以看出,当用D/A转换器重构原来信号时(图中的轮廓线),信号的失真明显减少,信号质量得到了提高。
2.1.3数字音频的文件格式
v1¡
¤
WAV文件[微软公司(Microsoft)的音频文件格式。
]
*WAV声音文件是使用RIFF(ResourceInterchangeFileFormat资源交换文件)的格式描述的
*wav文件来源于对声音模拟波形的采样
*wav文件尺寸较大,多用于存储简短的声音片断。
其文件容量大小可用下式计算得到:
S=采样频率×
量化位数/8×
声道数×
时间
例:
采样频率为:
,量化位数:
16bit,立体声,录制10秒。
S=44100×
10×
16×
2/8=1764000(byte)=1764kB
文件
[Creative公司(新加坡创新科技)的波形音频文件格式,也是声霸卡使用的音频文件格式。
*VOC文件有典型的文件结构:
文件头块(hb)+音频数据块(db)。
**文件头的组成信息有:
文件类型说明,文件版本号,标识码。
**利用声霸卡(soundblaster)可以实现VOC文件到WAV文件的转换:
**VOC2WAV提供:
VOC→WAV
**WAV2VOC提供:
WAV→VOC
Ø
音频文件——.MP1/.MP2/.MP3
这里的音频文件格式指的是MPEG标准中的