面向对象程序设计语言的相关概念.docx
《面向对象程序设计语言的相关概念.docx》由会员分享,可在线阅读,更多相关《面向对象程序设计语言的相关概念.docx(60页珍藏版)》请在冰豆网上搜索。
![面向对象程序设计语言的相关概念.docx](https://file1.bdocx.com/fileroot1/2023-2/28/044c7195-e7e6-4e5e-bd3f-f120fc91f2b3/044c7195-e7e6-4e5e-bd3f-f120fc91f2b31.gif)
面向对象程序设计语言的相关概念
专题一多媒体技术基础
第一章多媒体计算机的定义和关键技术
媒体(Medium)在计算机领域中有两种含义:
1、用以存储信息的实体,如磁带、磁盘、光盘和半导体存储器;
2、信息的载体,如数字、文字、声音、图形和图像。
多媒体技术中的媒体是指后者。
多媒体计算机技术定义
计算机综合处理多种媒体信息(文本、图形、图象、音频和视频),使多种信息建立逻辑连接,集成为一个系统并具有交互性。
简单地说:
计算机综合处理声、文、图信息;具有集成性和交互性;
总之多媒体计算机具有信息载体多样性、集成性和交互性。
多媒体计算机的关键技术(把一台普通计算机变为多媒体计算机要解决的的关键技术)
(1)视频音频信号获取技术;
(2)多媒体数据压缩编码和解码技术;
(3)视频音频数据的实时处理技术和特技;
(4)视频音频数据的输出技术。
多媒体计算机的分类
家电制造厂商研制的:
电视计算机——灵巧电视SmartTV
计算机制造厂商研制的:
计算机电视——发展方向是TV-killer
在多媒体计算机发展史上卓有成效的公司和系统
1、Philips/Sony公司的CD-I系统
2、Commodore公司的Amiga系统
3、Apple公司的HyperCard
4、Intel和IBM公司的DVI系统
HDTV(HighDefinitionTelevision高清晰度电视)特点:
(1)采用国际标准的压缩编码算法MPEG-2。
(能与多媒体计算机兼容、通信)
(2)采用打包数据结构。
(图像、声音、及多媒体服务附加数据以包的方式发送,包可随即次序传送、大小动态分配)
(3)采用双层传输技术。
(重要数据放到高优先级的载波上传输,其他数据放到具有标准优先级的载波上传输)
常规电视数字化:
汤姆逊(Thomson)消费电子公司通过休斯银河(HughesGalaxy)601卫星,开创世界首次全数字直接到户的卫星广播业务(DSS-DigitalSatellitesSystem及DBS-DirectBroadcastService)。
消费者很容易获得120到150个频道最受欢迎的电视节目。
用户端只需要购置一个易于安装的18英寸或常规碟形天线,一个和录像机体积差不多的接收机/解码器以及一个易于控制和操作的遥控器。
交互式电视技术(ITV):
最常用的是节目间的交互,即VOD系统。
典型的VOD系统主要由下述四部分组成:
(1)视频服务器;
(2)编码器/路由器;(3)用户请求计算机和记帐计算机;(4)机顶盒
多媒体计算机技术在常规电视和高清晰度电视,影视节目制作中的应用分成两个层次:
影视画面的制作;影视的后期制作(如非线性编辑器)。
用多媒体技术制作V-CD及影视音响卡拉OK机
多媒体数据压缩和解压缩技术是多媒体计算机系统中的关键技术,首次将此技术应用到VCD播放机中的是美国C-Cube公司。
VCD问世于1993年,是多家公司联合制定的数字电视视盘技术标准。
安徽合肥万燕公司在世界上首先利用MPEG国际标准和CD光盘技术,研制了全功能影视音响卡拉OK机CDK-320。
VCD播放机,由CD-ROM驱动器、MPEG解压卡及控制操作电路组成。
DVD与VCD的不同只是视频和音频的编码标准不同,两者的原理是一样的。
DVD的视频和音频编码标准是MPEG-2或者AC-3而不是MPEG-1。
V-CD播放系统主要有下述两种产品:
MPEG播放卡、V-CD播放机
多媒体家庭网关
MHG(多媒体家庭网关)数据流向图
一般认为,多媒体技术研究的兴起从(1984年,美国Apple公司推出Macintosh系列机)开始
2
MHG结构图
多媒体创作工具的分类:
基于时间的创作工具;
基于图符(Icon)或流线(Line)创作工具;
基于卡片(Card)和页面(Page)的创作工具;
以传统程序语言为基础的创作工具。
多媒体创作工具的应用:
制作各种电子出版物、教材、参考书、地图、医药卫生、商业手册及游戏娱乐节目。
多媒体应用系统、演示系统或信息查询系统、导游系统;培训和教育系统;娱乐、视频动画及广告等等。
多媒体数据库的研究途径:
(1)在现有商用数据库管理系统的基础上增加接口,以满足多媒体应用的需要;(实用,效率低)
(2)建立基于一种或几种应用的专用多媒体信息管理系统;(易实现,缺乏通用性,可扩展性差)
(3)从数据模型入手,研究全新的通用多媒体数据库管理系统(研究和发展的主流,难度较大)
多媒体数据库要解决的关键技术问题:
(1)多媒体数据模型:
采用面向对象的方法描述和建立多媒体数据模型是较好的方法。
(2)数据的压缩和解压缩
(3)多媒体数据的存贮管理和存取方法(4)多媒体信息的再现及良好的用户界面(5)分布式技术
多媒体数据存储的问题:
巨大的数据量、存储技术、多媒体对象存储、多媒体文档检索。
多媒体数据库基于内容的检索:
目标标识,特征提取,数据库查询接口,检索引擎,索引/过滤器
多媒体通信分类:
(1)对称的全双工的多媒体通讯。
如分布式多媒体信息系统、视频会议系统及计算机支持的协同工作系统;
(2)非对称全双工的多媒体通讯系统。
如交互式电视系统(ITV)、点播电视系统(VOD)
多媒体通信的关键技术:
(1)多媒体数据压缩。
(2)高速数据通讯问题。
尤其是视频会议系统要解决视频会议系统的国际标准问题。
视频会议系统可分为两类:
(1)点对点视频会议系统:
如可视电话、台式机—台式机视频会议(桌面视频会议系统)、会议室—会议室视频会议
(2)多点视频会议系统:
如三个或三个以上不同地点的参加者一起参加讨论。
多点会议系统的关键技术是:
多点控制器(MCU),它能自动的交换数据。
视频会议系统的结构:
视频会议终端、多点控制器、信道(网络)、控制管理软件。
MCU——多点控制单元/多点控制器
MCU是视频会议系统的关键设备,它的主要功能是对视频、语音及数据信号进行切换。
例如它会将传送到MCU某会场的场景图像信号切换到所有会场,对于语音信号,若同时有几个发言,可以对他们进行混合处理,选出最高的音频信号切换到其它会场。
MCU的主要组成部分:
网络接口单元、呼叫控制单元、多路复用和解复用单元、音频处理器、视频处理器、数据处理器、控制处理器、密钥处理分发器、呼叫控制处理器。
多媒体计算机的发展趋势
(1)进一步完善计算机支持的协同工作环境CSCW(ComputerSupportedCollaborativeWork)
(2)智能多媒体技术
(3)把多媒体信息实时处理和压缩编码算法作到CPU芯片中。
(集成原则:
压缩算法采用国际标准设计;多媒体功能的单独解决变成集中解决;体系结构设计和算法相结合。
)
总之,多媒体计算机将朝着高分辨率、提高显示质量、高速化、简单化、智能化方向发展。
第二章多媒体信息处理技术
采样、量化、数字化、数字图像
多媒体计算机处理图像和视频,首先必须把连续的图像函数f(x,y)进行空间和幅值的离散化处理:
采样:
空间连续坐标(x,y)的离散化
量化:
f(x,y)颜色的离散化
数字化:
两种离散化结合在一起,叫做数字化。
离散化的结果称为数字图像。
f(x,y)00f(x,y0511)x,y的离散化称为采样f(x,y)的离散化称为量化
f(x
采样511,y)0f(x511,y511)
对连续图像彩色函数f(x,y),沿x方向以等间隔△x采样,采样点数为N,沿y方向以等间隔△y采样,采样点数为N,于是得到一个N×N的离散样本阵列
[f(m,n)]N×N。
为了达到由离散样本阵列以最小失真重建原图的目的,采样密度必须满足香农采样定理。
(采样密度:
△x与△y)
采样定理:
采样间隔与f(x,y)频带之间,频带愈窄,相应的采样频率可以降低,采样频率是图像变化频率二倍时,就能保证由离散图像数据无失真地重建原图。
颜色的基本概念彩色可用亮度、色调和饱和度来描述,人眼看到任一彩色光都是这三个特性的综合效果。
亮度:
光作用于人眼时所引起的明亮程度的感觉,它与被观察物体的发光强度有关。
(光的强和弱)
色调:
当人眼看一种或多种波长的光时所产生的彩色感觉,它反映颜色的种类,是决定颜色的基本特性。
饱和度:
指颜色的纯度,即掺入白光的程度(指颜色的深浅程度,对于同一色调彩色光,饱和度越深颜色越鲜明或者说越纯)。
红色+白光红色+绿色粉红色黄色饱和度下降色调发生变化
色度:
色调和饱和度通称为色度。
亮度表示某彩色光的明亮程度,而色度则表示颜色的类别与深浅程度。
三基色原理
三基色原理:
自然界常见的各种颜色光,都可由红(R)、绿(G)、蓝(B)三种颜色光按不同比例相配而成,同样绝
大多数颜色也可以分解成红、绿、蓝三种色光。
三基色的选择不是唯一的,三种颜色必须是相互独立的,即任何一种颜色都不能由其他两种颜色合成。
相加混色:
把三种基色光按不同比例相加称之为相加混色。
常用亮度公式:
(Y表示白光的亮度)
NTSC电视制式:
Y=0.3R+0.59G+0.11B;
PAL电视制式:
Y=0.222R+0.707G+0.071B
注:
如果把单色光亮度定为100,则主观感觉是绿光仅次白光,是三基色中最亮的,红光次之,亮度约占绿光的一半,蓝光最弱,亮度约占红光的1/3。
注意0.3+0.59+0.11=1.0三原色的系数之所以不同是因为人的眼睛对不同波长的颜色有着不同的敏感度。
RGB彩色空间
当三基色按不同强度相加时,可得到任何一种颜色。
在RGB彩色空间,某一种颜色和这三种颜色之间的关系可用下面的式子来描述:
F(颜色)=r[R]+g[G]+b[B](r+g+b=1)
其中r、g、b为三色系数。
r[R]、g[G]、b[B]为F色光的三色分量。
当三基色等量相加时,得到白色。
不管多媒体系统采用何种色彩空间,最后监视器输出一定要转换成RGB色彩空间。
RGB和黑白电视信号不兼容。
YUV彩色空间
摄像机把摄得的彩色图像信号,经分色棱镜分成R0G0B0三个分量的信号,分别经放大和γ校正得到RGB,再经过矩阵变换电路得到亮度信号Y、色差信号R-Y和B-Y。
Y=0.3R+0.59G+0.11B
U=m(B-Y)=0.493(B-Y)
V=n(R-Y)=0.877(R-Y)
优点:
1)亮度信号Y解决了彩色电视和黑白电视的兼容问题。
2)可以利用人眼的特性来降低数字彩色图像所需要的存储容量。
YUV彩色空间,数字化后通常的比例为:
Y:
U:
V=8:
4:
4
YIQ彩色空间
亮度:
Y色差:
I、Q
I轴:
表示人眼最敏感的色轴
(123度的橙色及其相反方向的303度的青色,人眼对其具有最大的彩色分辨率)
Q轴:
表示人眼最不敏感的色轴
优点:
人眼分辨红、黄之间颜色变化的能力最强,而分
辨蓝与紫之间颜色变化的能力最弱。
在传送分辨
力弱的信号时,可以用较窄的频带,而传送分辨
力较强的信号时,可以用较宽的频带。
电视广播制式
世界上主要使用的电视广播制式有PAL、NTSC、SECAM三种,中国大部分地区使用PAL制式,日本、韩国及东南亚地区与美国等欧美国家使用NTSC制式,俄罗斯则使用SECAM制式。
PAL制式(.正交平衡调幅逐行倒相制):
采用YUV彩色空间;25帧/秒。
NTSC制式(正交平衡调幅制):
采用YIQ彩色空间。
30帧/秒。
SECAM制(行轮换调频制)25帧/秒。
HSI彩色空间
H(hue)色调;S(saturation)饱和度;I(Intensity)光的强度
优点:
亮度分量与图像的色彩信息无关;能够减少彩色图像处理的复杂性,它更接近人对彩色的认识和解释。
广泛用于计算机视觉、图像检索和视频检索。
HSI彩色空间与RGB彩色空间之间的转换:
★全电视信号
电视摄像机把一幅图像信号转变成的输出信号就是全电视信号。
光栅扫描二维信号————→一维信号(扫描方式:
隔行扫描逐行扫描;隔行扫描:
奇数场+偶数场=1帧;每一行有正程和逆程。
)
黑白全电视信号=图像信号(视频信号)+复合消隐信号(行消隐、场消隐)+复合同步信号(行同步、场同步)
彩色全电视信号=色度信号+亮度信号+复合同步信号+复合消隐信号
在现代彩色电视系统中,通常采用YUV彩色空间或YIQ彩色空间,Y为亮度信号,它可以与黑白全电视信号兼容,U和V用载波频率ωsc调制加到亮度
Y上,最后形成彩色全电视信号,如下式所示:
CVBS=Y+F
F=Vcosωsct+Usinωsct(压缩后的色度信号)
多媒体计算机常用的三种图像及其获取方式
多媒体计算机最常用的图像有下述三种:
图形、静态图像、动态图像(视频)。
获得这三种图像可用下述方法:
(1)计算机产生彩色图形,静态图像和动态图像;
(2)用彩色扫描仪,扫描输入彩色图形和静态图像;
(3)用视频信号数字化仪,将彩色全电视信号数字化后,输入到多媒体计算机中,可获得静态和动态图像。
★视频采集卡(视频信号获取器)工作原理概述如下:
视频信号源、摄像机、录像机或激光视盘的信号经过A/D变换,送到多制式数字解码器进行解码得到Y、U、V数据,然后由视频窗口控制器对其进行剪裁,改变比例后存入帧存储器。
帧存储器的内容在窗口控制器的控制下,与VGA同步信号或视频编码器的同步信号同步,再送到D/A变换器模拟彩色空间变换矩阵,同时送到数字式视频编辑器进行视频编码,最后输出到VGA监视器及电视机或录像机。
视频信号获取器的六部分:
(1)A/D变换和数字解码
(2)窗口控制器(3)帧存储器系统(4)视频信号与VGA信号叠加
(5)D/A变换器模拟彩色空间变换矩阵(6)数字式多制式视频信号编码部分
模拟视频的数字化主要包括:
色彩空间的转换、光栅扫描的转换、分辨率的统一。
常用的静态图像格式
GIF——图形变换格式,扩展名:
.gif
GIF格式最多只能储存256色。
在压缩过程中,图像的像素资料不会被丢失,丢失的是图像的色彩。
主要优点在于压缩率高、单一文件容量小,并且可以产生动态的效果(可以在一个文件中存放多幅彩色图形/图像),支持图像透明度。
TIFF(TaggedImageFileFormat)——标记图像文件格式,扩展名:
.TIF
支持多种压缩方法,特殊的图像控制函数以及许多其它特性。
它是一种非失真的压缩格式(最高也只能做到2~3倍的压缩比)能保持原有图像的颜色及层次,但占用空间大。
如果使用LAW无损压缩方法来压缩文件,能够产生大约2:
1的压缩比。
故TIFF常被应用于较专业的用途,广泛应用于印刷业,如书籍出版、海报等,极少应用于互联网上。
TGA(TargeImageFormat)——目标图像格式
结构简单,由文件头和文件体组成。
文件头描述图像的属性;文件体描述各点像素值。
支持32位图像,其中包括8位Alpha通道用于显示实况电视。
BMP——位图,扩展名:
.bmp
是windows系统交换图像数据的标准图像文件存储格式。
在windows环境下运行的所有图像软件都支持这种格式。
bmp是一种与设备无关的图像文件格式。
它采用位映射存储格式,除了图像深度可选lbit、4bit、8bit及24bit外,不采用其他任何压缩,因此占用空间大。
BMP文件存储数据时,图像的扫描方式是按从左到右、从下到上的顺序。
在编制图像文件格式转换程序时,主要解决的几个问题
(1)识别文件头和产生文件头的程序;
(2)文件体的解码和编程程序;(3)文件体的数据转换程序。
多媒体计算机中常用的动态图像的文件格式
MPG、MPEG
MPG是ISO/IEC1993年8月1日正式颁布的国际标准。
MPEG-1标准包括三个部分:
MPEG视频(核心)、MPEG音频、MPEG系统
MPEG数据流分六个层次
序列层、图像组层、图像层、片层、宏块层、块层
(1)序列层:
规定了MPEG解码器的运行状态,包含图像的水平尺寸、垂直尺寸、长宽比、帧速率和位速率等信息。
(2)图像组层:
一个MPEG图像序列分成若干个组,每组即为一个随机存取点,实现了图像随机存取,一个图像组可以单独解码。
图像组第一帧为I图像,第一个图像组有7帧图像,跟着的图像组有9帧图像,每个图像组必须包含一个或多个I图像。
(3)图像层:
一幅图像对应一帧,四种图像形式:
I帧内图P预测图B双向预测图D直流分量图
I图:
信息量最多,是预测和运动补偿的基础;P图是经前面的I或P运动补偿后得到的,有一定的数据压缩;B图是由前后的I,P图补偿后得到的,它的数据压缩率最大。
(4)片层:
为容错考虑,将一幅图划分若干片,每片中都存有解码所需的信息,某一片出错时,可以继续查找下一片的起始信息继续进行解码,而不会因图像的某一部分出错导致整幅图的损坏。
(5)宏块层:
层是一个16*16的样本块,它是运动补偿和更换量化级的单位,宏块由该样本块的4个亮度块和2个色度块构成,在其首部存放着量化级和运动补偿的信息。
(6)块层:
一个块是8*8的矩阵,它是编码的基本单元。
PCXMMPMMP图像文件格式是Ani-Video公司以及清华大学计算机系在他们设计制造的视频信号采集板中采用的图像文件格式。
为了使视频数据能和电视视频信号兼容,它的图像数据采用YUV的形式,并以Y:
U:
V=8:
2:
2的方式存储。
PCX图像文件格式是Zsoft公司研制开发的,主要与商业性PC—Paintbrush图像软件一起使用。
AVI——AudioVideoInterleave,即音频视频交叉存取格式
在AVI文件中,运动图像和伴音数据以交织的方式存储,并独立于硬件设备。
构成一个AVI文件的主要参数包括影像、伴音和压缩参数等。
影像和伴音分别存储,因此可以把一段视频中的影像与另一段视频中的伴音组合在一起。
AVI的视窗大小可按4∶3的比例或随意调整,视窗越大,数据量越大。
AVI的帧率也可以调整,而且与数据量成正比。
不同的帧率会产生不同的画面连续效果。
AVS
AVS是Intel和IBM公司共同研制的数字视频交互DVI系统动态图像文件格式,AVS必须在DVI硬件系统的支持下才能读写,这样系统的造价较高。
数字化音频的获取,数字化音频模数转换过程
采样:
声波是连续信号,或称连续时间函数x(t)。
用计算机处理这些信号时应先离散化,即按一定的时间间隔(T)取值,得到x(nT)(n为整数),T称采样周期,1/T称采样频率(每秒钟采样次数),x(nT)称采样值(或离散信号)奈奎斯特(Nyqust)采样定理:
只要采样频率大于或者等于信号中所包含的最高频率的两倍;即当信号是最高频率时,每个周期至少采样两个点,则理论上就可以完全恢复原来的信号。
量化:
通过采样得到的表示声音强弱的函数x(nT)是连续的,为把x(nT)存入计算机,就必须将采样值离散化,即量化成一个有限个幅度值的集合x(nT)。
编码:
音频模拟信号经过采样与量化之后,为把数字化音频存入计算机,需对其编码,即用二进制数表示每个采样的量化值,完成整个模数转换过程。
采样频率、采样精度和声道数对声音的音质和占用的存储空间起着决定性作用,如表所示:
常用的声音文件格式
WAV文件——microsoft公司的波形音频文件,扩展名:
.vaf
一种最直接的表达声音波形的数字音频文件,主要用于自然声音的保存与重放。
存储容量大。
电子幻灯片PowerPoint软件、各种算法语言及多媒体平台软件可直接使用,适合多媒体系统、音乐光盘制作等。
VOC文件——Creative公司的波形音频文件,扩展名:
.voc
声霸卡使用的音频文件格式。
由文件头块和音频数据块组成。
文件头包含一个标识、版本号和一个指向数据块起始的指针;数据块分成各种类型的子块。
利用声霸卡提供的软件可实现VOC和WAV转换。
MIDI文件——乐器数字接口音频文件,扩展名:
.mid
一种计算机数字音乐接口生成的数字描述音频文件,文件中包含音符、定时和多达16个通道的乐器定义。
文件不记载声音本身波形数据,用数字形式记录声音特征,描述演奏过程中的指令,数据量小。
适合应用在对资源占用要求苛刻的场合,比如多媒体光盘、游戏制作、背景音乐等。
主要用于计算机声音的重放和处理。
扩展名为RMI的文件是Microsoft公司的MIDI文件格式,可包括图片、标记和文本
MP3文件——压缩音频文件,扩展名:
.mp3
采用MPEG标准音频数据压缩编码中层Ⅲ技术压缩之后的数字音频文件。
压缩比高、数据量小、音质好,压缩比例有10:
1、17:
1,甚至70:
1;数据率可以是64kbps,也可以是320kbps。
WMA文件——流式音频文件,扩展名:
.wma
Microsoft研制的一种压缩离散文件或流式文件,相对于MP3具有较高压缩率和良好音质。
当小于128kbps时最为出色且编码后音频文件很小;当大于128kbps时音质损失过大。
PCM文件——数字音频文件
模拟的音频信号经过模数转换(A/D转换)直接形成的二进制数字序列,该文件没有附加的文件头和文件结束标志。
音源信息完整,但冗余度过大;音源信息保存完整,音质好;信息量大,体积大,冗余度过大。
因为能够达到最高保真水平的就是,所以被广泛用于素材保存及音乐欣赏。
比如AudioCD(72min/650MB)。
音频信号可分为两类:
语音信号和非语音信号。
乐音三要素
音调:
取决于声波的基频。
基频越低声音越低沉,反之声音尖锐。
音强:
响度,取决于声音波形的幅度(振幅大小)。
音色:
有混入基音(基波)的泛音(谐波)所决定。
音频信号处理的特点
1)音频信号是时间领带的连续媒体。
因此音频处理的时序性要求很高。
2)应有两个声道,即理想的合成声音应是立体声。
3)对语音信号的处理不仅是信号处理问题,还要抽取语意等其他信息,因此可能会涉及语言学、社会学、声学等。
从人与计算机交互的角度来看音频信号相应的处理
1)人与计算机通信(计算机接收音频信号):
音频获取
2)计算机与人通信(计算机输出音频):
音频合成(包括语音合成盒音乐合成)与声音定位(包括立体声模拟;音视频同步)
3)人通过计算机与别人通信(通过网络与处于异地的人通信):
语音采集、音频编/解码、音频传输等。
★语音信号的冗余度和数据压缩技术的三个重要指标
语音信号存在着多种冗余度,其最主要部分可以分别从时域和频域来考虑。
人们在实施数据压缩时,要在音频质量、数据量、计算复杂度三方面进行综合考虑,即数据压缩技术的三个重要指标。
★音频编码的分类
1)基于音频数据的统计特性进行编码。
其典型技术是波形编码,目标是使重建语音波形保持原形状。
特点:
适应性强,音频质量好,但压缩比不大,数据率较高。
例:
PCM(脉冲编码调制,无压缩)、DPCM(预测脉冲编码调制)、APCM(自适应脉冲编码调制)、ADPCM(自适应预测编码)用途:
公用网、ISDN、配音。
质量为4.0—4.5。
2)基于音频的声学参数,进行模型参数编码(音源编译码)。
目标是是重建音频保持原有音频的特性。
建立声音信号的产生模型,将声音信号用模型参数表示。
常用的音频参数有共振峰、线性预测系数、滤波器组等。
特点:
数据率低,但还原信号的质量差、自然度低。
例:
LPC(线性预测编码)
用途:
保密话声,质量为2.5—3.5。
数据率为2.4Kb/s3)混合编译码
结合上两种算法,企图寻找一种激励信号,这种信号激励产生的波形尽可能接近原话音波形。
例:
MPLPC(多脉冲线性预测编码)