数字图书馆概述.docx

上传人:b****8 文档编号:11065710 上传时间:2023-02-24 格式:DOCX 页数:24 大小:61.19KB
下载 相关 举报
数字图书馆概述.docx_第1页
第1页 / 共24页
数字图书馆概述.docx_第2页
第2页 / 共24页
数字图书馆概述.docx_第3页
第3页 / 共24页
数字图书馆概述.docx_第4页
第4页 / 共24页
数字图书馆概述.docx_第5页
第5页 / 共24页
点击查看更多>>
下载资源
资源描述

数字图书馆概述.docx

《数字图书馆概述.docx》由会员分享,可在线阅读,更多相关《数字图书馆概述.docx(24页珍藏版)》请在冰豆网上搜索。

数字图书馆概述.docx

数字图书馆概述

《数字图书馆原理及应用》课程概述

2010-5-5

第一章、数字图书馆理论基础2

1.数字图书馆的定义、特征、与图书馆自动化的关系;p1-5,p112

2.数字图书馆的理论模型;p6-72

第二章、数字图书馆的发展2

3.数字图书馆的出现和演变;p13-182

4.发展趋势和方向;p34-403

第三章、数字图书馆的体系结构3

5.数字图书馆的体系结构;p43-583

6.资源数字化的流程p.744

第四章、数字图书馆的常用技术5

7.Web概念、特点、体系结构;p75-775

8.数据库技术在数字图书馆中的作用;p79-805

9.软件计算模式;p87-885

10.数据仓库、数据挖掘概念及其关系;p94-986

11.数据仓库、数据挖掘技术与数字图书馆关系;p986

12.数字图书馆系统集成;p101-1036

13.数字图书馆的安全需求、常用方法、PKI技术;p104-106,p1117

14.对称密钥系统与非对称密钥系统的原理;p107-1087

15.数字证书的概念与类型;p109-1118

第六章、数字图书馆信息存储与检索技术8

16.磁盘阵列RAID基本原理和功能;p.153-1548

17.常用存储设备;p153-1558

18.存储技术和架构;p155-1609

19.数据备份技术;p160-1629

20.数据压缩;p162-16310

21.数据压缩技术原理、方法;p162-16410

22.文本压缩;p164-16710

23.多媒体压缩;p167-17011

24.基于内容的信息检索技术;p170-17112

第七章、数字图书馆的互操作12

25.数字图书馆互操作产生的原因;p190-19112

26.数字图书馆异构对象数据库互操作技术;p195-19712

27.Z39.50协议概念及应用模式;p21013

第九章、数字图书馆的服务13

28.数字图书馆服务特点p26713

29.数字图书馆服务内容p269-29213

第一章、数字图书馆理论基础

1.数字图书馆的定义、特征、与图书馆自动化的关系;p1-5,p11

数字图书馆的定义:

数字图书馆是同时具备数字资源、网络服务和特色技术三大特征的图书馆。

特征:

同上

数字图书馆与图书馆自动化的关系:

从总体上而言,图书馆自动化是数字图书馆的基础之一,数字图书馆中的数字化书目信息就来源于图书馆自动化系统,尽管图书馆自动化系统在资源和技术上对当今数字图书馆体系贡献不多;实现图书馆自动化是建设数字图书馆的必经阶段,但数字图书馆并不是图书馆自动化的简单扩展。

图书馆自动化是在传统图书馆理论框架下应用计算机技术来改善图书馆服务与管理,而数字图书馆却是在理论与技术上超越传统图书馆的新发展,其意义和影响将更加深远。

2.数字图书馆的理论模型;p6-7

数字图书馆的理论模型由形象模型与抽象模型构成。

形象模型由资源、服务、技术三者相辅相成,分别主导成为三个学派。

资源是数字图书馆赖以生存的基础,技术是数字图书馆得以成立的条件,服务是数字图书馆努力追求的目标,这是一个以资源为核心、技术为支撑、服务为目的的数字图书馆理论形象模型。

参见P.6的图1-1

由这一模型分别延伸出数字图书馆领域的资源主导学派、服务主导学派、技术主导学派。

抽象模型

按照资源—技术—服务一体化思想,可以将形象模型抽象化:

数字图书馆的硬件边界由技术“范围”构成,数字图书馆结构抽象化为技术,资源则抽象化为数字图书馆系统的输入,而服务则抽象化为数字图书馆的输出。

参见P.7的图1-2

第二章、数字图书馆的发展

3.数字图书馆的出现和演变;p13-18

数字图书馆的产生背景:

1.数字图书馆产生的内在因素

⏹传统文献利用数字化保护的需求

⏹文献利用更快捷、方便的需求

2.数字图书馆产生的外在因素

⏹文献信息资源的剧增

⏹信息高速公路的建设和因特网的发展

⏹数字化技术的发展

3.数字图书馆发展的社会背景

⏹数字图书馆是社会信息化发展的必然产物

⏹数字图书馆是评价一个国家信息基础水平的重要标志

⏹数字图书馆是21世纪全球文化竞争的焦点之一

⏹数字图书馆建设有利于带动相关行业的发展

数字图书馆的产生和演变过程:

数字图书馆的形成过程主要包括以下几方面:

1.文献资源数字化

2.数字资源的集成

3.数字资源的共享

数字图书馆的演变过程大致经过以下四个阶段:

1.早期的数字化技术和概念探索阶段

2.图书馆自动化管理系统的研究

3.数字图书馆研究计划的启动

4.数字图书馆的建设与利用

4.发展趋势和方向;p34-40

数字图书馆发展趋势:

1.从基于数字化资源向基于集成服务和用户信息活动的范式发展;

2.数字信息存储的全息化;

3.多种资源的高度集成,易用性更强;

4.数字化技术进一步完善;

5.标准化建设取得较大进展;

6.社会化和国际化趋势。

数字图书馆建设的方向:

1.加强数字图书馆建设的战略管理

2.加强特色资源建设

3.加强数字图书馆建设的合作协调

4.加强数字图书馆的可用性评价

5.加强数字图书馆的知识管理

6.加强数字图书馆的标准化管理

7.加强数字图书馆用户的研究与关系管理

第三章、数字图书馆的体系结构

5.数字图书馆的体系结构;p43-58

数字对象p.48

由元数据、数字资料、句柄或调度码组成。

数字信息的特征p.45

1.相关性

2.数字格式

3.数字对象的变化

4.权限与许可权

信息体系结构p.48-51

i.数字对象系统

1.数字对象

2.数字对象集

ii.仓储服务系统

1.接口层

2.对象抽象层

3.对象存储层

iii.名录服务系统

iv.索引服务系统

1.索引服务器

2.索引管理器

v.用户接口网关

数字图书馆服务的主要特征:

数字图书馆体系结构中的内容是以数字对象形式存储的,数字对象是用全局唯一的持久名字------句柄标识的,句柄用命名服务器注册,用名录服务器解析出句柄标识的数字对象的位置。

数字对象的存储和访问是由仓储服务系统来实现的。

索引服务提供发现数字对象的机制,使用户易于从馆藏中寻找和发现所需的对象。

用户接口网关提供以人为中心的数字图书馆的功能入口。

技术体系结构p.52--58

i.网络基础设施

ii.基础应用平台

iii.数字资源采集加工平台

iv.异构资源整合系统

v.数字资源的管理与存储系统

vi.资源调度系统

vii.资源发布与用户检索系统

viii.联合编目和馆际互借系统

ix.版权保护与安全认证系统

x.电子商务系统

6.资源数字化的流程p.74

资源数字化主要通过加工系统来完成,该系统的主要功能是选择数字对象的数据内容、确定数据类型、建立数据模型、规范数据格式、确定数据间相互关系及加工处理与管理,包括数据的采集、扫描处理、数据的编辑、数据存储与管理的标识、系统的创建、维护与服务等事务处理与流程管理。

第四章、数字图书馆的常用技术

7.Web概念、特点、体系结构;p75-77

Web全称为WorldWideWeb,即万维网,是建立在客户机/服务器结构之上,以HTML语言和HTTP协议为基础,能够提供面向各种因特网服务的、一致用户界面的信息系统。

它有如下特点:

a.一是以超文本和多媒体形式存在的网络信息空间;

b.二是它具有平台无关性;

c.三是它提供直观、易于使用的用户界面;

d.四是它的分布式特征;

e.五是它可以是动态的、交互的。

万维网在体系结构上是由Web服务器、Web浏览器、服务器与浏览器之间的通信协议HTTP、Web文档语言HTML以及用来标识Web资源的统一资源定位符(URL)这五大要素组成。

统一资源定位器(URL)是全球万维网系统服务器资源的标准寻址定位编码,用于确定资源相应的位置及所需要检索的文档(件)

⏹URL的结构

☐所使用的因特网文档传送协议(如:

http、ftp、telnet、file等)

☐标识要检索的主机代号(域名或IP地址)

☐检索文档在主机中的路径及文件名

实例:

8.数据库技术在数字图书馆中的作用;p79-80

a.存储和管理各种数据

b.决策支持

c.建立基于数据库的综合信息服务系统

9.软件计算模式;p87-88

网络计算经历了如下几个阶段:

a.大型机/小型机模式

b.微机网络模式

c.网络/文件服务器模式

d.客户机(浏览器)/服务器模式

一般软件计算模式有以下三种结构:

一是B/S结构,即浏览器/服务器结构,是目前最流行的网络软件系统结构。

B/S结构具有如下优势:

一是基于开放的非专用标准;二是较低的应用开发及管理成本;三是对信息及应用系统的自由访问;四是它是一个主动服务的信息系统。

二是两层客户机/服务器结构。

网络应用可以分为表示层、逻辑层和数据层等三个层次。

早期的应用中,表示层和业务逻辑层不分开,都位于客户端,而数据层位于服务器端,逻辑上是两层,即所谓的两层客户/服务器结构。

三是多层客户机/服务器结构。

将业务逻辑层与表示层分离,在数据库服务器和客户端之间增加应用服务器,即中间层,这样就构成了三层客户机/服务器结构。

在这里,表示层即用户服务层的功能是完成与和户的接口;业务逻辑层是利用服务器完成客户的应用功能;数据层根据客户的请求,服务器独立地进行各种数据操作处理。

提示几个要点

1.表示层、业务逻辑层与数据层

2.开放与标准

3.通用客户端与专用客户端

4.客户端管理与维护

10.数据仓库、数据挖掘概念及其关系;p94-98

数据仓库:

支持管理决策过程的、面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合。

数据仓库的特征:

1.主题与面向主题

2.数据的集成性

3.数据是随时间不断变化的

4.数据的相对稳定性

数据挖掘:

从数据中抽取有价值的信息,其目的是帮助决策者寻找数据间潜在的关联,发现被忽略的要素,而这些信息对于预测趋势及决策行为是十分有用的

数据仓库与数据挖掘之间的关系:

数据仓库是数据挖掘的基础;

数据仓库与数据挖掘有着自然的联系,数据挖掘需要数据仓库的支持;

如果数据仓库的设计包含了对数据挖掘的支持,那么数据仓库将促进数据挖掘的进行,数据挖掘也可以使呆板的数据变成有意义的信息,最终实现数据仓库所要达到的目的和功能。

11.数据仓库、数据挖掘技术与数字图书馆关系;p98

数据仓库、数据挖掘技术对数字图书馆提供以下几个方面的支持:

1.数据收集、存储和组织

2.数据分析和知识挖掘

3.决策支持

12.数字图书馆系统集成;p101-103

数字图书馆系统集成的内容包括:

数据集成、业务过程集成、服务集成。

数字图书馆应用集成的方式包括点对点集成、结构集成、流程集成与外部集成。

13.数字图书馆的安全需求、常用方法、PKI技术;p104-106,p111

数字图书馆的安全需求:

1.信息的保密性

2.信息的完整性

3.信息的不可否认性

4.管理员与读者身份的认证性

5.系统的可靠性

6.可访问性

7.防御性

8.合法性

数字图书馆系统安全常用的方法

1.防火墙技术

2.密钥系统

3.消息摘要

4.数字签名

5.数字时间戳

6.数字证书

防火墙的基本类型

1.包过滤型

2.代理服务型

3.复合型

PKI(PublicKeyInfrastructure)公钥基础设施

概念

PKI为管理用户的数字证书、公钥以及安全政策的一系列安全服务的集合。

组成

1.证书机构

2.证书库

3.证书撤销

4.密钥备份与恢复

5.自动密钥更新

6.密钥文档管理

7.交叉认证

8.数字时间戳

9.客户端软件

14.对称密钥系统与非对称密钥系统的原理;p107-108

对称密钥系统使用相同的密钥加密和解密,发送者和接收者有相同的密钥。

(参见P107图4-9)

非对称密钥系统使用两个钥匙,公钥和私钥。

如果一个用于加密,另一个可用于解密。

比如采用著名的RSA算法。

两个钥匙是两个很大的质数,用其中的一个质数与原信息相乘,对信息加密,可以用其中的另一个质数与收到的信息相乘来解密,但不能用其中的一个质数求出另一个质数。

每个网络上的用户都有一对公钥和私钥,公钥是公开的,可以公布在网上,也可以公开传送给需要的人;私钥只有本人知道,是保密的。

在加密应用时,某个用户让给他发密件的人用这个公钥给密件加密发给他,一旦加密后,只有该用户自己知道的私钥才能解密。

(参见p108图4-10)

15.数字证书的概念与类型;p109-111

数字证书是被称作证书机构的人或实体签署的由用户的公钥与用户身份信息以及认证中心的签名信息所构成的实体。

它采用一个功能性的可信赖第三方机构,即CA认证中心,确保用户的公钥与用户的实际身份相一致。

使用的技术是CA对用户的公钥与用户身份信息通过数字签名有效捆绑。

数字证书有以下几种类型:

1.个人数字证书

2.企业(服务器)数字证书

3.软件(开发者)数字证书

第六章、数字图书馆信息存储与检索技术

16.磁盘阵列RAID基本原理和功能;p.153-154

磁盘阵列RAID是将多个类型、容量、接口一致的专用硬磁盘或普通硬磁盘连成一个阵列,使其能以快速、准确和安全的方式来读写磁盘数据,从而提高数据读取速度和安全性的一种设备。

可靠、安全、快速。

RAID由于采用数据分块技术,即在多个磁盘上交叉存放数据,使得多盘可以并行操作,提高了数据传输率与I/O请求速率。

同时,采用冗余容错技术,在出现磁盘损坏时,能通过数据重建手段来恢复丢失的数据,提高了磁盘阵列的可靠性和可用性。

根据各种应用系统不同的需求,人们设计了几种基本的RAID结构,基于这几种基本结构,又拓展出一些组合结构以适应更广泛的需求,从而产生了一系列的RAID方案,称之为RAID级别。

RAID5是目前使用最广泛的RAID级别。

17.常用存储设备;p153-155

1.磁盘阵列(RAID)

2.磁带库

3.光盘塔、光盘库和光盘网络镜像服务器

磁带库:

广义的磁带库产品包括自动加载磁带机和磁带库。

自动加载磁带机是一个位于单机中的磁带驱动器和自动磁带更换装置,它可以从装有多盘磁带的磁带匣中拾取磁带并放入驱动器中,或执行相反的过程。

磁带库是一种可将多台磁带机整合到一个封闭机构中的箱式磁带备份设备,它能够提供同样的基本自动备份和数据恢复功能,但同时具有更先进的技术特点。

光盘塔:

是由多个SCSI接口的光盘驱动器并联而成的,可通过软件来控制某台光驱的读写操作。

光盘库:

是一种带有自动换盘机构(机械手)的光盘网络共享设备。

光盘库一般由放置光盘的光盘架、自动换盘机构(机械手)和驱动器三部分组成。

光盘网络镜像服务器:

光盘网络镜像服务器是继光盘塔和光盘库之后,开发出的一种可在网络上实现光盘信息共享的网络存储设备。

光盘网络镜像服务器不仅具有大型光盘库的超大存储容量,而且还具有与硬盘相同的访问速度,其单位存储成本(分摊的每张光盘上的设备成本)大大低于光盘库和光盘塔。

18.存储技术和架构;p155-160

1.直接连接存储(DAS)(参见p156的图6-1)

a)指直接连接在各种服务器扩展接口下的数据存储架构。

2.网络连接存储(NAS)(参见p157的图6-2)

a)是指将集成的存储系统如磁盘阵列和磁带设备,直接通过LAN接口连入信息通信网络的技术。

3.存储区域网(SAN)(参见p158的图6-3)

a)是以数据存储为中心,采用可伸缩的网络拓扑结构,通过具有高传输率的光通道的直接连接方式,提供SAN内部任意节点之间的多路可选择的“块级”数据交换,并且将数据存储管理集中在相对独立的存储区域网内。

三种技术结构的比较:

19.数据备份技术;p160-162

1.本地备份

本地备份是指本地服务器硬盘上的数据直接备份到与服务器直接相连的磁带库(磁带机)或其他存储设备上,而不经过网络。

DAS

2.网络备份

在网络上选择一台服务器作为网络数据备份管理服务器,安装网络数据备份管理服务器端软件,并连接一台大容量存储设备(如磁带库)。

在网络中其他需要进行数据备份的服务器上安装备份客户端软件,通过网络将各种数据(包括操作系统、文件系统、在线数据库数据)集中备份到与备份服务器连接的存储设备上。

NAS

3.基于SAN的LAN-FREE的备份

多台主机共享连接到SAN上的顾念设备,就好像每台主机都分别与存储设备直接相连。

此种备份方式不占用网络带宽,备份数据通过SAN直接备份到存储设备上,提高了备份速度。

SAN

20.数据压缩;p162-163

数据压缩就是以最少的数码表示信源所发的信号,减少容纳给定消息集合或数据采集集合的信号空间。

信号空间:

1.物理空间──降低存储费用

2.时间空间──迅速传输媒体信源

3.频率空间──并行开通更多业务

数据压缩技术实现的衡量标准:

1.压缩比要大

2.恢复后的失真小

3.速度要快,压缩算法简单

4.硬件开销小

21.数据压缩技术原理、方法;p162-164

数据压缩方法可分为无损压缩与有损压缩。

无损压缩与有损压缩技术的融合还可形成混合压缩。

无损压缩是指使用压缩后的数据进行重构(或者叫做还原,解压缩),重构后的数据与原来的数据完全相同;无损压缩用于要求重构的信号与原始信号完全一致的场合。

有损压缩是指使用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不影响人对原始资料表达的信息造成误解。

有损压缩适用于重构信号不一定非要和原始信号完全相同的场合。

混合压缩吸收了各种无损压缩和有损压缩方法的长处,以求在压缩比、压缩效率及保真度之间取得最佳平衡。

简言之,其压缩比接近有损压缩,反原效果接近无损压缩。

22.文本压缩;p164-167

文本压缩技术主要有霍夫曼(Huffman)编码、算术编码以及基于字典压缩模型这三种。

霍夫曼(Huffman)编码是根据数据中各字符出现的相对频率进行编码,出现频率高的字符赋以较短的代码,而出现频率低的字符赋以较长的代码,从而保证了文件的大部分字符由较短的编码构成。

构造范式Huffman编码大致可分为以下四步骤:

1.统计每个要编码符号的频率;

2.根据这些频率信息求出该符号在传统的Huffman编码树中的深度;

3.分别统计出最大编码长度X到1的每个长度对应多少个符号,根据此信息从X个0开始以递增的顺序为每个符号进行编码;

4.编码输出压缩信息,并保存按频率顺序排列的符号表,保存每组同样长度编码中的最前一个编码以及该组中的编码个数。

算术编码是一种改进的霍夫曼编码,它不是为每个符号产生一个单独的代码,而是使整条信息公用一个代码,增加到信息上的每个符号都递增地修改代码,因而可进一步提高压缩比。

算术编码是无损数据压缩效率最高的方法。

基于字典的压缩模型并不直接计算字符出现的概率,而是使用一本字典。

其主要方法是将已经编码过的信息作为原字典,如果需要编码过的信息曾经出现过,就输出该字符串的出现位置及长度,否则就输出一个新的字符串。

字典算法可以在对数据统计特性一无所知的前提下,使压缩率接近已知统计特性时所能够达到的压缩率,并且运算快,易于实现。

典型的基于字典模型的压缩技术主要有两种:

一种是LZW编码,另一种是游程编码。

LZW的算法流程如下:

1.初始化字典,使字典中包含所有由单个字符组成的词条;

2.被压缩数据流中的第一个字符作为前缀串S和辅助前缀串F;

3.取下一个字符作为后缀字符C;

4.如果词条SC不在字典中或者SC是上次输出前新产生的词条,则转到7执行;

5.如果词条FC不在字典中并且FC长度不大于规定长度,则把FC存入字典;

6.SC放入S,FC放入F后转到8执行;

7.如果词条SC不在字典中,SC存入字典;

8.如果词条FC不在字典中,并且FC长度不大于规定长度,则把FC存入字典;

9.输出S的编码,把SC放入F,C放入S,回到3执行。

上述算法从3到9循环执行,直到被压缩数据流输入完毕。

23.多媒体压缩;p167-170

静止图像压缩标准JPEG

JPEG是一种典型的混合压缩标准,它将压缩算法分为两大类,即基于分差脉冲码调制无损压缩的基本部分和基于离散余弦变换的有损压缩的扩展部分。

其无损压缩的压缩比保守估计为2:

1。

其有损压缩比在20-40倍时,人眼基本看不出失真。

在数字图书馆应用中,主要采用JPEG有损压缩的扩展部分。

JPEG算法分为四个步骤:

(p.168)

第一步,颜色空间的转换

第二步,离散余弦变换

第三步,系数量化

第四步,编码

活动图像压缩标准MPEG

活动图像专家组(MPEG)是几个国际标准化和工业组织的一个联合小组,该小组的主要目标是为全屏幕活动视频图像提供工业标准。

MPEG压缩标准是针对运动图像而设计的,它包括MPEG视频、MPEG音频和MPEG系统(视音频同步)三个部分。

主要的MPEG标准有MPEG-1、MPEG-2、MPEG-4三种。

24.基于内容的信息检索技术;p170-171

基于内容特征的检索是指对媒体对象的内容及上下文语义环境所进行的检索,如图像中的颜色、纹理、形状,视频中的镜头、场景、镜头的运动,声音中的音高、响度、音色等。

图像信息检索是对静止图像所进行的检索。

基于内容的图像信息检索技术是把图像的可视特征如颜色、形状、纹理等作为图像的内容进行匹配、查找。

视频信息检索首先要构造视频结构,对视频信息进行视频分割、视频聚类、关键帧抽取等,同时还要反映出视频的动态特性,如摄像机操作(摇镜头、推拉等)、目标运动(运动方向、运动幅度、运动轨迹等),形成视频信息特征。

然后根据用户提交的查询按照一定的特征进行视频检索,将检索结果按相似程度提交给用户。

音频信息检索

1.音频的类型

i.波形声音

ii.语音

iii.音乐

2.语音检索

i.利用语音识别技术进行检索

ii.利用子词单元进行检索

iii.处用识别关键词进行检索

3.音乐检索

i.结构化音乐的检索

ii.基于样本的音乐检索

第七章、数字图书馆的互操作

25.数字图书馆互操作产生的原因;p190-191

1.数字信息资源的组织和结构问题

2.信息资源数字化中文件的命名问题

3.元数据问题

4.信息资源数字加工格式问题

5.体系结构方面的问题

6.系统构架问题

26.数字图书馆异构对象数据库互操作技术;p195-197

数字图书馆异构对象数据库互操作技术主要有以下三种:

CORBA-公共对象请求代理体系结构

中间件技术

COM/DCOM

27.Z39.50协议概念及应用模式;p210

Z39.50协议及其原理

Z39.50协议是基于OSI参考模型的应用层的信息检索的标准。

Z39.50协议是完全遵从客户机/服务器结构体系的,客户端一方为请求方,服务器一方为响应方,客户端与服务器端的通讯由Z39.50协议

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 经济学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1