异构数据库检索.docx

上传人:b****5 文档编号:11545039 上传时间:2023-03-19 格式:DOCX 页数:9 大小:23.38KB
下载 相关 举报
异构数据库检索.docx_第1页
第1页 / 共9页
异构数据库检索.docx_第2页
第2页 / 共9页
异构数据库检索.docx_第3页
第3页 / 共9页
异构数据库检索.docx_第4页
第4页 / 共9页
异构数据库检索.docx_第5页
第5页 / 共9页
点击查看更多>>
下载资源
资源描述

异构数据库检索.docx

《异构数据库检索.docx》由会员分享,可在线阅读,更多相关《异构数据库检索.docx(9页珍藏版)》请在冰豆网上搜索。

异构数据库检索.docx

异构数据库检索

《异构系统统一检索平台实现技术研究》课题组  时间:

2015-03-1716:

43

[摘要]根据图书馆文献资源的复杂性和各图书馆运行不同类型应用系统的现状,本文简述了建立资源统一检索平台的重要性。

同时,结合数字图书馆实际应用详细叙述了dILAS统一检索平台的实现机制、关键技术和实现过程。

[关键词]资源整合统一检索Z39.50协议HTTP协议OpenURL

异构系统统一检索平台实现技术研究与应用

 

《异构系统统一检索平台实现技术研究》课题组  

 

深圳图书馆 广东 深圳 518026

 

[摘要]根据图书馆文献资源的复杂性和各图书馆运行不同类型应用系统的现状,本文简述了建立资源统一检索平台的重要性。

同时,结合数字图书馆实际应用详细叙述了dILAS统一检索平台的实现机制、关键技术和实现过程。

[关键词]资源整合 统一检索 Z39.50协议 HTTP协议 OpenURL

 

ResearchontheUnifiedSearchPlatformforDifferentSystemsanditsApplication

 

ProjectGroupof“ImplementationoftheUnifiedSearchPlatformforDifferentSystem”

Shenzhenlibrary, Shenzhen,Guangdong518026

 

[Abstract]Accordingtothecomplexityofliteratureresourcesandtheactualityofdifferentapplicationsystemsinlibraries,thepaperintroducestheimportanceofbuildingtheunifiedsearchplatformfordifferentsystems.Inthemeanwhile,combiningwiththeapplicationindigitallibrary,itdilatesuponthearchitecture,keytechnologiesandtheimplementationofdILAS.

 

[Keywords]Resourcesintegrating;Unifiedsearch;Z39.50protocol;HTTPprotocol;OpenURL

 

1  引言

随着信息技术的发展,数字资源的建设与服务在图书馆起着举足轻重的作用。

基于多种平台、结构各异的各种类型的数字资源成为了图书馆的重要收藏源。

图书馆书目、题录、文摘、全文数据库、电子期刊数据库、电子图书数据库、网络数据库、自建的特色数据库等数字资源与传统的纸质馆藏文献共存,形成了丰富多样的数字图书馆馆藏体系。

在多种异构资源并存的情况下,如何为读者提供便捷、有效的文献信息服务,是每个图书馆必须解决的问题。

 

本课题旨在探索实用化的图书馆资源整合解决方案,包括图书馆的馆藏资源、联合目录资源、自建专题资源以及从数据库商购买的各种数字资源;建立异构系统统一检索平台,在多种不同的图书馆应用系统的基础上形成统一的服务体系。

本课题需采用统一的检索界面和检索语言,除提供馆藏目录、目次、文摘、全文、图片等信息的检索外,还应与图书馆的各类应用系统相结合,如OPAC系统、馆际互借系统、原文传递服务系统、参考咨询系统、统一认证系统,为读者提供更便捷、更贴切、更人性化的服务。

 

课题组首先对常见统一检索技术进行认真的分析研究,选择了两种统一检索技术构建dILAS统一检索平台,形成了实用化的统一检索体系。

并将dILAS统一检索检索技术运用到了粤港澳图书目录检索、深圳市公共图书馆通借通还和深圳图书馆电子资源检索中,实现了图书馆常见资源的整合,达到了课题总体目标的要求。

 

本课题得到了2006年度深圳市图书情报科研基金支持,组成了《异构系统统一检索平台实现技术研究》课题组,由秦格辉担任组长,组员包括王林、彭静、黄进、蔡晖、甘琳、梁奋东。

 

2 统一检索技术

目前,在解决异构数据库统一检索方面,通常采用以下几种方法:

 

(1)通过数据库接口软件与不同的数据库直接连接,如ODBC和JDBC等。

在同时检索的数据库数量较少时,使用此技术可在一定程度上解决异构检索问题,但数据库达到一定数量时,处理速度很难保证。

 

(2)通过对元数据的收集整理,安装在本地系统中,形成本地的大型元数据仓储。

这种方式的优点是,经过收集转换后的元数据不仅格式统一,而且结构清晰,可以按照需求建立各种分类体系,或者按照更高级的知识本体对数据进行再组织和管理。

但缺点是对于类型不同、分布广泛、更新频繁的数字资源,很难做到即时、准确地将数据收集齐全。

 

(3)运用元搜索引擎的基本原理,利用数据库的Web客户端进行统一检索。

这种方法的缺点在于需要对各个数据库的Web处理接口进行详尽分析,若其中某个数据库的Web处理接口发生改变则需重新设计,接口的稳定性较差。

 

(4)利用专业的检索协议,如Z39.50协议,对异构数据库进行统一检索,这种技术的优点是能提供读者完整的目录资料,检索接口稳定,能快速实现资料传输,但缺点是要求掌握复杂的专业检索协议,而且要求所检索的资源必须提供对应的标准检索协议服务。

 

现有的大部分跨库检索系统都是以这四种方法为基础设计的,每种技术都有自己的优势和局限性。

根据图书馆资源的内容特性和发布特性,单纯选用其中一种跨库检索技术是不能完全满足资源的整合服务需求的,必须结合多种检索技术。

对于具有Z39.50服务的数字资源,如图书馆馆藏资源、自建数字资源、联合目录资源等,都提供了标准的Z39.50服务,因此优先采用Z39.50网关整合检索技术;而对于那些仅提供Web检索服务的网络数据库,则采用基于HTTP协议的Web浏览器技术。

通过这两种技术的紧密结合,基本上可以解决图书馆数字资源的整合检索问题。

 

3dILAS统一检索平台的技术实现

课题组在统一检技术实现中,选择了两种统一检索技术,构建了基于Z39.50协议的统一检索平台和基于HTTP协议的统一检索平台。

3.1基于Z39.50协议的统一检索平台(Z-USP)

Z-USP检索平台基于Unix/Linux/AIX/Solaris操作系统,通过简单的资源配置,实现多个远程Z39.50服务器的广播检索。

Z-USP不仅能支持多种格式的元数据(CNMARC、USMARC、DC等)的检索,而且支持多种字符集的互转(UNICODE、GBK、BIG5、CCCII)。

 

(1)资源配置

Zgate.ini为Z-USP资源配置文件,配置参数包括基本控制参数及资源服务器参数:

控制参数为平台的核心参数,其中指定了平台的连接上限、超时处理机制及一系列模版页面,如平台入口页面、检索页面、结果发布页面等,通过修改这些参数,可动态改变平台风格。

资源服务器参数包括服务器名称、URL、IP、端口Port、检索数据库名称、数据库所用字符集、登录服务器ID、密码、进入图书馆OPAC的入口、详细数据模版页面等。

通过修改这类参数可灵活增减检索服务器,而不需对检索程序作任何修改。

 

(2)平台构成

a.Zstart

Zstart为Z-USP的启动程序。

Zstart通过读取资源配置文件Zgate.ini,形成动态的广播查询网页。

 

b.Zgate

Zgate为Z-USP的客户接口部分,与客户间通过HTTP交换信息。

Zgate每接到一个用户请求,根据其请求类型(ZAction)及SessionID确定连接的服务端Zcon。

如果是新的连接,则将请求发给主Zcon服务,否则发给上次为其服务的Zcon服务进程,然后等待Zcon的处理结果。

当Zgate接收到Zcon的回应消息后,则将其结果(已格式化的HTML文件)回传给浏览器。

一次请求操作完成后,Zgate自动退出。

 

c.Zcon

Zcon为Z-USP的服务端,也是远程Z39.50服务的客户端。

Zcon通过Zgate的“初始化消息Z_initAction”激活启动。

每次均启动一个新的Zcon进程,并与远程的某个Z39.50服务器上的Zserver建立连接,该连接一直保持激活状态,直到Zgate发来中断请求为止。

Zcon启动后,将等待从Zgate发来的后续操作请求,并将其转化为Z39.50协议要求的数据形式,传给远程的Z39.50服务器上的Zserver;当接收Zserver的回应消息后,则根据平台要求,形成需要的结果文件,回传给对应的客户端Zgate。

 

(3)工作原理

通过统一的检索界面接收用户检索请求(Zstart),分发给Z39.50的前端接口(Zgate),将其转化为Z39.50的标准请求(Zcon),传递给多个远程Z39.50服务器上的Zserver,然后等待返回结果。

当接收到检索结果时,将结果变为统一格式发布。

图1显示了对多个远程Z39.50服务器进行检索时的工作原理及实现过程。

 

(4)平台特点

a.基于类UNIX操作系统

Z-USP基于类UNIX操作系统,各个模块之间的信息交互及一致性控制采用了IPC通讯方式,即通过共享内存(ShareMemory)、消息队列(MessageQueue)、信号灯(Semaphore)联合控制方法。

共享内存记录当前活动的所有Z39.50连接信息(如任务ID、启动时间、最近活动时间、所使用的资源情况)及资源使用情况(如资源活动状态[忙/闲]、资源ID、被使用的检索服务PID等),用以保证HTTP请求的连续性。

消息队列用来实现平台的客户端Zgate与服务端Zcon之间的请求/回答交互。

信号灯用来控制多进程间的互斥操作。

 

b.实时馆藏链接服务

通过资源配置参数中的OPAC入口、详细数据模版页面及针对各馆配置的JavaScript脚本,动态生成书目的馆藏链接点,实时揭示文献的在馆情况。

 

c.文献利用服务

将实体馆藏信息展示给读者的同时,结合馆际互借(ILL)协议,提供文献借阅请求登记服务。

对于电子文献,则通过文件传输协议FTP、E-Mail等,直接将电子原文传递到读者手中,实现原文传递服务。

 

d.简繁数据一体化检索

通过对远程数据库字符集及客户端语言环境(HTTP_ACCEPT_LANGUAGE)的分析,对检索条件进行预处理,以实现不同字符集之间的互检功能,目前支持互检的字符集有UNICODE、GBK/GB2312、BIG5、CCCII。

 

3.2 基于HTTP协议的统一检索平台(W-USP)

W-USP检索平台基于Unix/Linux/AIX/Solaris操作系统,通过一系列资源配置参数,采用URL和Web页面分析技术,对各种电子数据库及专业网络数据库进行统一检索。

W-USP支持多种用户验证方式(用户登陆、IP控制)及Cookie机制,支持多种字符集的互转(UNICODE、GBK、BIG5、CCCII)技术。

 

(1)资源配置

USP.ini为W-USP主配置文件,包括平台控制参数和网络数据库连接参数。

控制参数中定义平台的连接上限、超时处理机制(SessionTimeOut、ServerTimeOut)、模版页面文件、数据库类型、检索浏览器、语种分类参数、学科分类参数、数据库类型参数;网络数据库参数,包括资源ID、资源名称、检索浏览器名称、资源来源、语种、URL、字符集、数据库标识、资源类型、学科分类、检索入口IP、资源检索脚本文件。

通过修改这类参数可灵活增减检索数据库,对于增加同类型数据库,只需修改配置文件,而不需增加检索浏览器,更不需要对程序作任何修改。

Script4***.ini为特定网络数据库的检索脚本,对于不同类型的数据库,都有其特有的检索脚本配置文件(如Script4CNKI.ini、Script4VIP等),内容包括该数据库的授权级别、授权访问方式、检索方式(即索引转换表)、登录脚本、检索脚本、详细数据提取脚本、原文下载脚本。

如果某类数据库的检索方式发生变化,一般情况下,只需修改该文件中的脚本,勿需修改程序源码。

 

(2)平台构成

a.USPstart

USPstart为W-USP的启动程序,通过读取平台配置参数文件USP.ini,形成动态的电子资源统一检索网页。

它与USP.ini结合起来,形成图书馆电子资源的门户。

 

b.USPgate

USPgate为W-USP的客户接口部分,与客户间通过HTTP交换数据。

每当USPgate启动后,先向服务分发器USPServer发送登陆请求,登陆成功后,服务器返回为之服务的浏览服务器进程,随后USPgate直接将检索或数据提取请求发给对应的浏览服务器,等待浏览服务器的处理结果;当接收到浏览服务器的回应消息后,将其结果(已格式化的HTML文件)回传给客户。

 

c.USPServer

USPServer为W-USP的服务分发器,接收所有来自客户端的登陆请求,根据检索数据库及请求中的会话ID,分配相应的浏览服务器。

对于是已登陆过的会话,则直接分配前次为之服务的浏览服务器。

而对于新的会话,则要对所管理的空闲浏览服务器的负载情况进行综合考虑,决定启动一个新的浏览服务器或沿用一个被闲置的空闲浏览服务器。

任务分发完成后将对应的服务器PID传给客户端USPgate。

 

d.USPBrowser4***

USPBrowser4***为W-USP的服务端,也是远程网络数据库的检索客户端。

该应用基于HTTP协议,采用URL和Web页面分析技术,模拟人工检索方式,监听通讯端口,截取数据通讯包,获得检索过程数据和结果数据,根据检索脚本中的设定,对网页进行过滤网页,提取有用的数据信息,形成属于自己风格的新页面,提交给平台客户端USPgate。

 

(3)工作原理

通过统一的检索界面接收用户检索请求(USPGate),根据数据库类型(USPServer),将请求分发到为数据定制的统一检索浏览器(USPBrowser4***),各种浏览器根据自己所负责数据库的检索特点,转换检索请求,提交给各数据库的检索引擎,然后等待数据库的返回结果。

当接收到检索结果时,对结果进行解析,提取其中的数据信息,重新组装变为统一格式发布。

在统一检索界面下对清华学术期刊数据库、维普数据库、PorQuest等进行统一检索的工作原理及实现过程如图2所示。

 

 

(4)平台特点

a.资源配置

简单的电子资源管理(ERM),通过在资源配置参数USP.ini中的设置各种分类栏目(电子资源的多角度标引),可动态形成数据库的多种分类浏览页面,如按语种、学科、数据库类型等对检索数据库进行浏览检索,对于大部分图书馆来说,在电子数据库种类不是特别多的情况下,采用这种配制文件方式管理数据库是最简单、高效、经济、实用的,而不需要建立庞大的的电子资源管理系统(ERM)来管理。

 

b.多种用户验证方式及Cookie机制

W-USP支持多种用户验证方式(用户登陆、IP控制)及Cookie机制。

访问授权和版权控制,考虑到读者访问的方便和版权控制问题,实现了访问读者统一认证、单点登录方式。

针对各电子资源的授权情况,进行分级服务,设置三级访问限定:

元数据目录级、摘要级、全文级。

访问授权方式分四种:

0完全限制;1不限制;2IP限制;3用户限制;4IP或用户限制。

这样在方便读者服务的同时,也充分保护了电子资源供应商的版权。

 

c.支持多种字符集的互转技术

针对网上资源与的情况,W-USP采用了多种字符集的互转技术,包括UNICODE、GBK、BIG5、CCCII等。

 

d.资源链接服务

统一检索平台利用各种资源定位协议(如HTTP、OpenURL、DOI等),在授权允许的情况下,对于提供开放式链接的电子资源,在展示元数据的同时,提供原文链接点,通过OpenURL技术直接链接到具体的全文数据或其他原始对象,方便读者联机获取。

 

4dILAS统一检索技术的应用

4.1 图书馆统一检索体系

我们综合以上两种统一检索技术,结合图书馆运行的各类应用系统,搭建了图书馆统一检索体系,并总结出了在图书馆针对各种不同类型资源进行统一服务的过程,如图3所示。

 

 

图书馆统一检索体系首先在深圳图书馆新馆赋诸实施。

深圳图书馆的资源结构复杂多样,既有自建的馆藏文献数据库、专题文献数据库,还有合作建设的数据库(如地方版联合编目数据库),购买的商用电子数据库,共享工程下的图书馆联盟数据库等。

针对这些资源的特性和需提供服务的具体要求,课题组搭建了三个统一检索平台,包括粤港澳书目检索平台、深圳市公共图书馆“通借通还”平台、深圳图书馆电子资源检索平台。

 

4.2粤港澳书目检索

目前,深圳图书馆、香港公共图书馆、澳门中央图书馆、省立中山图书馆和澳门大学图书馆的书目检索系统采用不同的自动化系统、不同的书目数据格式和字符集,不同系统之间的馆藏信息是独立和分散的,如图4。

为了实现这些图书馆之间馆藏资源的统一检索,方便读者进行馆藏信息查询,课题组基于Z39.50检索协议构建了统一检索平台,利用URL连接分析技术与各馆的OPAC系统结合起来,实现了粤港澳实时馆藏链接服务,为将来粤港澳图书馆进一步的资源共享、馆际互借打下了基础。

 

图书馆

采用的自动化系统

书目数据格式

字符集

深圳图书馆

dILAS系统

CNMARC、USMARC

Unicode

香港公共图书馆

美国dynix系统

USMARC

BIG5

澳门中央图书馆

台湾totals系统

CMARC

BIG5

省立中山图书馆

北京丹诚软件系统

CNMARC

GBK

澳门大学图书馆

美国Innopac系统

USMARC

CCCII

图4粤港澳检索平台各图书馆自动化系统现状

 

4.3  图书文献“通借通还”

基于Z39.50检索协议,课题组实现深圳地区七个图书馆之间馆藏数据的统一检索、文献统一借阅服务。

参加的图书馆有深圳图书馆、南山区图书馆、宝安区图书馆、福田区图书馆、罗湖区图书馆、盐田区图书馆、龙岗区图书馆及梅林一村、莲花北村、益田村三个社区图书馆。

“通借通还”系统在统一检索平台的基础上,与各馆的OPAC系统相连,能实时查看文献的在馆情况,在此基础上实现了网上预借和馆际互借的功能。

 

4.4  电子资源统一检索

此平台基于HTTP协议,采用URL和Web页面分析技术,用于对图书馆购买的各种电子数据库及其他专业网络数据库进行统一检索。

目前实现统一检索的有50多种中外文数据库,如CNKI的中国学术期刊、博硕士学位论文、报纸全文数据库,重庆维普数据库、万方数据库、EBSCO、ProQuest、FirstSearch、Inspec等类型数据库。

 

5 小结

目前深圳图书馆各种类型的资源检索服务平台均已投入使用,特别是电子资源统一检索平台,深受读者的欢迎。

但也必须看到,资源整合和统一检索服务是一项长期、复杂而烦琐的工作,要不断追踪新技术,不断跟进资源的变化,不断增加新引进的资源,不断将统一服务推向深入。

课题组将继续加强统一检索平台建设,扩展服务范围,与图书馆各种服务系统紧密结合,包括馆际互借系统、原文传递服务系统、参考咨询系统、网上书评及推荐系统等,为读者提供更深层次的信息服务。

 

[参考文献]

[1]秦格辉.Z39.50技术在ILAS系统中的应用.现代图书情报技术,2000(5)

[2]黄镝.异构数据库的跨库检索技术综述.图书情报工作,2003(6)

[3]姜爱蓉.资源整合与门户建设.清华大学数字图书馆前沿问题高级研讨班资料,2006.8

 

(本项目系深文【2006】64号入选2005-2006年度深圳市图书情报科研课题之一,得到深圳市图书情报科研资金资助。

本文由深圳图书馆秦格辉执笔。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经管营销 > 人力资源管理

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1