第六章计算机检索文档格式.docx

上传人:b****6 文档编号:19235613 上传时间:2023-01-04 格式:DOCX 页数:29 大小:71.54KB
下载 相关 举报
第六章计算机检索文档格式.docx_第1页
第1页 / 共29页
第六章计算机检索文档格式.docx_第2页
第2页 / 共29页
第六章计算机检索文档格式.docx_第3页
第3页 / 共29页
第六章计算机检索文档格式.docx_第4页
第4页 / 共29页
第六章计算机检索文档格式.docx_第5页
第5页 / 共29页
点击查看更多>>
下载资源
资源描述

第六章计算机检索文档格式.docx

《第六章计算机检索文档格式.docx》由会员分享,可在线阅读,更多相关《第六章计算机检索文档格式.docx(29页珍藏版)》请在冰豆网上搜索。

第六章计算机检索文档格式.docx

“新”是指检索内容新。

计算机检索系统数据更新快,在联机检索系统中,数据库数据每一月每一周有的甚至每一天都做更新,更新周期特别快,检索者可以及时获得最新信息。

二、计算机检索发展历史

自20世纪40年代世界上第一台计算机诞生以来,计算机检索就随之出现并不断发展,到90年代随着国际互联网技术的发展而进入了一个崭新的时期。

回顾其发展历史,大致经历了脱机检索、联机检索、光盘检索与网络化检索四个阶段。

(一)脱机检索阶段。

这一时期主要是利用单台计算机输入输出装置进行过期文献的追溯检索和新文献的定题检索。

检索单位把许多用户的检索要求汇集在一起,进行批量检索,然后把检索结果通知各个用户,用户不直接接触计算机。

这种方法更适合大批量的定题信息检索,所以也叫脱机批处理检索或定题情报服务。

(二)联机检索阶段。

这一时期随着计算机处理功能的提高和新的大容量的情报载体磁盘的问世,出现了一台主机带多个终端的联机信息检索系统。

使电脑检索进入了联机检索阶段。

用户可以使用终端设备直接与计算机进行“人—机对话”,计算机对用户的提问能及时处理并显示出结果。

联机检索的发展大致经历了三个时期:

20世纪60年代对联机信息检索进行了研究试验;

70年代末进入了联机检索区域性应用阶段;

80年代以后,随着空间技术和远程通信技术的发展,使计算机检索进入信息、计算机、卫星通信三位一体的新阶段,在世界范围内提供联机信息检索服务,形成国际联机检索服务业。

(三)光盘检索阶段。

光盘检索始于20世纪80年代,它是在计算机技术、激光存储技术等高新技术成果的基础上发展起来的。

光盘是一种使用激光记录和读取信息的盘片,具有信息存取密度高、容量大、读取速度快、保存时间长、成本低等优点。

根据能否重新读写,光盘分为可读写光盘和只读光盘两种。

根据使用范围,光盘又可分为单机版和网络版。

光盘检索具有检索速度快、要求设备简单、可随地安装、使用方便、易于操作、检索费用低等优点,至今仍广泛应用。

(四)网络信息检索。

通过网络接口软件,用户可在任一终端查询各地上网的信息资源。

网络检索也是一种广义的联机检索,如使用远程登录(Telnet)通过Internet连接用户所指定的远程计算机,共享该主机上的资源。

进入90年代,因特网(INTERNET)的应用从单纯的科学计算与数据传输向社会应用的各个方面拓展,许多图书馆、图情机构都纷纷加入这个网络中,因特网为我们获取文献信息提供了前所未有的方便,是一个能够跨越时空进行实时信息检索、资源共享的国际性超级计算机网络。

它彻底打破了信息检索的区域性和局限性,用户足不出户就可以获取所需要的文献信息,而且信息形式多种多样,图文并茂,有声有景。

因特网的迅速发展和广泛应用,改变了计算机信息检索的方式和方法,将信息检索拓展到一个更广阔的领域。

随着网络规模的不断扩大,网上信息资源的无限增长,网络传输速度的不断提高,因特网已成为人们进行全球范围的合作、信息交流与资源共享的不可替代的通信交流方式。

我国在计算机信息检索方面起步较晚,但发展速度很快。

20世纪70年代我国图情机构才引进国外数据库开展计算机定题检索试验和服务。

80年代初开始利用国外的联机检索服务,先后在香港、北京、上海、广州、西安、武汉、成都、沈阳、重庆等城市建立了近80个远程检索终端,通过国际通讯网络与国外数十个大型联机检索系统联机。

比较有代表的是:

中国建筑技术发展中心牵头设立的我国第一台国际联机信息检索终端与美国的DIALOG和ORBIT系统联机;

一些国家部委情报所也与国外大型联机检索系统联机。

1983年10月中国科技情报所通过到罗马远程数据库通信线路建立了数台300波特的数据终端与欧洲空间组织的ESA-IRS系统、美国的DIALOG和ORBIT系统联机。

随后清华大学、上海交通大学、东南大学等高校也纷纷建立了自己的国际联机终端。

到90年代中期,全国有200多个联机检索终端与国外的DIALOG、ORBIT、BRS、MEDILARS、ESA-IRS、STN、DATA-STAR等几十个国际检索系统联机。

我国各大图情机构在开展国际联机检索服务的同时,也纷纷开发自己的联机检索系统及数据库,向国内提供检索服务,有些检索系统还走出国门.向国外用户提供联机检索服务。

比较有代表的有清华同方的中国知识基础设施工程(CNKI)和中国科学技术信息研究所的万方数据资源系统。

CNKI收集中国国内约7200种综合期刊与专业特色期刊的全文,CNKI中心网站及数据库交换服务中心每日更新,各镜像站点通过互联网或卫星传送数据可实现每日更新,专辑光盘每月更新,专题光盘年度更新。

中国科学技术信息研究所的万方数据资源系统,该系统现拥有100多个数据库,内容涉及科技、经济、标准、法规、公司企业、高校与科研单位、公共信息等,数据库收录文献范围包括期刊、会议、学位论文、报告、法规、专利标准、工具书等。

近十年来我国的通信事业有了非常快的发展,自从九十年代我国加入Internet行列起,现已建成中国公用数据网(CHINADDN)、中国公用分组交换网(CHINAPAC)、中国公用帧中继网(CHINAFRN)和中国公用电子信箱系统(CHINAMAIL)四大公用数据通信网,为加快我国信息高速公路的发展打下了良好的基础。

在此基础上,建设了中国公用计算机互联网(CHINANET)、中国教育科研网(CERNET)和中国科技网(CSTNET)等因特网。

目前,我国多数高校建起了自己的校园网,并建设了各具特色的数据库,中国教育科研网(CERNET)在区域范围内还设立了分中心,形成了包括网络中心、地区中心和高校校园网三级结构的教育科研计算机网络。

我国通信事业的快速发展和电子信息资源的不断丰富,使我国的计算机信息检索进入了一个新的发展时期。

三、计算机检索系统

计算机检索系统是使用计算机进行信息存储和检索的系统。

检索时由计算机对系统中的数据库进行匹配、比较和运算。

(一)计算机检索系统组成

一般情况下,计算机检索系统由计算机硬件、计算机软件、通讯网络和数据库构成。

1、计算机硬件

计算机硬件是系统使用的各种硬设备的总称,主要包括主计算机、检索终端、数据输出设备等。

检索终端是用户与主机交互对话实现检索策略的必备设备,也可以是一台计算机。

打印机是最常用的数据输出设备,它可以将计算机输出的信息打印到打印纸上。

此外磁盘也是一种最常用的输出设备,它的优点就是输出速度快,适合大批量的检索结果输出。

2、计算机软件

计算机软件由系统软件、维护软件与检索软件构成。

操作系统等系统软件是保障计算机正常工作。

数据库管理程序、词表管理程序等维护软件,其作用是保障检索系统的高效运转。

检索软件是用户与系统的接口,用户通过检索软件进行检索。

检索软件是检索系统的灵魂,决定着系统的检索能力,检索软件功能的强弱直接影响着检索效果。

检索软件可以分为指令式、菜单式和智能接口等几种。

3、通信网络

通信网络是信息传递的设施,是终端用户联接中央计算机系统的桥梁。

通信网络又可以分为资源子网和通信子网两部分。

终端用户向系统发出的检索指令就是通过通信网络传送给中央计算机系统的。

中央计算机接到指令后,按指令要求进行检索,并将检索结果通过通信网络传回给终端用户。

4、数据库

数据库是计算机检索系统的物质基础,是用户检索的情报源。

顾名思义,数据库就是存放数据的仓库,在计算机技术中数据库的定义是一个通用化的综合性的数据集合,它可以供各种用户共享且具有最小的冗余度和较高的数据与程序的独立性。

数据库在《文献与信息工作术语》中的定义是,至少由一种文档组成的,能够满足某种特定目的或特定数据处理系统需要的数据集合。

数据库是检索系统的信息源,也是用户检索的对象。

同一个数据库可提供给几个检索系统共享使用,但是,由于各个检索系统的软件处理功能不同,检索途径不同,同一个数据库在不同检索系统中可能检索出的结果也就不同。

(1)数据库的一般结构

不同类型的数据库,其结构不尽相同,所提供的检索途径也有区别。

但无论什么类型的数据库都具有数据库的—些基本特征。

通常人们将一批相关的信息输入计算机并存贮起来,就形成了有序的可供检索的文档,一个数据库通常由一个主文档和若干个索引文档或称倒排文档组成。

主文档是由大量数据记录组成的。

每条记录又是由若干个字段所组成。

字段描述的是文献外部特征和内容特征,是文献著录加工的最基本单元,如文章的题名、作者、文摘、出版时间、语种等,每种属性即为一个字段,每个字段都有一个名称我们称为字段名。

在有的数据库中,一个字段又由若干个子字段组成。

字段及子字段可以是定长的也可以是变长的,这样构成主文档的数据记录也可能是定长的或变长的。

以下是一条中国图书机读书目记录示例(CN-MARC格式)。

001012004002284

00520040225084924.5

010@a7-302-06506-3@dCNY49.80(含光盘)

010@a7-89494-116-6@b光盘

099@aCAL012003144639

100@a20030314d2003emy0chiy0121ea

1010@achi

102@aCN@b110000

105@aaka001yy

106@ar

2001@a数字信号处理@Ashuzixinhaochuli@e理论、算法与实现@f胡广书编著

205@a第2版@b修订版

210@a北京@c清华大学出版社@d2003

215@aXIV,649页@c图@d23cm@e光盘1片(12cm)

2252@a清华大学电子与信息技术系列教材@Aqinghuadaxuedianziyuxinxijishuxiliejiaocai

300@a研究生教学用书北京市高等教育精品教材立项项目教育部研究生工作办公室推荐

320@a有书目和索引

330@a本书共14章,分为上下两篇,每篇各7章。

系统介绍了数字信号处理的理论、相应的算法及这些算法的软件与硬件实现。

4100@12001@a清华大学电子与信息技术系列教材

6060@a数字信号@Ashuzixinhao@x信号处理@x高等学校@j教材

690@aTN911.72@v4

7010@a胡广书@Ahuguangshu@4编著

8010@aCN@bSJT@c20030923

905@b000001544946@dTN911.72@eCH1-2@f5

906@a1@bZJU@c5@pzhangfl@t20040315

  以上示例在实际存储中,数据存放在计算机是连续的并不分行,上述排列只是为了阅读方便。

上面一条记录由若干字段构成,每段为一个字段,最前面的三位数就是字段名。

每个字段又由多个子字段组成。

例如:

上述记录的210字段就由@a、@c、@d三个子字段组成。

从以上示例还可以看出,中国图书机读书目记录(CN-MARC格式)的记录长度是可变的,记录中的字段及子字段的个数、长度也是可变的。

索引文档是将主文档中的可检字段抽出重排为方便检索而形成的数据记录集合。

在计算机检索系统中的数据库通常采用几种不同的文档结构。

顺排文档

它是数据库最主要的文档,是数据库的主体。

它由一次或二次文献源组成。

这种文档严格按文献输入的先后顺序排列,每一条文献记录都有一个唯一的记录标识,记录号越大,信息便越新。

顺徘文档记录着文献的最详细内容,主要用于检索成功后数据的输出,因此此类文档非常庞大。

顺排文档的存储严格按顺序存放,在检索顺排文档时,计算机只能按物理顺序从头到尾依次访问文档中的每条记录,因此查找速度非常慢,不适合检索。

一个数据库一般情况下只有一个顺排文档,又称为主数据库文档。

倒排文档

为方便检索,提高检索速度,数据库必须和手工检索工具一样配备索引,才能支持计算机快速检索,这种索引就称为倒排文档。

它是顺排文档的辅助文档,是将每条文献记录中的检索标识(如文献的主题词、题名、作者等)抽取出来,同时记录下该检索标识所对应的文献记录号,每一个具体的检索标识往往对应多条记录,形成一对多的关系,然后按一定的顺序对检索标识进行排序,从而形成的文档。

通常一类检索标识形成一个倒排文档,如主题词倒排文档、题名倒排文档、著者倒排文档等。

倒排文档也称为索引文档,因为索引文档相对短小,并且已按某种顺序排序,所以查找速度快。

在进行文献检索时,首先在索引文档中查找要检索的检索词,找到该检索词后再获得对应的记录号,然后根据记录号到顺排文档中获得原始文献记录。

倒排文档又可以分为主索引文档和辅助索引文档。

主索引文档是由那些具有主题性质的检索标识字段(主题词、关键词、文献号等)构成的倒徘文档。

计算机检索系统通常抽取少量的具有主题性质的字段进行索引倒排,几乎每一个数据库都有主题词主索引文档,有些主题性质的字段往往能唯一标识一条文献记录,如专利数据库中的专利号字段,它在倒排文档中就是一对一的关系。

在利用主索引文档进行检索时,检索式一般不用带字段标识。

检索系统往往只利用主索引文档便能准确而快速地查找到所需要的文献。

辅助索引文档是一种非主题性质的字段构成的倒排文档,除主索引文档的字段以外的字

段都可能用来建辅助索引文档。

如文献的出版日期宇段索引文档就是一种辅助索引文档。

助索引文档常常和主索引文档结合起来使用,保证文献的查准率和查全率。

利用辅助索引文档进行检索时,检索表达式要指明字段标识。

例如,著者=“李明”表示检索著者字段中著者为“李明”的文献记录。

顺排文档存储着文献的详细信息,文档比较庞大,倒排文档存储着文献的索引信息,帮助用户迅速而准确地查找文献,倒排文档相对短小。

(2)数据库的类型

数据库的类型有许多种,人们可从不同的角度对其进行分类。

比如按存储信息的媒体形式可分为:

文字型数据库、数值型数据库、图像型数据库和声音型数据库;

按存贮介质可分为:

磁介质数据库、光盘数据库、多媒体数据库;

按其性质可分成:

文献型数据库、数值型数据库、事实型数据库等等。

国际上通常根据数据库内容将数据库划分为:

参考数据库、源数据库、混合数据库。

参考数据库是指引用户到另一信息源以获得原文或其他细节的一类数据库。

它包括书目数据库和指南数据库两种。

书目数据库主要存储的是文献的题录、文摘或出处等信息,是文献的外部特征与内容特征的描述与记载。

从此类数据库中查找到的是这些文献的线索即书目信息,是一种二次文献,也称二次文献数据库。

书目数据库又可分为题录数据库、文摘数据库、目录数据库等。

中文科技期刊篇名数据库、全国中文科技期刊联合目录数据库等就是书目数据库;

指南数据库也称指示性数据库,是指存贮机构、人物、地名、产品、项目、活动等对象的简要描述,指引用户从其他有关信息源获取更详细的信息的一类数据库。

例如中国百万商务通讯数据库、中国科研机构数据库、中国科技名人数据库、中国企业公司及产品数据库等就是指南数据库。

源数据库是指能直接提供原始资料或具体数据的数据库,用户不必再查阅其他信息源。

它包括全文数据库、数值数据库、术语数据库、图象数据库等。

全文数据库是指存贮文献全文或其中主要部分的数据库。

如新闻数据库、期刊全文库、法律法规数据库等就是全文数据库;

数值数据库是指专门存储的是各种科学数据的数据库。

如各种统计数据库、财务数据库、科学研究数据库等就是数值数据;

术语数据库是指专门存储名词术语信息、词语信息以及术语工作和语言规范工作成果的数据库。

它是非常有效的术语控制与标准化的工具,也是翻译和检索的辅助工具。

名词术语信息库、各种电子化辞书等就属于术语数据库;

图象数据库是指专门存储各种图像或图形信息及有关文字说明资料的数据库,主要应用于建筑、设计、广告、产品、图片或照片等资料类型的计算机存储与检索。

如工程设计图库、卫星图片库、地图库等就属于图象数据库。

混合数据库是能同时存储多种不同类型数据的数据库,此类数据库兼具上述两类数据库特点。

例如多媒体数据库就属于混合数据库。

多媒体数据库是相对于传统的仅支持单一媒体的数据库而言,是将图像、图形、文字、动画、声音等多种媒体数据结合为一体,并统一地进行存取、管理和应用的数据库。

象动植物标本库除了能浏览相应对象的文字描述、还可以观看对应的图形、图像,甚至听到声音。

(二)计算机检索系统的类型

计算机检索系统可分为光盘检索系统、联机检索系统和互联网检索系统。

1、光盘检索系统是由微机、光盘数据库、检索软件等组成,目前国内普遍采用的是光盘网络系统,它由光盘服务器、计算机局域网、光盘数据库或磁盘阵列、检索软件等组成。

其特点是设备简单,费用低,检索技术易掌握,但检索范围受光盘数据库的限制,更新不够及时。

2、联机检索系统是由提供联机检索服务的中心计算机、检索终端、通讯网络、联机数据库、检索软件等组成,其特点是检索范围广,检索速度快,检索功能全,及时性强,它拥有的数据库数量大且更新及时,但检索技术复杂,设备要求高、检索的费用昂贵。

3、互联网检索系统是由计算机服务器、用户终端、通讯网络、网络数据库等组成,其特点是检索方法较简单,检索较灵活、方便,及时性好,检索费用和速度均低于联机检索系统。

由于现代通信技术的发展,公共数据传输技术为信息的传递提供了保障,信息检索逐渐发展成为网络检索,通过数据传输网将各个计算机连接起来。

每个计算机成为网络中的一个节点,每个节点可含一个或多个数据库,网络上的每个节点和其终端只要有授权均可对网络中的数据库进行访问,实现资源共享。

随着科学技术的不断发展,计算机检索也进入了快速发展的新阶段。

第二节  计算机检索技术与策略

一、计算机检索的原理

计算机检索虽然为用户提供了一种快速高效的信息检索方式,但是,计算机检索与手工检索一样,同样包括文献的存储和查找两个方面。

计算机检索的实质是“匹配运算”,即由检索者把检索要求变成机器能识别的检索提问式输入计算机中,由计算机自动对数据库中数据进行扫描、匹配,找出符合检索要求的文献。

实质上计算机检索就是把我们的课题要求变成检索提问输入计算机,与计算机中的数据库信息记录的特征进行组配运算,把完全匹配的数据记录检索出来的自动化过程。

因此,人作为计算机检索的主体,其主要工作是通过对课题进行分析确定课题检索词和编制检索提问式。

二、计算机检索技术及其实现

  布尔逻辑、截词、词位限制、检域限制等检索技术是各类计算机检索系统中普遍采用的检索技术,但由于各种系统使用的检索软件所支持的检索技术可能不同,因此实际检索时应注意查看所用检索系统的相关说明。

  

(一)布尔逻辑检索

所谓布尔逻辑检索(BooleanLogical)是用布尔逻辑算符将检索词或代码进行逻辑组配,指定文献记录的命中条件和组配次序,凡符合逻辑组配所规定条件的为命中文献,否则为非命中文献。

布尔逻辑检索是计算机检索系统中最常用的一种检索方法。

其方法是用逻辑运算符将检索词或代码组配成检索提问式,计算机根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。

常用的布尔逻辑运算符主要有:

And/*、Or/+、Not/-。

1、逻辑“与”:

运算符为And或*。

检索词A和检索词B用“与”组配,检索表达式为:

A And B或者 

A*B,它表示检出同时含有A、B两个检索词的文献记录。

逻辑与运算符适用于连接概念之间有限定关系或交叉关系的词,能增强检索的专指性。

这种组配可以缩小检索范围,有利于提高查准率。

两个检索词的逻辑与满足交换律。

A和B逻辑“与”运算检索结果如图6-1所示,图中黑色部分即为同时包含A和B两个检索词的文献记录。

图6-1  A*B

2、逻辑“或”:

运算符为Or或+。

检索词A和检索词B用“或”组配,检索表达式为:

A Or B或者 

A+B,它表示检出所有含有A检索词或者B检索词的文献记录。

逻辑或运算符适用于连接概念之间有同义关系或相关关系的词。

这种组配可以扩大检索范围,防止漏捡,提高查全率。

两个检索词的逻辑或满足交换律。

A和B逻辑“或”运算检索结果如图6-2所示,图中黑色部分即为包含A检索词或B检索词的文献记录。

 图6-2  A+B

3、逻辑“非”:

运算符为Not或-。

检索词A和检索词B用“非”组配,检索表达式为:

A Not B或者A-B,它表示检出含有A检索词但同时不含B检索词的文献记录。

逻辑非运算适用于从某一检索范围中排除不需要的概念的运算。

逻辑非运算也可以缩小检索范围,增强检索的准确性,但如果使用不当,会排除有用文献导致漏检。

A和B逻辑“非”运算检索结果如图6-3所示,图中黑色部分即为包含A检索词但不包含B检索词的文献记录。

       

图6-3  A-B

  一般情况下,上述三种逻辑运算符的运算优先级从高到低是Not→And→Or,在有括号的情况下,先执行括号内的运算,有多层括号时执行最内层括号中的运算,并逐层向外执行。

在计算机检索中布尔逻辑检索是经常使用的一个检索技术。

(二)截词检索

在进行信息检索时,有些检索词具有相同部分,可能是词头相同,也有可能是词尾相同,或者是词的中间部分相同。

就是利用截词运算符截取相同部分进行检索。

这个相同部分就是词干,也就是说截词检索是用给定的词干做检索词,查找含有该词干的全部检索词的文献记录,所以又叫词干检索或字符屏蔽检索。

截词检索可以起到扩大检索范围,提高查全率,减少检索词的输入量,节省检索时间,降低检索费用等作用。

截词的方式有多种,按截断位置可以分为后截断、前截断、中截断、复合截断等;

按截断长度可以分为有限截断和无限截断。

在不同的计算机检索系统中采用的截词运算符可能不一样,没有统一的标准。

例如DIALOG系统用“?

”,BRS系统用“$”等。

下面说明

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1