计算机检索基本原理.docx

上传人:b****8 文档编号:9910602 上传时间:2023-02-07 格式:DOCX 页数:20 大小:32.29KB
下载 相关 举报
计算机检索基本原理.docx_第1页
第1页 / 共20页
计算机检索基本原理.docx_第2页
第2页 / 共20页
计算机检索基本原理.docx_第3页
第3页 / 共20页
计算机检索基本原理.docx_第4页
第4页 / 共20页
计算机检索基本原理.docx_第5页
第5页 / 共20页
点击查看更多>>
下载资源
资源描述

计算机检索基本原理.docx

《计算机检索基本原理.docx》由会员分享,可在线阅读,更多相关《计算机检索基本原理.docx(20页珍藏版)》请在冰豆网上搜索。

计算机检索基本原理.docx

计算机检索基本原理

网络资源与信息检索

本章具体内容安排:

2.1计算机检索基本原理概述

2.2计算机检索基本原理 

2.3文献信息数据库的基本概念 

2.4计算机检索策略的构建与调整

要求:

初步掌握计算机检索的基本原理、基本类型及其检索策略的构建与调整。

第二讲计算机检索基本原理

2.1计算机检索基本原理概述

2.1.1计算机检索概念

通过计算机进行的文献信息检索称为计算机检索。

随着计算机技术、远程通讯技术和信息存储技术的飞速发展,信息检索由手工检索过渡到了计算机信息检索。

计算机检索的成功应用,为我们更为及时、准确、全面地继承、利用和发展人类的科研成果提供了先进的手段。

2.1计算机检索基本原理概述

2.1.2计算机检索发展

第一个阶段:

脱机检索阶段(50年代至60年代)

脱机检索(OfflineRetrieval):

即批处理检索

检索要求检索系统检索结果

检索人员→检索策略→成批检索→用户

缺点:

1.地理上的障碍(远、不便于检索结果的获取)

2.时间上的迟滞(定期检索,不能及时获取)

3.封闭式的检索(指检索策略一经输入系统就不能更改,更不能依据机检应答来修改检索式)

2.1计算机检索基本原理概述

第二个阶段:

联机检索阶段(OnlineRetrieval)(60-80年代)

终端设备通讯网络检索系统

用户—>检索策略—>人机对话———>获取信息

三个时期:

60年代开发试验;70年代末应用阶段;80年代以后进入信息—计算机—卫星通信三维一体的新阶段,即以信息文献不受地区、国家限制而真正实现全世界资源共享为目的的国际联机信息检索阶段。

2.1.1联机检索阶段优缺点

优点:

1.速度快效率高

2.检索范围广泛全面

3.检索图径多方便灵活

4.检索内容新实时性强

5.检索辅助功能完善

缺点:

1.检索的费用高

2.检索系统及其文档如数据库收录、标引、特点较难了解熟悉

3.检索技术和技巧不宜掌握

2.1.2国际著名的联机检索系统

著名的国际联机检索系统有美国的DIALOG系统、ORBIT系统、BRS系统以及MEDLARS系统,还有欧洲的ESA/IRS系统、英国的BLAESE系统等。

这些系统很快发展成为国际性情报检索系统,数据库种类及其检索存储记录都在迅速增加,如:

美国的Dialog系统,1984年就有200多个数据库,其中包括美国的《医学索引》、荷兰《医学文摘》、美国《生物学文摘》、美国《化学文摘》等。

如今此联机检索系统仍然是世界上最有影响的联机检索系统。

2.1计算机检索基本原理概述

第三阶段:

光盘检索阶段

1983年,出现了一种新的存储器,CD-ROM光盘。

光盘检索具有储量极大而体积微小,要求设备简单,可随地安装,使用方便、易于操作,检索费用低(不需要昂贵的联机检索通讯费用),因可随时修改检索策略而具有很高的查全率和查准率等优点。

ChemicalAbstractsIndex光盘(1987-1991):

由美国化学文摘社与美国剑桥光盘公司联合研制,收录1987-1991年《化学文摘》的全部内容。

2.1计算机检索基本原理概述

ScienceCitationIndex(SCI)光盘(科学引文索引):

由美国费城科学情报研究所编辑出版,收录1961年以来有关生命科学、医学、物理、化学、农业、工程技术、行为科学等方面的文献及引文。

CAJ(中国学术期刊):

是由清华大学开发研制,分题录、文摘、全文三个层次的数据库,其中全文数据库是国内最常用的全文数据库。

2.1计算机检索基本原理概述

第四阶段:

网络化检索阶段

进入90年代,随着卫星通讯、公共数据通讯、光缆通讯技术以及信息高速公路事业在全世界的迅猛发展,计算机情报检索走向了全球大联网。

网上资源具有信息的时效性、内容的广泛性、访问的快速性、搜索的网络性和资源的动态性五大特点,那么要及时、准确、有效地获取与自身需求相关的实用信息,对所有网络用户都非常具有挑战性。

2.1计算机检索基本原理概述

INTERNET就是这个时期的最杰出代表。

它能够跨越时空,进行实时信息检索、资源共享的国际性计算机网络。

INTERNET飞速的发展,已成为人们进行全球范围的合作、信息交流与资源共享的不可替代的通讯交流方式。

随着计算机技术的智能化、数据库载体的高密度化和多媒体化、通讯技术的网络化,计算机情报检索将走向办公室化、家庭化。

2.2计算机检索基本原理

一般地说,计算机检索包括信息的存储和检索两个部分,即对应数据库的建立和查找两个部分。

2.2.1信息存储

就是文献标引人员对文献内容进行主题分析,即把文献包含的信息内容分析成若干能代表文献主题的概念,并用词表、分类表等规范化标识的情报检索语言对文献主题进行标引、按所选数据库结构的索引结构输入到计算机进行存储,同时把入选文献中的其他特征标识(标题、著者、文摘、原文出处等)也一起输入计算机,编制成一系列索引数据库,这便是信息的存储。

2.2.1.1.信息的存储主要包括的内容

信息采集:

对广泛且分散的信息资源进行有针对性的采集。

信息著录:

对所收集的原始信息的外表特征如题名、著者、文献出处和内容特征如分类号、主题词、摘要进行描述,形成一条条款目或记录过程。

信息标引:

就是根据一定的规则和程序,对文献内容进行分析,然后赋予每篇文献以一定数量的内容标识如分类号、主题词、关键词作为存贮和检索的依据。

它的作用是为信息存贮与检索这两环节之间提供某种连接物。

信息的整序:

就是将采集到的无序信息进行有序化组织的过程。

2.2计算机检索基本原理

2.2.2信息检索

信息检索作为信息存储的逆过程,是将描述特定用户所需信息的提问特征与信息存储的检索标示进行异同的比较,从中找出与用户提问特征一致或基本一致的信息.

1、检索者对检索课题进行主题分析、明确检索范围,形成能代表情报需求的若干主题概念。

2、把这些主题概念转换成计算机信息检索语言,即用数据库检索工具书对各概念选词和进行逻辑组配,编制成检索提问式。

3、用计算机检索系统功能在文献资料数据库中将信息需求主题概念和数据库内文献主题概念标识进行匹配,找到命中文献。

用图表示如下:

计算机检索原理的示意图

2.3文献信息数据库的基本概念

2.3.1数据库的定义和类型

一、数据库定义:

根据ISO/DIS5127号标准(文献与情报工作术语),数据库(database)的定义为:

“至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。

”通俗地说,数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合,数据库是计算机技术与情报检索技术相结合的产物,是现代重要的信息资源管理工具,是情报检索系统的核心部分之一。

数据库的质量直接影响情报检索系统的功能和效率。

2.3文献信息数据库的基本概念

二、数据库类型

按照国际上通用的分类方法,常划分为以下类型:

1.参考数据库(referencedatabases):

指引用户到另一信息源以获得原文或其他细节的一类数据库。

包括书目数据库和指南数据库两种。

(1)书目数据库(bibliographicdatabases)指存储某个领域的二次文献(如文摘、题录、目录等书目数据)的一类数据库。

例如,美国化学文摘数据库CASearch,中国机械工程文摘数据库,各国生产发行的机读目录(MARC)等,即属于此类型。

(2)指南数据库(referencedatabases)

指存储关于某些机构、人物、出版物、项目、程序、活动等对象的简要描述,指引用户获取更详细的信息的一类数据库。

亦称指示性数据库。

例如,各种机构名录数据库、人物传记数据库、产品数据库、软件数据库、研究开发项目数据库、基金数据库等,均属此类。

2.3文献信息数据库的基本概念

2.源数据库(sourcedatabases):

提供原始资料或具体数据的数据库。

它又可分为以下几种类型:

(1)数值数据库(numericdatabases)指专门提供以数值方式表示的数据(或包括其统计处理表示法)的一种源数据库,如各种统计数据库、财务数据库、科学技术数据库等。

(2)文本-数值数据库(textual-numericdatabases):

同时提供文本信息和数值数据的一种源数据库,如某些公司信息库、产品市场报告数据库、读物数据库和物性数据库等。

(3)全文数据库(full-textdatabases)指存储文献全文或其中主要部分的一种源数据库,简称全文库,如法律法规全文库、期刊全文库等。

2.3文献信息数据库的基本概念

(4)术语数据库(terminologicalbank)

指专门存储名词术语信息一种源数据库,各种电子化辞典也包括在内。

(5)图像数据库(graphicsdatabases)

指用来存储各种图像或图形信息及有关文字说明资料的一种源数据库,主要应用于建筑、设计、广告、产品目录、图片或照片等资料类型的计算机存储与检索。

除了上述几种类型的数据库以个,还有能同时存储多种不同类型数据的数据库混合型数据库(mixeddatabases)。

2.3文献信息数据库的基本概念

2.3.2数据库的构成

从使用观点来看,数据库主要由文档、记录、字段三个层次构成。

1、文档:

若干个逻辑记录构成的信息集合称为文档(file)。

用户选择所需的联机系统数据库时,多数数据库以单一的文档编号出现。

此时文档(file)的概念和数据库(database)相当。

但有些数据库因规模庞大,被分成若干个文档。

例如,在DAILOG系统中,CASearch数据库被分成308号(1967-1971),309号(1977-1981),311号(1982-1986)和312号(1986-)等文档。

2.3文献信息数据库的基本概念

2.记录

记录是由若干字段组成的文献单元,是计算机检索系统存储文献款目和标引的信息载体。

在全文数据库中,一个记录相当于一篇完整的文献;在书目数据库中,一个记录相当于一条文摘或题录。

比较典型的COMPENDEX,INSPEC,美国专利数据库的记录。

2.3文献信息数据库的基本概念

3.字段:

是文献著录的基本单元,它是对实体的具体属性进行描述的结果。

在书目数据库中,记录中含有题名、著者、出版年、主题词、文摘等字段。

文献数据库字段分为基本字段和辅助字段两类。

基本字段和辅助字段在检索策略的构成方法上往往有些区别。

基本字段通常是默认的主题途径检索范围,如果需要查找专门的基本字段或者辅助字段,通常要以某种方法予以指定。

常见的字段名称和代码(也称段码)如下表所示。

文献数据库中常见的字段和段码

2.4计算机检索策略的构建与调整

检索策略

是为实现检索目标而制定的全盘计划和方案,是对整个检索过程的谋划和指导。

也可以说,所谓检索策略,就是在分析课题内容实质的基础上,确定检索系统、检索途径和检索词,并科学安排各词之间的位置关系、逻辑关系和查找步骤等。

2.4.1计算机检索策略的构建

一信息检索技术

1、布尔逻辑

规定检索词之间的逻辑关系的算符,称为布尔逻辑算符。

布尔逻辑算符包括逻辑“或(OR)”、逻辑“与(AND)”和逻辑“非(NOT)”。

(1)、逻辑“或”(OR)运算符

也可用“+”代替,是用来组配具有同义或同族概念的词,如同义词、相关词等。

其含义是,检出的记录中,至少含有两个检索词中的一个。

OR算符的基本作用是扩大检索范围,增加命中文献量,防止漏检,提高检索结果的查全率,OR运算符还有一个去重的功能。

2.4.1计算机检索策略的构建

例如,如果以提问式“SSPIPETUBE”检索EICOMPENDEX(1998)文档,所得结果为:

S13954PIPE(管子)

S24206TUBE(管)

S37759PIPEORTUBE

(2)逻辑"与"(AND)运算符

也可用"*"代替,用来组配不同检索概念。

其含义是检出的记录必须同时含有所有的检索词。

AND算符的基本作用是对检索词加以限定,逐步缩小检索范围,减少命中文献量,提高检索结果的查准率。

在实际检索中,不同概念组面之间以及同一组面内的不同含义的词之间通常使用AND算符。

2.4.1计算机检索策略的构建

例如:

以提问式“SSCOMMUNICATION(通讯)ANDSATELLITE(卫星)"检索EICOMPENDEX(1998)文档,所得结果为:

S125331COMMUNICATION

S24068SATELLITE

S31253COMMUNICATIONANDSATELLITE

(3)逻辑"非"(NOT)运算符

也可用"-"代替,但在检索时建议使用NOT,以避免与词间的分隔符"-"混淆,NOT算符是排除含有某些词的记录的,即检出的记录中只能含有NOT算符前的检索词,但不能同时含有其后的词。

2.4.1计算机检索策略的构建

NOT算符的基本作用是缩小检索范围,但并不一定能提高文献命中的准确性,往往只是起到减少文献输出量的作用。

在联机检索中,可降低检索费用。

例如,以"PATENTNOTGERMAN"检索EICOMPENDEX(1998)文档,所得结果为:

S1669PATENT(专利)

S29019GERMAN(德国)

S3638PATENTNOTGERMAN

2.优先处理算符“()”

上述逻辑OR和AND算符的使用方法,如果归纳成一个模式,比如有A、B、C、D四个检索词(其中A和B,C和D分别为同义概念),

2.4.1计算机检索策略的构建

检索提问可以分成三组:

S1AORB

S2CORD

SS1ANDS2

在实际检索中,上例检索提问可改为:

S(AORB)AND(CORD)

计算机输出的检索结果与上述三组式的提问策略是一样的。

3.位置算符

位置算符又称邻接算符(adjacentoperators),适用于两个检索词以指定间隔距离或者指定的顺序出现的场合。

2.4.1计算机检索策略的构建

在AND运算符查得的记录中,尽管同时含有所希望的检索词,但AND算符并不限制两个检索词的位置和出现顺序。

仍以上面输入的“communication(通讯)ANDsatellite(卫星)”这个策略为例,命中的文献中可能既含有“communicationsatellite”,又含有“satellitecommunication”;也可能既含有“communicationdevicesforsatellite”,又含有“communicationlinkswithoutsatellites”等等,显然其中的有些记录与课题要求毫无关系。

以DIALOG联机检索系统使用的位置算符为例说明

(1)“(W)”

“(W)”算符中的W含为“With”。

这个算符表示其两侧的检索词必须紧密相连,除开空格和标点符号外,不得插入其他词或字母,两词的词序不可颠倒。

“(W)”算符还可以使用其简略形式“()”。

例如,检索策略为“COMMUNICATION(通讯)(W)SATELLITE(卫星)”(或者“communication()satellite”)时,系统将只检索含有communicationsatellite词组的记录。

以DIALOG联机检索系统使用的位置算符为例说明

(2)“(nW)”

“(nW)”中的“W”的含义为“Word”,它允许两词间插入最多为n个其他词,例如,检索策略为“COMMUNICATION(通讯)(2W)SATELLITE(卫星)”时,系统将只检索含有communicationsatellite、communicationthoughsatellite、communicationonthesatellite词组的记录。

(3)“(N)”

“(nN)”算符的N含义为“Near”。

表示其两侧的检索词必须紧密相连,除空格和标点符号外,不得插入其他词或字母,两词的词序可以颠倒。

以DIALOG联机检索系统使用的位置算符为例说明

(4)“(nN)”

“(nN)”是“(N)”算符的变形,不同之处为允许两词间插入最多为n个其他词。

例如,检索策略为“COTTON(棉花)(2N)PROCESSING(处理)”时,凡含有cottonprocessing,processingofcotton和processingofEgyptiancotton的文献记录都算命中。

(5)“(F)”

“(F)”算符中F的含义为“Field”。

这个算符表示其两侧的检索词必须在同一字段(例如同在题目字段或文摘字段)中出现,词序不限,中间可插任意检索词。

以DIALOG联机检索系统使用的位置算符为例说明

例如,pollution(污染)(F)control(控制)可查出controlandmanagementofindustrialpollution,检索词在同一题目字段中。

由于(F)邻近算符限制性差,所以在文中检索多个叙词字段时不宜使用。

(F)邻近算符与AND布尔逻辑组配主要区别在于:

(F)邻近算符使两个检索项在同一字段,AND布尔逻辑组配中两个检索词会发生在不同字段中。

以DIALOG联机检索系统使用的位置算符为例说明

(6)“(S)”

“(S)”算符中的S含义为“Sentence”。

这个算符表示其两侧的检索词必须在同一句子(子字段)中出现,两词的词序可以颠倒。

例如,“COMMUNICATION(通讯)(S)SATELLITE(卫星)”时,系统将检索句子(同一子字段)中含有communicationsatellite和satellitecommunication词组的记录。

以上介绍的各种位置算符,按照限制程度的大小,(W)、(nW)最强,(N)、(nN)次之,(S)再次之;(F)的最弱。

当(nN)的n≥10时,其作用已经相当于(S)。

2.4.1计算机检索策略的构建

4.字段限制

字段限制也是调整检索策略的一种重要的手段。

多数检索系统对不指定字段的检索词,通常在所有基本字段中进行搜索,如果想指定在文献的题目等字段中查找所希望的检索词,就需要使用字段限制。

字段限制适用于在已有一定数量输出记录的基础上,通过指定字段的方法,减少输出篇数,提高检索结果的查准率。

字段限制(DIALOG联机检索系统为例)

(1)基本字段限制

基本字段主要是指题目、叙词、识别词和文摘四个字段。

基本字段限制的用法是在需要指定的字段的检索词后加上后缀运算符“/”和段码。

例如,检索策略“OPTICAL(光学)/TIANDFIBER(纤维)/TI”的含义是指定在题目字段中查找含有“optical”和“fiber”两词的所有记录。

字段段码可以多个连用,段码之间加“,”即可。

例如“FIBER/TI,DE”的含义是指定在题目和叙词字段是查找以“fiber”为词的所有记录。

字段限制(DIALOG联机检索系统为例)

(2)辅助字段限制

除基本字段以外的可检索字段都可称为辅助字段。

辅助字段运算符的用法是在需要指定字段的检索词(有时检索词须放在双引号内)之前加上段码和前缀运算符“=”。

例如,AU=“Robert,S.”的含义是在作者字段中查找含人名为“Robert,S.”的所有记录。

下面是其他常用的辅助字段限制及其实例:

指定刊物名称JN=APPLIEDPHYSICS

指定语言字段LA=ENGLISH

指定年份字段PY=1999

2.4.1计算机检索策略的构建

5.截词算符

截词算符就是使计算机保留检索词中的相同词干部分,允许检索词可有一定范围的变化,这种功能可减少输入步骤,简化检索程序,扩大检索范围,提高查全率。

不同的数据库有不同的截字符,DIALOG系统用“?

”,ORBIT系统用“+”,功能基本相同。

截词有前方一致、后方一致、中间一致和中间屏蔽四种形式。

前方一致,允许词尾有所变化;后方一致,允许词头有所变化,中间一致,词头、词尾都可变化;中间屏蔽,允许词中间的某些字母有变化。

2.4.1计算机检索策略的构建

例如,当使用前方一致算符时,Textile?

可同时查找含有Textile和Textiles的文献;当使用后方一致算符时,?

Polymer可同时查找含有Homopolymer,Copolymer等的文献;当使用中间一致算符?

Wave?

可同时查找含有Waves,Microwave等的文献;当使用中间屏蔽算符时,Fib?

?

s相当于查找含有Fibers和Fibres的文献。

截词是计算机检索中常用的方法,尤其是英语的单词词尾变化较多,为避免漏检,经常要使用前方一致的截词检索。

2.4.1计算机检索策略的构建

6.范围限制

查找范围算符的作用主要是用户利用辅助索引时,对查找文献的年限范围进行限制。

等于:

如在日期检索项输入“1990*”,则表示1990年发表的文献

大于:

输入“>1990*”大于等于:

“>=1990*”

不等于:

“<>1990*”

范围:

如在日期检索项输入“1991*:

1994*”,则表示查找1991~1994年的文献

其它:

短语检索、自然语言检索(小节)

2.4.1计算机检索策略的构建

小结:

信息检索技术

1.布尔逻辑

2.优先处理算符

3.位置算符

4.字段限制

5.截词算符

6.范围限制

2.4.2计算机检索步骤和策略调整方法

二信息检索步骤

1.分析课题

(1)一般的课题概念分析方法:

分析主要概念,找出能代表这些概念的若干个词或词组,对新学科、交叉学科和边缘学科的课题,要搞清楚这些概念关系。

概念分析的结果应以概念组为单元的词或词组形式列出,以便下一步制订检索策略。

例如,“聚乙烯的合成(synthesisofpolyethylene)”这个课题可划分为两个概念,即“聚乙烯(polyethylene)”与“合成(synthesis)”。

2.4.2计算机检索步骤和策略调整方法

(2)隐含概念的分析:

课题所隐含的概念从专业角度作深入分析,才能提炼出能够确切反映课题内容的检索概念。

例如,“垃圾的处理”中的“处理”一词隐含着“回收”“再生”等具体的处理方法,再如,课题“大型机械电子渗漏仪”,其中“电子”(electronic)一词,在该专业中往往是用“传感器”来表示,即用“sensor”、“transducer”或“load-cell”等来表示。

类似的,诸如“工艺”、“分析”、“应用”,以及诸如“有机物”、“无机物”、“重金属”、“轻金属”、“高分子材料”等外延十分宽的概念,一般都应转换成具体的方法或材料、化合物来表示。

2.4.2计算机检索步骤和策略调整方法

(3)核心概念的选限:

有些检索词中已经含有的某些概念,在概念予以排除。

例如,课题“玻璃纤维增强石膏制品”,从字面上看,这个课题可划为三个概念:

即“玻璃纤维”、“增强”、“石膏制品”。

但石膏制品中加入玻璃纤维,其目的就是为了增强石膏制品,因此可将“增强”这一概念排除之外。

如果有些检索概念已经体现在数据库中,这些概念也应该予以排除。

如陶瓷文摘数据库(CeramicAbstracts),“陶瓷(

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 环境科学食品科学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1