《信息检索》讲稿.docx
《《信息检索》讲稿.docx》由会员分享,可在线阅读,更多相关《《信息检索》讲稿.docx(26页珍藏版)》请在冰豆网上搜索。
《信息检索》讲稿
第一章信息检索概述
第一节信息资源的概念与类型
一、信息资源的概念
信息资源是人类存储在载体(包括人脑)上的已知或未知的可利用的信息。
信息中的载体信息和主体信息是使信息资源的最基本的组成部分。
二、信息资源的特点
1.客观性。
信息不是能源,也不是物质,无论是否认识到,信息总是存在着。
2.寄载性。
信息必须借助于一定的符号存储与一定的载体中(包括人脑),才能被表现,没有载体,就没有信息。
信息与载体,两者不能割裂开。
3.传递性。
信息可以通过一定的载体在空间、时间上传递,从近到远,从古到今都能传递。
4.动态性。
信息是对事物存在方式及运动方式的反映,随着事物的变化,信息也将变化。
这里动态性是指信息的时效性。
5.相对性。
人们认识能力与认识条件不同,信息接受者(信宿)获得信息与信息量的多寡不同,从这个意义上说,信息的价值具有相对性。
6.增长性。
信息资源的使用,不但不会使信息资源减少,再利用中,还会产生更多的信息。
7.共享性。
使用同一种信息资源,均不需要任何的限制条件,信息资源共享的双方或多方均不回损失信息内容,相反还会产生新的信息。
8.规模性。
信息资源作为整体要有一定的量,分散、片面地信息不能较好地反映事物的情况。
三、信息资源的类型
按照信息资源的开发程度来区分,可分为潜在信息资源与现实信息资源两大类。
现实信息资源又可分为口语信息资源、体语信息资源、实物信息资源、文献信息资源、网络信息资源和多媒体信息资源。
1.口语信息资源。
交谈、聊天、授课、讨论等方式获得的信息资源。
特点是传递迅速,互动性强,但稍纵即逝、久传易出差异。
因此通过这种方式了解到的信息应记录下来,并加以证实。
2.体语信息资源。
以手势、表情、姿势如舞蹈、体育比赛、杂技等方式传递的信息资源。
特点是直观性强生动丰富、印象深刻、富有感染力,但此类信息的容量有限。
3.实物信息资源。
以实物如文物、产品样本、模型、碑刻、雕塑等形式表示的信息资源。
特点是直观性强、感觉实在、信息量大,但需要通过知识、智慧、经验和工具挖掘大量隐含的信息。
4.文献信息资源。
以文字、图形、符号、声频、视频等方式记录在各种载体上的知识和信息,包括图书、连续出版物、小册子以及学位论文、专利、标准、回忆录、政府出版物等特种文献。
特点是经过加工、整理,较为系统、准确、可靠,便于保存与利用,但也存在信息相对滞后,部分信息尚待证实的情况。
文献的一些主要类型:
1)图书。
国家标准《情报与文献工作词汇•传统文献》(GB13143—91)对图书(book)的解释是:
一般不少以49页并构成一个书目单元的文献。
图书是文献中最古老、最重要的类型。
按文种来分可分为:
中文图书、日文图书、西文图书等;按作用范围可分为通俗图书、教科书、工具书等;按写作方式可分为专著、编著、翻译、编译等;按出版卷可分为单卷本、多卷本等;按刊行情况可分为单性本、丛书、抽印本等;按版次情况可分为初版、重版、修订本等。
2)连续出版物。
具有同一题名、定期或不定期以分册形式出版、有卷期或年月标识、计划无限期连续出版的文献。
包括期刊、报纸、年度出版物及其他连续报告、会议路、专著性丛刊等。
连续出版物是与图书并列的最主要的文献类型,其特点是内容新颖、报道及时、出版连续、信息密集、形式一致等。
据统计目前世界上连续出版物有130万种,限期连续出版物约50万种。
3)特种文献。
有特定内容、特定用途、特定读者范围、特定出版发行方式的文献,包括学位论文、研究报告、专利、标准、产品样本、会议录、档案和政府出版物。
国内外同行称这类文献为“灰色文献"(greyliterature),尽管这类文献并非很成熟,但他们内容新颖专深、实用性强、信息量大、参考性高,利用率大,是极为重要的信息资源。
4)网络信息资源。
以电子形式存贮于成千上万台计算机组成的网络中的信息资源。
它包括各类数据、电子文件、学术论文、图书、软件、商业活动等各种信息。
因特网(internet)在20世纪70年代起源于美国,截至2000年底,已连接全球200多个国家和地区近5万多个网络、485万台主机、1.2亿个用户,并以每月20万个新用户的速度递增。
中国从1994年开始发展因特网,据《中国因特网发展状况统计报告》报道,截止2002年6月30日,中国上网计算机总数已超过1613万台,上网用户总数达到4580万,CN下注册的达个;WWW站点数(包括CN,C0M,NET,0RG下的网站)约个。
国外专家预计,中国将发展成为全球网上第一大用户,届时网上的中文信息也将越来越多。
但在海量的信息中,重复交叉较多,垃圾信息也会很多。
根据不同的标准,可将网络信息资源划分成各种不同的类型:
从利用性质上分,有开发性信息、注册式信息、交流式信息;从存取方式分,有邮件型信息、电话型信息、揭示版型信息、广播型信息、图书馆型信息、数目型信息;从内容上分,有商务信息、科技信息、社科信息、教育信息、娱乐信息等。
5)多媒体信息资源
将电信、电视、计算机三网相互融合,集图、文、声于一体的信息资源。
包括网上广播电视、专题论坛、网上广告等。
多媒体信息打破了图书、报刊、广播、电视单项媒体的界限,形成交互式媒体信息,可通过主题、文本、模版匹配,视频检索等方式对其进行检索。
第二节信息检索的概念与类型
信息检索(InformationRetrieval)又成为情报检索,萌芽于图书馆的参考咨询工作,20世纪50年代才固定成专用术语。
一、信息检索的概念
代表性的定义有以下几种:
1.信息检索过程说。
《图书馆学百科全书》认为:
信息检索是“知识的有序化识别和查找的过程, 广义的情报检索包括情报的检索与存储,而狭义的情报检索仅指后者”。
2.全息检索说。
上海交通大学信息检索专家王永成教授认为:
全息检索就是“可以从任意角度从存储的多种形式的信息中高速准确地查找,并可以任意要求的信息形式和组织方式输出,也可仅输出人们所需要的一切相关信息的电脑活动:
3.概念信息检索说。
Chank等专家认为,概念信息检索是基于自然语言处理中队只是在语义层次上的析取,并由此形成知识库,再根据对用户提问的理解来检索其中的相关信息。
它用概念而不是关键词来组织信息。
4.大量相关信息检索说。
叶继元等教授认为,信息检索是从大量相关信息中利用人一机系统等各种方法加以有序识别与组织以便及时找出用户所需部分信息的过程。
“人一机系统”,“各种方法”是指利用关键词、主题词、概念分析方法等人工或自动将信息有序化;“及时找出用户所需部分信息”是指一切以用户为,本全方位、多角度提供检索入口和检索结果。
信息检索包括存储与检索两个部分。
存储是对有关信息进行选择、并对信息特征进行著录标引和组织,建立信息数据库;检索则根据提问制定策略和表达式,利用信息数据库。
这里要理解概念分析。
概念分析即将概念转化成系统语言,是存储与检索共有的过程,因此从这个意义上说,信息存储是信息检索的逆过程,两者是不可分割的一个整体。
二、信息检索的类型
1.按检索内容分,有数据信息检索、事实信息检索和文献信息检索
1)数据信息检索(DataInformationRetrieval)是将经过选择、整理、鉴定的数值数据存入数据库中,根据需要查处可回答某一问题的数据的检索。
这些数据包括物理性能常数、统计数据国民生产总值、外汇收支等。
这类检索不仅查处数据,还可以提供一定的推导、运算的能力。
2)事实信息检索(FactInformationRetrieval)是将存储于数据库中的关于某一事件发生的时间、地点、经过等情况查找出来的检索。
它既包含数值数据库的检索、运算、推导,也包括事实、概念等的检索、比较、逻辑判断。
3)文献信息检索(DocumentInformationRetrieval)是将存储于数据库中的关于某一主题文献的线索查找出来的检索。
它通常通过目录、索引、文摘等二次文献,以原始文献的出处为检索目的,可以向用户提供原文献的信息。
一些观点也认为可称为“数目检索”。
2.按组织方式分,可有全文检索、超文本检索和超媒体检索
1)全文检索(FullTextRetrieval)是将存储在数据库中的整本书、整篇文章中的任意内容信息查找出来的检索。
可以根据需要获得全文中的有关章、节、断、句、词等的信息,也可进行各种统计和分析。
2)超文本检索(HyperTextRetrieval)是对每个节点中所存的信息以及信息链构成的网络中信息的检索。
强调中心节点之间的语义联结结构,靠系统提供的工具进行图示穿行和节点展示,提供浏览式查询,可进行跨库检索。
3)超媒体检索(HyperMediaRetrieval)是对存储的文本、图像、声音等多种媒体信息的检索。
它是多维存储结构,有向的链接,与超文本检索一样,可提供浏览式查询和跨库检索。
3.按检索手段分,有手工检索和机器检索
1)手工检索(HandRetrieval)是人直接用手、眼、脑组织、查找印刷型文献的检索。
具有直观、灵活、无需各种设备和上机费用的优点。
2)机器检索(MachineRetrieval)又称计算机检索。
是通过机器对已数字化的信息,按照设计好的程序进行查找和输出的过程。
按机器检索的处理方式分又有脱机检索和联机检索;按存储方式分,有光盘检索和网络检索。
机检可大大提高检索效率,扩宽检索领域。
三、信息检索的研究内容、研究方法和作用
1.检索理论研究
检索理论是检索活动中总结出来的系统化的知识,研究内容包括信息与信息资源定义、信息检索的定义、类型、特点、作用、研究对象、方法、内容、理论基础、术语规范、原理与原贝I」、相关学科等的研究。
当前要多做信息检索知识体系化、整合化的研究。
2.检索语言研究
原指从自然语言中精选出来,并以简练形式表示文献、信息的受控语言的集合。
现指受控语言和自然语言(未规范的书面语言)。
研究内容包括关键词、主题词、词表编制、分类表编制、概念分析、规范档、代码标识等。
3)数据库研究
数据库是多个互相关联的数据的集合,是信息检索系统必不可少的组成部分。
研究内容包括数据库建设规划与协调共享、收录信息与文献的筛选、文档结构、维护与更新、版权、市场、效果评价、数据库跨库检索、Z39.50标准等的研究。
目前要加强异构数据库系统信息资源一体化整合和检索、知识库、数据仓库的研究。
4)著录法研究
著录法是对信息与文献形式特征和内容特征进行分析、选择和记录的方法。
研究内容包括国内外著录标准与规则,格式,各种信息与文献著录方法,CN-MARC,UNI-MARC,US-MARC,DublinCor(都柏林核心)元数据,XML等的研究,目前要重视电子型文献及网络信息的著录研究。
5)标引和组织法研究
标引是通过对信息资源的分析,选用确切的检索标识反映资源内容的过程。
组织法即排检法,是指按一定次序将标引标识(如主题词、分类号)排列起来的反方法。
以上研究内容包括信息资源的阅读、分析、词表的编制与选用、标引规则、中外文排检、类序、失序、地序、谱系序等。
目前应重点研究网络信息资源的镖隐语排序、数字资源的全球统一的分类体系、主题分类词表(用、代、属、酚、参、见类系)、自动标引与排序、智能搜索引擎、网格(GreatGlobalGrid)的研究。
6)检索系统研究
检索系统是由有序化的信息资源、设备、检索方法和策略等组成的集合体。
研究内容包括系统设计、运行和评价。
目前重点研究计算机检索系统软硬件配置、设计与评价、智能化应用等。
7)检索策略研究
检索策略是在分析信息需求检索提问时确定的检索途径与检索用词,并明确各词之间逻辑关系和查找步骤的安排。
研究内容包括用户需求提问分析、检索表达式、检索符号的设置与应用、步骤优化。
目前应加强检索策略自动调节、修改的研究。
8)检索服务研究
检索服务是根据用户需求,由专门人员帮助查找信息,并将结果提供给用户的工作,研究内容包括服务手段、服务方式、用户培训、检索效果(查准率、查全率)等。
目前应加强个性化信息服务的研究。
2.研究方法
信息检索的研究从属于图书馆学与情报学。
涉及到自然科学、社会科学、人文科学的许多学科和领域。
通用的方法有:
观察法、实验法、调查法、模拟法、归纳与演绎法、分析与比较法等;还使用文献计量学法、信息计量学法、目录学、分类学、主题法、著录法、排序法、咨询法等独特的研究方法。
3.信息检索的作用
1)能较全面地掌握有关的必要信息
信息检索可以有目的、较系统地获得某一主题的必要信息。
2)能提高信息利用的效率,节省时间与费用
一般公信度高的,较准确的信息才会被收集、组织或存储在检索工具或数据库中,有目的地查检检索工具所获得的必要信息比直接泛阅信息要快数十倍。
3)能提高信息素质,加速成才
信息素质(InformationLiteracy)是指具有获取信息的强烈意识,掌握信息检索的技术和方法,拥有信息鉴别和利用的能力。
中国的高等教育法明确要求大学生要具备信息素质。
第二章信息检索理论与方法
第一节信息检索原理
一、 信息检索策略
信息检索策略是为实现检索目标而制定的计划和方案,是对整个检索过程的谋划和指导。
即是对检索过程的安排。
检索策略有两种方式:
手工检索策略和计算机检索策略。
在计算机检索的条件下,检索策略的构造应是在明确检索目标和信息需求的基础上进行的,包括选择检索数据库、确定检索项、选定检索范围和检索方法,运用逻辑算符拟定检索表达式,按照一定的步骤实施检索,并根据需要进行反馈调整。
信息需求按范围和程度的不同,可分为三种类型:
——普查型:
需要全面收集某一主题的文献资料;
—公关型:
需要收集有关某一主题的某一特定方面的文献资料,以解决科研生产中的关键问题;——探索型:
需要了解和掌握某一领域的最新研究动向或研究成果
查出的文献具有新颖及时的特点。
并要明确课题对查新、查全和查准的要求,包括信息的形式需求和内容需求。
制定检索策略就是在确定检索主题的基础上,选择检索系统,确定检索途径和拟定检索程序,它包括手工检索策略和机器检索策略的制定。
1、选择检索系统
考虑选择计算机检索系统要包含与信息需求结合紧密、学科专业对口、覆盖信息面广、报道及时、揭示信息内容准确、有一定深度的数据库以及系统的检索功能是否完善等。
选择检索系统关键是数据库的选择,如书目文摘型数据库可检索文献信息的题名、作者、出处和文摘;(《医学文摘》MEDLINE,《科学文摘》INSPEC《美国化学文摘》CHEMICALABSTRACTS)事实型数据库可检索文字、图形、声像、计算机程序等(《中国法律法规大典》《中国雕塑史图录》《中国古典音乐大全》)。
这就需要了解数据库所对应的版本形式如印刷版、光盘版、网络版等,如《工程索引》数据库就有三个版本,印刷版(TheEngineeringIndex-Ei,1884一)、光盘版(EiCompendexPlus,1989-)、网络版EiCompendexWeb,http:
//ultr2.lib,tsinghua.edu.cn/ei-village/plsg/switch.
main,1970一)。
2、确定检索词
检索词是表达信息需求和检索课题内容的基本单元,也是与系统中有关数据库进行匹配运算的基本单元,检索词选择洽当与否,直接影响检索效果。
检索词分为四类:
1)表示主题的检索词
——标题词:
指经规范化处理得先组定组式的词汇。
——单元词:
指从信息内容中抽出的最基本的词汇。
一叙词:
指从信息的内容中抽出德、能概括表达信息内容基本概念的名词或术语,它是经规范化处理的自然语言词汇。
一关键词:
指从信息单元的题目、正文或摘要中抽出德能表征信息主体内容的具有实质意义的词语,它是未经规范化处理的自然语言词汇。
2)表示作者的检索词。
如作者姓名.机构名。
3)表示分类的检索词。
如分类号
4)表示特殊意义的检索词。
如ISBN、ISSN、引文标引词等。
检索词的选择与确定要遵循以下两个原则
a)根据检索课题所涉及的学科专业和技术内容选词。
b)对检索词进行处理。
如使用检索词表进行比较对照,选用规范化的词汇作为检索词。
3、构造检索表达式
在计算机检索过程中,检索提问与存储标识之间的对比是由机器进行的,构造检索表达式的核心是构造一个既能表达检索课题需求,又能被计算机识别的检索表达式。
构造检索表达式前要弄清所使用数据库的检索功能和所采用的操作算符,才能有效地进行信息检索。
如截词符,在EiCompendex中用表示,在DIALOG,UMI中用“?
”表示,在OCLC中用“+”表示。
检索表达式中用于连接各词的算符按其功能不同可分为逻辑算符、位置算符、截词算符和限制符等,不同的数据库会采用不同的符号或文字来描述词与词之间的组配关系。
逻辑算符:
又称布尔逻辑算符,利用布尔代数中的逻辑运算符来描述检索词之间的关系。
常用的三种:
逻辑与(AND或*)、逻辑或(OR或+)、逻辑非(NOT或-)。
位置算符:
指表示词与词之间位置关系的符号。
是对检索词进行加工、修饰,限制词与词之间位置关系,弥补布尔逻辑算符只是定性规定检索词的范围,可提高查准率。
常用的位置算符有:
W-With的缩写,表示算符两侧的检索词按此前后衔接的顺序排列,词序不可变更,且两词之间不许有其他的词或字母,但允许两词之间有空格或标点符号。
nW——nWord的缩写,表示算符两侧的检索词之间允许插入个实词或系统禁用词,如冠词、介词和连接词。
N——Near的缩写,表示算符两侧的检索词必须紧密连接,词间只允许有空格或标点符号。
同时出现在文献纪录的同一字段中
nN——表示算符两侧的检索词之间允许插入n个实词或系统禁用词,两词词序可变。
同时出现在文献纪录的同一字段中
S——Subfield的缩写。
表示算符两侧的检索词必须同时出现在文献纪录的同一字段、句子或短语中,允许插入n个实词或系统禁用词,词序可变。
F——Field的缩写。
表示算符两侧的检索词必须同时出现在文献纪录的同一字段中,允许插入n个实词或系统禁用词,词序可变。
C——Citation的缩写。
表示算符两侧的检索词必须同时出现在一条文献的记录中,词间允许插入n个实词或系统禁用词,词序可变。
L——Link的缩写。
表示算符两侧的检索词之间有一定的从属关系。
截词符:
是指在检索词的合适位置进行截断。
截词符的作用是对检索词进行截词处理,解决一个词的单复数问题,词十相同而词尾不同的问题和英美词汇拼写差异的问题。
常用的截词符有“*”、“?
按截断的字符数量可分为有限截断和无限截短。
有限截断是指检索词串与被检索词实现只能在指定位置可以不一致的匹配,常用“?
”表示。
如:
acid,可以匹配acid,acidic但不能匹配acidityo
无限截断是指检索词串与被检索词实现部分一致的匹配。
常用“*”表示。
其截断形式有左截断、中截断、右截断。
左截断是指检索词与被检索词实现词间的后部相同,即对同词干而前缀不同的概念进行检索如"magnetic,可检出magnetic,or,paramagnetic的信息,但检不出mangenetics的信息。
右截断词是指检索词与被检索词间的前部相同而后缀不同的检索。
如:
acid*可检出含有acid,acidify,acidic等词的信息。
中断截词是指检索词与被检索词之间只需任意部分匹配即可。
如:
"relation*可检出relation,relations,interralation等词的信息。
限制符:
其作用是限制检索词或检索式在数据库记录中出现的字段位置。
数据库中可供检索的字段通常分为基本检索字段和辅助检索字段。
基本检索字段主要有题名(TI)文摘(AB)主题词(DE)和标识词(ID),适用于各种数据库。
辅助检索字段主要有作者(・・),语种(LA),出版年代(PY)刊物名称(JN)。
文献类型(DT)等字段。
这些限制氟在不同的系统或数据库中有不同的表达形式和使用规则,使用时要参照有关数据库的使用说明。
避免产生误检。
要注意选择的检索标识只能表达信息需求的不同侧面,而不能反映需求的完整内容,只有用逻辑表达式将不同的检索标识组合在一起,才有可能表达完整的检索课题。
“与”和“非”组合使用得越多,信息需求的开年表达得越深,切题性就比较高。
如:
“有关造纸废水的处理技术”方面的检索式,首先抽起检索词:
造纸 papermaking,paperpulp
废水 wasterwater
处理 treat,treatment
构造检索式:
(paperwmakingorpaperwpulp)andwasterwaterand(treatortreatment)。
4、实施检索策略
1)获取检索信息
手工检索策略的实施,主要将检索策略中信息需求所涉及到的有关提问特征如:
主题词、分类号、作者姓名••检索系统中的检索标识进行比较分析,筛选与信息需求相一致的检索结果。
计算机检索策略的实施,是将构造好的检索提问表达式,输入计算机检索系统,使用检索系统认可的检索指令进行逻辑匹配运算,并输出检索结果。
以上两种检索策略若检索结果内容较多,还需要进行二次检索进行缩检。
1)索取原始信息
对检索结果进行归档整理,并按相关度进行排序,从而获取相关度最高、最有价值的原始信息。
5、修改检索策略
检索策略的好坏与检索表达式的建立、检索途径的选择、检索词的选用和检索词之间的逻辑关系直接有关,还有检索人员对语言学的了解、对事物的认知能力、专业知识水平的高低有密切关系,另对检索系统的特性和功能的掌握,以及外语水平都会影响到课题检索的结果。
检索策略的修改反映在检索前、检索过程中、检索后。
检索前要查询一次文献、词表和数据库指南。
检索过程中要充分利用人——机对话的有利条件,随时据信息反馈情况调整检索策略。
检索后对检索结果进行分析评价,建立文档、为今后的检索积累经验。
二、信息检索步骤
信息检索步骤就是根据既定课题要求,利用检索工具查找有关资料的具体过程。
它是检索策略的具体化,包括明确需求、分析主题、选择检索工具或数据库,确定检索次、构造检索表达式、提交检索表达式、现实与优化检索结果等。
三、信息检索方法
信息检索的方法有多种,分别使用于不同的检索目的和检索要求。
归纳起来,常用的信息检索方法有常规检索法、回溯检索法、循环检索法。
1.常规检索法。
又称常用检索法、工具检索法。
它以主题、分类、作者等为检索点,利用检索工具获的信息资源的方法。
根据检索方式,常规检索法又分为直接检索法和间接检索法;根据检索需求,常规检索法又分为顺查法、倒查法和抽查法。
1)直接检索法。
是指直接利用检索工具进行信息检索的方法。
如利用字典、词典、手册、年鉴、图录、百科全书等进行检索。
这种方法多用于查找一些内容概念较稳定较成熟、有定论可依的指示性问题的答案。
即可解决事实性的检索和数据性的检索。
2)间接检索法。
利用检索工具间接检索信息资源的方法。
3)顺查法。
根据检索课题的起始年代,利用选定的检索工按照从旧到新、由远及近、由过去到现在顺时序逐年查找,宜至满足课题要求为止的查检方法。
这种方法费力、费时,工作量大,多在缺少评述文献采取此法。
因此可用于事实性检索。
4)倒查法。
倒查法与顺查法相反。
这种方法多用于新课题、新观点、新理论、新技术的检索,检索的重点在近期信息上,