信息检索的基本概念.docx

上传人:b****3 文档编号:4847203 上传时间:2022-12-10 格式:DOCX 页数:15 大小:57.13KB
下载 相关 举报
信息检索的基本概念.docx_第1页
第1页 / 共15页
信息检索的基本概念.docx_第2页
第2页 / 共15页
信息检索的基本概念.docx_第3页
第3页 / 共15页
信息检索的基本概念.docx_第4页
第4页 / 共15页
信息检索的基本概念.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

信息检索的基本概念.docx

《信息检索的基本概念.docx》由会员分享,可在线阅读,更多相关《信息检索的基本概念.docx(15页珍藏版)》请在冰豆网上搜索。

信息检索的基本概念.docx

信息检索的基本概念

一、信息检索的概念和类型

穆尔斯(CalvinN.Mooers,1919~1994)在1948年提出此术语时,把它定义为一种“延时性通讯形式”。

其特点是:

发信者在某一时刻发出信息,而接收者可以在晚一些时刻才收到该信息;发信者必须发出一切可能的信息,而接受者必须有某种检索装置以便从大量发送的信息中筛选出适合自己需要的信息。

(一)信息检索的概念

信息检索是信息正式交流方式中的一种

1、定义:

信息检索(InformationRetrieval)——广义上说,信息检索是指将信息按照一定的方式组织和存储起来,并能根据信息用户的需要找出其中相关信息的过程。

从本质上讲,信息检索是一种有目的和组织化的信息存取活动,其中包括“存”和“取”两个基本环节。

对于“存”来说,主要指面向来自各种渠道的大量信息资源而进行的高度组织化的存储;对于“取”来说,则要求面向随机出现的各种用户信息需求所进行的高度选择性的查找,并且尤其强调查找的快速与便利。

信息检索的全称是信息存储与检索(informationstorageandretrieval),包含两个方面,存储的过程是信息的组织加工和记录的过程,即建立检索系统(编制检索工具)的过程——输入的过程;检索的过程是按一定方法从检索系统(检索工具)中查出信息用户需要的特定信息的过程——输出的过程。

二者是相辅相成的,存储是为了检索,而检索又必须先进行存储。

只有经过组织的有序信息集合才能提供检索,因此了解了一个信息系统(检索工具)的组织方式也就找到了检索该检索系统(检索工具)的根本方法。

当然,对信息用户而言,后者更为重要,因此,狭义的信息检索一般仅指检索的过程。

检索的本质是信息用户的需求和信息集合的比较与选择,即匹配(match)的过程。

从用户需求出发,对一定的信息集合(系统)采用一定的技术手段,根据一定的线索与准则找出(命中)(locate,bit)相关信息的过程,就是检索。

2、信息检索的基本原理与检索处理流程分析*

基本原理

可以把信息检索的基本原理抽象概括为一句话:

对信息集合与需求集合的匹配与选择。

首先是信息集合,信息集合是指有关某一领域的、经采集和加工的信息集合体,是一种公共知识结构。

它可以向用户提供所需要的知识或信息。

其次是需求集合,用户的信息需求是在社会实践活动中产生的,众多用户不同形态的信息需求的汇集,就形成了需求集合。

为了在信息集合与需求集合之间建立起联系和沟通,以便能从信息集合中快速获取用户所需要的信息和知识,信息检索提供了一种“匹配”机制,这种机制的主要功能在于能快速把需求集合与信息集合依据某种相似性标准进行比较和判断,进而选择出符合用户需要的信息。

这里,匹配的相似性标准一般是通过把信息集合和需求集合预先进行某种形式化的加工和表示来提供的。

对于文本而言,最主要、最常用的匹配标准是由某个或若干个词汇表达的“主题”。

 

检索处理流程分析(215)

 

 

 

信息检索处理过程流程图

 

上图是一个基于计算机环境的信息检索处理过程图。

在图中以中间的直线为界,信息检索处理过程被分解为“信息存储”与“信息查询”两个部分。

其中“信息存储”部分包括“信息采集”、“信息标引处理”、“创建/更新数据库及索引文档”等多个处理模块;并最终以数据库的形式完成了信息的收集、加工(标引)和存储任务;而“信息查询”部分则通过“检索接口”、“提问处理”和“检索匹配”等一系列功能模块的配合,以人机对话方式完成用户对系统的访问和信息查询功能。

●信息需求的处理与加工。

即采用特定的检索语言将信息需求表示出来,换言之,将检索问题或课题进行处理,抽取出主题内容或其他特征。

经过这样处理的信息需求称之为Query。

●信息集合是指有关某一领域的文献或数据的集合。

复杂性、序化、Accesspoint。

每件信息都包含有其内部和外部的特征即信息的属性,这些特征可以用来作为检索的出发点和匹配的依据。

我们称之为检索点。

·匹配与选择是一种机制,它负责把需求集合与信息集合进行相似性比较,然后根据一定的标准选出符合需要的信息。

采用布尔模型,一个文档通过一个关键词条的集合来表示,这些词条来自一个词典。

在查询与文档的匹配过程中,主要看该文档中的词条是否满足查询的条件。

采用向量模型,计量文档向量与查询词串之间的相似度。

采用概率论模型,将文档按照与查询的概率相关性的大小进行排序,排在最前面的文档是最有可能被获取的文档。

此外,还可以采用神经网络模型、基于命题逻辑模型、聚类模型、基于规则模型、模糊模型和语义模型等,来深入研究查询与文档之间的匹配过程。

塞缪尔·约翰逊(SamuelJohnson)认为:

知识分成两类:

一类是我们要掌握的学科知识;

另一类是要知道在哪儿可以找到有关知识的信息。

Knowledgeisoftwokinds,weknowasubjectourselves,orweknowwherewecanfindinformationuponit.——SamuelJohnson

学术信息需求的状态划分为:

客观信息需求(RealInformationNeed,RIN)、认识到的信息需求(PerceivedInformationNeed,PIN)、表达出来的信息需求即检索提问(Request)以及检索提问表达式(Query)。

学术研究人员在探索未知、解决实际问题的过程中,总存在着一定的信息需求。

这是一种完全由客观条件决定,不以学术研究人员主观认识为转移的需求状态,我们称之为“客观信息需求”(RIN)。

认识到的信息需求不同于客观信息需求,它只是客观信息需求的一种心理认知状态。

由于主观因素和意识的作用,学术研究人员认识到的信息需求(PIN)可能仅仅只是客观信息需求的一部分,甚至有可能是对客观信息需求产生错误的认识。

为了满足自己的信息需求,学术研究人员试图充分而准确地表达认识到的信息需求,于是,产生了检索提问(Request)。

检索提问通常用人工语言予以表达,有时也用自然语言予以表达。

在检索提问的基础上,使用检索用词(如系统词表中语词以及其他非受控语词)和“系统”语言(如布尔逻辑算符、截词算符、位置算符等),构造检索提问表达式(Query)。

相对于信息检索对象——信息集合,客观信息需求(RIN)、认识到的信息需求(PIN)、检索提问(Request)以及检索提问表达式(Query)共同构成学术信息需求集合,即Infoneed一{RIN、PIN、Request、Query)。

实质上,信息检索的过程是信息需求集合中的构成元素之一——检索提问表达式与信息集合的匹配过程。

英国情报学家N.J.Belkin等人在接触信息用户的过程中发现,用户常常不能认识、理解和描述自己的信息需求。

他们将这种现象称为“知识异常状态的结构化表示”(StructuralRepresentationsoftheAnomalousStatesofKnowledge-ASK),并从认知的角度对用户“不得不查询他并不了解的东西”这一现象做过深入的探讨Es~4]。

“人们也许能描述自己就某一问题知道些什么,却难以描述还应知道什么。

描述知识状态固有的困难,使提交给信息检索系统的检索式相对于知识异常状态或信息需求只是近似和不完美的。

”ES]也就是说,正是因为用户还不了解某一对象才需要获取有关该对象的信息。

所有的信息检索查询系统都要对所收集存储的信息进行一定形式的描述,形成供用户查询的信息集合,信息检索就是在用户信息需求与系统信息集合之间进行匹配和选择

(二)检索的类型

1、按照存储的载体和查找的技术手段进行划分(按检索的手段):

(1)手工检索(Manualretrieval):

用人工方式查找所需信息的检索方式。

检索的对象是书本型的检索工具,检索过程是由人脑和手工操作相配合完成,匹配是人脑的思考、比较和选择。

(2)机械检索Mechanicalretrieval:

利用某种机械装置来处理和查找文献的检索方式。

穿孔卡片检索:

Punchcard是一种由薄纸板制成的、用孔洞位置表示信息,通过穿孔或轧口方式记录和存储信息的方形卡片。

缩微品检索:

把检索标识变成黑白点矩阵或条形码,存储在缩微胶片或胶卷上,利用光电效应,通过检索机查找。

(3)计算机检索(computer-basedretrieval)是指把信息及其检索标识转换成电子计算机可以阅读的二进制编码,存储在磁性载体上,由计算机根据程序进行查找和输出。

检索的对象是计算机检索系统,针对数据库进行,检索过程是在人与计算机的协同作用下完成的,匹配是由机器完成的。

这里,检索的本质没有改变,变化了的只是信息的媒体形式、存储方式和匹配方法。

脱机检索:

成批处理检索提问的计算机检索方式。

联机检索:

检索者通过检索终端和通信线路,直接查询检索系统数据库的机检方式。

1964年,美国国家医学图书馆开始MEDLARS联机情报检索系统商品服务。

光盘检索:

以光盘数据库为基础的一种独立的计算机检索,包括单机光盘检索和光盘网络检索两种类型。

1983年首张高密度只读光盘存储器诞生;1984年美国、日本和欧洲开始利用CD-ROM存贮科技文献。

网络检索:

利用E-mail、FTP、Telnet、Archie、WAIS、Gopher、Veronica、WWW等检索工具,在Internet等网络上进行信息存取的行为。

手工检索查准率较高,查全率较低;计算机检索查全率较高,查准率较低。

2、按照存贮与检索的对象进行划分(按检索的结果):

(1)文献检索(documentretrieval)——以包含用户所需特定信息的文献为检索对象。

是指将文献按一定的方式存贮起来,然后根据需要从中查出有关课题或主题文献的过程。

文献检索是指以文献为检索的一种相关性检索。

相关性检索的含义是指系统不直接解答用户提出的问题本身,而是提供与问题相关文献供用户参考

书目检索:

以文献线索为检索对象。

换言之,检索系统存贮的是书目、专题书目、索引和文摘等二次文献。

此类数据库(检索工具)如EI、SCI、《中文期刊数据库》(文摘版)、《全国报刊索引》、《中国科技成果数据库》、《中国专利公报》等。

全文检索:

以文献所含的全部信息作为检索内容,即检索系统存贮的是整篇文章或整部图书。

(2)数据检索(dataretrieval)——以事实(fact)和数据(data)等浓缩信息作为检索对象,检索结果是用户直接可以利用的东西。

这里的所谓科学数据,不仅包括数值形式的实验数据与工业技术数据,而且包括非数值形式的数据,如概念名词、人名地名、化合物分子式、化学结构式、工业产品设备名称、规格、科学论断等。

此类数据库(检索工具)如《中国企业、公司及产品数据库》、《中国科技名人数据库》、《常用材料性能数据库》、《中国拟建和在建项目数据库》、《中国宏观经济统计分析数据库》、《IMI消费品市场统计分析数据库》等。

也有人将数据检索细分为数据检索和事实检索两种形式,认为数据检索的结果是各种数值性和非数值性数据:

而事实检索的结果是基于文献检索和数据检索基础上的对有关问题的结论和判断,是在数据检索和文献检索的基础上,经过比较、判断、分析、研究的结果。

·Dataretrieval:

以具有数量性质并以数值形式表示的数据为检索内容的信息检索,或称数值检索。

·Factretrieval:

以文献中抽取的事项为检索内容的信息检索,或称“事项检索”。

事实检索和数据检索则是一从文献中提取出来的各种事实、数据为检索对象的一种确定性检索。

确定性检索的含义则是指系统直接提供用户所需要的确切的数据或事实,检索的结果要么是有,要么是无,要么是对,要么是错。

文献检索所回答的是诸如“关于铁路大桥有哪些文献”之类的问题。

事实(事项)检索所回答的是诸如“世界上最长的铁路大桥是哪一条”之类的问题。

数据(数值)检索所回答的是诸如“世界上最长的铁路大桥有多长”之类的问题。

3、当前,信息检索的类型出现了一种新的三分法,即文本检索、数值检索、声频与视频检索。

文本检索是以各种自然语言符号系统所表示的信息作为主要检索对象。

基于内容检索(CBR)主要指利用模式识别、语音识别、图像理解等技术领域可能提供的有效方法和工具,直接对图形、图像、视频、音频数据进行内容分析,从中提取视觉、听觉等特征(如颜色、形状、纹理、节奏等),并对这些特征加以组织形成索引,用户据此作为检索的依据,实现对这些形象化信息的查询与定位。

对于图像与视频信息来说,其基于内容检索的主要类型有:

(1)基于颜色特征的检索

(2)基于形状特征的检索

(3)基于纹理特征的检索

(4)忌与视频动态特征的检索

(5)其他检索,例如基于对象空间关系的检索、伴随媒体检索、组合检索等。

对于音频信息来说,其基于内容检索的主要类型有:

(1)语音检索

(2)音乐检索

(3)其他音频检索

二、信息检索的研究内容

(一)有关检索语言的研究

检索语言——建立和使用各种信息检索系统时,用来表证文献特征或检索课题概念的一种专门的人工语言。

一般都有相应的检索语言词表。

实际工作中,从事信息存储(标引)的人员(检索工具和检索系统的编制者)和从事信息检索的人员(信息用户)基本上没有机会进行直接的思想交流,因而可能会造成存储信息和检索信息所依据的规则的不一致,导致存储的信息检索不出来。

为了避免这种情况发生,信息标引人员与信息检索人员之间必须遵循共同的规则,也就是一种约定的相同标识系统——检索语言。

有了这个规则,标引人员在信息存储过程中,就会对被标引的原始文献进行分析,找出其特征,用检索语言加以描述,纳入检索系统。

信息检索人员在进行信息检索的时候,也对用户的信息需求进行分析,并用检索语言加以描述,提交给检索系统。

检索系统将用户的检索提问标识与系统中的文献特征标识进行比较,相匹配的就作为检索结果提供给用户。

(二)有关检索系统的研究

检索系统——根据一定的目标,将有关文献或数据按某种检索语言进行标引,在特定载体上以一定结构次序组织起来,并借助于一定工具提供特定检索方式的系统。

是指按某种方式、方法建立起来的供读者查检信息的一种有层次的体系,是表征有序的信息特征的集合体。

其中二次或三次文献信息是文献信息系统的核心和概括。

信息检索是通过检索系统来实施的。

检索系统包含信息集合的载体和技术设备。

由于信息的存储媒体和技术手段的不断发展,信息检索系统也在不断发展。

常用信息检索服务系统的主要类型与各自特点

1、机读数据库检索服务系统

是目前电子信息资源检索的常用工具,系统中提供检索使用的数据库产品都是由某个数据库生产商加工、生产和销售的,分有磁带版、光盘版、网络版等不同版本,不论在存储信息的可靠性、累积性与学术性,还是查询信息时的便利性,数据库检索系统都能很好的满足用户的要求。

数据库检索系统有以下几类:

(1)书目数据库检索系统

是指存储某些或某一个领域的二次文献书目数据的一类数据库,属于参考数据库中的一种,数据主要来源于或派生于期刊论文、会议论文、研究报告、学位论文、专利文献、报纸等各种不同的一次文献信息源。

主要特点可以概括为:

历史悠久,可以说是嫉妒数据库发展的先驱;

数据量大,连续性与累积性强;

使用上没有限制,开放性较好;

记录结构简单固定,标准化程度高;

更新周期较长,生产费用较低。

(2)全文数据库检索系统

是指存储文献全文或其中主要部分的一种数据库。

主要特点为:

自足性,可以直接检索并获取全文信息;

详尽性,从理论讲可以检索到原文中的任何信息;

资源消耗性,需要占用大量的存储空间;

后处理能力强。

(3)数值数据检索系统

是指专门提供以数值方式表示的数据(或包括其统计处理表示法)的一类数据库,例如各种统计数据库,财务数据库等。

主要特点可以概括为:

数值数据库是高度专门化的,具有明确的学科特性;

数值数据库一般不对外公开,使用范围受到一定的限制;

数值数据库在使用方法和检索方式上一般是彼此不兼容的;

除具备一般检索功能外,数值数据库还提供数据运算、数据分析、图形处理、报表生成等特殊功能;

数值数据库的建设特别需要国家政策的支持、全国范围内的协调以及国际合作。

(4)图像数据库检索系统(如IBM公司的QBIC图像和动态视频检索示范系统)

图像检索技术属于信息检索的前沿研究领域,成熟而实用的图像检索服务系统目前还不多见。

2、联机检索服务系统

联机检索服务系统属于多数据库检索服务类型

(1)综合性联机检索系统(如DIALOG系统)

主要指系统拥有的联机数据库题材、类型多样,信息内容覆盖众多学科领域。

综合性联机系统一般规模较大,检索软件功能较强,服务内容和服务方式也比较多样。

(2)专业性联机检索系统

主要指系统拥有的联机数据库内容只侧重某些或某一个学科领域,具有突出的专业特色,系统的检索服务方式与服务内容也有较强的专业特点。

(3)网络搜索引擎服务系统

搜索引擎是指在WWW环境中能够进行网络信息的搜集、组织并能提供查询服务的一种信息服务系统。

·独立搜索引擎(如Google)

·元搜索引擎(如上海万纬信息公司的万纬引擎)

(三)有关检索策略的研究

检索策略——所谓“检索策略”是指为实现检索目的而制定的全盘计划和方案,是对整个检索过程的谋划和指导。

是处理检索提问的逻辑关系与查找步骤的科学安排。

常用的联机检索策略主要有积木型、引文珠型增长、逐次分馏等。

(1)积木型,是一种检索策略,含义是:

把用户的检索请求或检索课题剖析成若干个不同的概念面,先分别对这几个概念面进行检索,并在每个概念面中尽可能和多地的列举相关词、同义词、近义词,并用布尔算符“OR”连接成一个总检索公式,类似把各个积木块拼成图案。

积木型策略能提供比较明确的检索逻辑过程,容易理解和执行,还可部分或全部地用作保留检索,一般地,积木型策略用于比较复杂的检索课题。

(2)引文珠形增长,是一种检索策略,含义是:

从已知的关于检索课题的少数几个专指词开始检索,以便至少检出一篇命中文献或一条相关信息,然后审阅这批文献或信息条目,从中选出一些新的相关检索词,补充到检索式中。

这些词加入到检索式之后,就能查出其他新的命中结果,不断重复上述过程,直到找不到其他适合包含于检索式的附加词为止,或者已经得到了数量适宜的命中结果。

引文珠形增长策略具有很强的人机交互性,可以使检索式以比较生动的方式生成并得到不断丰富。

(3)逐次分馏,是一种检索策略,含义是:

先确定一个相当大的、范围较广的检索初始对象集合,然后提高检索的专指度,得到一个较小的命中结果集合;继续提高检索式的专指度,一步一步缩小命中结果集合,直到得到数量适宜、用户满意的结果。

逐次分馏策略的特点使检索操作比较主动,漏检较少。

(四)有关检索服务的研究

三、检索效果及其评价

(一)概念

信息检索效果是利用检索系统进行检索所产生的有效结果。

检索效果评价是根据一定评价指标对实施信息检索活动所取得的成果进行客观科学评价,以进一步完善检索工作的过程。

常用的评价指标有:

收录范围、查全率、查准率、响应时间、用户负担和输出形式。

其中最主要的指标是查全率和查准率。

(二)检索效果指标

在实际检索工作中,衡量检索效果的指标一般包括:

查全率、查准率、相关性和适用性。

1、查全率(recallratio)——是对所需文献信息被检出程度的量度,是衡量检索系统所能够满足用户需求的完备程度。

2、查准率(precisionratio)——是对检出文献准确程度的量度,是衡量检索系统拒绝非相关文献的能力。

与上述两指标有关的数据可用下表设定:

用户

系统

相关文献

不相关文献

总计

被检出文献

a

b

a+b

未检出文献

c

d

c+d

合计

a+c

b+d

a+b+c+d

则查全率与查准率可分别用下列公式表示:

查全率(recallratio)R=

×100%

检出的相关文献数与系统内的相关文献总数之比(W·佩里和A·肯特,1956)。

查准率(Precisionratio)P=

×100%

检出的相关文献数与检出的文献总数之比,它是衡量一个检索系统的信号噪声比,测度检索系统拒绝非相关文献能力大小的一项指标(佩里和肯特,1956)。

漏检率=

×100%

未检出的相关文献数/文献库内相关文献总数×100%。

误检率(Noiseratio)=

×100%

系统检出的非相关文献数与检出的文献总数的比率为误检率(Noiseratio),其值为b/a+b,它是查准率的补数。

检索者的理想是要求查全率和查准率都是100%,但这是不可能的。

实验表明:

查全率和查准率之间存在反变关系(互逆关系),即提高查全率会降低查准率,反之亦然。

在同一个检索系统中当查全率与查准率达到一定阈值(即查全率60%~70%,查准率40%~50%)后,二者呈互逆关系,即查全率提交,查准率就会降低,反之依然。

因此,检索的最佳状态就是在查全率为60%~70%且查准率为40%~50%时。

·影响查全率和查准率的主要因素

客观原因(针对检索系统):

系统内文献不全;收录遗漏严重;索引词汇缺乏控制;词表结构不完善;标引缺乏详尽性,没有网罗应有的内容;文献分类专指度缺乏深度,不能精确地描述文献主题;组配规则不严密。

主观原因(针对检索者):

检索课题要求不明确;检索工具选择不恰当;检索途径和方法过少;检索词缺乏专指性;检索词选择不当;组配错误等。

3、相关性——是用户判断文献信息与实际信息需求之间关系的标准。

现实的信息系统,不是回答用户提问本身(即用户真实需求),而是回答用检索式表达后的信息提问,虽然检出的是与信息提问相关的信息,但不一定是真正切题(符合用户真实需求)的信息,用户只有在阅读文献信息后才能对其切题性作出判断。

4、适用性——是反映特定时间内文献信息满足用户需求的价值。

强调能够对用户的实际需要的满足程度或能够给用户带来的效果和产生的效益。

5、其它评价指标

新颖率:

从检索系统中检出来的对用户而言含有新颖信息的文献件数与文档中总相关文献数、检出的总文献数或检出的总相关文献数之比。

错检率:

从检索系统中检出来的无关文献量与系统中无关文献总量之比,它与专指度存在互补关系。

覆盖率:

在某一特定时间里,从某一检索系统中检索到的涉及特定主题领域的所有文献数与该主题领域相关的实有文献总数之比。

这一指标反映某一文献库提供专门主题文献的范围大小,覆盖率越高,文献库包含的信息量越大,漏检的可能性也就越小。

6、提高检索效率的措施

(1)提高检索工具的质量:

提高文献库的编辑质量,使其收录范围更全面、更切合相应学科或专业的需要,著录的内容更详细准确。

(2)提高用户利用检索工具的能力:

(3)制定优化的检索策略

四、检索的沿革与发展趋势

可以把信息检索的进步历程划分为三个不同的历史阶段:

(一)手工检索阶段(1830年——20世纪70年代初期)

信息检索直接发源于文献的文摘索引工作和图书馆参考咨询工作。

1830年柏林科学园在柏林和莱比锡出版了著名的文摘刊物《药学总览》,这一事件作为文摘刊物单独编辑出版并走向成熟的标志,一般被认为是手工信息检索工作的开端。

20世纪70年代初起,基于计算机技术的联机信息检索开始步入商业应用,在这段时间里,手工检索仍处于主流地位并达到其发展的高潮。

信息检索直接发源于文献的文摘索引工作和图书馆参考咨询工作,特点主要表现为:

以印刷文献为主要检索对象;以各类文摘、题录和目录性工具书为可利用的主要检索工具;以图书馆的参考咨询部门为开展信息检索服务的中心机构。

(二)计算机化检索阶段(20世纪50年代初期——20世纪90年代初期)

自19

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 法律文书 > 调解书

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1