信息检索学习笔记Word文档下载推荐.docx

上传人:b****5 文档编号:17586398 上传时间:2022-12-07 格式:DOCX 页数:34 大小:43.33KB
下载 相关 举报
信息检索学习笔记Word文档下载推荐.docx_第1页
第1页 / 共34页
信息检索学习笔记Word文档下载推荐.docx_第2页
第2页 / 共34页
信息检索学习笔记Word文档下载推荐.docx_第3页
第3页 / 共34页
信息检索学习笔记Word文档下载推荐.docx_第4页
第4页 / 共34页
信息检索学习笔记Word文档下载推荐.docx_第5页
第5页 / 共34页
点击查看更多>>
下载资源
资源描述

信息检索学习笔记Word文档下载推荐.docx

《信息检索学习笔记Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《信息检索学习笔记Word文档下载推荐.docx(34页珍藏版)》请在冰豆网上搜索。

信息检索学习笔记Word文档下载推荐.docx

①显性知识和隐性知识。

②实体知识和过程知识。

③核心知识和非核心知识。

三、情报

1.情报的概念:

情报是具有特定传递对象的特定知识货有价值的信息。

2.情报的特征

①动态性②按特定的方式传递③为特定目的服务的④常常有一定的时效性和机密性

3.情报的类型

零次情报:

私人笔记、手稿、设计草图、会议记录、口头言论等。

一次情报:

调查报告、研究报告、科学论文、专利说明书、会议文献、专著等。

二次情报:

书目、索引、文摘等

三次情报:

综述、专题评论、年度总结、研究进展报告、数据手册、专业年鉴等。

四、信息、知识和情报之间的关系

知识是人的大脑通过思维重新集成整合的、反映事物运动规律的系统华信息,是信息中最有价值的部分;

情报是具有特定传递对象的特定知识或有价值的信息,其中一部分在知识之内,另一部分则在知识之外的信息之内。

因此,从逻辑上看,信息、知识、情报三者的概念之间是相容关系,具体来说,信息与知识、情报之间是属种关系,信息是属概念,知识、情报是信息之下具有交叉关系的种概念。

五、信息资源

(一)信息资源的概念

1.广义信息资源的定义:

人类社会活动中积累起来的信息、信息生产者、信息技术等信息活动要素的集合。

①人类社会经济生活中经过加工处理使之有序化并大量积累后的有用信息的集合。

②为某种目的而生产有用信息的信息生产者的集合。

③加工、处理和传递有用信息的信息技术的集合。

2.狭义信息资源的定义:

人类社会经济活动中经过加工处理,使之有序化,并大量积累后的有用信息的集合。

(二)信息资源的特征

1.信息资源的一般特征

①作为生产要素的人类需求性②稀缺性原因:

一、信息资源的开发需要相应的成本;

二、在既定的技术和资源条件下,任何信息资源都有一固定不变的总效用,但它每次被投入经济活动中去时,资源使用者总可以得到总效用中的一部分并获得一定的利益,随着被使用次数的增多,这个总效用会减少,当减少到零时,该信息资源就不再具有经济意义。

③使用方向的可选择性。

2.信息资源的特殊性

①共享性②时效性

(三)信息资源的类型

1、体裁信息资源:

以人体为载体并能为他人识别的信息资源

2、文献信息资源:

以文献为载体的信息资源

3、实物信息资源:

以实物为载体的信息资源

4、网络信息资源:

从计算机技术、通信技术、多媒体技术相互融合而形成的网络上可查到的资源,包括①非正式出版信息②半正式出版信息③正式出版信息

第二节信息检索概述

一、信息检索的概念:

广义信息检索包括信息存储和信息检索两个过程,指将信息按一定方式收集、组织和存储起来,并根据信息用户的需求找出所需信息这一过程和技术,又称“信息存储和检索“(InformationStorageandRetrieval)

狭义信息检索,不包括信息存储过程,仅指依据一定的方法,从已经组织好的信息集合中,查找并获取特定需求的信息这一过程。

二、信息检索的类型

1、根据检索内容或检索对象不同,可将信息检索分为文献检索、数据检索和事实检索。

1)文献检索(DocumentRetrieval):

指以文献为检索对象的信息检索,传统上是信息检索的核心部分

2)数据检索(DataRetrieval):

指以各种数据为检索对象的检索

3)事实检索(FactRetrieval):

指以各种史实资料、研究结果和现状为检索对象的检索过程

2、按组织方式,可有全文检索、超文本检索和超媒体检索

1)全文检索(Full-textRetrieval):

将存储于数据库中的整本书、整篇文章中的任意内容信息查找出来的检索

2)超文本检索(Hyper-textRetrieval):

是对每个结点中所存在的信息以及信息链构成的网络中信息的检索。

3)超媒体检索(HypermediaRetrieval):

是对存储的文本、图像、声音等多种媒体信息的检索。

3、按检索设备分,可分为手工检索和机器检索

1)手工检索(HandRetrieval):

是人直接用手、眼、脑组织、查找印刷型文献的检索

2)机器检索(MachineRetrieval):

又称计算机检索,是通过机器对已经数字化的信息按照设计好的程序进行查找和输出的过程,可分为脱机检索和联机检索。

三、信息检索的发展趋势

1、统一的检索界面2、主动的信息推送服务3、多种检索模型将融为一体4、可视化技术实用化5、检索职能化

第三节信息检索原理

一、信息检索基本原理:

信息检索包括信息存储与信息检索两个过程。

信息存储过程中,信息标引人员分析原始信息,找出能代表文献信息的特征,对文献信息进行标引,对照检索语言将其外部特征和内容特征转化为一定的标引标识,再将这些标识按一定的顺序编排后纳入检索系统,提供多种检索途径;

而在信息检索过程中,检索人员全面详尽地分析课题,找到其特征形成检索提问,再将这些提问与检索语言相对照形成检索提问标识。

信息检索的基本原理:

检索提问标识与存储在检索系统中的标引标识进行比较,二者完全匹配或信息标引中的标识包含了检索提问中的标识,即为检索命中,具有该标识的信息就从检索系统中作为检索结构输出。

二、计算机信息检索的原理

1、计算机信息检索的实现过程:

用户对检索课题加以分析,明确检索范围,弄清楚主题概念,然后用系统检索语言来表示主题概念,形成检索标识及检索策略,输入到计算机进行检索。

分为两个过程:

一是信息存储,即按一定的规则将信息进行加工、赋予特征标识,并将这些标识按一定的顺序编排后纳入检索系统;

一是信息检索,就是用户根据自己的检索要求向系统发出含有提问特征的检索式,系统自动地将自己存储的相关信息集合的标引标识及其逻辑组配关系与之类比、匹配,给出与特征标识相符的记录。

2、计算机信息检索的实现条件:

计算机、通信网络、检索终端设备和数据库

3、计算机信息检索的发展

1)脱机批处理检索阶段2)联机检索阶段3)光盘检索阶段4)网络化检索阶段

4、计算机信息检索的服务方式

1)回溯检索2)定题检索3)随机问答4)联机订购

第四节检索语言

一、检索语言的概念:

一般指文献标引和检索所使用的一种专门语言,是用以表达概括文献信息特征和检索课题内容特征的概念及其相互关系的一种概念标识系统,即在存储时用以描述文献信息的内容和外部特征,而在检索时则用以表达提问的语言。

二、检索语言的类型

一是按检索语言的规范化程度来划分,可分为规范化的人工语言和非规范化的自然语言;

二是按检索语言的词汇组配方式来划分,可分为先组式语言和后组式语言;

三是按描述文献信息内容特征来划分,可分为分类语言和主题语言;

四是按词汇的类型来划分,可分为关键词语言、单元词语言、标题词语言和叙词语言等。

1、人工语言和自然语言

1)人工语言:

又称程控语言,它是根据文献信息检索的需要,由人工采用规范词而创建的一种受情报检索控制的语言。

2)自然语言:

自然语言检索用词是取其自然形态,从信息内容本身抽取,不受人工控制,主要依赖于计算机自动抽词技术来完成,但是需要辅以人工自由标引,即不依据词表的标引方法,使用非规范词或称自由词。

3)人工语言与自然语言的比较:

人工语言的查全率、查准率比较高,人工语言的检索效率要高于自然语言,但是人工语言是基于印刷型文献资源产生的,对标引来说,工作量大,成本高,对文献信息检索来说,用户不容易掌握。

而自然语言则不然,对标引来说,主要由计算机检索系统自动完成,具有灵活性、新颖性和专指性,并且检索点多,管理和维护成本低;

对文献信息检索来说,用户很容易掌握。

但是由于目前计算机抽词技术还无法达到从自然语言中抽取最准确并能够表达信息资源内容的词,无法自动规范自然语言,无法指示概念之间的关系,缺乏对词汇的控制能力,因此检索效率比较低。

2、先组式语言和后组式语言

1)先组式语言:

是指在检索实施前已事先组配好的一种检索语言,有较好的直接性和专指性,但灵活度查,如标题词语言。

2)后组式语言:

是指在检索实施前未事先组配好的、以单元词等形式出现的一种检索语言。

3、分类语言和主题语言

1)分类语言:

分类语言是按学科范畴和知识之间的相互关系列出类目,并用数字、英文字母对类目进行标识的一种检索语言。

2)主题语言:

又称主题词语言或主题词检索语言,由主题词汇构成,也就是将自然语言中的名词术语经过规范化后直接作为文献信息标识,因此又称主题词表、主题词语言或主题法,如关键词语言、单元词语言、标题词语言、叙词语言等。

①关键词语言属于自然语言②单元词语言,属于人工语言,又称元词,元词语言是后组式语言③标题词语言是一种先组式规范语言,属于人工语言。

如《工程索引》,用标题词检索④叙词语言是一种后组式规范语言,也属于人工语言。

第五节检索系统与数据库

一、检索系统

1、检索系统的概念:

检索系统是为满足信息需求而建立的,具有收集、组织、存储和查询等功能的文献信息资源和相关设备设施的总称,由信息资源库、技术设备、规则体系和检索人员组成,其中信息系统的主题部分是信息资源库。

2、检索系统的类型

1)按加工手段和技术设备的不同,可将检索系统分为手工检索系统、机械检索系统、计算机检索系统

2)按载体形式不同,可分为卡片式、书本式、缩微式、磁性材料式等检索系统

3)按著录格式不同,可将检索系统分为目录、题录、文摘、索引、全文检索系统。

3、计算机信息检索系统的组成:

信息选择子系统、标引子系统、建库子系统、词表管理子系统、用户接口子系统(信息检索系统的用户接口常采用命令检索、菜单检索、图像检索及超文本检索等方式)、提问处理子系统(本模块主要由检索程序构成,执行过程中可完成以下操作:

接受提问、提问校验、提问加工、检索)组成。

信息选择子系统:

任务是根据系统的目标和服务对象的需要,确定数据收集范围,确定数据收集范围,并广泛地、定期地采集各种信息源,为系统提供充足而适用的数据。

二、数据库

1、数据库概述

数据库:

至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。

2、数据库的结构

1)数据库一般结构:

①字段、记录、文档。

②顺排文档和倒排文档③基本索引、辅助索引

2)从数据库用户的角度看,数据库的结构可分为集中式、分布式、并行式、异构式数据库结构,客户机/服务器结构和浏览器/服务器结构。

3、数据库的特点:

1)数据库的数据具有结构化的特点;

2)数据库中所存储的数据是面向现实世界的;

3)数据库中的数据的共享性好,冗余度低;

4)数据库中数据的独立性强;

5)数据库由数据库管理系统统一管理和控制

4、数据库的类型

按提供信息的等级来分:

参考数据库和源数据库

按存储数据的类型来分:

文献数据库、数值数据库、事实数据库、图像数据库

按存储介质不同来分:

磁带数据库、磁盘数据库、光盘数据库

按数据模型的不同来分:

层次型数据库、网状型数据库、关系型数据库

按涵盖学科的不同来分:

综合型数据库、专业型数据库

5、文献数据库的功用

1)文献数据库对文献信息的规范化管理是以往任何管理方式无法替代的

2)文献数据库为用户提供了多途径的检索方式

3)文献数据库可以为用户提供多种形式的服务内容。

4)文献数据库为用户提供了多渠道的检索服务

三、数据仓库技术

1、数据仓库概述

数据仓库:

是指一个用于更好地支持企业或组织的决策分析处理的、面向主题的、集成的、不可更新的、随时间不断变化的数据集合。

2、用于事务处理的数据库系统与用于决策分析的数据仓库系统的主要区别

1)事务处理与分析处理性质不同;

2)数据集成问题,决策支持系统需要集成数据,而事务处理系统则不需要;

3)历史数据的使用,事务处理通常只要当前数据,而决策支持系统需要详尽的历史数据。

3、数据仓库的基本特征:

数据仓库的数据是面向主题的、集成的、随时间不断变化的,仅供查询。

4、数据仓库的技术内容:

数据仓库技术、联机分析处理技术、数据挖掘技术。

第二章信息检索的基本技术

第一节信息检索技术概述

一、信息检索的一般方法

1、常用法:

又称直接法、常规法,指直接利用文摘、索引等检索工具查找文献的方法,包括顺查法、倒查法、抽查法

2、引文追溯法:

是利用参考文献间的引用与被引用的关系进行检索的方法,即从已有的文献所附的参考文献开始追踪查找原文,再以原文所附的参考文献作为起点追查更多的原文,逐级追查,不断扩大检索线索

3、循环法、又称分段法、综合法

二、检索途径

检索途径:

以文献的外部特征进行检索的途径和以文献信息的内容特征进行检索的途径,前者包括题名途径、著者/机构途径、号码途径等,后者包括分类途径、主题途径等。

1、分类途径;

2、主题途径;

3、题名途径;

4引文途径;

5、序号途径和符号代码途径;

6、全文关键词途径7、著者/机构途径;

8、其他途径

三、检索策略

广义的检索策略是为实现检索目标而制订的全部检索计划,即在对课题进行全面、实质分析的基础上,选择检索系统、检索途径和检索词,明确各词之间的逻辑关系,并根据各检索词之间的关系和系统,允许使用的各种算符、限定字段等组建检索式,确定检索步骤

狭义的检索策略是检索提问式

1、检索词:

简明、准确地概况检索要求的词语

2、检索式:

又称检索提问式,是检索策略的某种具体体现

3、检索策略的制定和调整

1)检索策略的制定:

制定检索策略不仅要全面、准确地对课题进行概念分析,确定概念单元和概念之间的关系,而且要熟悉有关的检索系统,

2)检索策略的调整

扩大检索范围:

扩大概念;

增加同义词或同族相关词并运用逻辑或进行组配、减少检索词或少用逻辑与算符、减少位置算符的使用或有关的字段限制;

扩大3、检索的年代、文献类型、文种范围等方法达到目的

缩小检索范围:

缩小检索概念;

使用逻辑与等算符;

缩小检索的年代、文献信息源范围

使、检索程序

1、全面分析课题,确定信息需求和检索目标

2、选择检索系统(检索工具),我们应该在课题分析的基础上,根据课题的特点,ixnxi需求,检索目的,选择专业对口、覆盖范围广、更新及时、内容准确权威、检索功能完备的检索系统

3、确定检索途径和检索方法

4、确定检索词及检索词之间的关系,编制检索式

5、检索,并根据需要随时调整检索策略,得到所需检索结果

6、索取原始文献信息

五、原始文献获取途径

(一)直接通过网络获取原始文献

1)通过搜索引擎查找:

①直接通过搜索引擎查找②利用搜索引擎与数据库、图书情报机构的合作,实现对这些合作机构文献信息产品的检索与利用;

2)网络出版物及网络出版物目录3)出版商4)学术网站5)免费全文数据库6)通过文摘、题录数据库提供的订购途径购买

(二)简介获取原始文献:

先查到馆藏地点,再通过与该图书馆联系获取原文

1、查找馆藏地点

1)特定图书情报机构的馆藏目录;

2)联合目录①《全国期刊联合目录》②《全国高校图书馆进口报刊预订联合目录》③《CASHL图书期刊联合目录》④《CALIS图书期刊联合目录》⑤OCLC图书、期刊联合目录⑥中国科学院中西文图书联合目录数据库;

3)数据库中的馆藏字段①连接馆藏字段②电子期刊全文连接③通过馆际互借获取原文④通过文献传递获取原文4)出版商提供的出版信息

2、从实体图书获取原文

(三)通过个人与有关机构的交流获得

第二节计算机信息检索技术

一、系统支持的语法

(一)计算机信息检索的常用算符

1、布尔逻辑算符:

逻辑或、逻辑与、逻辑非

1)逻辑加(OR或“+”),也称“或”运算,这是反映概念之间并列关系的一种组配方式,可扩大检索范围、增加输出量,以免漏检

2)逻辑乘(AND或“*”),也称“与”运算。

这反映概念之间交叉和限定关系的一种组配方式,用以缩小检索范围,减少输出结果,提高查准率

3)逻辑非(NOT或“-”)。

ANOTB—用于从包含A的文献信息范围中减去含有B的内容。

这些逻辑算符在运算中的优先次序一般为:

NOTANDOR

2、优先处理算符

3、位置算符:

位置算符用于表示词与词之间的相互关系和前后的次序,通过对检索词之间位置关系的限定,进一步增强选词指令的灵活性,提高检索的查全率与查准率

1)W算符(With):

通常写作A(nW)B,表示词A与词B之间之多可以插入n个其他的词(包括系统禁用词),同时A、B保持前后顺序不变

2)N算符(Near):

通常写作A(nN)B,表示A与B之间之多可以插入n个其他词,同时A、B不必保持前后顺序

3)S算符(Subfield):

通常写作A(S)B,表示A与B必须同时在一个句子中或同一子字段内出现,但次序可随意变化,且各词间可加任意词

4)F算符(Field):

通常写作A(F)B,表示A与B必须同时出现在同一记录中,不限定词序和字段,其作用同布尔逻辑算符“AND”

(二)截词(截断)检索

截词检索主要是利用检索词的词干或不完整的词形进行非精确匹配检索,凡含有词的这一部分的所有字符或字符串的文献信息,均被认为是命中结果。

1、从截断字符的数量看,截词可分为无限截词和有限截词

1)无限截词,一个无限截词符可代表多个字符,表示在检索词的词干后可加任意个字符或不加字符。

符号:

“*”“/”“?

2)有限截词,符号“?

”(STN系统中为“#”)代表这个单词中的某个子目可以任意变化,在检索词词干后可加一个或一个以上的有限截词符,一般有限截词符的数量有限制,其数目表示在词干后最多允许变化的字符个数

2、根据截断的位置,可以分为后截断、前截断和中截断

(三)字段限制检索

数据库中可检字段分为基本索引字段和辅助索引字段两大类,字段索引即限定检索词只在记录中某个或某些字段中出现,不同的检索系统规定的检索字段和字段限制检索方法也不同,其形式包括前缀限制符、后缀限制符、检索字段框等

联机检索系统常用到前缀限制符和后缀限制符

(四)禁用词

禁用词都是些无实际意义的词,也就是不可用于检索的过于常见的词(高频词),如DIALOG系统中的and,for,the,an,from,to,by,of,with等,如果检索词中包含这些词,和遇到标点符号、连字符一样,有些检索系统使用位置算符来处理

二、输出格式和输出方式

(一)输出格式

输出格式:

系统所检出的信息的形式,可以是文献号、题录、文摘或全文等。

(二)输出方式

三、光盘数据库检索

(一)光盘与光盘数据库概述

计算机信息检索是借助计算机获取信息的手段,主要包括脱机检索、光盘检索、联机检索、网络数据库检索、以及基于因特网的信息检索

1、光盘检索与联机检索相比有其自身的特点

1)光盘数据库成本较低,配置简单

2)购买光盘是一次性投入,使用时间不受限制

3)光盘检索系统是一个独立的系统,不受通讯费和机时费的限制

4)检索方便快捷,操作简单易学

5)光盘数据库与联机数据库相比,也存在着更新周期长、数据容量有限、各种光盘数据库规格不一,查询多个数据库时要频繁更换,许多光盘检索系统需要专用的加密卡才能打开等问题

2、光盘数据库并没有完全被后来的网络数据库所代替,是因为光盘数据库与网络数据库相比有自己的优势

①成本低,投入较少②运行速度快③安全性好④使用时间长

光盘检索系统还有下载方便、检索效果好等优势,同时也有缺点,像更新周期长,使用范围有限等。

相对来说光盘数据库的规模不是很大,一般以某一学科为主,所以有时候会影响查全率,而且因其存储容量有限,使用时常要换盘,不是很方便。

(二)光盘数据库检索系统概述

光盘数据库是一种机读文献,一般由计算机、光盘及其驱动器、相应软件构成

(三)光盘数据库检索的基本步骤

①选择光盘数据库②安装③检索④处理检索结果⑤退出

四、联机检索

(一)联机检索(On-lineRetrieval)概况

1、概念

联机检索:

是指在检索终端上,通过通讯线路,以人机对话方式,使用一定的指令和算符,与检索中心的中央计算机联机,从该检索系统的数据库中检索所需信息的一种计算机检索式

2、国际联机检索的特点

①数据库资源丰富②检索速度快、效率高,输出方式和格式多种多样③提供的文献信息全面、准确、可靠、及时④安全⑤费用较高,包括联机检索费和通讯费等

3、联机检索的程序

①分析课题,明确检索目的②确定检索词和检索策略,联机前可进行人工预检③接通联机检索系统④选择数据库⑤输入检索式,检索⑥分析联机显示的检索结构,判断检索是否已经成功⑦选择输出格式和输出方式,输出检索结果

(二)联机检索实例

1、DIALOG:

这个系统最初由美国洛克希德导弹航空公司所属的一个情报科学实验室建立

1)DIALOG系统的主要数据库

①工程索引,EI,1970年至今②科学文摘,INSPEC,1969年至今③世界专利索引,WPI,1963年至今④化学文摘,CASearch,1967年至今⑤科学引文索引,SciSearch,1974年至今⑥经济商业文摘ABI/INFORM,1971年至今⑦学位论文文摘DissertationAbstractsOnline,1986年至今⑧美国政府技术报告NTIS,1964年至今⑨医学索引Medicus⑩生物技术和生物工程数据库国际药文摘

2)检索入口

①DIALOG联机检索②InternetWeb界面检索,包括DialogWeb;

DialogClassic(纯文本界面);

DialogSelect(非专业检索人员的Web界面);

数据库蓝页网址;

③免费检索题名信息可进入DIALOGOPENACCESS

3)DIALOG系统提供的服务,包括追溯检索(RS)、定题检索(SDI)新颖性检索服务等,此外还有:

①DIALOGBusinessConneection(DBC),系统提供的一种针对商业信息而设的菜单检索服务,对大量的商业查询可提供快速准确的回答②DIALOGAlertService,系统提供的一种定题检索服务③Dialmail,系统提供的电子邮件服务④Dialorder,系统提供的联机文献订购服务,可由此获取原始文献⑤Dialindex,系统提供的联机文献订购服务,由此可获知哪些数据库中有用户需求的信息⑥OneSearch,系统提供的一种独特的检索手段,可由此从多个数据库中检索和显示记录⑦DialogLink,是专门用于联机检索的软件

4)DIALOG数据库检索

①逻辑算符②常用的位置算符,包括WITH/NEA

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 设计艺术

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1