信息检索考试要点.docx

上传人:b****8 文档编号:10993038 上传时间:2023-02-24 格式:DOCX 页数:27 大小:685.38KB
下载 相关 举报
信息检索考试要点.docx_第1页
第1页 / 共27页
信息检索考试要点.docx_第2页
第2页 / 共27页
信息检索考试要点.docx_第3页
第3页 / 共27页
信息检索考试要点.docx_第4页
第4页 / 共27页
信息检索考试要点.docx_第5页
第5页 / 共27页
点击查看更多>>
下载资源
资源描述

信息检索考试要点.docx

《信息检索考试要点.docx》由会员分享,可在线阅读,更多相关《信息检索考试要点.docx(27页珍藏版)》请在冰豆网上搜索。

信息检索考试要点.docx

信息检索考试要点

信息检索考试要点(Word版)

考试题型:

考试分试卷一,试卷二两部分,

试卷一:

(客观题80分)

(一)单选(20题,20分)

(二)多选(20题,40分)

(三)判断(20题,20分)

试卷二:

(20分)

(四)填空题(20空,10分)

(五)实务题

1、写检索式(三题,6分)

2、调整检索策略(4分)

第一章绪论

信息素质:

在信息化时代,人们认识、利用和创造信息的品质与素养,它是创新人才应具备的素质。

信息素质由信息意识、信息知识、信息能力和信息道德素质四部分构成。

信息:

是自然界、人类社会以及思维活动中普遍存在的现象,是一切事物自身存在方式以及它们之间相互关系、相互作用等运动状态的表达。

信息具有客观性、时效性、共享性、价值性、传递性、开发性

知识:

是人们在改造世界的实践中所获得的认识和经验的总和,是人的大脑通过思维重新组合的系统化的信息集合。

知识具有意识性、信息性、实践性、规律性、继承性、渗透性

情报:

是为了解决一个特定的问题所需要的激活了、活化了的特殊知识或信息。

情报具有知识性、传递性和效用性三个基本属性。

文献:

凡是记录有信息或知识的一切载体均为文献。

文献具有三个基本功能:

存贮知识、传递信息和交流信息;四个基本要素:

知识内容、记录符号、物质载体和记录手段。

文献信息资源类型划分标准:

一、按物质载体和记录形式划分

划分标准

文献类型

载体及记录手段

印刷型(含手写型)、缩微型、机读型、声像型

内容加工深度(文献的级次)

一次文献(含零次文献)、二次文献、三次文献

出版形式及内容

图书、期刊、报纸、特种文献等十大文献

类型

1)印刷型

载体

纸张等

记录手段

手写、印刷、打印、复印

种类

图书、报刊、特种资料等

优点

便于阅读及广泛流传,成本低

缺点

存储密度低,所占空间大,保管耗较多人力物力,难于实现自动化

类型

2)缩微型

载体

感光材料

记录手段

缩微拍摄

种类

缩微平片、缩微胶卷、全息胶片

优点

体积小,存储密度高,成本低,传递较为方便

缺点

不能直接阅读,需要借助于缩微阅读机,存储要求较高

类型

3)声像型

载体

磁性、感光材料

记录手段

机械装置输入

种类

唱片、录音带、录像带、光盘等

优点

高密度存储,直观、真切,图文并茂,制作快

缺点

不能直接阅读,需要先进的技术设备,制作成本稍高

类型

4)机读型

载体

磁性、感光材料

记录手段

键盘、扫描等方式输入

种类

磁盘、磁带、光盘等

优点

存储密度高,存取速度快,变更记录,易于实现自动化,便于实现信息共享

缺点

需要先进的技术设备才能“读出”、制作成本较高

二、按加工深度划分

一次文献:

以作者本人的科研、生产和工作成果为依据创作而成的文献。

二次文献:

对无序的一次文献进行加工、整理、提练和浓缩汇集而成的系统完整的便于检索和提取的文献

三次文献:

在利用二次文献基础上,对大量的一次文献进行综合、分析、研究后撰写的文献。

三、按出版形式对原始文献(一次文献)进行划分

1)图书:

内容比较系统、全面、完整、成熟、可靠,有一定的新颖性、连续性,但编辑出版稍长,专递信息的速度慢,一般只能反映3-5年前的研究水平。

适用于对某一领域获得一般的知识、一般的了解或问题的解答。

分为:

阅读性图书和工具书

国际标准书号(ISBN):

组号+出版者号+书名号+较验位(从2007年1月1日起,国际标准书号升级为13位。

如ISBN978--7--5341--1951—0/G.362,现有的出版机构在原ISBN号结构前加上一个三位数字的前缀“978”,新成立的出版机构则加上前缀“979”)

图书的参考文献的标准著录格式是:

作者、书名、出版地点、出版社、出版时间。

有时还有版本号和国际标准书号

2)期刊:

内容新颖、信息量大、出版周期短、传递信息快、传播面广、时效性强,能及时反映国内外各学科领域的发展动态。

据统计,科技人员所获取信息的65%以上来源于期刊,它是十分重要和主要的信息源和检索对象。

期刊有国际标准刊号(ISSN)和国内统一刊号。

种类:

(1)学术性、技术性刊物

(2)检索性刊物

(3)其它类型期刊,如快报性刊物、消息性刊物、科普性刊物等

期刊论文的参考文献的标准著录格式是:

作者、论文题名、出处项(期刊名、出版年、卷号、期号、起止页码)。

3)报纸:

报纸以刊载新闻和评论为主的出版周期较短的定期连续性出版物。

特点:

传递信息快,信息量大,现实感强,传播面广,具有群众性和通俗性。

按出版周期可分日报、周报等。

通常我们把期刊、报纸合称报刊

4)会议论文

内容:

同一个会议的文献论题集中,内容新颖、丰富、专深、学术性强,能反映某一学科或专业最新的成果水平和发展动态,与其它文献交叉重复的现象比较严重。

流通面不广。

分类:

按会议议程:

会前、会中和会后型。

按组织者:

国际会议文献、全国会议文献、省级、地区级和基层。

5)专利文献

内容上具有新颖性,创造性,实用性。

外表上有统一的书写格式,统一的标记符号,是一种法律性的文献。

我国专利类型:

发明专利实用新型专利和外观设计专利

6)标准文献

按成熟程度:

法定标准、推荐标准、试行标准。

按使用范围:

国际标准、区域标准、国家标准、行业标准、企业标准等。

按标准化对象:

技术标准、管理标准和工作标准三大类。

7)学位论文

学位论文有博士论文、硕士论文、学士论文之分,其研究水平差异较大,博士论文论述详细、系统、专深,研究水平较高,参考价值大。

(1)有独创性和学术性

(2)一般不出版发行,属于非卖品,故收藏有一定困难,只有授予学位权力的单位才有收藏能力

学位论文分博士、硕士、学士论文。

第二章信息检索基础

信息检索的含义

广义:

包括信息存贮和信息检索两个过程。

信息存贮:

指依一定的规则和方式把信息整序编排组织成文献集合体的过程,即编制检索工具和建立检索系统的过程。

信息检索:

指利用编制好的检索工具或检索系统来查找信息用户所需信息的过程。

狭义:

仅指后者。

二、信息检索的类型

1、按检索手段分

手工检索

计算机检索

联机检索

光盘检索

网络检索

文献检索:

对象是书目信息(目录、题录、文摘或全文、引文)相关性检索,结果不确定

数据检索:

也称数值检索,对象是数值性数据(数值、公式、图表等)。

结果确定

事实检索:

又称“事项检索”,对象是事实(事物发生的时间、地点及过程或事物的性质、定义、原理等),结果确定

三、信息检索系统

信息检索系统:

是指为满足信息用户的信息需求而建立的、存贮经过加工了的信息集合,拥有特定的存贮、检索与传送的技术装备,提供一定存贮与检索方法及检索服务功能的一种相对独立的服务实体(包括人和检索工作单位),统称为信息检索系统(InformationRetrievalSystem,简称IRS)。

(3)数据库的结构

从使用者观点看,数据库主要由“字段—记录—文档”三个层次构成。

一行即为一个记录,它标明一篇文献

一列即为一个字段,反映文献的某一属性,是数据库中最小单位

众多的记录积累就形成文档

检索语言的概念及作用

文献信息检索语言:

是用来描述文献特征和表达信息提问,沟通信息标引人员和信息检索者双方思想的一种人工语言。

作用:

①表达描述信息内容和信息需求;②对内容相同或相关的信息加以集中或揭示其相关性;③对大量信息加以系统化和程序化;④便于用户进行信息检索

体系分类语言:

如《中图法》、《科图法》《人大法》(全称请查教材)、国外:

《国际十进制分类法》、《杜威十进制分类法》

标题词语言:

如1993年以前的《工程标题词表》

单元词语言:

如《WPI—规范化主题词表》

叙词语言:

如《汉语主题词表》

主题分类一体化:

如《中国分类主题词表》

主题语言选介(标题词、叙词、关键词)

主题语言:

以直接表达信息概念的词语标引和检索信息。

主题词规范化:

所谓的规范化是指对自然语言中的同义词进行优选,对词的不同形式进行归一,对近义词进行合并,对多义词进行注释,对简称进行补全,对俗称进行引进等,这些词语用词表固定下来,便可保证一种事物只用一个主题词表达。

例如:

“马铃薯、土豆、洋芋”

先组式检索语言:

指在检索之前,表述文献主题概念的标识已经事先拟定好了的检索语言,如标题词语言、体系分类语言等。

后组式检索语言:

它是指表达文献信息主题概念的标识,在编制检索语言词表和标引文献时,都不预先固定组配,而在检索进行时,根据检索的实际需要,按照组配规则临时进行组配的检索语言。

后面所讲的叙词检索语言则属于此种类型。

我校图书馆索书号:

分类号+著者号

《中图法》构成:

《中国图书馆图书分类法》是我国图书分类法的基础,中图法把一切知识门类按“五分法”分为马列、毛泽东思想、邓小平理论;哲学;社会科学;自然科学;综合性图书这五大部类。

在此基础上建成由22个大类(L、M、W、Y除外),每一大类又层层细分,形成的一个有机体系系列。

注意事项:

(1)分类标识即分类号,由字母和数字组成

(2)采用等级列举表达从属关系上位类目与下位类目的关系:

上位类目一定包含其各个下位类目,而下位类目一定带有上位类目的属性。

(3)分类号越长,表示的学科范围越窄。

为了清楚醒目,通常在分类号的第三位数字后,隔以.,如F279.712,TQ032.4

具体分类:

(22大类)

体系分类法的特点

主要特点就是按学科专业性质集中信息,区分不同性质的信息,集中性质相同的信息,按照远近亲疏的关系将无序信息组织成有序体系提供从学科分类查找信息。

不足:

由于是先组式检索语言,缺乏进行概念灵活组配的能力,不利于特性检索;体系分类法是按学科性质建立的直线式序列结构,对全面检索边缘学科资料造成较大的困难;分类表一般几年才修订一次,因此,无法体现新学科内容。

体系分类语言与主题语言的区别:

比较内容

分类语言

主题语言

结构体系

以学科的逻辑体系为中心反映事物的从属、派生和平行关系

以语言为中心,直接用词语作主题标引

标记符号

人为的标记符号不直观,较难记

以自然语言中表示概念的词语作为标识,直观易记

组织方式

以线性序列结构为特点,其类号只代表线性序列

不受科学体系限制,主题词之间完全独立

比较内容

分类语言

主题语言

提示事物

提示文献研究和讨论的问题所属学科门类

提示特定事物,特定对象

目录组织

较为容易

较为复杂

读者使用

需要熟悉分类法,较难用

需要掌握专业知识及对应的文字表述

适应性

体系固定,类目稳定,修改困难,适应性差

不受体系约束,能较及时反映新技术,增删灵活,适应性强

第三章信息检索技术

计算机检索系统中常用的算符有四种:

一是布尔逻辑算符;二是位置算符;三是截词符;四是字段限制符。

要注意运算符应用达到的效果

布尔逻辑算符:

是用来处理检索词语或代码之间的逻辑关系的一种算符,是计算机检索系统最常用的算符。

通常有三种:

即逻辑“与”、“或”、“非”。

注意:

逻辑运算符运用前后的文献数量的变化

逻辑“与”:

这种组配关系用“AND”或“*”表示,是用来处理概念交叉或限定关系一种组配方式,能达到缩小检索范围,提高查准率的效果。

(A和B的交集)

逻辑“或”:

用“or”或“+”连接检索概念。

用来处理概念同义、相关等并列关系的一种算法,其作用是扩大检索范围,避免漏检,提高查全率。

(A和B的补集)

逻辑“非”:

用“not”或“-”连接检索概念。

用于在某一概念集合中排除含有另一概念的记录,其作用是缩小检索范围,提高查准率。

(A去掉A和B的交集)

位置算符:

用于限定两个检索词之间的位置关系,以提高查准率,避免误检。

在不同的检索系统中,所采用的位置算符不尽相同的,功能也有差异。

注意:

同一字段位置算符跟字段限制符的区别

例:

截词检索功能:

在检索中,常会遇到一些词干相同、词头、词尾使用可随时变化,如英文有单、复数,有名词、形容词的拼法区别,以及英美拼法区别等,为了减少检索词输入量,扩大检索范围,可使用截词算符,以提高检索效率,一般用“?

”和“*”表示截词符。

要注意在不同的系统中,使用的符号及其含义有所不同。

例:

(以英文为例)

无限截词:

常用“*”,代表零到多个字母。

例:

输入cat*则catatonic、cat、cats、catatonia,category等都会在检索结果中出现

有限截词:

常用“?

”,代表一个或零个字母。

例:

输入cat?

则cat、cats等会在检索结果中出现。

前截词:

后方一致,表示在词根前方有无限或有限字符变化,例:

*computer,结果computer,microcomputer,Minicomputer

中间截词:

前后方一致。

常用于英、美不同拼写形式的词,例:

colo?

r可检出colour(英)、color(美)

后截词:

前方一致。

例:

computer*,可检出:

computer、computers,

computerised,computerization

前后截词:

中间一致。

例:

*computer*,可检出:

computer、computers,computerised,computerization,microcomputer,Minicomputer

检索字段符:

用于确定检索词在文献记录中的位置,限制查找的字段范围,达到提高检索效率的目的。

注意:

维普系统中检索字段符的表达

搜索引擎的关键词检索的语法规则(注意:

多种检索语法的检索式编制)

布尔逻辑算符:

(1)逻辑“与”:

一般用“AND”表示,有的搜索引擎还可以用“&”表示。

(2)逻辑“或”:

一般用“OR”表示,有的搜索引擎还可以用“|”表示。

(3)逻辑“非”:

一般用“NOT”表示,有的搜索引擎还可用“!

”表示。

限定字段检索:

限定字段检索,即限定检索词在搜索引擎数据库中某个字段范围进行查找,如网页标题、站点、网址、链接等。

在浩如烟海的网络信息中,采用字段限定检索方式,可以精确定位,摒除很多无关、无用信息,大大提高检索结果的精准度。

1.标题限定检索

标题检索就是在网页的标题中查找输入的检索词,使用的命令一般是“title”或“intitle”,其格式为:

title:

检索式,或intitle:

检索式。

例如:

intitle:

水稻基因图谱。

返回的结果都是标题中包含关键字、词的信息条目。

2.文件类型限定检索

文件类型限定检索指查找出特定文件类型的相关结果,使用的命令一般是“filetype”,其格式为:

检索式filetype:

文件类型。

例如:

农业 综述 filetype:

PDF表明想查找关于农业综述写作方面的PDF格式的文献。

3.站点限定检索

如果知道某个或某类站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。

命令是“site:

”(Google)、“host:

”(AltaVista)、“url:

”(Infoseek)或“domain:

”(HotBot)。

例如检索式:

水稻基因site:

可查中国教育网站上关于水稻基因研究方面的资料

空格、逗号、括号、引号的作用

空格:

空格的作用与逻辑“与”(AND)相同。

逗号:

作用类似于逻辑“或”(OR),区别是:

例如,检索式“计算机,网络,多媒体”,同时含有“计算机”、“网络”和“多媒体”的页面输出时排在前面。

引号:

括在其中的多个词被当作一个短语来检索。

例如,检索式“electronicmagazine”,表示把electronicmagazine当作一个短语来搜索。

网页快照功能

因特网网页内容更新频繁,有时在搜索引擎中能够检索到相关信息的记录,但因为有的网页已被删除无法打开(死链接)。

许多搜索引擎提供了网页快照功能,把网页储存在自己的服务器中,这样即使网站已经把这个网页删除了,用户通过点击“网页快照”也能正常浏览该网页上的信息。

检索途径:

(一)分类途径

(二)主题途径(三)题名途径(四)著者途径(五)号码途径(六)其它途径

检索课题的取词方法:

课题主题分析就是将课题所涉及的主要概念用词或词组表达出来,进而分析概念之间的逻辑关系、位置关系等,以便下一步制订检索策略。

在确定检索词时,应根据课题的特点、数据库主题标引的特点等选取最恰当的词语。

确定主题词的方法因人因课题而异,下面介绍一些常规的方法:

1、一般课题主题分析方法

有些课题涉及的内容明确体现在题目中,这时只要将题目涉及的概念分析出来即可。

如:

“甜味剂的过敏反应”,经过分析,涉及的主要概念是“甜味剂”和“过敏反应”,全都在题目上。

2、隐含概念的分析方法

有些课题的实质性内容很难从题目反映出来,这时,应从专业角度将其隐含的概念和相关的主题揭示出来,提炼出能够确切反映课题内容的检索词。

例如:

“亚热带果树的栽培与管理”,如果仅通过题目分析,就涉及:

亚热带果树、栽培、管理三个概念,事实上亚热带果树包括:

荔枝、龙眼、芒果等。

类似地,诸如“工艺”、“分析”、“应用”、“有机物”、“无机物”、“病虫害”等外延十分宽的概念,一般都应转换成具体的方法或材料、化合物及具体的病虫害的名称。

3、核心概念的选取方法

过多过严的概念“逻辑与”组配导致漏检。

取词时要排除一些无关或重复的概念。

例如:

“芸豆中天然食用色素的提取”

(1)如果有些检索概念体现在数据库中,这些概念应予以排除。

例如,计算机在计算机数据库中应排除。

(2)一些比较泛指、检索意义不大的词,如“发展”、“趋势”、“现状”等在不是专门查找综述类文献时应予以排除

4、检索词的扩展

(1)同义词法:

从语言角度,将同一概念的不同名称(学名或俗名、简称或全称)、不同拼写(英美、单复数),以及有些术语可用事物代码等形式进行扩展。

(2)截词方法

(3)主题词表法有的数据库有主题词表,使用主题词表不仅可以使检索词更加规范,提高查准率,而且可以从同族词中选取更多的上位语、下位词、相关词。

检索式的编制:

在计算机检索条件下,由于检索提问与文献标识的匹配过程是由计算机来完成,而不像手工检索,可以通过人的大脑进行判断,因此构建一个良好的检索式是完成检索过程的关键步骤。

那么,什么是检索式?

简单地理解检索式就是一个算式,是一个根据检索课题的要求及其词间关系,选定检索词后,用计算机检索算符将检索提问中的各有关概念之间关系表达成一个能被计算机检索系统识别的逻辑算式。

编制检索式的方法与技巧因课题和检索者的不同而异,但以下几方面的问题需加以注意:

第一,在使用布尔逻辑算符进行逻辑运算时,对同类或并列的概念,要用“逻辑或(OR)”进行组配,这样可扩大检索范围,提高查全率;对于交叉或限制关系的概念,用“逻辑与”进行运算,提高检索的专指性和查准率;对于引起误检的个别检索词,可用“逻辑非”进行排除。

第二,应避免可能产生多种逻辑判读的组配。

组配的结果只能表示一种含义,如果组配可能产生两种或多种含义,就应采取相应的措施加以限定。

第三,采用先检索较专概念,后检索一般概念的方法,这样可以节省检索时间,另外,还应注意去掉所有与课题无关的概念,以防限制过严而漏检。

第四,为了提高检索速度,在使用布尔逻辑算符时,应把出现频率低的词放在“AND”的左边,把出现频率高的词放在“OR”的左边,同时使用“AND”和“OR”检索时,应把“OR”放在“AND”的左边。

总之,一个合理的检索式应达到下面两个要求:

①应该完善而准确地反映出课题的主题内容。

②要适应所查的文献数据库的索引体系和检索用词规则,即检索式必须与数据库中的文献标识相匹配。

检索式的编制是重点(共涉及约6分)

三道题,一题是分析课题,用布尔逻辑算符编写检索

一题是多途径检索式的编写,主要是字段限定符与逻辑算符综合应用,一道是搜索引擎中应用相应的语法规则编写检索式

检索评价与检索策略调整(考试重点)

理解相关概念,记忆相关公式,学会简单计算。

质量标准主要通过查全率与查准率进行评价;费用标准即检索费用,是指用户为检索课题所投入的费用;时间标准是指花费的时间,包括检索准备时间、检索过程时间、获取文献时间等。

检索质量评价指标:

查全率是指系统在进行某一检索时,检出的相关文献量与系统相关文献总量的比率,它反映了该系统中实际含有的相关文献在多大程度上被检索出来。

查全率反映检索全面性,其补数就是漏检率。

漏检率是指漏检的相关文献量与检索系统中的相关文献总量的比率,它反映该系统中实际含有的相关文献在多大程度上没有被检索出来。

查全率和漏检率的计算公式如下:

影响查全率的因素

从数据库角度(或称检索系统本身):

数据库收录文献不全;索引词汇缺乏控制和专指性;词表结构不完整;词间关系模糊或不正确;标引不详:

标引前后不一致;标引人员遗漏了原文的重要概念或用词不恰当等。

从使用者角度(或称检索人员水平):

检索策略过于简单;选词和逻辑组配不当;检索途径和方法太少;检索人员业务不熟练和缺乏耐心;检索系统不具备截词功能和反馈功能;检索时不能全面地描述检索要求等。

查淮率是指系统在进行某一检索时,检出的相关文献量与检出的文献总量的比率,它反映所检出信息与检索需求之间的相关程度。

反映检索准确性,其补数就是误检率。

误检指检索出与课题不相关的文献,误检率是指误检的文献量与检出的文献总量的比率,它反映该系统中不相关的文献在多大程度上被错误地检索出来。

查淮率和误检率的计算公式如下:

影响查准率的因素

从数据库角度:

索引词不能准确描述信息主题;组配规则不严密或错误;标引过于详尽;检索系统不具备逻辑“非”功能和反馈功能;检索式中允许容纳的词数量有限。

从数据库使用者角度:

选词不当,如所选的词专指度不够;如语法,虚拟语气。

词间关系不正确,组配错误;如把“与”关系处理成“或”关系截词部位不当;检索限定范围过大,如用关键词即可,却用了全文字段。

实际上,影响检索效果的因素是非常复杂的。

根据国外有关专家所做的实验表明,查全率与查准率是呈互逆关系的。

要想做到查全,势必会对检索范围和限制逐步放宽,则结果是会把很多不相关的文献也带进来,影响了查准率。

企图使查全率和查准率都同时提高,不是很容易的。

强调一方面,忽视另一方面,也是不妥当的,应根据信息需要进行调整。

检索策略的调整

提高查全率的措施:

扩大检索范围,增加检索网罗度入手。

具体措施有:

①增加检索词调节检索式的网罗度(用同义词.近义词.相关词进行or连接)②降低检索词的专指度(用上位词、相关词)③扩大检索课题的目标,使用核心概念,排除次要概念,减少逻辑“与”的运算④利用截词检索、模糊检索、前方一致⑤扩大限定检索范围(字段.类目.年限.语种.文献类型等)⑥采用族性检索功能较强的分类号或分类目录检索。

提高查准率的措施:

缩小检索范围,提高检索专指度。

具体措施如下:

①精确确定检索课题的目标,使用专业词汇。

②提高检索词的专指度(用下位词.专指性较高的词)③增加检索词用and连接④用not排除无关的概念⑤缩小限定检索范围(字段.类目.年限.语种.文献类型等)

第四章检索平台通用规则

由于每个数据库提供商的资源和检索思路不同,导致各个检索系统从界面到内容、从功能到结果输出都会有所不同。

同时,检索系统的界面和功能也在不断发展和变化。

但各个检索系统的目标却是一致的,都是揭示资源内容为用户服务,因此总结规律,我们可以发现使用检索系统的通用规则。

掌握一个检索平台(或数据库)

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 高等教育 > 经济学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1