信息检索考试重点.docx
《信息检索考试重点.docx》由会员分享,可在线阅读,更多相关《信息检索考试重点.docx(8页珍藏版)》请在冰豆网上搜索。
信息检索考试重点
信息检索考试重点
信息检索
考试类型:
闭卷考试题型:
单选、判断、名词解释、应用(信息检索过程)
考试重点:
1、文献:
文献是记录知识的一切载体。
凡是用文字、图形、符号、声频、视频记录下来,具有存贮和传递知识功能的一切载体都称为文献。
2、文献类型:
印刷型缩微型视听型机读型
3、知识:
是在人们对信息进行分析的基础上提供的解决方案。
知识管理的主要目的是使信息能够服务于人们的行动和决策。
4、信息:
是凭借人的认知能力和经验对数据进行选择、评价、组织和分析的结果。
信息管理主要是解决数据的相关性、系统化和规范化的问题。
5、数据:
指离散孤立的互不关联的事实、文字、数据和符号,这些资料之间缺乏相关性。
6、文献级次:
零次文献(灰色文献):
指非正式出版物或非正式渠道交流的文献。
一次文献(原始文献):
凡是著者在科学研究,生产实践中根据科研成果,发明创造撰写的文献,称为一次文献。
一次文献是文献的主体,是最基本的情报源,是文献检索的对象。
二次文献:
它是将分散、无序的一次文献,按照一定的原则进行加工,整理、提炼、组织,使之成为便于存贮、检索的系统。
如目录等检索工具。
三次文献:
它是在利用二次文献的基础上,选用一次文献的内容,进行分析、概括、综合研究和评价而编写出来的文献。
它又可分为综述研究类和参考工具类两种类型。
前者如动态综述、学科总结、专题述评、进展报告等;后者如年鉴、手册、大全等。
三次文献源于一次文献,又高于一次文献,属于一种再创性文献。
三次文献一般来说系统性好,综合性强,内容比较成熟,常常附有大量的参考文献,有时可作为查阅文献的起点。
高级文献:
计算机型文献,如:
PTF、HTM等。
7、十大文献源
1图书(Books)2期刊(Periodicals)或(Journal,Magazine)3科技报告(Technicalreports)4政府出版物5会议文献(Conferencepapers)6专利文献:
(patents)7学位论文(Thesis,Dissertation)
8技术标准(Technicalstandards)9科技档案(document)10产品样本
8、文献检索:
从大量的文献中查找与特定课题有关的文献的过程。
9、检索语言是根据信息检索的需要,专门用于各种手工和计算机化的文献信息检索与存贮系统描述文献主题概念和研究课题主题概念的表达检索提问的人工语言。
检索语言又称为索引语言、存贮与检索语言、文献语言、文献工作语言、标引语言、标引符号、标识系统等等。
9、检索方法:
常用法:
顺查法、倒查法、抽查法。
追溯法:
最新引文法。
循环法(分段法):
常用法+追溯法
10、检索步骤:
分析课题--选择检索系统--检索途径--检索标识--检索方法--查找文献线索--获取原文
11.信息检索的涵义:
从广义上讲,信息检索包括两个过程,
一是信息存储(informationstorage),即信息的标引、加工和存储过程:
二是信息检索(informationretrieval),即信息用户的查找过程。
从狭义上讲,信息检索仅指后一部分。
信息检索的本质是一个匹配的过程,即用户的信息需求和信息存储的信息集合进行比较和选择的过程
12、信息存储和检索过程的基本原理
13、信息检索的类型:
按信息检索的内容划分:
文献检索数据检索事实检索概念检索
按信息检索的组织方式划分:
全文本检索多媒体检索超文本检索
14、检索语言(retrievallanguage)是文献信息标引和检索提问而约定的人工语言。
15、检索语言的种类
16、检索方法:
查找(Searching)就是实施检索策略、搜寻所得文献信息的过程。
17、拉网法:
在不了解查询某一专题信息的URL地址时,可从提供信息总目的Web页面开始浏览,沿着专题链接层层查找,直至找到有关的内容为止。
然后用“书签”保存这个页面的URL,转向另一个分支。
这种方法可以迅速获得较多的相关地址,然后进行筛选。
就使用引擎而言,国外专家也建议先用链接页面多、响应时间快的引擎。
18、引文法(跟踪法):
文献之间的引证和被引证关系揭示了文献之间存在的某种内在联系,引文法(也有称为跟踪法)就是利用文献后所附的参考文献、相关书目、推荐文章和引文注释查找相关文献的方法。
引文法又可分为两种,一种是由远及近地搜寻,即找到一篇有价值的论文后进一步查找该论文被哪些其它文献引用过,以便了解后人对该论文的评论、是否有人对此作过进一步研究、实践结果如何、最新的进展怎样等等。
由远及近地追寻,越查资料越新,研究也就越深入,但这种查法主要依靠专门的引文索引。
另一种较为普遍的查法是由近及远地追溯,这样由一变十,由十变百地获取更多相关文献,直到满足要求为止。
这种方法适合于历史研究或对背景资料的查询,其缺点是越查材料越旧,追溯得到的文献与现在的研究专题越来越疏远。
因此,最好是选择综述、评论和质量较高的专著作为起点,它们所附的参考文献筛选严格,有时还附有评论。
19、常规法:
所谓常规法就是利用常规检索工具查找有关文献的方法,是信息时代应掌握的最基本的信息查找方法。
常规法可分为顺查法、逆查法和抽查法。
20、排除、限定和合取法
这实际上是将信息加工的方法融入检索中去。
思维中使用排除这一概念,是指对查找对象的产生和存在的状态在时间和空间上加以外在否定。
把这一方法移植到检索中,就是在时间或空间上极大地收缩检索范围。
限定法是相对于排除法而言的,指对查找对象在时间和空间上加以内在的肯定。
排除的结果必然是限定,反之亦然。
21、分类检索的步骤
(1)分析待检课题,确定其学科,并弄清学科间的各种关系。
(2)查出待检课题的分类号(工具简单时可以省略)
(3)选择适当的检索工具
(4)进入检索系统后选择分类号途径,并在对话框内输入分类号,开始检索。
(5)对比题目,阅览相关信息,选出所需信息,并下载相关信息。
(6)原文的索取
22、检索技术
(1)布尔检索(booleanretrieval)是用布尔逻辑算符将检索词、短语或代码进行逻辑组配的一种技术,也是目前最常用的一种检索技术。
(2)截词检索(truncationretrieval)是指在检索词的适当位置截断,用截断的词的一个局部进行的检索。
由于检索词与数据库所存储信息字符是部分一致性匹配,所以又称部分一致检索。
截词符多采用通配符“?
”、“$”、“*”
(3)邻近检索(proximityretrieval),又称为“位置检索”、“词位检索”、“全文检索”是一种可以不依赖叙词表而直接使用自由词进行检索的一种技术,它以数据库原始记录中词语的相对次序或者位置关系为对象进行组配运算。
(4)字段限定检索:
是用于限定提问关键词在数据库记录中出现的区域,控制检索结果的相关性,是提高检索效果的一种有效检索方法。
例子:
(minicomputer/DE,TIORpersonalcomputer/ID,TI)ANDPY=2008ANDLA=English
这个检索式所表达的检索要求是:
查找2008年出版的关于微电脑或者个人电脑的英文文献,并要求“微电脑”一词在命中文献的叙词字段、标题字段出现,“个人电脑”一词在命中文献的自由词字段出现。
23、信息检索的基本步骤
24、确定检索词
1.切分:
是对课题的语句以自由词为单位进行拆分,转换为检索的最小单元。
自由词切分仅适用于自然语言检索。
2.删除:
是对自然语言中不具有实质性检索意义的虚词(如介词、连词、副词等),或者使用频率较低的词,或者专指性太高、过分宽泛的词,或者过分具体的限定词、禁用词,或者不能表达课题实质的高频词,或者存在蕴含关系可以合并的词,一律予以删除,使自然语言转换成为关键词和主题词的集合。
3.替补:
在进行切分、删除后,对检索词进行替换和补充。
4.组合
①概念相交组合。
这个新概念是原来用以组合的两个概念的下位概念,如曲柄连杆机构*发动机=汽车发动机。
②概念限定组合。
这个新概念可用来表示这一事物的某一属性或某一个方面。
如电视机*数字化=数字电视机。
③概念并列组合。
具有概念并列关系的自由词间的组配,其结果使概念检索的范围扩大,如环境污染+环境保护=环境污染和环境保护。
④概念删除组合。
是指两个具有上下位关系的自由词间的组合,其结果使概念检索的范围缩小,如信息处理-模拟信息处理=数字信息处理。
⑤增加
(1)增加“限义词”。
有两种方法:
直接增加限义词、挖掘隐含词、提取潜在的检索词;把限义词以逻辑的方式加入,可采用逻辑“与”或逻辑“非”的方法增加限义词。
(2)分析隐含概念。
挖掘潜在的主题词还可以通过对上位词、下位词、同类词关系的分析得到其它相关主题词。
如例1:
“妇女吸烟与肺癌的关系研究”,切分、删除后得:
吸烟、肺癌两个检索词,分析、补充上位词可增加检索词:
烟、癌症、恶性肿瘤。
提取检索词首先是切分、删除,其次是进行替补、组合和增加。
当检索结果信息量过多时
原因:
选用了多义性的检索词截词截的过短,输入检索词太少应该使用“与(AND)”的使用了“或(OR)”;优先运算符‘()’使用错误。
考虑缩小检索范围。
方法如下:
(1)采用专指性强的主题词,减少同义词同族相关词等相关性不强的检索词。
(2)增加限制概念,采用‘AND’算符连接检索词或进行二次检索。
(3)使用字段限定,把检索词限定在题目主题词等主要字段。
(4)缩短检索年限,限制检索结果的文献类型语种及出版国。
(5)使用‘NOT’算符,排除无关概念。
(6)调整位置算符,由松变严。
(7)改模糊检索为精确检索。
当检索结果信息量太少时
原因:
检索词拼写错误;遗漏重要的同义词或隐含概念;检索词过于生僻具体;没有使用截词算符;位置算符和字段算符使用的过多使用过多的‘AND’考虑扩大检索范围方法如下:
根据词表的分类结构体系口占关键的检索词,用扩展按钮增加同义词和相关词并用‘or’算符连接这些词
(2)降低检索词的专指度,可从词表或检出文献中选择上位词或泛指词补充道检索式中(3)减少检索年限文献类型语种以及出版国的限制(4)取消某些限制过严的字段限制位置算符限制(5)在词干相同的单词后使用截词符(6)改精确检索为模糊检索(7)同时使用拼写正确的词以及拼写错误的词或存在多种普遍错别字的词作为检索。
计算机信息检索的本质是信息用户的提问标识和信息集合数据库特征标识的匹配过程。
计算机信息检索的系统构成:
服务器通信网络检索终端数据库
文献检索过程:
制定检索策略—选择检索路径—使用检索方法—熟悉检索步骤(分析课题—选择检索系统—检索途径—检索标识—检索方法—查找文献线索—获取原文)。