信息检索原理与技术考试大纲重点整理培训讲学Word文件下载.docx
《信息检索原理与技术考试大纲重点整理培训讲学Word文件下载.docx》由会员分享,可在线阅读,更多相关《信息检索原理与技术考试大纲重点整理培训讲学Word文件下载.docx(15页珍藏版)》请在冰豆网上搜索。
知识作为信息的一部分,是一种特定的人类信息,也是人类社会实践经验的总结,是人的主观世界对于客观世界的概括和如实反映,它是无形的、与行动和决策相关、经过处理能改变思维、精神产品、环境改变含义、经过学习才能转让、无法复制的;
文献是知识的一部分,是进入人类社会交流系统的活动着的知识。
(8)文献信息流有序化阶段的三个环节:
①替代。
描述文献特征,对一次文献信息进行不同程度的提炼或压缩,形成目录、文摘、索引等二次文献信息。
从文献信息流的运动角度看,“替代”是文献信息流的流量、流向得到测度并合理调节。
②改组。
从一次文献信息中提取数据、事实和有关结论,按照易于查阅的提醒重新组合,其改组的结果,产生了手册、名录、辞典、目录等类型的文献信息。
其目的是使一次文献信息更容易被理解和使用。
③综合。
利用二次文献对一次文献所包含的知识加以综合并融入到现有知识体系中去,成为整个知识体系的有机组成部分,产生的主要成果是不断再版的百科全书、专著、教科书及综述、评论性文章。
文献信息流失一个以研究活动为起点。
按顺时针的线性顺序移动,是一次、二次、三次文献信息的演变过程。
对于“文献信息链”的研究,有利于从整体的角度了解文献信息的有序化、动态性特征,从而探索文献信息的产生、演变规律及其结构形态。
(9)信息检索:
广义理解分为信息的存储与检索。
信息的存储主要包括在某一专业领域范围内的信息选择的基础上对信息的内外特征进行描述、加工并使其有序化,形成信息集合。
信息的检索是指借助一定的设备与工具,采用一系列方法与策略从信息集合中查询所需的信息。
狭义的信息检索仅指该过程的后一部分。
存储是检索的基础、检索是存储的反过程。
信息检索的本质是用户的信息需求和一定的信息集合的匹配。
(10)信息检索系统:
指为了满足用户的信息需求而建立的存储,经过加工了的信息集合,拥有一定的输入、匹配、输出的技术设备,提供一定的检索服务功能的一种相对独立的实体。
(11)信息检索入口:
又称检索点或检索知识,是指用以标识信息的外部特征和内容特征的属性值的集合。
检索知识包括主题词、分类号、著者、标题、机构、代码等。
(12)信息检索的一般原理:
P7
(13)检索系统由物理构成(硬件、软件和数据库)和逻辑构成(文献与数据的选择与抽取子系统、词表子系统、标引子系统、查询子系统、用户与系统交互子系统、匹配子系统)
(14)检索工具的构成:
编辑说明与凡例、分类表与主题表、正文、辅助索引、资料来源目录与附录。
(15)检索系统的功能:
报道功能、存储功能、检索功能。
(16)信息检索理论:
标引理论、检索模型、检索结果的可视化。
(17)现代信息检索技术与方法:
全文检索、多媒体检索、超文本及超媒体检索、联机检索、网络信息检索、智能检索、跨语言检索、跨平台检索。
第2章信息检索模型
(1)最初的信息检索模型是以数学知识为基础的原因:
第一,数学是个有几千年历史的学科,被大家所熟知,并且通俗易懂。
第二,人们的信息有很大的模糊性,甚至用文字不能表达,而文字具有很大程度的抽象性和概括性,这样就很容易表达出人们信息检索的需求,能够很方便快捷地组建信息检索模型。
(2)信息检索模型的类型:
P18
(3)布尔检索模型:
采用布尔代数和集合论的方法,用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑运算来检索文献。
(4)布尔逻辑运算符:
逻辑与(AND)、逻辑或(OR)、逻辑非(NOT)
(5)布尔运算的运算次序:
P24
(6)传统布尔检索模型的优缺点:
优点:
1)逻辑运算符较少,便于用户学习。
2)模式较易构造,可以通过简单的关系来体现检索项的联系。
3)可以将复杂的检索过程以简单的检索式表达出来。
4)检索提问式较灵活,方便修改。
缺点:
1)布尔检索中的关键词没有权重区别。
2)检索结果分输出没有重要性是排序。
3)查全率很难控制。
4)布尔检索要求用户具有很高的素质和语义提取能力。
(7)向量空间模型:
一种基于统计学方法的数学模型。
(8)向量空间模型的工作原理:
P27
(9)向量空间模型的优缺点
优点:
1)采用自动标引技术与文献提供标引词。
2)采用部分匹配策略,使得在算法层面上的基于多值相关性的判断处理得以实现。
3)改变了布尔检索只有两种情况0和1的简单判断,标引词和文献的相关程度可在0和1之间取值,使标引者和检索者都可以比较灵活地定义标引词与文献的关系深度,改变了布尔检索模型的僵化的缺点。
4)由于其相似的程度作为检索的标准,可从量的角度判断命中与否,从而使检索结果更趋合理。
5)检索结果可以按照与提问的相关度排序输出,便于用户通过相关反馈技术修正提问,控制检索量。
6)布尔模型的逻辑关系依然可以使用,保留了直观性和方便些。
7)向量空间模型的灵活性使它有很好的可扩展性和可改进性,为以后的更加完善奠定了基础。
缺点:
1)检索过程转化为向量的计算方法,不能反映出文献之间的复杂关系。
2)由于对于任何一个提问度需要计算全部文献库中的每一篇文献,因此,计算量大,算法复杂性较高。
3)由于标引加权和检索加权是分离的,因此,随意性较大,难以保证质量。
4)有很多是假定的,在实际工作中有时会不能解决。
(10)扩展布尔检索模型:
P31
(11)扩展布尔检索模型的工作原理:
P32
(12)扩展布尔检索模型的优缺点:
拥有矢量处理的思想,体现了加权的特点;
继续保留布尔检索的直观的操作符,具有很强的描述能力;
对于输出结果可以很好的控制和排序;
通过调整权重参数的取值,可以灵活选择并得到不同的检索结果;
便于区分强制性短语和严格的同义解释与试探性短语和较不严格的同义关系;
与传统倒排文档一致,更易接受。
扩展布尔模型由于是集成了两种经典模型的一种改进的“集成化模型”,所以它不可避免的存在着臃肿、不够自然简洁的缺点,而且不是很普及,目前在信息检索领域使用较少。
(13)概率模型:
一种基于概率论原理的用以解决相对不确定性的信息检索的信息检索模型。
(14)贝叶斯定理:
P37
(15)概率模型的优缺点:
文档可以按照他们相关概率递减的顺序来计算秩,还可以通过反复反馈结果和用户需求,使结果得到很好的调整,相对合理得多。
索引词权值计算方法没有考虑到词频加权因素。
沿用了索引词之间相互独立的基本假设。
开始时需要猜想把文档分为相关和不相关的两个集合,过程比较烦琐。
(16)概率模型在处理实际问题时的困难:
初始检索文件阀值比较大,由检索式检索的相关文件数量相对于精确估计的概率而言太小。
(17)古典逻辑模型的特点:
1)逻辑模型不是一个经典模型。
2)逻辑检索要借助外部信息进行评价。
3)逻辑检索对关键词的语境更加重视。
4)对信息的联想法控制。
5)逻辑检索具有不确定性。
6)对多词一义的把握。
7)适应信息的不完全性。
(18)逻辑模型的优点:
逻辑理论具有很强的推理能力,将检索过程逻辑化可以使人们能从新的角度认识检索,并在逻辑化的基础之上建立演绎信息检索系统。
在演绎信息检索系统中,用户可以增减可用规则,可以扩充或者缩小知识库,可以憎加或减少检索目标项,从而实现扩检和缩检。
同时,通过因入更多的谓词、丰富系统的知识库、允许查询目标语句中包含更多的谓词,演绎信息检索系统也容易被扩展为用途更广的专家系统,使得信息检索系统智能化程度更高,功能更强,换句话说,基于逻辑模型,我们可以建立智能化的、提供多种检索入口的、便于扩展的信息检索系统、
(19)逻辑模型的缺点:
在逻辑模型中,信息的重要程度这一特征并不能很成功地被表达出来。
基于实质蕴涵的情报检索古典逻辑模型自然也并不能完全表达出文献d与信息需求q之间的真实联系。
它关注的仅是前后件之间在真假方面的逻辑关系,而并不关心前件和后件中所涉及的信息延展性问题。
由于查询是依靠推理来获得相关性的文献,因此推理过程越是不确定,获得的相关性文献就越少,而这样的现象在传统的逻辑检索模型中屡有发生。
(20)限词检索模型:
通过限制检索范围,达到优化检索结果的方法。
(21)字段检索:
把检索词限定在某个或某些字段中,如果记录的相应字段中含有输入的检索词则为命中记录,否则检不中。
第3章自动索引和文档组织
1、索引:
著录书刊中的题名、语词、主题、人名、地名、事件及其他事物名称,并把它们按照一定的方式编排起来,指明出处是一种检索工具。
2、索引的发展历程:
人工索引阶段、机辅索引阶段、自动索引阶段
3、索引的功能:
检索功能、分解功能、梳理功能、聚类功能、追踪功能、导航功能、预测功能
4、常见索引的类型:
主题索引、著者索引、名称索引、地名索引、题名索引、数字或代码索引、分类索引
5、索引的过程:
为了方便查询而对信息指定索引款目的过程。
包括信息采集、信息标引、建立索引。
6、索引建立的步骤:
选题,建立主索引文件;
对主索引关键词进行抽词倒排,建立目标格式文件;
排序与归并。
7、信息标引分为受控标引和自然语言标引。
受控标引指采用受控语言中的标识表达主题概念的标引方式,主要有分类标引和主题标引;
自然语言标引是指采用自然语言语词作为标识来表达主题概念的标引方式。
8、分类标引:
依据一定的分类语言,对信息资源的内容特征进行分析、判断和选择,赋予分类标识的过程。
9、分类标引的要求:
准确性、充分性、一致性、适用性。
10、分类标引规则:
基本标引规则、一般标引规则、特殊标引规则。
11、主题标引:
对信息内容进行主题分析、确定主题概念,然后按照一定的词汇控制方式,为标引对象赋予恰当的语词标识的过程。
12、标引方式:
根据文献或信息特点和使用需要确定的标引和揭示主题的形成。
包括整体标引、全面标引、对口标引、综合标引和分析标引等。
13、标引方法:
标题法、元词法、叙词法。
14、标引规则:
(1)选用标引词的基本规则:
正式词标引规则;
相对专指标引规则;
标引方案优先顺序规则;
适度标引规则;
一致标引规则
(2)叙词组配标引的基本规则:
叙词组配必须是概念组配;
组配结果要求所表达的概念清楚;
叙词组配中要注意次序。
15、自然语言标引:
是一种采用自然语言作为标识表达主题概念的标引方式。
16、汉语语词的切分方法:
词典分词法、切分标记的分词法、基于语法语义理解的分词方法、基于神经网络的分词方法。
17、自动标引:
指利用计算机从各种文献信息中自动提取有关标识的过程。
18、层次聚类法:
依据一种事先决定的相似性或非相似性度量和类间距离,经过计算建立聚类图,在根据聚类图决定分类结果。
19、文献自动分类:
指首先分析被分类对象中的特征,将其与各种类别中对象所具有的共同特征或一定的分类标准、分类参数进行比较,然后将