信息检索原理期末重点背诵知识点Word下载.docx
《信息检索原理期末重点背诵知识点Word下载.docx》由会员分享,可在线阅读,更多相关《信息检索原理期末重点背诵知识点Word下载.docx(15页珍藏版)》请在冰豆网上搜索。
17、灰色文献的概念:
P147
18、会议文献的概念:
P158
19、科技报告的概念:
P163
20、查新的概念:
P200
21、科技查新的作用:
P201(每一个小标题后面要自己展开一段)
关于上课讲的那几个数据库大家自己看一下PPT,掌握一下。
以上纯属个人观点
题型:
名词解释:
5*4=20
简答题:
4*10=40
论述题:
2*20=40
考试时间:
1月8日上午:
9:
00—11:
00
1.信息检索的概念(P1)
信息检索有广义和狭义两重含义。
广义上说,信息检索是指将信息按照一定的方式组织和存储起来,并根据信息用户的需求查找相关信息的过程。
它包含信息存储和信息查找两个过程。
信息检索是对信息项进行表示、存储、组织和存取。
狭义的讲,信息检索仅仅指信息查找的过程,即从信息集合中找出所需信息的过程,相当于“信息查询”或“信息查找”。
文献替代(著录):
即将表示文献资源特征的元数据替代它指代的资源,文献替代过程实际上是对原始文献的外表特征(包括题名、著者、出处等)和内容特征(包括分类号、主题词、摘要等)进行描述的过程,这项工作通常称为著录,著录的结果是将原始文献制成它的替代文献)——二次文献。
文献整序:
指的是对替代文献进行标引,给出文献标识(如分类号、主题词等),将所有替代文献按其标识进行有规律的组织排列,形成可检索的信息资源集合。
信息检索系统:
信息存储与信息查询功能的一类信息服务设施(或工具)。
信息检索的模型:
就是运用数学的语言和工具,对信息检索系统中的信息及其处理的过程加以翻译和抽象,表述为某种数学公式,再经过演绎、推理、解释和实际校验,反过来指导信息检索实践。
搜索引擎:
是一种Web上应用的软件系统,它以一定的策略在Web上搜集和发现信息,对信息处理组织后,为用户提供Web信息查询服务。
元搜索引擎:
又称多元搜索引擎或集成式搜索引擎,是多个独立搜索引擎的集合,无独立的数据库,通过一个统一的用户界面,可以同时对多个搜索引擎进行检索操作,即用户只需一次输入检索式,便可检索一个或多个独立搜索引擎。
严格来说,元搜索引擎只能算是一种用户代理,而不是真正的搜索引擎。
CBR:
基于内容的多媒体信息检索,主要利用计算机自动收集、量化和存储信息内容自身的特征(如颜色、纹理、形状),表示成向量空间,建立基于内容特征的多媒体索引库,用户在查询过程中,系统会自动将用户提问转化成向量,并与已有信息的向量空间进行相似度匹配计算,具有较强的客观性。
专利:
即专利权的简称。
是由专利机构依据发明申请所颁发的一种文件。
这种文件叙述发明的内容,并且产生一种法律状态,即该获得专利的发明在一般情况下只有得到专利所有人的许可才能利用(包括制造、使用、销售和进口等),专利的保护有时间和地域的限制。
我国专利法将专利分为三种,即发明、实用新型和外观设计。
(专利权、专利技术、专利说明书)
专利文献:
主要是指是实行专利制度的国家及国际专利组织在受理、审批、注册专利过程中产生的官方文件及其出版物的总称。
就广义而论,专利文献是指实行专利制度的国家及国际性专利组织,在审批专利过程中产生的官方事件及其出版物的总称,主要包括申请说明书、专利说明书等各类有关文件,以及专利公报、检索工具和专利分类表等出版物;
就狭义而言,专利文献通常单指专利说明书。
灰色文献:
通常指不经营利性出版商控制,而由各级政府、科研院所、学术机构、工商业界等所发布的各类印刷版与电子版文献资料。
会议文献:
就是在各种会议上宣读和交流的论文、报告、产生的记录及发言、论述、总结等各种形式的文献资料,是国际学术交流的重要组成部分。
按其出版方式可分为会前文献、会中文献和会后文献。
(新颖性、专业针对性、及时性、连续性)
查全率:
是指检出文献中合乎需要的文献数量占数据库存在的合乎该需要的所有文献的比例,用来表示信息系统能满足用户需求的完备程度。
查准率:
是指检出文献中合乎需要的文献数量占检出文献全部数量的比例,是衡量信息系统拒绝非相关信息的能力的量度。
科技报告:
是围绕某个课题的科技活动所取得的阶段性进展或最终性成果的记录与书面报告,是科研生产活动的第一手资料。
有时又被称为研究报告,它是科技人员交流其研究活动的重要手段,是研究单位向为其提供经费的部门反映研究情况的正式技术文件,以积累、传播和交流为目的,由科技人员按照有关规定和格式撰写,真实而完整地反映科研人员所从事科技活动的内容和经验。
查新:
是科技查新的简称,是指查新机构根据查新委托人提供的需要查证其新颖性的科学技术内容,按照本规范操作,并作出结论。
一、信息存储与检索原理
1、原理:
信息检索的实质就是将用户的检索提问标识与存储在信息检索系统中的信息特征标识进行比较、匹配,两者一致或者信息特征标识包含了检索提问标识,则具有该标识的信息就从检索系统中输出,输出的信息就是检索命中的信息。
(通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。
其中,存储是检索的基础,检索是存储的目的。
)
信息存储与检索的一般过程
2、文献替代(著录)
即用表示文献资源特征的元数据替代所指代的资源。
特征包括外表特征和内容特征。
著录的结果是将原始文献制成二次文献。
3、文献整序(标引)
对文献进行标引,给出检索标识(如分类号、主题词等),将所有替代文献按照其标识进行有规律的组织排列,形成可检索的信息资源集合
文献特征标识与检索提问标识的匹配
二、联机检索、光盘检索、网络信息检索的特征和区别
1、联机检索(1965-1990):
即信息用户利用终端设备,通过通信网络或通信线路与检索系统联机,进行“人机对话”,从检索中心的数据库查找所需的文献倍息的过程。
(1)构成:
联机检索中心、通讯设施、检索终端。
(2)联机检索的特点
(3)优点:
检索效率高,可在几分钟内完成检索
检索范围广泛全面,提供的数据量从几十到几百个不等
检索内容新,实时性强,可检索到最新文献
检索功能强,检索途径多
缺点:
检索费用高(机时/DU、记录输出打印费、通信费)
检索界面单一,检索技术和技巧不易掌握
2、光盘检索
(1)由于光盘具有存储密度高、轻便、无机械磨损、易携带耐用等待点,从20世纪80年代中期生产后便很快被广泛用作信息载体、检索工具。
(2)光盘按存储信息的种类可分为:
激光唱盘、激光视盘以及存储文字、数字等文件资料的数字光盘;
按读写数据的模式可分为只读光盘、写一次光盘和可擦写光盘。
(3)光盘检索的类型
1)单机(Stand-Along)光盘检索系统
由微机、光驱、光盘数据库等硬件设备、操作程序、检索程序等软件组成,提供单用户、单机的使用,系统结构简单,但数据量少,利用率低。
2)联机光盘检索系统
将光盘上网,一般只提供在局域网上的检索,用户可以分时共享光盘数据库的信息。
光驱常采用光盘塔(Tower)和光盘库(Jukebox)两种形式。
(4)光盘检索的特点
价格低(一次购买无限次使用,无需联机检索费用)
存储容量大而体积较小
无需通讯联系,不受时间限制
使用方便,易于操作
使用寿命长
机房、设备无特别要求,投资少
信息获取速度和更新频率较联机检索慢
3、网络信息检索(90年代至今)
(1)早期的Internet信息服务模式:
常见服务:
、邮件、新闻组
操作复杂、表现形式单调、信息以文件形式存在
(2)网络信息检索(90年代至今)
网络信息检索一般指因特网检索,是通过网络接口软件,用户可以在一终端查询各地上网的信息资源。
网络信息检索与联机信息检索最根本的不同在于网络信息检索是基于客户机/服务器的网络支撑环境的,客户机和服务器是同等关系,只要遵守共同协议,一个服务器可以被多个用户访问,一个客户也可以访问多个服务器。
特点:
检索范围大,覆盖因特网上几乎所有的网络资源;
超文本检索,结合多媒体的全文信息检索;
界面友好,用户操作相当方便;
良好的反馈能力和快速响应能力;
与国际联机检索相比,其最大的优点在于经济;
与光盘检索相比,其最大的优点在于内容更新快。
网络检索与联机检索和光盘检索有许多相同之处如需要数据库,要制定检索策略等。
1、联机检索的速度快,效率高。
检索的范围广泛、全面;
检索途径多,方便、灵活;
检索内容新、实时性强;
检索辅助功能完善。
但是检索的费用高;
对检索系统及其文档的收录、标引、特点等问题较难了解、熟悉;
检索技巧和技术不易掌握。
2、光盘检索其存储容量大而体积微小;
使用方便,不需要通信联系,不受时间限制;
使用方便、易于操作;
价格低;
使用寿命长,用户易接受;
机房无特别要求,投资少,要求设备简单,可随地安装。
但是光盘检索的信息获得比联机检索慢,信息更新不及时。
三、信息检索系统的评价指标
1)查全率(检全率,召回率,RecallRatio)
检全率==´
检出相关文献量
_______________*100%
系统中相关文献总量
2)漏检率(Omissionfactor)
=漏检率=´
漏检相关文献量
___________________*100%
3)查准率(检准率,相关率,PrecisionRatio)
检准率=检出相关文献量
___________________*´
100%
检出文献总量
4)误检率(NoiseFactor)
=误检率=´
误检文献量
_____________*100%
检出文献总量
查全率与查准率示例
查询Q,本应该有100篇相关文档,某个系统返回200篇文档,其中80篇是真正相关的文档。
查全率=80/100=0.8
查准率=80/200=0.4
结论:
查全率较高,但是查准率较低
四、布尔模型、向量空间模型、经典概率模型的优缺点(经典信息检索模型):
1)基于集合论的模型(SetTheoreticmodels)
布尔模型、扩展布尔模型
2)基于代数论的模型(Algebraicmodels)
向量空间模型
3)基于概率统计的模型(Probabilisticmodels)
经典概率模型
(1)布尔模型:
最简单的信息检索模型,是基于集合理论和布尔代数的一种的检索模型,被大多数检索系统所采用。
查询是由三种布尔逻辑运算符AND、OR、NOT连接索引词组成的布尔表达式。
每个索引词在一篇文档中只有两种状态:
出现或不出现,对应权值为0或1。
将查询表达式与文档进行匹配(单词-文档矩阵)。
布尔模型的优点
1)简单、容易理解,经过某种训练的用户可以容易地写出布尔查询式。
2)通过使用复杂的布尔表达式,可以很方便地控制查询结果。
3)检索速度快。
到目前为止,布尔模型是最常用的检索模型。
布尔模型的缺点
1)不支持部分匹配,而完全匹配会导致太多或者太少的结果文档被返回。
2)普通用户构造查询不一定准确,容易构造错误。
3)很难对输出结果进行排序
不考虑索引词的权重,所有文档都以相同的方式和查询相匹配。
可通过扩展来实现排序的功能,即“扩展布尔模型”。
(2)扩展布尔模型:
为了克服布尔检索模型查询结果的无序性,引入扩展的布尔检索模型。
相似度计算公式:
若检索项Term1ORTerm2,则
若Term1ANDTerm2,则
(3)向量空间模型:
通过对检出文献按相似度降序排列的方式来实现文献与查询的部分匹配。
向量空间模型的优缺点
优点:
1)标引词(Term)加权改进了检索效果。
2)支持部分匹配和近似匹配,其部分匹配策略运行检出与查询条件接近的文献。
3)结果可以排序。
4)可用到相关领域(文本分类、相似匹配……)
缺点:
1)标引词独立的假定,损失掉大量的文本结构信息。
2)相似度的计算量较大。
(4)经典概率模型:
(核心思想)若以往查询中,如果某个文档和某个词相关度大,则在以后的查询中,用这个词查询时出现该文档的概率高。
给定一个用户提问,则检索系统中存在一个包含所有相关文档的集合(理想结果集R)。
在此基础上,用户可以对初始的检索结果集合中文档相关与否进行判断。
在根据这些反馈信息,系统便可以在后续的检索处理中不断做出优化和改进。
经典概率模型的优缺点
1)建立在数学模型基础上,理论性较强。
2)文档可以按照他们相关概率递减的顺序来排序。
1)需要最初把文献分为相关集合和不相关集合。
2)没有考虑标引词在文献中出现的频率问题。
3)独立性假设与现实情况不完全相符。
4)计算复杂度相对较大。
五、布尔逻辑检索、邻近检索概述、短语检索概述、截词检索概述的区别、联系
1、布尔逻辑检索概述
(1)将多个检索词用布尔运算符组合在一起进行检索。
(2)逻辑运算符:
逻辑与(AND,*,&
逻辑或(OR,+,|)
逻辑非(NOT,ANDNOT,-,!
并非所有数据库都遵循以上算符。
绝大部分计算机信息检索系统都支持布尔逻辑检索。
(3)关于“优先级”问题
(1)当布尔运算符在一个检索式中连续出现时,它们的优先级通常是不同的。
(2)大部分数据库规定:
-优先级最高,*次之,+最低。
2、邻近检索概述
又称位置限制检索,是用位置运算符来表达检索词与检索词之间顺序和词间距的检索。
支持邻近检索的系统包括ProQuest(Dialog)、ScienceDirect、Westlaw等。
ProQuest的常用位置算符包括:
Near、Pre等。
(1)位置运算符Near/n
查找包含A词和B词且两词距离很近的文档。
使用数值n来指定两词之间相隔的词数。
(2)位置运算符Pre/n
查找包含A词和B词且A词在B词之前出现的文档。
3、短语检索概述
使用"
"
将多个关键词作为整体检索,又称精确检索。
多用于人名、机构名、地名、书名、电影名检索。
4、截词检索概述
截词检索即在检索词中保留相同的部分,把变化部分用通配符代替。
(1)一般情况下,使用?
或#代表0至1个字符(有限截词);
使用*或$代表0至多个字符(无限截词)。
Google部分支持*检索,Baidu不支持通配符检索。
(词形变换、年代区间、作者、同根词)
(2)完全匹配、任意匹配与前方一致
1)完全匹配
要求输入的检索词,与数据库中的文献标识完全相同(前后无其他字符),才能命中。
2)任意匹配
前后可包含其他字符,相当于输入“*检索词*”。
3)前方一致
属于截词检索的一种,相当于输入“检索词*”。
5、字段限制检索:
组成数据库的最小单位是记录,一条完整的记录中的每个著录项为字段。
在信息检索过程中,为了提高查全率或查准率,需要将检索范围限制在特定的字段中,即字段限制检索。
(基本索引字段、辅助索引字段)
6、其他检索表达式:
1)括号检索:
用于改变运算的先后顺序,括号内的运算优先进行思考;
2)自然语言检索:
直接采用自然语言中的字、词、句进行提问式搜索,同一般口语一样。
特别适合不熟悉网络信息检索技术的用户使用;
3)多语种检索:
提供多种语言的检索环境供用户选择,系统按照用户选定的语种进行检索并反馈结果。
4)模糊检索:
又称概念检索,是指使用某一检索词进行检索时,能同时对该词的同义词、近义词、上位词、下位词进行检索,以达到扩大检索范围、避免漏检的目的。
5)区分大小写检索:
对于支持区分大小写检索的工具而言,若用户输入小写检索式,搜索工具既匹配大写又匹配小写;
若用户输入大写,则只匹配大写形式结果。
大部分搜索引擎对大小写不敏感。
六、信息检索的策略与技巧
(1)信息检索策略:
信息检索策略(RetrievalStrategy)是为实现检索目标而制定的全盘计划或方案,是就一个问题检索一个或多个数据库所输入的全部检索式的集合。
(2)检索关键词的选择:
对检索的概念进行关键词的切分;
关键词的剔除;
对固定短语,尽量使用引号进行精确检索;
关键词应尽量简练;
可根据网页特征选择查询词;
立足常用词、规范词,兼顾自由词;
旁类以求;
善用词的全称、简称及缩写;
勿忘上下位类词扩展;
注意外来词的译写变化。
(3)扩检:
指初始设定的检索范围太小,命中文献不多,需扩大检索范围的方法。
扩大检索范围,提高查全率的技术方法:
1)考虑同义词或近义词(使用OR连接)。
2)选择较大检索范围的字段如摘要。
3)使用截词符
4)使用上位词(如飞行器>
航天飞机>
载人航天飞机)
(4)缩检:
指开始的检索范围太大,命中文献太多,或查准率太低的一个方法。
缩小检索范围,提高查准率的技术方法:
1)使用AND、NOT等运算符限制检索范围
2)使用短语检索
3)使用位置算符
4)选择检索范围较小的字段
5)使用下位词
(5)充分利用组合检索:
除使用布尔检索表达式外,应尽可能配合邻近检索、字段限制检索等检索方法。
有些查新课题的查新点内涵很深,难以用有限的词汇准确、全面地描述,仅用关键词检索极易造成漏检,可采用分类-主题组合检索。
七、搜索引擎的分类
1、按信息内容组织方式划分
1)机器人搜索引擎(狭义的SearchEngine)
不依靠人工发现和甄别信息,由蜘蛛(Spider)以某种策略自动在互联网中搜集信息,由索引器建立索引,由检索器根据用户查询检索信息并返回给用户。
其优点是信息量大、更新速度快;
缺点是返回的信息过多、冗余信息较多,用户必须从结果中进行筛选。
2)目录式搜索引擎
以人工或半自动方式搜集信息,由编辑人员对资源进行选择、评价、编制摘要、分类后形成的主题目录。
具有信息准确,信息质量较高等优点,同时存在收录网站资源规模有限、维护量大、信息更新不及时等不足。
代表产品:
早期Yahoo!
、早期Sohu、网址导航
2、按专业范畴划分
1)综合性搜索引擎
内容涵盖各个学科和生产生活的各个领域,可检索图片、音频、视频等多种资源类型,适用对象广泛。
代表产品:
Google、Yahoo!
、XX、搜狗
2)专业性搜索引擎(垂直搜索引擎)
收录某一个或几个学科资源的搜索引擎,具有专门搜索功能的搜索引擎,面向特定的用户的搜索引擎(面向特定学科、行业、对象或用户)。
特点“专、精、深”。
3、按检索功能划分
1)独立搜索引擎
又称单一搜索引擎或常规搜索引擎,有自己的数据库,搜索时通常只检索自己的数据库。
2)元搜索引擎(MetaSearchEngine)
又称多元搜索引擎或集成式搜索引擎,是多个独立搜索引擎的集合。
通过统一用户界面同时检索多个引擎,即用户只需一次输入检索式,便可检索一个或多个独立搜索引擎,无独立数据库。
严格来说,Meta搜索引擎只能算是一种用户代理,而不是真正的搜索引擎。
八、多媒体信息检索
1、多媒体信息检索方式:
1)基于文本的多媒体信息检索
2)基于内容的多媒体信息检索
2、基于内容的多媒体信息检索
(1)基于内容的信息检索(Content-BasedRetrieval,CBR),利用计算机自动收集、量化和存储信息内容特征,表示成向量空间,建立基于内容特征的多媒体索引库,用户在查询时将用户提问转化成向量,并与已有信息的向量空间进行相似度匹配计算,具有较强的客观性。
(2)劣势:
特征空间的维度高,用户与系统抽取的信息之间存在语言鸿沟、对同一数据的解释缺乏一致性。
(3)普及程度:
局限在较小的数据集合(实验室层面)。
有以下几种:
1、基于内容的图像检索(颜色分布法)
(1)QBIC(QueryByImageContent)
基于内容图像检索领域应用最早的商用产品,由IBMAlmaden研究中心于1995年开发。
为IBMDB2数据库提供图像检索,并支持基于Web的图像检索服务。
系统结构及所用技术对后来的视频检索有深远的影响
(2)TinEye
TinEye是由加拿大Idé
e公司所开发的图像搜索系统,于2008年发布,提供用户依据URL或上传的图像文件,搜索网络上近似的图像与位置。
主要用途:
1)发现图片的来源与相关信息。
2)研究追踪图片信息在互联网的传播
3)找到高分辨率版本的图片
4)查看图片的不同版本
2、基于内容的视频信息检索系统
采用镜头边界检测技术,将连续的视频流划分为具有特定语义的视频片段——镜头,作为检索的基本单元,在此基础上提取代表帧(RepresentativeFrame),形成描述镜头的特征索引。
VideoQ
哥伦比亚大学创建的视频搜索引擎。
该系统根据所检索图像中不同色块的空间关系进行相似匹配,另外也用到颜色、纹理等特征提取技术。
提供了多种查询方法,可以根据视觉特征、图像注释、草图等特征查找信息。
3、基于内容的音频信息检索系统
基于内容的声音检索主要选取音频的响度、音调、音强、带宽、音长和音色等特征予以量化,利用分析技术将大量的声音数据减少为一小组变量,通过向量比较完成对音频信息的识别、分类和检索。
3、基于文本的多媒体信息检索
人工建立元数据标引,本质类似于纯文本信息检索。
普及程度:
是现行网络检索系统中的主流方式。
检索方式:
信息分类、扩展名、关键词
优势:
实现原理相对简单,技术成熟
劣势:
具有主观性,仁者见仁、智者见智;
多媒体信息的多维性,人工描述难以穷尽。
九、专利文献
1、专利文献(中国专利的类型)
2、广义的专利文献包含:
1)专利申请书、专利说明书等一次文献
2)专利公报、专利检索工具等二次文献
3)专利分类表等辅助文献
狭义的专利文献只包含专利申请书、专利说明书。
3、专利文献的类型
(1)一次专利文献
泛指各种类型的专利说明书。
(2)二次专利文献
一般是指各工业产权局出版的专利公报、专利文摘出版物和专利索引。
4、白色/黑色/灰色文献
(1)白色文献
公开出版发行,具有国际标准刊号(ISSN)或国际标淮书号(ISBN)的正式出版物。
(2)黑色文献
不对外公开、具有完全保密性质的文献。
(3)灰色文献