信息检索复习整理.docx
《信息检索复习整理.docx》由会员分享,可在线阅读,更多相关《信息检索复习整理.docx(13页珍藏版)》请在冰豆网上搜索。
信息检索复习整理
1.1信息检索定义:
广义:
信息检索包含信息存储和信息获取两个过程,信息存储指通过对大量无序信息的选择和收集、著录和标引等方法,建成各种各样的信息检索工具或信息检索系统,使之成为有序化信息集合的过程,获取是存储的逆过程,实质是根据特定的需求,运用已组织好的检索系统,将特定的性能戏查找出来。
狭义:
是指广义的信息检索的后一个过程,即信息抹去的过程,相当于人们所说的信息查检等。
1.2检索语言的特点
老师的是:
A简单专指B一一对应C便于排列D便于比较
个人整理:
以概念逻辑为基础,词汇与概念一一对应,一词一义,排除多词一义、一词多义和词义不符的情况,并能显示概念之间的相互关系,便于操作,可使标引和检索快捷、准确。
1.3功能
(1)表达文献的特征
(2)集中相同或相关的文献
(3)系统化和组织化
(4)相符性比较
1.4分类:
(1)手工检索系统:
书本式,卡片式
(2)计算机检索系统:
硬件,软件,数据
1.5理论基础[了解即可]
信息检索原理:
布尔逻辑检索、向量空间检索、模糊集合检索等理论模型。
信息检索技术:
布尔检索、截词检索等常用检索技术和当代新兴技术。
信息检索系统:
信息选择、标引、提问处理等子系统。
信息检索评价方法:
查全率、查准率、误检率、漏检率等评价参数。
2.2分类检索语言的特点:
(1)是一部类目的汇编
(2)是一个类目的体系
(3)是一部类目的“词典”
(4)是一部类目的排列表
2.3分类检索语言的作用:
进行分类标引和组织分类检索工具的规范,作为分排架的依据
是检索者从分类途径检索文献资料的指南,是文献工作人员中常用参考手册
2.4体系分类法基本原理概述:
体系分类法是运用逻辑分类原理,依据文献内容的学科、专业或职业性质及其他特征,对文献情报进行系统化组织
在只是分类为基础建立起来的体系分类表中,任何一个只是部类的位置都大体显示出它在只是总体系中的地位、内容归为以及与其他只是部类的关系
使用次序分类体系性能的影响实例
第一体系
内容-地区-时间
第二体系
地区-内容-时间
第三体系
时间-地区-内容
经济规划
北京市
长期规划
中期规划
短期规划
上海市
天津市
北京市规划
经济规划
长期
中期
短期
科研规划
教育规划
长期规划
北京市
经济规划
科研规划
教育规划
上海市
天津市
科研规划
上海市规划
中期规划
教育规划
天津市规划
短期规划
2.4类目的排列:
1、纵向排列——类目之间的隶属关系,人是属于动物还是社会产物?
2、横向排列——同位累的排列次序,100个人都去买房,怎么排队?
上述两项牌类,那一项更难?
经常用XX搜索,搜索出结果怎么排列?
[这里老师有举公务员考试例子,常识等,这个自己去可以去参考其他例子]
体系法的局限性:
1、难以克服的矛盾——集中于分散
2、列举式的列类方法
3、阉割的逻辑体系给增加、删减类目造成困难
例子:
《中国图书馆书分类法》
A马克思主义、列宁主义、毛泽东思想
B哲学
C社会科学总论
D政治、法律
社会科学
E军事
F经济
G文化、科学、教育、体育
H语言、文字
I文学
J艺术
K历史、地理
3.1概论
特点:
语词百事几乎都是事务的名称,关于同一实物的文献全部被集中标引在同一语词标识下,所以要在主题检索系统中查全同一事物的档案就比较容易。
性能:
控制语词标识,以保证其检索效率
引导使用者周密选用检索词,以便准确、全面地标引和检索文献
方便标引人员和检索人员查找所需检索词
类型:
标题词;单元词;叙词;关键词。
优点:
专指性好;直观性好;灵活性强。
3.2述词法原理
叙词法:
是一种采用标识单元概念的规范化语词的来组培对文献主题践行描述的后组式词汇型概念标识系统。
其构成的一般原理:
用字顺序列直接提供主题检索途径;
用标识单元方式时,具有标引深度大、能够实现多途径检索扩大、缩小或改变检索范围灵活。
主题词的组配:
1、概念组配,即概念(即词义)的分析与综合
2、字面组配、其实质是词的分拆与组合(即拆词)
如:
木工+电站=木工电站
木工+工程作业车=木工电站
主题词的组配作用:
1、控制词汇量
2、多途径检索
3、可自由改变检索范围
4、及时反映新事物
主题词——改变范围
1、坦克-发动机-设计扩大范围:
坦克-发动机-设计-美国-?
坦克-发动机-设计-英国-?
主题词组配——反映新事物
1、档案学
2、心理学1:
2→档案心理学
-----→3:
2→体育心理学
3、体育理论3:
4→体育经济学
4、经济学
5、情报学
主题词的编表选词--主题词的规范
1、采用自然语言词类的限制
2、主题词行事的规定
3、同义词和准同义词的优选
4、多义词的限定和词义含糊的词的注释
同义词的优选:
1、一般同义词----选较通用的(名册—名单)
2、学名与俗称----选学名(大豆—黄豆)
3、新称与旧称——选新称(索引—通检)
4、全称与简称——选正确(中学—中等学校)
5、同一产品的正式命名、绰号和型号——选型号加通称(F-14飞机—熊猫飞机)
6、不同译名——选意译(锦砖—马赛克)
近义词的优选——较概括、通用的
舞蹈演员——舞蹈家增产节约——精简节约残废——伤残
某些反义词和否定词的优选
查全率——漏查率光洁度——粗糙度死亡率——存活率
多义词的限定(多义词的含义)
1、一词多义
2、同形异义
3、词本身并不多义,由于使用场合不同而造成标引的文献内容不同
例子:
用同义的另一个词来表达它的某项意义:
大本营(军队)——统帅部
大本营(登山队)——登山营地
对一个词的本意或主要用法不加限定,对它的转义或次要用法加限定:
行军
行军(登山运动)
对一个词所有用法都加限定
测功(力学)
测功(体育)
上海会议(1959)
上海会议(1960)
上海会议(1965)
词义含糊的词的注释(种类)
限定注释:
指明该主题词的使用范围(包括时间或空间),用圆括号注在款目主题词之后,作为该主题词的组成部分
含义注释:
说明主题词的特定内容,用圆括号注主题词之下,不作为主题词的组成部分。
例子:
后湖黄册库(明代皇家档案库)
十三行(清代广州官府特许对外贸易的商行)
双拥活动(拥军优属拥政爱民)
4.1一体化理论依据
特点回顾——分类检索语言
按照不同的学科和专业集中文献。
用等级结构直接显示主题概念之间的关系,用分类符号作为标引和检索的依据,它便于从事物的有序性和知识的系统性方面来认识和查找文献。
特点比较
分类检索语言的类目之间存在着逻辑联系,系统性好、概括性好,易于操作掌握,用手工检索和计算机检索都比较方便;
主题检索语言用规范化的词语作为标引和检索的依据,具有直观性、专指性,更适于计算机检索
两者在生成原理上的相同之处
1、从本质上讲,二者都是用了分类的方法,
2、从二者的结构来看,是指是相同的,
3、二者是用的标识都能揭示文献主题内容及文献主题之间的相互关系
两者在功能上的相同之处
1、对文献的主题加以标引
2、对内容相同及相关文献主题加以集中和揭示其相关性
3、对大量文献信息加以系统化或组织化
4、便于将标引用于和检索用于进行相符性比较
4.2一体化的可行性
实现一体化的方法不同,但取得相同或相似的效果
各种类型的图书馆、情报所、档案馆等均可以实现分类、主题一体化
第三章计算机联机和光盘检索
3.1计算机信息检索概述
1、速度快、效率高
2、检索范围广,可以迅速而方便地浏览相关学科或主题的所有数据库中的记录,在网络中几乎每一台个人计算机都可以成为信息源
3、检索不受时空的限制,只要拥有相应的软件和硬件设备,就可以在任何地方借助光盘盒通信网络查询所需信息。
计算机信息检索特点:
1、数据更新快,可以及时获得最新信息、
2、检索辅助功能完善,使用方便,检索然见可采用菜单驱动,几乎所有检索系统都有查询服务或提供操作演示盘,界面友好的程度不断提高,检索结果的输出方式丰富多样,并可以按要求做排序、统计、绘画等加工
计算机信息检索分类
从信息存取载体及渠道分:
脱机检索、联机检索、视频数据检索和网络信息检索;
从信息检索方式来分:
菜单驱动型检索、命令驱动型检索和兼容型检索
3.2联机检索
联机检索系统及其数据库的比较选择:
明确需求,确立检索目标;联机检索系统的选择;数据库的选择
检索策略的定制:
1检索词的选择,2检索算符
联机操作
传统联机检索的优缺点和发展方向:
传统联机检索的优点,传统联机检索的缺陷,联机检索的新发展。
检索策略的定制:
定义:
计算机检索的检索策略就是在分析情报需求的基础上,明确检索范围,选择检索途径,确定检索词和逻辑组配方法,通过试检或反馈进行调整,使整个检索计划体现用户目标。
检索词的选择:
检索式有检索词和链接组配符号组成,检索词分两类:
受控词和非受控词;受控词是事先规范化的检索语言,取自主题词表,叙词表,分类表等,如果数据库对数据采用了受控标引,并有机读式或印本式主题词表时,应优先选用其中的受控词,非受控词是指非规范化的自然语言词汇,又称自由词。
受控词和非受控词各有优缺点其作用互补
受控词检索效率高,一旦选定宽度适当的概念,系统就能检出这一概念的全部内容,而且由于标引人员已事先解决了自然语言中的同义,近义关系,使检索相对容易,但由于其先组性质,受控词不能及时反映新事物的发展,概念数量有限,结构复杂,不能适应数量众多、要求各异的信息用户,也不易为非专业人员掌握。
以下5点非名字解释和简答所以检索算符自己看课本或者看照片:
各算符如下:
1、布尔算符
2、截词检索符
3、限制检索符
4、位置逻辑检索符
5、加权检索
检索算符-编制检索式的注意事项:
1、要仔细斟酌检索词,使之能准确地放映提问的主题内容
2、要了解所发数据库的检索体系和检索用词规则
3、要符合检索系统的功能及限制条件的规定
3.2.3联机操作(DIALOG系统){由于是理解部分,及画表繁琐,各位请自己看书或者课件照片}
1、用索引字段构造检索——基本索引字段及后缀标识;2、Dlalog系统采用的位置运算符和实例;3、DLALOG系统使用截词符和实例;(三块内容理解掌握)
3.2.4传统联机检索的优缺点和发展方向
优点:
1、传统联机检索基本上是集中式管理,有专人负责维护整个系统,定期更新信息。
当用户希望获得信息时,知道向谁申请注册、向谁索取资料和缴付费用、如何选库等,无论是用户或该系统的管理者都可以了解系统中究竟有多少信息,如何找到。
这种有条理的管理是网络所不及的。
因此,目前查新服务基本上仍由联机检索系统完成。
2、联机检索系统是个成熟的系统,信息质量较高,数据库都经过严格的加工、标引,信息的附加值高,可靠性好,来源可靠,不用担心出现internet网上那种良莠不分、加工粗糙的信息
3、集中管理的最主要优点是安全性有了一定保障,internet上大量不健康的信息泛滥成灾,且存在着大量难以检测的病毒,防火墙屡屡被攻破,引发泄密等一系列问题。
安全问题是网络中最头疼的问题,在这方面远远不如传统联机系统。
4、传统联机检索的准确率较网络检索高。
尽管internet上有非常丰富的信息源,但因为他不属于某个固定的机构,信息几乎是无组织的,有用的信息被埋在大量无用的信息中,需要检索者再次进行人工帅选,而联机系统隶属于某个机构,信息都是经过精心加工,提供多种检索途径,因而检索效率和准确率较高。
缺点:
1、集中式管理主要缺点是主机负担重,一旦出现故障,则整个网络都将处于瘫痪状态;另外,联机网络的扩展性较差,由于采用的技术标准原则上是不公开的,因而相关技术缺乏发展的动力,灵活性较差;
2、在信心组织方式上,传统联机系统的普通文本数据库多以线性方式组织,其基本组成单位是记录;在INTERNET上,是基于www的信息组织采用超文本组织方式其数据库有节点和链路组成,因而可以按单元、片段、关系将知识存储,用链路网将同一文献或不同文献的相关部分结构化地链接起来,另外超文本技术还使得信息的形式不仅仅限于字符,还可以是声音、图像、动画或其他多媒体的形式,这都是传统联机系统难以做到的;
3、Internet网不是一种网络,而是一个由许多类型、结构不同的分组交换通过路由器链接而成的一个庞大的、能整体运作的网络。
这种分布式的系统将分散的资源调集在一起解决同一个问题,分散的用户可以共享网络中个点的数据而不必知道某种资源的具体地址,这一特点是传统联机系统远远不及的;
4、Internet网是面向最终用户的,操作较联机方便。
由于网络信息检索工具多采用客户机/服务器结构,windows界面交互式作业,菜单驱动,用户无需经过专门训练便可自己进行检索,而传统联机系统多需要作业人员或有经验的用户操作。
发展方向:
随着internet网的不断扩张,传统的信息检索手段变得越来越困难,而且要求使用这些检索工具的运行环境已经不再是连接为数不多几个点的局域网,而是覆盖了一百多个国家和地区的广域网,因此,原有的情报(信息)检索工具已不能适应新的网络环境需要了,这是许多机构纷纷开发能在广域网环境下工作的新型信息检索工具
发展方向:
1联如internet;2改善用户界面;3调整收费制度
http:
//
1.1因特网信息资源的特点与类型特点
特点:
1、信息量大,内容广泛
2、形式多样,内容活泼
3、检索快捷,整合方便
4、时效性强、动态性高
5、信息质量良莠不齐
二、搜索引擎(searchengines)
是一种利用网络自动搜索技术,对因特网各种资源进行标引,并为检索者提供检索工具。
人们常把搜索引擎称为网络之门,它包括万维网搜索引擎、新闻论坛搜索引擎、黄页搜索引擎、元搜索引擎等多种类型的搜索引擎,数量已达数百种。
2.1搜索引擎的工作原理
(1)信息的采集和存储
搜索引擎一般采用自动方式手机和存储信息,即运动“网络机器人”自动运行的软件,所说引擎追寻www网上的链接行进,找到web页并将它们调出,搜索引擎将自动给web页上的某些字或全部字做上索引,形成目标摘要格式文件后,再形成网络可访问的数据库。
(2)信息索引的建立
信息采集和存储后,要建立索引查询系统,它是同建库系统配套的子系统,决定索引时空化,布尔逻辑,表达式匹配,结构化和非结构化文件处理、词语匹配、匹配相关性排序等。
(3)检索界面的建立
搜索引擎检索界面接受检索者提交的查询请求,(包括查询内容及逻辑关系),并根据检索者所输入的关键词在其索引中查询,并寻找相应的web页地址。
注意:
中文索索引擎查询时一般不需要使用“and”,因为搜索引擎会在关键之间的空格自动添加“and”;有中文搜索引擎不支持“or”的搜索,无法接受“或者包含词语A,或者包含词语B”的网页
大多数搜索引擎都可用“+”表示必须包括某此“-”表示必须排除某词
[以下四大点,需自己看书看课件照片理解这里提供4个大点,按点复习即可]
A目录式的搜索引擎(directory)例子:
雅虎
B全文式搜索引擎如:
XX,altavista,google等
C综合式搜索引擎如:
搜狐,网易等
D元搜索引擎(Meta-searchEngine)是在搜索引擎基础上建立可以同时查询多个搜索引擎的WWW站点,其英文原意是搜索引擎之后或之上的搜索引擎,因而也可以叫做后搜索引擎
中文只有:
万维搜索:
2.4著名元搜索引擎:
三个网址各据特点这里简单提取各自特点,
1、Profusion:
Http:
//拥有智能化搜索方案,提供诸如搜索引擎选择,检索类型,结果显示,摘要选项,链接检查等较多的检索选项,自动实现符合特殊检索语法要求的转化。
2、Mamma :
1996年面世,自称“搜索引擎之母”的并行搜索引擎,可以同时调用7个最常用的独立搜索引擎,并且可以查询网上商店、新闻、股票指数、图像和声音文件等资源。
其特点是检索界面友好,检索选项丰富,主要包括:
可控制调用的独立搜索引擎、选择使用短语检索功能、设定检索时间、设定每页可显示记录数等。
3、MetaCrawler:
1995年由华盛顿大学推出,97年被infospacee购买。
支持调用12个独立搜索引擎,提供涵盖20个主题的目录检索服务。
其检索特性丰富,包括常规检索、高级检索、定制检索、国家或地区的资源检索等检索服务模式
5.1检索程序概论
定义:
检索式根据特定的需求,运用某种检索工具,按照一定方法(利用序化的信息系统和信息业提供的服务来满足自己的信息需求),去寻找资料或信息的工作过程。
程序:
分析问题—→选择检索工具—→确定检索入口—→获取原文(查找原文数据库除外)
5.2检索的一般程序——分析问题
步骤:
问题的分类—→分析已知和欲知信息—→分析需求的主题内容—→确定文献类型和时间范围
所有问题分成两类:
要查找某一特定的文献,或与某一主题、学科内容相关的文献;要查找具体的事实。
检索的一般程序——选择检索工具:
书目、馆藏目录索引
指示型检索工具文摘工具书指南
检索工具
参考型检索工具词典引语工具书
百科全书、类书、政书
传记资料手册政府文献
机构名录地理资料
统计资料年鉴、表谱图册
5.3检索的一般程序——确定检索入口
以所需文献外表特征为依据:
题名途径、著者途径、序号途径。
以所需文献内容特征为依据:
分类法途径、主题法途径、关键词法途径。
5.4检索的一般程序——抹去原文
掌握获取原文的必要信息:
刊名、文献类型、论文著者的地址。
获取原文的途径:
本单位图情部门、对口机构的馆藏信息、著者、检索刊物出版机构、国外订购、网络资源
6.1多媒体概述
定义:
多媒体是以数字化为基础,能够对多种媒体信息进行采集、编码、存储、传输和表现,综合处理多种多媒体信息并建立有机的逻辑联系,集成为一个检索系统使之具有良好交互性的技术。
6.6.1多媒体信息检索的局限性及发展方向
局限性:
检索效果不理想;用户查询接口单一;图像特征信息表示与检索不完善(如形状、色彩、纹理、空间特征);信息的自动加工与人工标引方面存在困难。
6.6.2发展方向:
人机结合;高层语义和底层特征之间的差距;面向万维网;多模式融合分析;性能评价和测试集。
影响检索效率的因素:
1、检索语言的性能
2、检索途径的数量
3、著录标引的质量
4、检索策略的优劣
5、检索人员的素质