第二讲 第二章 信息检索原理74pptConvertor.docx
《第二讲 第二章 信息检索原理74pptConvertor.docx》由会员分享,可在线阅读,更多相关《第二讲 第二章 信息检索原理74pptConvertor.docx(21页珍藏版)》请在冰豆网上搜索。
第二讲第二章信息检索原理74pptConvertor
第2章信息检索原理
2.1信息检索的基本概念
2.1.1信息检索的定义和类型
1.信息检索的定义
检索的含义
“检索就是查找”,这仅仅是一种狭义的解释。
从广义的角度讲,检索包括“存贮”和“查找”两个过程。
没有存贮就没有查找,存贮是为了查找,但查找必须有存贮,两者缺一不可。
“检索”(Retrieval)一词是一个外来词,来源于英语“InformationRetrieval”(信息检索)
第2章信息检索原理
信息检索
是指从任何信息集合中查出所需信息的活动、过程与方法。
广义的信息检索还包括信息存贮,两者又往往合并称为"信息存贮与检索"(Informationstorageandretrieval)。
第2章信息检索原理
1.2.3文献的内部特征和外部特征
文献的内容特征:
就是可以从某种角度反映文献内容的特征。
文献的内部特征包括文献的题目、摘要、由著者或图书情报人员给出的主题词及其分类号。
文献的外部特征:
是与内容特征关系不是十分密切的一些特征,包括文献的作者姓名、作者所在的工作单位名称,期刊刊名、会议录名称、专利说明书的专利号和科技报告的报告号等。
这些特征通常在文献的封面或扉页出现。
第2章信息检索原理
2.2.1信息检索的一般原理
无论是手工检索,还计算机检索,各种检索系统的检索原理基本相同。
简单地讲,就是检索提问标识与存贮在检索工具中的标引标识进行比较,两者一致或信息标引的标识包含着检索提问标识,则具有该标识的信息就从检索工具输出,输出的信息就是检索命中的信息。
存贮过程就是按照检索语言(主题词表或分类表)及其使用原则对原始信息进行处理,形成信息特征标识,为检索提供经过整序(即形成检索途径)的信息集合的过程。
信息检索同样包括存储和检索两个过程。
第2章信息检索原理
(1)信息检索根据检索对象不同,可分为:
文献检索、数据检索、事实检索
A.文献检索(DocumentRetrieval)。
文献检索是以文献为检索对象的信息检索。
也就是说文献检索是以图书、期刊、资料、数据库中的篇章或全书刊为检索对象的一种检索。
如:
检索有关“我国关于教育产业化研究”或着检索“花卉组织培养技术”的文献。
文献检索是一种相关性检索,检索结果不直接回答用户提出的技术问题,只是提供与之相关的文献供用户参考。
第2章信息检索原理
B.数据检索(DataRetrieval)。
数据检索是以数据为检索对象的一种检索,其检索结果是可供直接使用的科学数据,包括数值、公式、图表等。
查找科学技术参数、统计数字、财政信息数据、市场行情数据等都属于数据检索。
检索结果是直接回答用户问题的具体数据。
C.事实检索(FactRetrieval)。
事实检索是以事实为检索对象,查找某一事物发生的时间、地点及过程。
事实检索是一种确定性的检索,检索结果是具体的事实情况,它直接提供用户有关某一问题的具体答案
第2章信息检索原理
(2)以方式区分的信息检索类型:
A、手工检索B、计算机检索。
A.手工检索。
手工检索即是用人工来处理和查找所需信息的检索方式。
(例如:
利用各种文摘、索引、题录等刊物)
B.计算机检索。
计算机检索是利用计算机和一定的通信设备查找所需信息的检索方式。
(例如:
利用各种文献信息数据库)
第2章信息检索原理
2.2.3检索语言
检索语言是用来描述文献的内容特征、外表特征和表达情报提问的一种人工语言。
对信息处理人员来说,它是表达文献主题内容、形成文献标识并赖以组织文献的依据。
对检索人员来说,它是表达检索课题要求,借以同检索系统中已经存储的文献标识进行比较进而获得所需文献的依据。
第2章信息检索原理
几个名词解释:
先组式检索语言:
在实施检索前,索引词已被预先组配好来描述文献主题的一种索引语言。
也就是说:
在检索时,只能直接使用给定的索引词去查找文献,而不必对它再进行分解或组配,与“后组式索引语言相对。
标题语言、分类语言等都属于此类型。
第2章信息检索原理
后组式检索语言:
在实施检索前,索引词以单元词或概念因子的形式出现在索引或检索系统中,直到检索是才组配起来使用的一种索引语言。
与先组式索引语言相对。
属于此类型的有单元词语言、叙词语言、语义代码等。
第2章信息检索原理
特性检索:
从具体事物或主题出发所进行的文献检索。
广义地说,凡是狭窄范围内的检索皆可视为特性检索。
(指某人、某事物所特有的性质:
如我们讲一个民族的特性。
)
族性检索:
从学科、专业出发所进行的文献检索,是与特性检索相对的、范围较广泛的检索。
属于体系分类法的各种检索语言的功能,主要都是满足族性检索的要求
第2章信息检索原理
2.2.信息检索系统
实现信息检索的必备手段是信息检索系统。
这种系统可以是提供手工检索使用的书目、索引等检索书刊,也可以是计算机检索使用的数据库。
2.2.1书目检索系统的内容组成
一个完整的书目检索系统,不管是手工还是计算机检索系统,都有内容相当的基本组成部分,如下表:
手工检索系统和计算机检索系统的内容组成
组成
手工检索系统(印刷出版物)
计算机检索系统(机读数据库)
使用指南
说明、样例
Help
主体部分
正文部分条目(记录)著录项
顺排文档
索引
辅助索引(作者索引、主题索引)
倒排(索引)文档
检索语言
主题词表、分类表
其他
资料来源索引
17
第2章信息检索原理
2.2.2印刷型信息检索系统的类型
1.目录(Bibliography)
目录是以单位文献为著录对象,即以文献独自名称作为一个完整的文献单位,如:
一册图书的书名、一套书的总书名,一种期刊的名称等,都是以独立名称作为文献单位的名称。
目录的著录项目通常包括:
出版名称、责任者(著者或编者或译者)出版项(出版者、出版地、出版时间、版次等)和稽核项(页数、开本、价格)。
第2章信息检索原理
G252.7
人文社会科学信息检索教程/蒋永新等编著.-2版.-上海:
上海大学出版社,2005.4(2005.11重印)150页
ISBN7-81058-806-0.
①索书号(分类号)
②书名项(题名项)/③著者项(责任者项)//④版本项(版本、版次)///⑤出版发行项(出版地、出版时间)///⑥稽核项(页数、标准书号、开本、插图、价格等)///⑦提要项(内容提要)///⑧附注项(指图书的附录)
第2章信息检索原理
目录按类型分:
有图书、报刊、资料目录。
按目录种类分:
有分类、著者、书名、刊名目录。
按编制单位划分:
有国家书目、出版社与书店目录、图书
馆馆藏目录、联合目录。
如:
《全国新书目》等
第2章信息检索原理
题录:
是在目录的基础理上发展起来的,它与目录的主要不同点在于著录的对象不同。
目录的著录对象是单位出版物,而题录的著录对象是单位出版物中的单篇文献。
例如:
一本名为《特种养殖研究》的图书汇集了15篇研究论文。
目录著录的对象是《特种养殖研究》一书,著录结果只有一条;
而题录著录的对象则是15篇研究论文的每一篇,著录结果最多可达15条。
第2章信息检索原理
题录的著录项目一般包括:
题录号、文献题目、作者及工作单位、出处(如期刊名称、出版年、卷、期、页次)、原文文种、主题词、文中所附图表数及参考文献数等。
例如:
信息技术对公共行政的影响论纲/赵少庆/新疆社会科学院社会关系研究所/国家行政管理学杂志,2005,12(5):
345-347
第2章信息检索原理
文摘:
是以精练的语言把文献信息的重要内容、学术观点、数据及结构准确地摘录下来,并按一定的著录规则与排列方式编排起来,供读者查阅使用的一种检索工具。
文摘的著录对象可以是一本书、一种会议录、一件专利、标准或一份科技报告,还可以是期刊中的单篇文章,或一种会议录中的某个章节或某篇论文。
第2章信息检索原理
文摘的著录款目按其著录对象的不同略有差别:
①期刊论文的款目包括:
文摘号、题名、著者、著者所在单位、刊名与国别、卷期、页次、出版年月、摘要、参考文献数。
②图书、专利、科技报告、会议文献的著录款目与期刊论文的款目相比仅没有期刊名、卷期。
第2章信息检索原理
文摘就其摘要的详略程度,可分为指示性文摘、报道性文摘、指示—报道性文摘。
①指示性文摘。
亦称简介,是对文献标题加以补充说明。
通常以简介文献的论题范围、研究目的为限,不直接摘录原文的论点和重要数据,字数一般在100---200之间。
②报道性文摘。
它以揭示原文的论点和重要数据,特别是以原文论述的主题实质为宗旨,读后可以比较确切地了解文献的主题内容。
多为400---800字。
③指示—报道性文摘是上述两种文摘形式的结合,即对原文的主要部分作详细报道,对次要部分作简略介绍。
第2章信息检索原理
4.索引(index)。
索引是对一组信息集合的系统化的指引。
索引一般只起指引特定信息内容及其存储地址的作用。
索引条目通常有三个著录项:
标目(标识heading)、说明语和存储地址。
索引是将图书和期刊等文献中的一些重要的、有检索价值的知识单元,如主题词、分类号、著者姓名、题名等,根据需要一一分析摘录出来,并注明它们所在的地址(页码或文献号),再按一定的顺序编排组织起来的一种工具。
第2章信息检索原理
索引的类型
索引的类型很多,按使用范围可分为:
通用索引(著者、主题、分类、题名索引等);
专用索引(文献序号索引、分子式索引等)二类。
第2章信息检索原理
2.3文献信息检索的方法
1.明确检索要求,分析课题涉及的概念
2.选择检索系统(有手检国内、国外工具刊物表)
3.确定检索途径和检索策略
(1)检索途径的选择。
常见的文献检索途径主要有反映内容特征的分类(通过族性角度)、主题(特性角度)两个途径和反映外表特征的著者、号码、引文三个途径。
(2)检索策略的确定。
我们在着手检索之前,应先制定检索策略。
所谓的检索策略,就是在分析提问实质的基础上,提出的一个合理的检索方案。
4.实施检索以及调整检索策略
第2章信息检索原理
2.3.1文献信息检索方法的类型
1.按照检索工具使用与否区分的检索方法类型
按使用检索方法一般分直接检索法和间接检索法两种:
直接检索法即直接从报刊杂志中通过浏览的方法从中获取所需信息的一种方法。
间接检索法即通过检索工具的指引进行查找,获取所需信息的一种方法。
组成
手工检索系统(印刷出版物)
计算机检索系统(机读数据库)
使用指南
说明、样例
Help
主体部分
正文部分条目(记录)著录项
顺排文档
索引
辅助索引(作者索引、主题索引)
倒排(索引)文档
检索语言
主题词表、分类表
其他
资料来源索引
2.按照所使用的检索工具区分的检索方法类型
按照检索检索工具的检索方法类型通常有追溯法、常用法、综合法、浏览法
(1)追溯法。
是利用文献末尾所附的参考文献。
由一变十、由十变百地进行追溯查找,
此法在缺少检索工具和检索工具不全的情况下,可以说是一种比较好的检索方法。
使用这种方法应注意:
首先,找一篇比较有权威而又较新的文献,否则所附的参考文献质量不高。
其次,在参考文献中应加以选择,继续查找与自己的研究课题较为密切的参考文献。
追溯法—原始文献
追溯法—原始文献所附的参考文献
第2章信息检索原理
(2)常用法。
它是利用文摘、题录或索引等各种检索工具来查找文献的方法,也称工具法。
由于这种方法是目前查找文献中最常用的一种方法,所以叫常用法。
常用法又分为:
顺查法、倒查法、抽查法三种方法。
①顺查法:
使用检索工具由远及近逐年地查阅。
此法能保证查全率,但很费时。
例如,某项科研课题“生物能源的战略地位及其发展前景”按照“顺查法”应从何年查起呢?
第2章信息检索原理
②倒查法:
也可以叫逆查法。
使用检索工具由近及远逐年查阅,直到查得所需文献为止。
此法查全率较高,且较省时间。
如:
“克隆技术的出现及应用”,
(3)综合法:
交错使用追溯法和常用法两种方法称之为综合法。
也称为循环法或交替法。
(4)浏览法
浏览法是在直接浏览各类信息源的过程中获取所需信息的检索方法。
第2章信息检索原理
2.3.2文献信息的一般检索步骤
科学的检索步骤,是优化检索过程,有助取得最佳检索效率的切实手段。
1.分析研究课题
首先,对需检索的课题进行分析研究,明确检索的目的和要求。
2.选择检索工具或检索系统
不同种类的检索工具总是针对不同检索要求编制的,如需了解文献线索可通过书目索引和文摘(及各类数据库)等,因此,选择合适的检索工具是关键的一步。
第2章信息检索原理
3.确立检索途径和方法
a、在手工检索条件下,文献的内容特征和外部特征都是检索的出发点。
检索工具所提供的检索途径主要有:
①分类途径②主题途径
③题名途径④著者途径
⑤代码途径以及其他特殊途径。
b、在计算机检索条件下,编写检索逻辑表达式。
选择检索方法时:
首先要看检索条件,其次看检索要求,
第2章信息检索原理
4实际进行查找,获取所需文献
获取原始文献是检索文献的最后一个步骤,也是至关重要的一个步骤。
获取原文的方法有三:
首先,判断文献的出版类型。
根据文献出处中已有的信息,判断其出版类型;
其次.整理文献出处。
将文献出处中有缩写语、有音译刊名的还原成全称或原刊名。
再次,根据出版类型在图书馆或情报所查找馆藏目录或联合目录确定馆藏,进而索取原文。
第2章信息检索原理
6、文献检索步骤
在科技文献信息的检索过程中,根据既定的课题,系统地查找所需求的文献信息,其主要的程序为:
课题--课题分析---确定检索工具---选择检索途径---阅览二次文献---获取原始文献。
第2章信息检索原理
2.1.5检索效果评价
检索效率就是利用检索系统(或工具)开展检索服务时产生的有效结果。
所谓检索效果(retrievaleffectiveness)是指检索结果的有效程度。
在检索过程中,在检索系统中参加检索的全部文献可分成“有关”、“无关”、和“查出”、“未查出”四个量,
这四个量又可划分为“用户相关”和“系统相关”两类。
38
2013/11/26
39
第2章信息检索原理
图中:
a表示查出的“有关”文献,b表示查出的“无关”文献,c表示未查出的“有关”文献,d表示未查出的“无关”文献。
检索系统检索效果的关系表
相关性课题
系统相关性
相关文献
无关文献
总计
检出文献
a(命中的)
b(误检的)
a+b
未检出文献
c(漏检的)
d(应拒的)
c+d
总计
a+c
b+d
a+b+c+d
第2章信息检索原理
衡量检索效果的指标有很多,其中最重要,也是最常用的是查全率和查准率这两个参数。
检索效果评价中的主要指标是查全率和查准率。
查全率(RecallRatio)是指检出的相关文献数与库内相关文献总数之比。
又称“检全率”、“命中率”。
查准率(PrecisionRatio)是指检出的相关文献数与检出的文献总数之比。
又称“检准率”、“相关率”。
第2章信息检索原理
1、查全率与查准率的分析
查全率(Recallratio,简写为R)是检索系统在进行某一检索时,被检出的相关文献量与系统文献库中相关文献总量的比率,可用下式表示:
检出相关文献量
查全率(R)=Χ100%
检出文献总量
0≤R≤1,当R=1时,查全率达到最大值,即检出相关文献数量与文献库中相关文献总数量相等。
当R=0时,查全率为零,即未检出相关文献。
第2章信息检索原理
查准率(Precisionratio,简写为P)是系统在进行某一检索时,检出的相关文献量与检出文献总量的比率,可用下式表示:
检出相关文献量
查准率(P)=Χ100%
检出文献总量
0≤P≤1,当P=1时,查准率达到最大值,即检出的相关文献数量与检出文献总数量相等;当P=0时,查准率为零,即未检出相关文献。
42
R
0
P
查全率R与查准率P的关系曲线
C
A
D
B
C.W.Cleverdon(英)进行
Granfield试验,得出
查全率R与查准率P曲线。
lR-P之间存在着互逆关系
uA点
检索词数量多,泛指性强,
查全率较高但查准率却非常低
uB点
检索词专指性较强,查准率就高
查全率因此降低
uC,D两点
两种极端的折衷。
查全率一般在60%--70%
查准率一般在40%--50%
l无论怎样调整检索策略和改进系
统效率,都无法使P和R同时接近100%。
43
英国人C.W.Cleverdon进行Granfield试验,得出R-P曲线
查全率R与查准率P之间存在着互逆关系
A点
检索词数量较多,泛指性强
查全率较高,但查准率却非常低
D点
检索词专指性较强
查准率就高(D点),查全率因此降低
B,C两点
是这两种极端之间的折衷。
查全率一般在60%--70%
查准率一般在40%--50%
无论怎样调整检索策略和改进系统效率,都无法使P和R同时接近100%。
第2章信息检索原理
从检索系统角度来看,在文献检索时,参加检索的全部文献可以分成两部分:
一部分与检索提问相匹配,就会被检索出,称为被检出文献;
另一部分与检索提问不匹配,就不会被检出,称为未检出文献。
2.5.2提高检索效果的措施
一般地说,提高检索效果的措施有两项,
一是选择质量较高的检索系统;
二是提高检索者的检索水平。
第2章信息检索原理
2.5信息检索语言
检索语言是用来描述文献内容特征、外表特征和表达情报提问的一种人工语言。
检索语言可分为描述文献外部特征和描述文献内容特征两大类型。
描述文献内容特征的可分为:
主题途径、分类途径检索标识系统;
描述文献外部特征的则有:
责任者途径、题名途径、代码途径、引文途径等检索标识系统。
第2章信息检索原理
2.5.2分类检索语言
分类检索语言,它是根据文献信息内容的学科知识属性,按知识分类原理进行系统排列并以代表类目的数字、字母符号作为文献主题标识的一类信息检索语言。
分类法特征在于按学科知识的体系展示其层次和框架,用类号来标引识别各种概念。
在实际使用的检索工具中,等级列举体系分类标识系统是常见的分类法。
第2章信息检索原理
分类途径检索原理
从分类途径检索(同时它也是一种族性检索)文献的检索步骤一般为:
分析待查课题的主题内容,根据主题内容在类目索引中找到相应的类目,在分类表中提取分类号。
在相应的检索工具中用分类号检索所需的文献,再根据所需要的文摘提供的出处查找原文。
从分类途径的检索步骤可见,获取课题的分类号是检索的关键。
第2章信息检索原理
所谓分类法(具有族性检索的特点)就是按照文献信息的内容、形式、体裁和读者用途等,
根据科学学科之间的逻辑归属关系,采用层次型或树杈型结构,列举人类所有的知识类别,并对每一种知识门类分别标以相对固定的代码,从而形成的类表。
因此,分类法通常是指一种从总到分、从一般到具体、层层划分、逐级展开并具有某种符号代码体系的知识体系表。
第2章信息检索原理
常见的国内通用分类法有:
《中国图书馆图书分类法》(简称中图法)、
《中国图书资料分类法》(简称资料法),
国外通用的分类法有:
《杜威十进分类法》(DDC)、
《国际十进分类法》(简称UDC)和
《美国国会图书馆图书分类法》(简称LCC)等。
《中图法》将图书分为马列、哲学、社会科学、
自然科学、综合五基本部类。
将人类知识分为22个大类。
类目展开之式如图所示
检索标识即分类号,由字母和数字组成
采用等级列举表达从属关系
上位类目与下位类目的关系:
上位类目一定包含各个下位类目,
下位类目一定带有上位类目的属性。
分类号越长,表示的学科范围越窄。
为了清楚醒目,通常分类号的第三位数字后,隔
以.,如F279.712,TQ032.4
中国图书馆图书分类法类号和类目示例
O1 数学
O11 古典数学
O12 初等数学
O13 高等数学
总论性著作入此;专论入以下有关类 例:
微积分入O172
O15 代数、数论、组合理论
151 代数方程式论、线性代数
.1 代数方程式论
.2 线性代数 参见O241.6
.21 矩阵论
┆
.26 线性代数的应用
152 群论
┆
O3 力学
O31 理论力学
O311 运动学
.1 质点运动
第2章信息检索原理
分类法途径的特点:
它体现了学科的系统性,便于从学科或专业的角度出发进行族性检索,但体系分类是先组式检索语言,缺乏进行多概念灵活组配的能力。
第2章信息检索原理
索书号又称为排架号
反映了某种图书在整个图书组织中的排列次序和在书库中的具体位置(架位)
组成:
分类号+书次号
分类号:
按学科分类图书
书次号:
同类书的排列
第2章信息检索原理
2.4.2课题的一般分类方法
1.单概念课题的一般分类方法
所谓单概念课题是指课题涉及主题概念只有一个。
例如:
“函数”、“齿轮”等都属于单概念。
从分类角度查找文献的基本方法是:
了解分类表的体系结构,重点掌握大类的分布,在相关的大类中,由大而小,逐步查找最接近于课题要求的类号。
2.多概念课题的一般分类方法
涉及两个或两个以上概念的课题即为多概念课题。
如:
“计算机在机械工程方面的应用”(含“计算机”、“机械工程”两个概念。
第2章信息检索原理
应注意以下几点:
(1)对于涉及同一研究对象的几个方面或者涉及几个并列研究对象的课题,凡是有主次者,应取其重点或主要研究对象归类。
(2)研究一种理论、方法、工艺、材料、设备、产品等在某方面应用或对某方面影响的课题,应在所应用或受影响的类目中查找。
第2章信息检索原理
3.关于上位类标引方法
这种归类法是一种特殊的分类方法。
它适应于欲查课题无现成类目或无符合要求的专指类目时,可以归入它从中分化出来的上位类。
这种分类方法的关键是确定上位类号。
2.5.3
主题检索语言是从文献中有代表内容实质的主题词入手检索文科文献的一种检索途径。
它是以规范化词语作为检索标志,打破了传统学术分类的框框,能把分散在各个学科的有关某一问题的文献资料集中同一主题下。
它能满足特性检索的需求。
第2章信息检索原理
它的编排形式是按主题词的字顺编排,查找方便、直观、不受学科从属关系的约束,
主题法标识系统,按其选用的主题词的性质不同,可划分为标题词标识