第三章 信息检索语言Word格式.docx

上传人:b****5 文档编号:18922795 上传时间:2023-01-02 格式:DOCX 页数:18 大小:36.17KB
下载 相关 举报
第三章 信息检索语言Word格式.docx_第1页
第1页 / 共18页
第三章 信息检索语言Word格式.docx_第2页
第2页 / 共18页
第三章 信息检索语言Word格式.docx_第3页
第3页 / 共18页
第三章 信息检索语言Word格式.docx_第4页
第4页 / 共18页
第三章 信息检索语言Word格式.docx_第5页
第5页 / 共18页
点击查看更多>>
下载资源
资源描述

第三章 信息检索语言Word格式.docx

《第三章 信息检索语言Word格式.docx》由会员分享,可在线阅读,更多相关《第三章 信息检索语言Word格式.docx(18页珍藏版)》请在冰豆网上搜索。

第三章 信息检索语言Word格式.docx

在文献信息检索中,之所以要使用专门的检索语言,是因为检索语言具有适合检索需要的一些特点。

它们是:

①进行词汇控制,实现概念与语词的惟一对应,排除多词一义(同义词),一词多义够义词)和词义含糊现象,实现概念表达的惟一性和准确性。

例如,在自然语言(在人类交际中自然演变形成的语言)中,“电子计算机”、“计算机”、“电脑”这三个词表达的是同尸事物。

如果在检索系统中有三篇文献分别用这三个词表达,并按字顺排在不同的地方,当用户需要这方面内容的文献时,若只用其中的一个词进行检索,结果就会漏掉符合需要的其余文献,降低检全率。

此类情况下,若想检全,检索者就得想出与检索课题有关的所有语词,这是比较困难的。

为此检索语言进行了词汇控制,在多个同义词、准同义词中选一个最通用、最科学的词作为标引和检索用词。

相反,为了提高检准率,就得把多义词限定为单义词,而消除词义不清的现象,可以同时有利于提高检全率和检准率。

②根据词所表达的概念之间的关系,显示词间关系,或将大量的词组织成有内在联系的逻辑系统,借此实现大量文献信息的系统化、相关文献信息的集中化,从而有利于文献信息检索。

例如,将电子计算机、电子模拟计算机、电子数字计算机、大型计算机、微型计算机、浮点计算机等表示各种计算机并各有相关文献信息的词集中起来、联系起来,对需要关于计算机文献信息的用户就很有好处。

③相当简明的标识,借助一定的语法规则,既能比较确切地表达概括文献信息内容及检索课题的概念,又方便将标识及其所代表的概念和相应的文献信息进行系统排列和组织,并便于将文献信息标识与检索提问标识进行相符性比较。

检索语言的质量高低及其使用正确与否,对检索效率有重大影响。

2.对检索语言的基本要求

在信息检索中,决定检索效率有四个方面的因素,即检索语言的质量、标引质量、索质量、其他方面的因素。

其中,检索语言的质量与检索效率关系最密切。

为了保证较高的检索效率,对检索语言的基本要求是:

(1)保证较高的检全率和检准率。

或者说,漏检率和误检率要能控制在允许的范围内。

这是对检索语言最基本的要求。

检全率主要与一种检索语言是否能比较全面地显示概念之间的等级关系和相互关系,以及在它的词汇中是否能排除同义现象有关;

检准率主要与它的标识(单个标识或若干标识的组合)是否能达到较高的专指度,&

#0;

在它的词汇中是否能排除多义现象和同形异义现象,以及它是否能正确地、恰如其分地显示概念之间的关系有关。

检索语言的选词和列类是否能符合文献主题的实际情况和信息检索的实际需要,则与检全率和检准率都有关。

(2)能满足多种检索要求。

社会的信息需求是多种多样、千变万化的,即使是同一个人,也会提出不同类型的检索要求。

检索语言对各种检索要求的适应性,主要与它们的构成原理有关,即与它们用什么方式来构成概念标识,以及按哪些原则、方式来排列、组织概念标识和显示概念之间的关系有关。

一种检索语言能否满足多种检索要求,主要看它的下列各种性能如何:

①是否既能从学科、专业出发进行检索,又能从事物出发进行检索;

②是否既能较好地进行族性检索,又能较好地进行特性检索;

③是否能视检索过程中出现的具体情况而自由地扩大、缩小或改变检索范围;

④是否能进行多途径检索;

⑤是否能进行多因素检索,即按任何特征组配检索,或者用布尔代数表达检索课题和进行逻辑运算,实现精确检索。

所谓族性检索和特性检索是两个相对的概念,在它们之间没有明确的界线。

一般认为,从学科、专业出发的范围较广泛的检索要求是族性检索,从事物出发的、范围较狭窄的检索要求是特性检索。

在检索语言中,分类法系统各种语言的职能主要是满足族性检索的要求,主题法系统各种语言的职能主要是满足特性检索的要求。

其实,无论是从学科、专业出发的检索(可称学科检索或分类检索),还是从事物出发的检索(可称事物检索或主题检索),都有族性检索和特性检索。

任何检索语言,都应采取一定的方法和手段,从而既适合于族性检索的要求,又适合于特性检索的要求。

(3)易于标引,易于检索。

是否易标易检,不仅与标引、检索的速度有关,而且与标引、检索的质量有关。

因为一种检索语言如果不是易于为标引人员和检索人员所掌握,将会导致标引误差和检索误差的增加。

保证易标易检的条件是多方面的。

包括:

①语词或符号含义的明确性。

例如,在体系分类法中通过类名措施、等级隶属结构(形成语言环境)、类目注释、类目划分细则等来明确分类号的含义。

②语法的严密性。

即凡是会出现分歧的地方都要有明确规定,规则不能模棱两可或自相矛盾。

例如,在叙词法中明确规定“凡词表中已有专指词者不得用泛指词组配标引”,“凡可以用组配标引又可以用上位词标引者优先用组配标引”。

③标识的直观性及其排列次序易于理解。

在这方面,语词标识比符号标识直观性好,先组式的标题词比组配式的叙词直观性好,组配分类法的分类号比体系分类法的分类号直观性好,层累制的分类号比顺序制的分类号直观性好。

号码或语词的排列,应尽量避免特殊的、使人不易理解的规定。

④查词查号手段的多样性。

例如,体系分类表编有类目索引,叙词表编有分类索引、等级索引、轮排索引、多语种对照索引等,使标引人员和检索人员从各种方便的角度都能查到所需的标识。

⑤整个语言包含概念的丰富和完备性。

所谓包含概念丰富,如体系分类表中类目多,以类目注释方式列出的概念多;

叙词表中叙词多,作为检索“人口”的非叙词多等。

所谓包含概念完备,是指不论任何主题的文献都能有类可归,有适当的语词可以用来标引,即使是用泛指类目和泛指词也可以。

(4)具有对先进的检索方式和检索设备的适应性,以及对多种检索方式和检索设备的适应性。

检索方式即文献信息存贮与检索方式,可以分为文献单元方式和标识单元方式。

文献单元方式也称顺检方式、顺排档,其特点是文献标识直接加在文献款目上作为标目。

文献款目即按文献标识排列,查到文献标识即可见到文献著录事项。

我国文献信息机构使用的卡片式目录都是属于文献单元方式。

标识单元方式也称逆检方式、倒排档,其特点是检索工具分两部分,一部分是文献卡(文献款目),另一部分是标识卡,标识卡上只记有关文献号,标识卡与文献卡之间用文献号(较多的是顺序号)联系,检索时先查标识卡(可以组配),得到有关的文献号之后再转查文献卡,才能见到文献著录事项。

各种组配索引都是属于标识单元方式,计算机检索系统中的倒排档也是属于标识单元方式,附有索引的检索刊物绝大多数可以认为是标识单元方式(更正确地说是文献单元方式和标识单元方式的结合系统)。

检索设备可以分为传统检索设备和非传统检索设备。

传统检索设备有普通卡片式目录、书本式目录等,非传统检索设备有比号卡、比孔卡、穿孔卡、机械式检索系统、光电式检索系统、计算机检索系统等。

各种检索方式和检索设备都有一定优缺点和适用范围,它们与检索语言是互相配合的。

一种检索语言的优点是否能充分发挥,与所选用的检索方式和检索设备密切相关。

一种先进的检索方式检索设备要能充分发挥它的优异性能,也必须对检索语言提出一定的要求。

总之,各种检索语言对各种检索方式和各种检索设备的适应性是各不相同的。

比如,上下文关键词法比较适用于电子计算机系统却不太适用于卡片式目录。

当前,信息检索的计算机化已成为提高检索效率的一个重要途径。

结合计算机检索设备特点设计的检索语言,有助于充分发挥计算机的优异功能。

但是,也应考虑到一种检索语言能适应多种检索方式和检索设备,使其发挥更大的效用。

比如我国的《汉语主题词表》就兼顾了计算机检索系统和手工检索系统两个方面的需要。

(5)具有对多种学科和多种类型文献的适应性,以及对多种类型文献信息机构的适应性。

一般地说,专业性或专用性检索语言在处理本专业或特定类型文献上效率比较高,但在处理其他专业或其他类型文献上效率就比较低,甚至完全不适用。

综合性检索语言比较适用于综合性文献信息机构处理多种学科和多种类型的文献,效率虽不甚高,但那些单位不可能同时使用许多种专业性和专用性的检索语言。

因此,提高综合性检索语言的效率无疑是必要的,但也是比较困难的。

(6)具有对文献信息机构各个工作环节的适应性。

在这方面,体系分类法(包括体系组配分类法)的适应性较强,除适用于信息检索外,还适用于文献排架、文献资源建设计划、服务部门的划分、文献报道、统计等工作。

其他语言则几乎只能用于信息检索和文献报道。

(7)具有与其他检索语言的兼容性和一国通用性以及国际通用性。

每一种检索语言都是根据一定需要而创制的,不但具有适应某些具体需要的特点,而且往往还带有某个国家的特点和某种自然语言的特点。

这样,造成各种检索工具和检索系统之间缺乏“互换性”,不能互相利用标引成果,检索也很不方便。

所以,要力求检索语言的一国通用性和国际通用性,即标准化。

特别是目前信息检索网络化发展的需要,更迫切要求解决各种检索语言的兼容性问题。

各个检索系统都使用同一种检索语言是不可能的,因为至今还没有、大概也不可能有一种检索语言能满足一切实际需要。

但是,如果能使各种检索语言特别是同一类型的检索语言接近起来(例如尽可能用同一个语词来表达同一概念等),就有助于克服障碍和提高效率。

(8)具有不断进行修改的可能性,即要能跟上科学技术和社会的发展。

科学技术领域中新学科新知识不断出现,各学科之间的关系在不断变化,社会也在不断发展,检索语言要易于扩充修改,及时增补新概念,反映新事物,以及改变旧的结构和概念联系,以适应息检索的需要。

以上是对检索语言的一些基本要求。

但是,实践中还没有一种语言能完满地达到上述全部要求,所以目前在信息存贮和检索实践中是多种检索语言共存的局面。

3.1.2检索语言的类型

各种检索语言的基本原理是一致的。

但是,它们在表达各种概念及其相互关系和在解决对它们提出的那些基本要求时所采用的方法不同,因而形成了不同的类型和语种。

(1)按照构成原理分为分类检索语言、主题检索语言、代码检索语言。

①分类检索语言是用分类号来表达各种概念,将各种概念按学科性质进行分类和系统排列。

分类检索语言包括等级体系型分类检索语言(体系分类法)和分析综合型分类检索语言(组配分类法)。

②主题检索语言是用语词来表达各种概念,将各种概念不管其相互关系完全按字顺排列。

主题检索语言包括标题词型检索语言(标题法)、单元词型主题检索语言(单元词法,现已淘汰)、叙词型主题检索语言(叙词法)和关键词型主题检索语言(关键词法)等。

标题法的检索标识是在编表时就固定组配好,即所谓“先组式”的;

单元词法和叙词法的检索标识一般是在检索时才组配起来,即所谓“后组式”的。

标题法、单元词法和叙词法都要对取自自然语言的语词加以规范化,而关键词法一般认为是直接使用自然语言不加规范,其实它也要进行某种程度的规范化处理。

标题法、单元词法和叙词法在表达各种概念及其相互关系的方法上各有特点,但许多方法是互相通用的。

所以在它们之间没有明确的分界线。

事实上,目前分类检索语言和主题检索语言也相互渗透,各种方法互相采用。

例如,叙词法就采用了多种检索语言的方法。

③代码检索语言是一般只就事物的某一方面特征,用某种代码系统加以标引和排列。

例如,依据化合物的分子式这种代码语言可以构成分子式索引系统,允许用户从分子式出发,检索相应的化合物及相关文献信息。

(2)按照标识组合的先后分为先组式语言和后组式语言。

使用检索语言和使用自然语言一样,当表达简单概念时,只需用单词即可;

当表达复杂的概念时,则需要用词组或若干词、词组构成的短语。

检索语言有两种方式提供表达文献信息内容和检索课题概念所需的词组或短语,因而形成了两类检索语言。

①先组式语言。

这是一类将表达各个概括文献信息内容或检索课题的复杂概念所需的词组或短语,与表达简单概念的单词一样;

在检索语言的词典(分类表、主题词表、代码表)中基本列出的检索语言。

也就是说,在标引文献信息之前,就已将需要用到的词组或短语(标识的组合)组配好了。

目前所用的大多数分类语言是先组式分类语言,如《中国图书馆图书分类法》等。

主题语言中的标题语言也是先组式语言,如《美国国会图书馆标题表》等。

先组式语言一般只能以先组方式在检索系统中使用。

②后组式语言。

这类语言仅提供表达文献信息内容和检索课题概念所需的基本标识&

&

单词或部分词组,当需要表达文献信息内容和检索课题的复杂概念时,可根据需要,依据一定的规则,,用若干个表达简单概念的基本标识来组合(组配)表达相应的复杂概念。

由于它是在使用检索语言的时候才进行标识组配,因而被称为后组式语言。

后组式分类语言使用得不多。

叙词语言是后组式的主题语言,如我国的《汉语主题词表》。

后组式语言在检索系统中有两种使用方式:

a.在检索系统中将表达特定文献信息内容的几个标识组配好,构成一个完整的复杂标识。

因而检索者根据课题可能要用检索语言的几个标识,并组配在一起进行检索。

这种检索系统用的是后组式语言,但却是先组式检索系统。

b.检索系统并不将表达特定文献信息内容的几个标识在形式上组配起来,而是分散在各处,检索时才与检索者所用的若干个标识分别匹配。

这种系统才称为后组式检索系统。

计算机检索系统一般都是后组式检索系统,手工检索系统则多为先组式检索系统。

(3)按照检索语言所适用的学科范围可分为综合性语言、多科性语言、专业性语言。

(4)按照检索语言适用的地区范围可分为国际语言、国内通用语言。

(5)按照检索语言适用的机构范围可分为各类文献信息机构通用的语言、某类文献信息机构专用的语言、某一文献信息机构专用的语言。

(6)按照检索语言适用的文献信息类型可分为多类型文献信息适用的语言和某一类型文献信息专用的语言(如专利分类法)。

(7)按照检索语言所适用的检索系统可分为手工检索工具适用的语言、计算机检索系统适用的语言。

另外,由于检索语言都是利用各种通行文字来表达概念的,所以检索语言有单语种语言、双语种语言、多语种语言之分。

单语种语言又可按自然语言的语种细分,因为它们还会带有各种自然语言的某些特点。

在上述划分检索语言类型的角度中,按构成原理分是最基本的,按标识的组合使用方法分也很重要,这是决定检索语言性能的两个重要因素。

3.2分类检索语言

3.2.1分类检索语言的基本原理

分类语言的具体表现形式主要是分类表(分类语言的词典),但规定分类标引规则的使用说明或手册也是一个必要的组成部分。

由于用分类表和分类规则来标引、组织、检索

文献信息的方法被称为分类法,所以习惯上将某种分类语言称为分类法。

目前使用最广泛的一般是先组式的分类法,称为体系分类法或等级列举式分类法。

&

体系分类法是一种直接体现知识分类的等级制概念标识系统。

它是对概括文献信息内容及某些外表特征的概念进行逻辑分类(划分与概括)和系统排列而构成的。

体系分类法的主要特点是按学科、专业集中文献,并从知识分类角度揭示各类文献在内容上的区别和

联系,提供学科分类检索文献信息的途径。

由于人们一般都是在某个专业范围内从事科研、生产、教学、管理等活动的,习惯于

从学科、专业出发去获取知识和信息,而体系分类法对于有系统地掌握和利用一个学科或专业范围的知识和信息来说,是很方便和有效的,因此,它成为一种对文献信息进行系统化处理的重要方法,成为一种历史最久、使用最普遍的检索语言。

3.2.2中国图书分类法

一部完整的分类表,大体可分为下列几个组成部分:

1.编制说明

包括分类表的编制经过,所依据的编制原则,部类及大类的设置及其理由,对各种分类问题的处理办法、标记方法、使用方法等,可以让使用者对分类表有一个初步的全面的认识。

2.类目表

类目表是分类法的主体,它决定分类号的含义,是选用分类号表达文献信息内容和检索课题的主要依据。

各种具体的分类法,其类目表的结构不尽一致,但都是由大量的类目以并列关系和等级关系为主组成的分类体系。

以我国的《中图法》为例,它的类目表就是由基本大类、简表、评表和复分表组成。

①基本大类是分类法中的第一级类目,是对一定学科领域的基本划分。

《中图法》共有22个基本大类。

②简表,又称基本类目表,是分别对每个基本大类,依据它的某些属性,作若干次逐一划分后得出的类目表,起承上启下的作用。

一部大型分类表由于其详表.(正文)的类目很多,在线性排列的情况下,不易掌握整个分类表的内容,在查表时可以从简表人手,由简表再转查详表,不致迷失方向。

简表也可供简略分类之用,简表一般列出第一、二、三级类目。

③详表,又称主表,是分类表的正文,由简表进一步逐级展开划分而成。

主表由类目、分类号和类目注释三部分组成。

类目是分类法的“语词”,它限定着所表达的事物概念的内涵和外延。

分类号是类目的代号,是分类标识的具体形式。

它简明、易于排列,有时还反映类目的层次。

分类号可以用一种号码(如数字或字母)组成,也可由两种符号混合组成。

分类号的构造方法可分为;

层累制,即分类号的位数与类目级别基本上相对应,一位号码表示一级类目,两位号码表示二级类目,如此类推;

顺序制,分类号是按类目的先后顺序(不是等级)从小到大安排;

、混合制,混合采用前两种方法构成分类号。

类目注释,是说明类目的含义、范围、使用规则等事项,以便正确理解和使用该类目的文字。

④复分表,又称辅助表,是供主表中某些类目共同细分而从主表中抽出的一部分类目表。

辅助表可分通用复分表和专用复分表。

通用复分表都附在主表之后,专用复分表则插在主表中的有关部分。

例如《中图法》设有总论复分表、世界地区表、中国地区表、国际时代表、中国时代表、中国民族表等整个主表通用的复分表。

在主表内还有大量的专用复分表和依照复分类目。

3.索引

根据标题法的原理,将类目及其注释改成标题形式,按字顺排列,并注明相应的分类号。

这样不仅可方便查表,而且还可将分类表中因为按学科分类而被分散的同一事物不同方面的类目集中,使分类法在某种程度上兼有主题法的性能。

4.附录

是文献分类标引中经常要查阅的参考资料,一般不属分类表的有机组成部分。

一、分类法在信息存贮和检索中的应用范围

1.

(1)分类编排手工检索工具的正文(主体)部分

分类目录:

我国文献信息机构用于从内容角度提示所藏图书、期刊的目录。

不管所藏文献是印刷型还是机读型,均习惯以分类目录为主。

依照分类号或加上书次号来排列文献著录款目就形成了分类目录。

检索工具正文的分类编排:

大多数文摘型或题录型检索工具的正文(文摘、题录)部分是按分类编排的。

大多数检索工具用来编排正文的分类体系和类号都较为简单。

例如,美国《化学文摘》(CA)的正文首先分为5个部(一级类目):

生物化学、有机化学;

高分子化学、应用化学和化学工程、物理和分析化学,这5个部不用号码表示;

每个部再细分出肋个二级类目,并依顺序编类号为1至80。

美国《生物学文摘》(BA)的正文分为84个类(不再细分),不编类号,而按类名的字顺排序。

(2)检索工具中的分类索引

由于大多数检索工具的正文已按分类编排,因此,检索工具的辅助索引中,提供分类索引的不多。

但是在专利文献的检索工具中,用特定专利分类法(如《国际专利分类法》)编制的专利分类索引是一个重要部分。

例如美国《生物学文摘》的“生物分类索引”和“类屉索引”,就是按生物分类体系编制的。

(3)计算机检索数据库的分类号字段

在一部分供计算机检索的数据库记录中设有分类号字段,提供分类途径检索。

3.2.3国外图书分类

目前,国际分类法中较为著名的、尚在使用或有很大影响的主要有五部,见表3-2-1。

表3-2-1国际常用分类法

分类法名称

简称

主编

杜威十进分类法

DC或DDC

(美)杜威

国际十进分类法

DDC

(比)奥特勒等

美国国会图书馆分类法

CC

美国国会图书馆编目组

冒号分类法

LC

(印)阮冈纳赞

书目分类法

BC

(美)布利斯

这些分类法从它们的体系结构,可以归纳为三种:

1.等级列举式

采用尽量列举所有类目形式,并将这些类目组成一个等级系统,故又称为体系分类法,如DC、IC属于这种类型。

2.分面组配式

CC即属于这种类型,采用简单概念组成复合的方式,在类表里只列出不同范畴概念,用组配方法来表达具体类目。

3.列举、组配复合体系

即在列举类表里大量运用了组配式的分配原则,是介于列举和组配之间的一种折中的形式,如UDC、BC都属于这种类型。

在上述几种分类法中,流行最广、影响最大的是DC,在科技情报界用户最多的是UDC,对当代分类法编制理论及技术影响最大的是CC。

下面是以《杜威十进分类法》为例介绍等级列举式分类法的体例:

《杜威十进分类法》(DC)受培根知识分类的影响,将全表分为十大类,其基本大类如下:

000总论500自然科学

100哲学600技术科学

200宗教700美术

300社会科学800文学

400语言学900史地

其类目展开情况如下(技术科学类类目):

600技术科学

620工和学

621机械工程

.01工程热力学

.1蒸汽工程

.2水利工程

.3电利工程

.31电利的发生

DC的特点是:

(1)在分类表上第一次用号码代表类目;

(2)采用小数标记制使类目级纵向无限扩充;

(3)首次运用组配的方法(复分表)。

由于它具有以上

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 小学教育 > 其它课程

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1