《信息组织》复习.docx
《《信息组织》复习.docx》由会员分享,可在线阅读,更多相关《《信息组织》复习.docx(16页珍藏版)》请在冰豆网上搜索。
《信息组织》复习
信息组织复习
第一章
1.信息组织、检索语言的基本概念。
信息组织:
亦称信息资源组织,是根据使用的需要,以信息资源为对象,通过对其内容特征进行分析、选择、处理、序化,并提供的活动。
检索语言:
是一种由表达信息资源主题概念及其相互关系的词汇及规则组成的人工语言系统,也称情报检索语言。
2.信息组织与信息检索的关系。
信息组织是信息检索的基础和前提。
信息检索是信息组织的出发点和归宿。
两者既有区别,又相互依存、相互作用、互为因果。
3.根据对象与特点划分,检索工具有哪些类型。
检索工具类型有:
文献目录、索引、机读数据库、网络搜索引擎。
4.两种基本检索途径及其特点。
1.以信息资源的外部特征为检索依据,进行检索的途径。
特点:
迅速、确切地查找特定文献,必须预先掌握相应的数据。
2.以信息资源的主题内容为依据,进行检索的途径。
主要有分类法和主题法。
特点:
不必事先了解相应的数据,可直接从主题内容查找;但不如前一种方法直接和准确。
第二章
1.检全率、检准率的基本概念。
检全率=(检出相关文献数/系统相关文献总数)*100%。
检准率=(检出相关文献数/检出文献总数)*100%。
2.信息组织中规范控制包括:
描述控制、词汇控制、句法控制。
第三、四章
1.信息描述、元数据、检索点、MARC格式、计算机标识语言的基本概念。
信息描述:
亦称信息资源描述,是根据信息组织和检索的需要,对信息资源的主题内容、形式特征、物质形态等进行分析、选择、记录的活动。
元数据:
是关于数据的数据,或关于数据的结构化的数据。
MARC格式:
是机读编目格式的简称,是根据文献特点和文献机构之间信息交换的需要建立的标准化的计算机可读形式。
计算机标识语言:
是一种利用特定的文本句法描述信息资源的语言,目的是用来界定文献的结构成分以作为未来计算机处理之用。
第五章
第一节
1.信息资源分类、等级列举式分类法、分面组配式分类法的基本概念。
信息资源分类法分:
等级列举式、分面组配式、列举组配式。
等级列举式分类法:
将所有类目组成一个等级系统,用列举的方式编制的分类法。
分面组配式分类法:
依据分析兼综合原则,编制的分类法。
2.信息资源分类的特征和作用。
信息资源分类的特征:
1.按内容特征的关系进行组织的。
2.从一定角度出发组织和揭示信息资源的。
3.采用标记符号作为排序工具。
4.通过类目索引提供从字顺角度查找类目的途径。
信息资源分类的作用:
1.进行资源组织;2.建立分类检索工具;3.分类统计;4.兼容工具。
3.等级列举式分类法和分面组配式分类法的含义、特点及其不足。
等级列举式分类法的含义:
将所有类目组成一个等级系统,用列举的方式编制的分类法。
等级列举式分类法的特点:
1.分类直观。
2.类目均衡。
3.标记简明。
等级列举式分类法的不足:
1.揭示主题能力差。
2.类表具有凝固性。
3.无法自动生成新类。
4.对类表管理要求高。
分面组配式分类法的含义:
依据分析兼综合原则,编制的分类法。
分面组配式分类法的特点:
1.标引专指。
2.标记表达性强。
3.对科学发展适应性强。
4.类表篇幅较小。
分面组配式分类法的不足:
1.类目不直观。
2.类目不均衡。
3.标引难度高。
4.标记复杂。
第二节
1.分类法的结构组成:
类目体系、标记符号、说明与注释、类目索引。
2.类目表的结构组成:
基本大类、简表、详表、复分表。
4.分类标记的基本要求:
简明性、表达性、容纳性、助记性。
5.标记符号的种类、标记制度和常用标记技术。
标记符号的种类:
单纯号码和混合号码两种。
标记制度:
顺序标记制、层累标记制、顺序—层累标记制、分面标记制。
常用标记技术:
八分法、双位法、借号法、预留空号法、对应编号法、字母标记法。
6.类目索引分为:
直接索引、相关索引和主题词索引。
-
第三节
1.引用次序、交替类目的基本概念。
引用次序:
指复合主题标引和检索时,各个主题因素的组合次序。
交替类目:
为一个知识门类设置使用类目时,于相应门类下设置供选择使用的类目。
2.引用次序在分类体系建立中的作用。
1.能确定复合主题如何集中,是分类系统建立的中心问题。
2.决定着类目体系展开方式,直接影响分类体系的性能。
(重点)3.传统分类法对于横向关系的处理方法。
传统分类法对于横向关系的处理方法:
1.设置交替类目。
一知识门类同时从属于多个科学部门的情况下,同时在相应门类中设置类目,规定其中一个为使用类目。
2.建立参照。
以类目参照的方式,用于指明类目之间除从属、并列、交替等方式以外的其他联系。
3.设置选择类目。
在主题内容存在着不同处理可能时,指明可供选择的不同处理办法,供选择使用。
4.设置选择类表。
根据用户的需要,为一主题或学科领域同时编制不同的类表,供选择使用。
5.规定类目的归属。
按照单线序列中类目设置需要,规定类目处理的做法。
4.类目体系中类目之间存在的基本关系及表现形式。
类目之间的关系:
从属关系、并列关系、交替关系、相关关系。
1.从属关系:
亦称隶属关系,指类目体系母类、子类关系。
特点:
上位类必然包括下位类的范围;下位类必然具有上位类的属性。
2.并列关系:
同位类之间的关系。
同位类之间都有上位类的属性;又各有自己的特有属性。
3.交替关系:
交替类目与使用类目之间的关系。
作用:
解决多重从属与线性关系之间的矛盾。
4.相关关系:
类目之间除从属、并列、交替以外的其他关系。
表现形式:
类目参照。
第四节
(重点)网络分类法与传统分类法相比,在类目关系揭示上的主要变化。
1.揭示角度不同。
传统分类法是以学科为中心建立体系;网络分类法则采用以主题为中心建立体系。
2.设置特点不同。
传统分类法重视逻辑性、系统性,全面性;网络分类法由于网络资源的内容分布和用户的需要有大的变化。
3.展开的形式不同。
传统分类法采用线性结构;网络分类法采用多维结构。
4.同位类排列方式不同。
传统分类体系对同位类按类目的关系排列,网络分类法则进行了调整。
5.适用特点不同。
传统分类法重视易用性,学术性与通用性的结合;网络分类法更突出用户感兴趣的通用性类目。
第六章
DDC、UDC、LCC号称世界三大分类法。
国内外主要传统分类法的全称、简称。
等级列举式分类法:
《杜威十进分类法》(DDC)
《美国国会图书馆图书分类法》(LCC)
《中国图书馆分类法》(中图法)
《雅虎主题指南》(Yahoo!
指南)
分面组配式分类法:
《冒号分类法》(CC)
列举—组配式分类法:
《国际十进分类法》(UDC)
第七章
1.分类标引、分类索书号的基本概念。
分类标引:
根据分类语言,对信息资源的内容特征进行分析、判断、选择、赋予分类标识的过程。
分类索书号:
又称分类排架号,是表示一文献在分类收藏中位置的号码。
2.分类标引的基本要求:
准确、充分、一致、适用。
4.分类标引工作的程序,以及在这些分类步骤中应注意的问题。
分类标引工作的程序:
查重—主题分析—归类—给号—审核。
查重:
检查是否为已标引,避免重复。
依据:
书名目录进行。
联机情况下,使用联机目录工具。
主题分析:
对主题概念进行概括、提炼和选择。
切忌只凭文献名称进行主题分析。
归类:
将主题分析的结果归入相应的门类。
给号:
给予相应的分类号。
作用是:
编制检索工具。
审核:
对结果进行核查。
目的:
减少标引误差,保证文献标引质量。
5.确定使用本的范围。
1.确定详略程度。
2.对类目局部扩充。
3.对类目局部集中。
4.增加新类。
5.调整说明与注释。
6.分类标引的基本规则和一般标引分类规则。
分类标引的基本规则:
1.按信息资源的特点。
2.要体现分类法的逻辑性,等级性,次第性。
3.信息资源必须归入最切合其内容的类。
4.信息资源必须归入用途最大的类。
5.不能单凭题名、篇名的意义归类。
6.要注意标引的思想性。
一般标引分类规则:
是从著作方式的角度提出来的,适用于各个知识门类的分类规则。
包括:
各种主题类型分类规则。
有单主题、多主题,各种文献类型分类规则。
7.分类索书号的构成:
分类号、书次号、辅助区分号。
第八章
1.主题法、叙词法、范畴索引、轮排索引的基本概念。
主题法:
以表达主题内容的语词作检索标识、以字顺为主要检索途径的标引和检索信息资源的方法。
叙词法:
从自然语言中精选出来的、经过严格处理的语词作为文献主题标识,通过概念组配方式表达文献主题的主题法类型。
范畴索引:
亦称范畴表,是按照词汇所属学科或范畴编制的概略分类系统,是从分类角度查找叙词的辅助工具。
轮排索引:
亦称轮排表,是将词表中的词按词素的字顺排列,使含有同一词素的叙词集中显示的词汇表。
2.主题法的特点和基本类型。
主题法的特点:
集中与一个主题有关的各个方面的信息资源,检索的直接性、通用性好,适合专指检索,在性能上具有与分类法相互补充的特点。
主题法的基本类型:
主题法按照选词方式分:
标题法、元词法、叙词法、关键词法
主题法按照其使用时组配的先后分:
先组式主题法和后组式主题法
主题法按照其使用时是否进行控制分:
受控主题法和非受控主题法
4.叙词表一般应包括的部分以及叙词表组成的基本要求。
叙词表一般应包括:
1.字顺显示部分;2.系统显示部分。
叙词表组成的基本要求:
1.功能完备。
2.功能互补。
3.结构简明。
4.编制和管理方便。
5.易于掌握、便于使用。
5.词汇的控制范围包括:
词汇选择、词汇控制、词义控制、词间关系控制。
6.叙词表中词义控制和关系控制。
词义控制:
一般采用在叙词后加限义词或加注的方法予以解决。
关系控制分:
等同关系、属分关系和相关关系。
等同关系:
Y、D(用、代);
属分关系:
S、F、Z(属、分、族);
相关关系:
C(参)。
第九章
国内外主要主题法的全称、简称。
《美国国会标题表》简称LCSH。
《医学标题表》简称MeSH。
《汉语主题词表》简称《汉表》。
《中国分类主题词表》简称《中分表》。
《社会科学检索词表》简称《社科检索词典》
第十章
1.主题标引、限定组配的基本概念。
主题标引:
根据主题词表或主题标引规则,赋予信息资源语词标识的过程。
限定组配:
以表示事物的叙词和标识事物特称、属性或方面的叙词进行组配,表示一个专指的子概念,通常以符号“—”或“,”为组配标志。
(重点)2.主题标引和分类标引的相同点和不同点。
主题标引和分类标引的相同点:
1.揭示的对象相同。
2.依据的数据来源相同。
3.操作程序相同。
4.基本处理方法相同。
主题标引和分类标引的不同点:
1.主题分析的角度不同。
2.转换途径不同。
3.标识不同。
4.揭示的特点不同。
3.主题标引的基本方式:
整体标引、全面标引、对口标引、综合标引、分类标引。
4.组配标引的规则。
主题标引的组配规则是:
1.必须是概念组配。
2.优先选用交叉组配。
3.不能越级组配。
4.必须选用与文献主题关系最密切的叙词组配。
5.组配结果应具有单义性。
6.对并列多主题文献进行分组标引。
7.按照规定的次序确定标题。
8.控制好标题的级别和数量。
第十一章
文本检索、Ontology的基本概念。
文本检索:
不标引,直接用计算机,通过自然语言,对信息资源进行检索的方式。
本体(Ontology):
共享的,概念化的,明确的,形式化的表述。
第一章
1.信息组织的基本方法就可以概括为:
以信息外在特征和内容特征为基础的信息序化方法和信息优化方法。
2.信息的序化:
是按照一定的方法将无序的信息组织成有序信息的过程。
经序化过的信息会变得一目了然,便于管理和利用。
3.信息的优化:
是在序化的基础上,按照结构功能优化的目的对信息进行再序化的过程。
4.信息序化的基本方法:
1.语法信息序化法2.语义信息序化法3.语用信息序化法
5.信息的优化主要包括:
信息的优选、浓缩、重新表述及三者的综合运用。
6.信息的重新表述有改写、编译、翻译等方式。
(了解)
7.信息的综合优化的主要形式是信息综述和信息述评。
8.信息综述:
是对某一领域或课题一定时期的有关信息进行归纳、整理、分析、加工后所形成的信息产品
6.信息述评:
是针对某一领域、研究课题或成果的水平、现状、发展动向及影响进行全面而系统的分析评价或明确提出建议
9信息组织的一般过程包括:
1.信息替代2.信息序化
信息的替代过程(亦可成为信息揭示过程)实际上是对原始信息的外表特征(包括题名、著者、出处等)和内容特征(包括分类号、主题词、摘要等)进行描述的过程,这项工作通常称为著录。
10.信息序化是对替代信息给出信息标识(如分类号、主题词等)的过程,这项工作通常称为标引。
11.衡量信息检索效率的指标:
查全率R=查准率P=
查全率R与查准率P呈负相关
12.信息浓缩的主要方式:
1)文摘2)题录3)目录4)词条
第二章
分类法:
是以知识属性来描述和表达信息内容的一种信息处理方法。
分类语言:
是指以数字、字母或字母与数字结合作为基本字符,采用字符直接连接并以圆点(或其他符号)作为隔离的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言。
分类法的类型:
1)体系型分类法:
是传统的分类法,它的特点是:
直线型的序列,层累制的结构,列举式的类目,码号式的语言。
《中国图书馆分类法》是典型的体系型分类法。
2)体系一组配分类法:
在传统的分类法上,发展起来一种体系—组配型分类法,它的基本特点仍然有体系型分类法的特点,但它增加了复分组配能力。
《国际十进分类法》是典型的体系—组配型分类法。
比较中图法和UDC
中图法是体系型分类法,UDC是体系—组配型分类法
中图法正表分为5个基本部类,22个基本大类,UDC有十个基本大类
中图法的配号制度基本上采用层累制的原则,UDC采用小数制
中图法采用拼音和数字结合的混合号码,UDC采用纯数字作为标记符号
分类法通常由六个部分组成:
类目、号码、正表、附表、说明、索引
类目间关系(了解p14-p15)
号码的类型及其编制方式(了解p16-p19)
层累制:
又称等级制,它的组合和排列方法是利用号码的基数和次序将一个个的号码层层展开出来。
《中图法》分类思想:
《中国图书馆分类法》是典型的体系型分类法,按照“五分法”,即分为:
(1)马克思列宁主义、毛泽东思想;
(2)哲学;(3)社会科学;(4)自然科学;(5)综合性图书。
在此基础上又分为二十二个大类
复分表:
即附表,就是将一组可适用于多个类别的子目结构,单独制表。
1)通用附表:
(1)总论复分表
(2)地域区分表(3)时代区分表(4)民族区分表
2)专类附表
国际常用分类法(了解)
1.《杜威十进分类法》(DDC)2.《美国国会图书馆图书分类法》(LCC)3.国际十进制分类法(UDC)
第三章
1、主题法:
以主题语言为基础描述和表达信息内容的一种信息处理方法。
2、主题语言:
是指以自然语言的字符为字符,以名词术语为基本词汇,用一组名词术语作为检索标识的一类检索语言。
3、主题法的种类:
标题法(标题词法)用经过规范化处理的自然语言语词及语组来逐一表达主题概念
元词法(单元词法)以经过规范化处理的自然语言语词的字面组配来表达主题概念
叙词法(主题词法)以经过规范化处理的自然语言语词的概念组配来表达主题概念
键词法(关键词法)直接以文献中的语词来表达主题概念
4、叙词性能
叙词的优异检索性能,是后组式检索语言,可以自由地进行广泛的组配,以及进行多维性、多途径检索。
(1)保留了单元词组配的基本原理:
吸收了单元词法又吸收了组配分类法的概念。
①概念组配,吸收自组配分类法;
(2)采用了标题法对语词进行严格规范化的方法,以保证词与概念的一一对应:
具有直接标引文献内容的特征,以及利用标题词的参照系统显示叙词之间的概念逻辑关系等优点。
②采用先组,吸收自标题法;⑥字顺表及范畴索引中的字顺排列,吸收自标题法
(3)采用了体系分类法的基本原理,编制叙词分类索引(范畴索引)和等级索引(词族索引)。
③参照系统,吸收自体系分类法④范畴索引以及词族索引,吸收自体系分类法;
⑤轮排索引,吸收自关键词法;⑥字顺表及范畴索引中的字顺排列,吸收自标题法
5、检索语言的核心是词表,包括分类表、标题表、叙词表等。
(自己了解)
叙词表包括以下几个部分:
①叙词字顺表,又称叙词表的主表。
②分类索引,又称范畴索引。
③等级索引,又称词族索引。
④双语种对照索引。
⑤附表。
范畴索引(分类索引)是将叙词按其概念所属学科或范畴分成若干大类,在大类之下再分小类,在小类之下则将叙词按字顺排列,形成一个类似体系分类表的概念分类系统。
等级索引(词族索引)是利用概念的属分关系,将具有属分关系的叙词汇集在一起成为一族,构成一个从泛指叙词到专指叙词的等级系统。
6、《汉语主题词表》(了解中国编制的大型综合性中文叙词表。
双位数字在前,双位字母在后的标记方法。
该词表主要供电子计算机系统存储和检索文献用,亦可用来组织卡片式主题目录和书本式主题索引。
7、主题词款目著录各项含义(了解p49-p51)
8、关键词:
是从文献资料的正文、摘要或书名、篇名中抽出的并在表达文献内容主题方面具有实在意义起关键性作用的词汇。
9、关键词的性质
关键词属主题法系统的检索语言
关键词与主题词(叙词)比较:
主题词是由标引员根据一定的词表选出的控制词汇,即经过规范化的词汇,它可以不同于文献作者在文献题目或正文中所用的词汇。
同时,主题词表有一定专指度的限制,不是每一个概念都能找到相应的主题词,有时细小的概念需要上溯到较广的概念,才能找到相应的主题词。
而关键词是文献中现成的词汇,这是文献作者所用的语言,是一种自然语言。
因而,关键词能够达到任意的专指度和泛指度。
关键词与标题词、单元词、叙词比较:
相同点:
同属主题法系统的检索语言
不同点:
1)标题词、单元词和叙词都对自然语言的语词加以严格的规范化处理,关键词法则基本上不作规范化处理,或仅作极少的规范化处理。
2)标题词、单元词和叙词都需要词表,关键词则不存在所谓的词表。
10、单元词(了解P67)
单元词法也称元词法,以单元词作为文献内容标识和查找的依据。
所谓单元词,是指从自然语言中选取的,经过规范化处理的,具有独立概念的最基本的词汇单元,即在字面上不能再分的名词术语。
也就是说,在概念上不能再分的词作为一个单元,以此来标识文献内容的方法。
11、参照系统:
See和SeeAlso(了解)P67
12、叙词与叙词、非叙词间概念逻辑关系
1)同义关系(等同关系)
2)等级关系
3)相关关系
13、分类法和主题法的主要差异
主题法:
以主题语言为基础描述和表达信息内容的一种信息处理方法。
分类法:
是以知识属性来描述和表达信息内容的一种信息处理方法。
1)在主题概念标识上:
分类法采用分类号,主题法采用受控词语
2)在文献集中方式上:
分类法按学科和专业集中,主题法按事物集中
3)在概念关系显示上,分类法采用等级(层次)结构,主题法是参照系统和范畴词组
4)在概念排列检索上,分类法按学科及逻辑体系,主题法按字顺序列
5)在词汇控制上,分类法严于等级关系控制和疏于词形控制,主题词法严于实施词形、词义、词间关系控制
分类法和主题法的兼容性
1)在术语上,分类法使用类名,主题法使用主题词
2)在标记上,分类法采用分类号,主题词法采用范畴号
3)在参照上,分类法使用分类参见,主题法使用参照系统
4)在索引上,分类法是字顺索引,主题法是反抽索引、词族、索引等
14、分类主题一体化词表可以分为以下三种类型:
(1)分面叙词表
(2)分类主题词表(3)集成词表
第4章标引与著录
1.标引:
是对文献进行主题分析,从自然语言转换成规范化的检索语言的过程,即对主题分析结果赋予检索标识的过程。
2.文献标引包括分类标引和主题标引
3.分类标引:
分类标引,就是将文献主题的自然语言形态,转换成分类语言形态的一种标引,也就是将文献主题转换成分类号的一种标引。
4.分类标引的依据:
(了解)1)单个主题分类标引
(1)依研究的学科性质归类
(2)依书本的主旨和用途归类(3)依据研究的事物,问题或生活现象的性质归类(4)依著者赞成的学科性质归类(5)按切和主体性质归类(6)按问题或学科性质归类(7)除取主要分类号外,还可取互见分类号(8)一般依重点归类。
2)两个主题分类标引:
并列关系,从属关系,因果关系,影响关系,比较关系,应用关系。
3)多个主题分类标引:
直接归入他们的上位类;如果主题不能包括在它们的上位类里,就按内容重点归类;如果论述其中一个主体对其余各个主体的关系,就按发生关系的主题归类;如果论述的几个主题是互不相容,或者是比较其异同,优劣的,就依书中意旨和著者目的或所赞同的主题归类。
4)地域。
时代分类标引
5.主题标引:
是对文献进行主题分析,并给予主题词标识的过程。
它以文献篇名和文摘为依据,必要时参考全文的内容,考虑检索途径的全面性和表达主题的专指性,充分利用词表提供的各种辅助选词手段,充分反映馆藏特点和各类用户的要求。
6.标引规则的要求:
1)标引的准确性2)标引深度3)标引的一致性
7.标引方案次序选择:
(了解)①专指性标引(记住):
又称直接标引,是指在转换反映文献主题的标引概念时,要用专指度最相符的主题词来标引。
②组配标引③上位词标引④近义词标引⑤增词标引
8.适度标引:
是指标引出的叙词与原文献主题概念基本一致,既不过度,也不过粗的标引技术。
9.适度标引:
是指标引出的叙词与原文献主题概念基本一致,既不过度,也不过粗的标引技术。
10.组配规则:
(了解114)所谓组配,就是把几个主题词按一定的组合方式合理地组合在一起,用来表示达到更专指的主题
11.字面组配:
(了解119)例子也看一下:
指的是单纯字面组配。
也就是指那些单纯从字面的拼合出发,而不考虑概念之间的逻辑关系和语法关系的组配。
12.概念组配:
所谓组配标引是指采用几个叙词的组合形式,对文献内容特征进行的标引。
但组配的叙词之间必须具有概念上的某种逻辑联系。
13.
(1)概念交叉组配
(2)概念限定组配(3)概念并列组配的区别(了解)
14.字面组配与概念组配的区别:
(选择题)字面组配其实质是词的分析与组合(拆词);概念组配实质是概念的分析和综合(拆义),二者的检索效果是有很大的差异的。
15.著录:
在编制文献目录时,对文献信息的各种特征进行分析、选择和记录的过程
16.MARC(MachineReadableCatalog)是机读目录的简称:
指以代码形式和特定结构记录在计算机存储载体上的,用计算机识别与处理的目录
第五章
1、信息组织自动化技术:
自动标引,自动分类,自动文摘。
2、自动标引分为:
自动抽词标引,自动赋词标引。
3、自动抽词标引:
绝对频率法(由计算机程序将文本与停用词表对照,除去介词、连词等虚词,然后统计出文本中词语出现的频率,按词语出现的频率排序)、相对频率法(当某个词或短语在某一文献资源中出现的频率高于它在整个数据库中出现的频率时,这个词或短语就可以被选作标引词,这就是相对频率抽词法)、位置法(即利用词语在文献中出现的位置来进行选择)。
4、自动赋词标引:
基于关联词表的自动赋词标引、基于中介词典的自动赋词标引。
5、中文标引的特殊难点(了解):
词的切分问题;难以进行比较全面的语法分析;汉语用词的灵活性;主题词选择和隐含标引问题。
6、自动分类包括:
自动聚类、自动归类、类号的自动转换。
7、自动聚类是指从待分类对象中提出特征,再将提出的全部特征进行比较,并根据一定的原则将具有相同或相近特征的对象定义为一类,设法使各类