信息组织复习.docx
《信息组织复习.docx》由会员分享,可在线阅读,更多相关《信息组织复习.docx(18页珍藏版)》请在冰豆网上搜索。
信息组织复习
信息组织复习
1.信息组织的差不多方法就能够概括为:
以信息外在特点和内容特点为基础的信息序化方法和信息优化方法。
2.信息的序化:
是按照一定的方法将无序的信息组织成有序信息的过程。
经序化过的信息会变得一目了然,便于治理和利用。
3.信息的优化:
是在序化的基础上,按照结构功能优化的目的对信息进行再序化的过程。
4.信息序化的差不多方法:
1.语法信息序化法2.语义信息序化法3.语用信息序化法
5.信息的优化要紧包括:
信息的优选、浓缩、重新表述及三者的综合运用。
6.信息的重新表述有改写、编译、翻译等方式。
(了解)
7.信息的综合优化的要紧形式是信息综述和信息述评。
8.信息综述:
是对某一领域或课题一定时期的有关信息进行归纳、整理、分析、加工后所形成的信息产品
6.信息述评:
是针对某一领域、研究课题或成果的水平、现状、进展动向及阻碍进行全面而系统的分析评判或明确提出建议
9信息组织的一样过程包括:
1.信息替代2.信息序化
信息的替代过程(亦可成为信息揭示过程)实际上是对原始信息的外表特点(包括题名、著者、出处等)和内容特点(包括分类号、主题词、摘要等)进行描述的过程,这项工作通常称为著录。
10.信息序化是对替代信息给出信息标识(如分类号、主题词等)的过程,这项工作通常称为标引。
11.衡量信息检索效率的指标:
查全率R=查准率P=
查全率R与查准率P呈负有关
12.信息浓缩的要紧方式:
1)文摘2)题录3)名目4)词条
第二章
分类法:
是以知识属性来描述和表达信息内容的一种信息处理方法。
分类语言:
是指以数字、字母或字母与数字结合作为差不多字符,采纳字符直截了当连接并以圆点(或其他符号)作为隔离的书写法,以差不多类目作为差不多词汇,以类目的从属关系来表达复杂概念的一类检索语言。
分类法的类型:
1)体系型分类法:
是传统的分类法,它的特点是:
直线型的序列,层累制的结构,列举式的类目,码号式的语言。
《中国图书馆分类法》是典型的体系型分类法。
2)体系一组配分类法:
在传统的分类法上,进展起来一种体系—组配型分类法,它的差不多特点仍旧有体系型分类法的特点,但它增加了复分组配能力。
《国际十进分类法》是典型的体系—组配型分类法。
比较中图法和UDC
中图法是体系型分类法,UDC是体系—组配型分类法
中图法正表分为5个差不多部类,22个差不多大类,UDC有十个差不多大类
中图法的配号制度差不多上采纳层累制的原则,UDC采纳小数制
中图法采纳拼音和数字结合的混合号码,UDC采纳纯数字作为标记符号
分类法通常由六个部分组成:
类目、号码、正表、附表、讲明、索引
类目间关系(了解p14-p15)
号码的类型及其编制方式(了解p16-p19)
层累制:
又称等级制,它的组合和排列方法是利用号码的基数和次序将一个个的号码层层展开出来。
《中图法》分类思想:
《中国图书馆分类法》是典型的体系型分类法,按照“五分法”,即分为:
(1)马克思列宁主义、毛泽东思想;
(2)哲学;(3)社会科学;(4)自然科学;(5)综合性图书。
在此基础上又分为二十二个大类
复分表:
即附表,确实是将一组可适用于多个类别的子目结构,单独制表。
通用附表:
(1)总论复分表
(2)地域区分表(3)时代区分表(4)民族区分表
专类附表
国际常用分类法(了解)
《杜威十进分类法》(DDC)2.《美国国会图书馆图书分类法》(LCC)3.国际十进制分类法(UDC)
第三章
1、主题法:
以主题语言为基础描述和表达信息内容的一种信息处理方法。
2、主题语言:
是指以自然语言的字符为字符,以名词术语为差不多词汇,用一组名词术语作为检索标识的一类检索语言。
3、主题法的种类:
标题法(标题词法)用通过规范化处理的自然语言语词及语组来逐一表达主题概念
元词法(单元词法)以通过规范化处理的自然语言语词的字面组配来表达主题概念
叙词法(主题词法)以通过规范化处理的自然语言语词的概念组配来表达主题概念
键词法(关键词法)直截了当以文献中的语词来表达主题概念
4、叙词性能
叙词的优异检干脆能,是后组式检索语言,能够自由地进行广泛的组配,以及进行多维性、多途径检索。
(1)保留了单元词组配的差不多原理:
吸取了单元词法又吸取了组配分类法的概念。
①概念组配,吸取自组配分类法;
(2)采纳了标题法对语词进行严格规范化的方法,以保证词与概念的一一对应:
具有直截了当标引文献内容的特点,以及利用标题词的参照系统显示叙词之间的概念逻辑关系等优点。
②采纳先组,吸取自标题法;⑥字顺表及范畴索引中的字顺排列,吸取自标题法
(3)采纳了体系分类法的差不多原理,编制叙词分类索引(范畴索引)和等级索引(词族索引)。
③参照系统,吸取自体系分类法④范畴索引以及词族索引,吸取自体系分类法;
⑤轮排索引,吸取自关键词法;⑥字顺表及范畴索引中的字顺排列,吸取自标题法
5、检索语言的核心是词表,包括分类表、标题表、叙词表等。
(自己了解)
叙词表包括以下几个部分:
①叙词字顺表,又称叙词表的主表。
②分类索引,又称范畴索引。
③等级索引,又称词族索引。
④双语种对比索引。
⑤附表。
范畴索引(分类索引)是将叙词按其概念所属学科或范畴分成若干大类,在大类之下再分小类,在小类之下则将叙词按字顺排列,形成一个类似体系分类表的概念分类系统。
等级索引(词族索引)是利用概念的属分关系,将具有属分关系的叙词聚拢在一起成为一族,构成一个从泛指叙词到专指叙词的等级系统。
6、《汉语主题词表》(了解中国编制的大型综合性中文叙词表。
双位数字在前,双位字母在后的标记方法。
该词表要紧供电子运算机系统储备和检索文献用,亦可用来组织卡片式主题名目和书本式主题索引。
7、主题词款目著录各项含义(了解p49-p51)
8、关键词:
是从文献资料的正文、摘要或书名、篇名中抽出的并在表达文献内容主题方面具有实在意义起关键性作用的词汇。
9、关键词的性质
关键词属主题法系统的检索语言
关键词与主题词(叙词)比较:
主题词是由标引员按照一定的词表选出的操纵词汇,即通过规范化的词汇,它能够不同于文献作者在文献题目或正文中所用的词汇。
同时,主题词表有一定专指度的限制,不是每一个概念都能找到相应的主题词,有时细小的概念需要上溯到较广的概念,才能找到相应的主题词。
而关键词是文献中现成的词汇,这是文献作者所用的语言,是一种自然语言。
因而,关键词能够达到任意的专指度和泛指度。
关键词与标题词、单元词、叙词比较:
相同点:
同属主题法系统的检索语言
不同点:
1)标题词、单元词和叙词都对自然语言的语词加以严格的规范化处理,关键词法则差不多上不作规范化处理,或仅作极少的规范化处理。
2)标题词、单元词和叙词都需要词表,关键词则不存在所谓的词表。
10、单元词(了解P67)
单元词法也称元词法,以单元词作为文献内容标识和查找的依据。
所谓单元词,是指从自然语言中选取的,通过规范化处理的,具有独立概念的最差不多的词汇单元,即在字面上不能再分的名词术语。
也确实是讲,在概念上不能再分的词作为一个单元,以此来标识文献内容的方法。
11、参照系统:
See和SeeAlso(了解)P67
12、叙词与叙词、非叙词间概念逻辑关系
同义关系(等同关系)
等级关系
有关关系
分类法和主题法的要紧差异
主题法:
以主题语言为基础描述和表达信息内容的一种信息处理方法。
分类法:
是以知识属性来描述和表达信息内容的一种信息处理方法。
在主题概念标识上:
分类法采纳分类号,主题法采纳受控词语
在文献集中方式上:
分类法按学科和专业集中,主题法按事物集中
在概念关系显示上,分类法采纳等级(层次)结构,主题法是参照系统和范畴词组
在概念排列检索上,分类法按学科及逻辑体系,主题法按字顺序列
在词汇操纵上,分类法严于等级关系操纵和疏于词形操纵,主题词法严于实施词形、词义、词间关系操纵
分类法和主题法的兼容性
1)在术语上,分类法使用类名,主题法使用主题词
2)在标记上,分类法采纳分类号,主题词法采纳范畴号
3)在参照上,分类法使用分类参见,主题法使用参照系统
4)在索引上,分类法是字顺索引,主题法是反抽索引、词族、索引等
14、分类主题一体化词表能够分为以下三种类型:
(1)分面叙词表
(2)分类主题词表(3)集成词表
第4章标引与著录
标引:
是对文献进行主题分析,从自然语言转换成规范化的检索语言的过程,即对主题分析结果给予检索标识的过程。
文献标引包括分类标引和主题标引
分类标引:
分类标引,确实是将文献主题的自然语言形状,转换成分类语言形状的一种标引,也确实是将文献主题转换成分类号的一种标引。
分类标引的依据:
(了解)1)单个主题分类标引
(1)依研究的学科性质归类
(2)依书本的主旨和用途归类(3)依据研究的事物,咨询题或生活现象的性质归类(4)依著者赞成的学科性质归类(5)按切和主体性质归类(6)按咨询题或学科性质归类(7)除取要紧分类号外,还可取互见分类号(8)一样依重点归类。
2)两个主题分类标引:
并列关系,从属关系,因果关系,阻碍关系,比较关系,应用关系。
3)多个主题分类标引:
直截了当归入他们的上位类;如果主题不能包括在它们的上位类里,就按内容重点归类;如果论述其中一个主体对其余各个主体的关系,就按发生关系的主题归类;如果论述的几个主题是互不相容,或者是比较其异同,优劣的,就依书中意旨和著者目的或所赞同的主题归类。
4)地域。
时代分类标引
主题标引:
是对文献进行主题分析,并给予主题词标识的过程。
它以文献篇名和文摘为依据,必要时参考全文的内容,考虑检索途径的全面性和表达主题的专指性,充分利用词表提供的各种辅助选词手段,充分反映馆藏特点和各类用户的要求。
标引规则的要求:
1)标引的准确性2)标引深度3)标引的一致性
标引方案次序选择:
(了解)①专指性标引(记住):
又称直截了当标引,是指在转换反映文献主题的标引概念时,要用专指度最相符的主题词来标引。
②组配标引③上位词标引④近义词标引⑤增词标引
适度标引:
是指标引出的叙词与原文献主题概念差不多一致,既只是度,也只是粗的标引技术。
适度标引:
是指标引出的叙词与原文献主题概念差不多一致,既只是度,也只是粗的标引技术。
组配规则:
(了解114)所谓组配,确实是把几个主题词按一定的组合方式合理地组合在一起,用来表示达到更专指的主题
字面组配:
(了解119)例子也看一下:
指的是单纯字面组配。
也确实是指那些单纯从字面的拼合动身,而不考虑概念之间的逻辑关系和语法关系的组配。
概念组配:
所谓组配标引是指采纳几个叙词的组合形式,对文献内容特点进行的标引。
但组配的叙词之间必须具有概念上的某种逻辑联系。
(1)概念交叉组配
(2)概念限定组配(3)概念并列组配的区别(了解)
字面组配与概念组配的区别:
(选择题)字面组配事实上质是词的分析与组合(拆词);概念组配实质是概念的分析和综合(拆义),二者的检索成效是有专门大的差异的。
著录:
在编制文献名目时,对文献信息的各种特点进行分析、选择和记录的过程
MARC(MachineReadableCatalog)是机读名目的简称:
指以代码形式和特定结构记录在运算机储备载体上的,用运算机识别与处理的名目
第五章
信息组织自动化技术:
自动标引,自动分类,自动文摘。
自动标引分为:
自动抽词标引,自动赋词标引。
自动抽词标引:
绝对频率法(由运算机程序将文本与停用词表对比,除去介词、连词等虚词,然后统计出文本中词语显现的频率,按词语显现的频率排序)、相对频率法(当某个词或短语在某一文献资源中显现的频率高于它在整个数据库中显现的频率时,那个词或短语就能够被选作标引词,这确实是相对频率抽词法)、位置法(即利用词语在文献中显现的位置来进行选择)。
自动赋词标引:
基于关联词表的自动赋词标引、基于中介词典的自动赋词标引。
中文标引的专门难点(了解):
词的切分咨询题;难以进行比较全面的语法分析;汉语用词的灵活性;主题词选择和隐含标引咨询题。
自动分类包括:
自动聚类、自动归类、类号的自动转换。
自动聚类是指从待分类对象中提出特点,再将提出的全部特点进行比较,并按照一定的原则将具有相同或相近特点的对象定义为一类,设法使各类中包含的对象大体相等。
自动归类是指先分析被分类对象中的特点,将其与各种类别中对象所具有的共同特点或一定的分类标准、分类参数进行比较,然后将被分类对象划分为特点相近的一类,并给予相应的分类号。
自动分类的一样过程:
建立类主题词;运算文献的归类属度;当文献类归属度超过某类规定的阀值时,即可考虑能否将它划归某类;按照一定的分类规则,给予文献的分类号
自动文摘技术包括:
自动摘录;基于文摘的自动文摘;基于信息抽取的自动文摘;基于结构的自动文献。
第六章
(了解)数字信息资源是用户可通过运算机本地或远程读取、使用,以数字形式储备在光、磁载体上的图像、文字、声音、视频等信息,如电子邮件、专题讨论小组和论坛、电子布告板新闻、电子期刊等。
(了解)数字信息资源的特点:
数字信息资源对系统的依靠性;信息与实体的可分离性;数字信息资源的非直截了当可读性;数字信息结构的复杂性;数字信息资源的共享性;数字信息的易更换性;数字信息的质量参差不齐,缺乏必要的操纵;数字信息的跨国界数据流淌和传递;数字信息的不安全性。
元数据是:
一种有效的信息资源组织和治理的工具,是一种编码体系,它能够关心人们检索和确认所需要的信息资源,能够对数据单元进行详细、全面的著录描述,能够支持信息资源的储备和使用治理,支持对信息资源进行长期储存。
元数据功能:
信息发觉;信息描述;资源治理;资源爱护与长期储存;使用;真实性保证。
(了解)按照元数据所支持的功能,可分为描述性元数据;治理性元数据;结构性元数据
Dublincore的15个核心元素:
题名;作者或制造者;主题词和关键词;出版者;内容描述;其他责任者;日期;资源类型;资源格式;资源标识;关联;资源来源;语言;内容范畴;权限治理。
RDF的三个部分构成:
RDFDaTaMoDeL(RDF数据模型)RDFSCHEMA(大纲)RDFSYNTAX(语法机制)
RDF的数据模型包括三个对象类型:
资源;属性;陈述
按照信息搜集方法和服务提供方式的不同,搜索引擎系统能够分为三大类:
1.名目式搜索引擎;2.机器人搜索引擎;3.元搜索引擎
一个机器人搜索引擎由搜索器(搜索器的功能是在互联网中漫游,发觉和搜集信息)、索引器(索引器的功能是懂得搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表)、检索器(检索器的功能是按照用户的查询在索引库中快速检出文档,进行文档与查询的有关度评判,对将要输出的结果进行排序,并实现某种用户有关性反馈机制)和用户接口(用户接口的作用是输入用户查询、显示查询结果、提供用户有关性反馈机制。
)四个部分组成。
11、机器人搜索引擎工作原理(见图6.2p173)
元搜索引擎是:
一种基于机器人搜索引擎的搜索引擎,用于查询与提供有关的信息线索或者全文。
元搜索引擎的工作原理:
元搜索引擎通过自己定制的搜索界面,同意并处理用户的查询咨询题,在进行实际的调查时调用一个或者多个独立搜索引擎的数据库,搜索结果是来自独立搜索引擎的检索结果或者是这些结果集合的综合,结果出现既能够是引用原始的独立搜索引擎的页面,也能够是由元搜索引擎重新制定后的形式。
第七章
数据库系统DBS显现了4种典型的系统结构:
1)单用户数据库系统2)主从式数据库系统3)分布式数据库系统4)C/S(Client/Server,客户机/服务器)数据库系统
数据库系统的信息组织方法,即上述4种数据库系统的信息组织方法(了解p194-p199)
多媒体数据库关键技术:
1)数据模型2)数据的压缩和还原技术3)存取治理和存取方法
4)用户界面5)分布式技术6)多媒体信息的检索与查询7)多媒体数据的输入
多媒体数据库的要紧实现方法:
从关系数据模型进展多媒体数据库2)面向对象数据库3)分布式超媒体数据库
基于内容检索(Content—basedRetrieval):
确实是从媒体数据中提取出特定的信息线索,然后按照这些线索从大量储备在数据库中的媒体进行查找,检索出具有相似特点的媒体数据。
第八章
(了解)数字图书馆的特点:
①数字图书馆信息组织对象类型已大大扩展;②数字图书馆的信息组织是一种分布式模式,其信息对象可能并不储备在同一个地点,而可能分布在不同的数据服务器上。
③数字图书馆的信息对象是一种以机读型信息形式储备与检索的数字化信息对象。
④数字图书馆信息对象的格式化特点和多格式特点。
数字图书馆的设计系统的三层结构:
外层;内层;虚拟网站层
数字图书馆与传统图书馆的比较:
传统图书馆的要紧职能是收藏,并在对所收藏的图书资料储存、组织的基础上为读者提供各种服务。
数字图书馆的收藏对象是数字化信息,但数字化收藏加上各类信息处理工具并不能构成数字图书馆。
数字图书馆是一个将收藏、服务和用户、治理员集成在一起的一个环境,它支持数字化数据、信息和知识的整个生命周期的有关操作和活动,包括生成、储存、公布、传播和利用。
数字图书馆信息资源与因特网信息资源的比较:
资源内容的组织方式的不同,数字图书馆的资源内容是按照用户的需求选择的通过加工的、是使受教育者易于同意的形式,因特网的资源内容要紧是无序的、内容差别专门大;资源内容标引方法不同,因特网的信息资源是以标引文献条目为主,大多数全文文献不通过标引,其查全率与查准率都有咨询题,数字图书馆的资源标引则深入到文献内容;检索成效不同,数字图书馆的用户往往能迅速的找到所需要的资源,而因特网的用户,查询结果不能得到专门好的满足
第九章
1.(了解多看看)信息储备系统的结构P231
运算机储备系统要紧是由两级储备器和储备治理软件构成。
两级储备器确实是主存储备器和辅助储备器。
储备器合理有效地使用取决于操作系统中的储备治理模块和文件治理模块。
2.(把握)储备器的类型
1)按照存取方式分类(特点要了解)P233
(1)RAM(RandomAccessMemory,随机存取储备器)
(2)ROM(ReadOnlyMemory,只读储备器)(3)顺序储备器SAM (Serial Access Memory)。
(4)直截了当储备器DAM (Direct Access Memory)。
2)按储备介质分类
(1)磁储备器
(2)半导体储备器(3)铁电储备器(4)光储备器(5)其他介质储备器
3)按功能分类(了解以下各种)
(1)寄存器型储备器2)高速缓冲储备器(Cache)
(3)主储备器MM(Main Memory)简称主存,又称内储备器(Intenal Memory),简称内存。
(4)外储备器(External Memory)也称辅助储备器。
3.(了解)储备器的要紧技术指标P235
储备器容量 ( 储备容量=储备单元个数×储备字长)2)储备密度3)存取时刻和存取速度4)存取周期与数据传送率5)误码率6)可靠性7)功耗8)性能价格比
第十章
光盘储备器的类型:
(1)按制造材料和记录信息的方式划分。
只读光盘、一次性写入光盘、可擦写光盘。
(2)按所用驱动器结构划分。
内置式光盘储备器和外置式光盘储备器。
(3)按转速划分。
光盘储备器按转速可分为单倍速、双倍速、4倍速、……、52倍速光盘驱动器。
(4)按接口方式划分。
光盘储备器按接口方式可分为3种类型:
IDE接口、SCSI接口和专用接口。
光储备器的特点:
(了解)
记录密度高,储备容量大;储备寿命长,易于保管;非接触式读/写信息,这是光盘储备器特有的性能;信息的载噪比高。
载噪比是载波电平与噪声电平之比,以分贝dB表示;
易于大量复制,信息位价格低;能自由地更换光盘。
磁储备器的类型:
磁带储备器
(2)硬磁盘储备器(3)软磁盘储备器(4)磁泡储备器(5)磁芯储备器(6)磁鼓储备器
磁储备器的特点:
(了解)
记录密度大、储备容量大;信息的写入和输出速度快,能够赶忙重放和再现;记录的信息通过多次重放后仍保持原有的特性;可实现多通道记录,可将多个磁头配在一起,记录许多磁迹。
记录和储备的信息稳固性高,不挥发;成本低、爱护简单,适于大量生产。
在运算机系统中作为辅助大容量储备器使用,存放系统软件、大型文件、数据库等大量程序与数据信息。
第十一章
1.(了解多看)直截了当连接储备DASP268
DAS(DirectAttachedStorage)也称为SAS(ServerAttachedStorage,服务器附加储备)。
DAS是直截了当连接在各种服务器或客户端扩展接口下的数据储备设备。
2.(了解)磁盘阵列RAIDP270
RAID(RedundantArrayofIndependentDisks)冗余磁盘阵列技术
3.(把握)NAS和SAN的比较与融合P282
NAS是一种以文件为传输协议,通过网络传输的技术;而SAN是以块为传输协议,要紧通过FibreChannel传输的技术。
从目前的普遍应用来看,SAN占据的依旧大型应用领域,NAS集中在中小型的应用领域。
从系统的构建而言,NAS方案能够利用用户原有的网络,而SAN方案需重新建立储备网络。
从对比SAN和NAS的实现方式来看,SAN解决了DAS的一些难题,例如实现储备集中、集中备份、容灾等。
但其数据治理工作依旧在服务器上进行,需在每一个储备服务器上安装储备服务。
另外,SAN的设备结构复杂,各个厂商标准不一,产生兼容咨询题,而且需要复杂的软件才能使用,使得其成本专门高。
NAS最大的优点是简单,不要求服务器额外安装软件,数据集中治理,软硬件能够集成,在网络上即插即用。
作为储备系统,NAS提供了比SAN更高的可有用性。
4.(把握)储备治理系统的任务包括5个部分:
P287
1)操作治理:
2)数据治理3)资源治理4)网络治理5)元件治理
5.(把握)网络储备的分级治理P289
储备级治理2)网络级治理3)企业级治理
第十二章
1.(把握)文献的类型
12.3.1按文献记录的载体划分(那个可不记要了解下)
1)书写型文献(HandWritingDocument)2)印刷型文献(PrintedDocument)
3)缩微型文献(MicroFormDocument)4)电子型文献(ElectronicDocument)
5)视听型文献(Audio-visualDocument)
12.3.2按文献的加工程度划分(一次二次的概念要把握)
零次文献(RawLiterature)
二次文献(SecondaryLiterature):
将无序的一次文献进行收集、整理,著录其特点并以规定的格式编制成为便于治理和查找文献的工具,即检索工具。
如名目、题录或索引、文摘等。
三次文献(TertiaryLiterature):
是指在利用二次文献的基础上,对一次文献的内容经阅读研究,浓缩提炼而编写成的文献。
如科技动态、专题综述、情报调研报告、决策参考、指南、进展等。
12.3.3按文献信息公布程度划分
白色文献灰色文献黑色文献
12.3.4(把握)按文献出版形式划分(10类)(还要记住各种著录格式)
1).图书(Book、monography)ISBN号即国际标准书号(InternationalStandardBookNumber)
图书著录格式:
著者.书名[M].出版地:
出版社名称.出版时刻
2).期刊(Periodicals,Journal,Magazine)国际标准连续出版物刊号ISSN
期刊著录格式:
作者(多作者用逗号分开,超过3个者用“等或etal”).文