信息组织知识要点文档格式.docx
《信息组织知识要点文档格式.docx》由会员分享,可在线阅读,更多相关《信息组织知识要点文档格式.docx(21页珍藏版)》请在冰豆网上搜索。
•缺点:
以文件为单位共享和传输信息会使网络负载越来越大
②自由文本方式
•主要用于全文数据库的组织
•对非结构化的文本信息进行组织和处理的方式
•能够完整地反映出一次文献的全貌
•通过计算机自动进行文献信息的处理和组织,支持全文检索。
③数据库方式
•一般用于结构化/规范化信息组织。
最小存取单位是字段,从而大大降低网络数据传输的负载。
对非结构化信息处理难度大
•数据库方式是当前普遍使用的网络信息资源的组织方式。
④主页方式
•网页一般通过HTML语言规则将文本、图像、声音、视频等各种类型的信息集合在一起。
⑤超文本方式
⑥主题树方式
•主题树方式是一种可供检索和查询的等级式主题目录。
它以人工方式或半自动方式搜集信息,然后将信息资源按照某种事先确定的概念体系结构,分门别类地逐层加以组织。
•主题树方式不太适合大型的综合性的网络信息资源系统,而较适合专题指引库的建立。
⑦搜索引擎方式
⑧指引库方式
•指引库,也称导航库。
它并不存储各种实际的信息资源,只存放有关主题的数据库或服务器的地址等信息,可指引用户到特定的地址获取所需的信息。
5、信息的外表特征、内容特征分别包括哪些?
外表特征:
与信息内容无关的特征,如题目、作者、出处、作者工作单位、专利号等
内容特征:
信息所涉及的中心事物和学科属性,如分类号、主题词、关键词、摘要等。
模糊对应
外表特征
内容特征
精确对应
信息
6、什么是标引语言?
什么是自然语言?
什么是受控语言?
自然语言区别于受控语言的特点有哪些?
标引语言:
是表达文献主题概念和文献需求主题概念的简明性、单义性和关联性概念标识系统,是根据标引和检索需要而编制的人工语言。
•也叫“情报语言”、“索引语言”、“检索语言”
•揭示信息的中心主题和内容特征
•信息标引的依据
•用于将检索用语和标引用语进行匹配
•对自然语言进行规范化处理后的人工语言
标引语言实际上是检索者与组织者之间的一种“约定”
自然语言:
文献作者所使用的书面语言
受控语言:
词汇及语法都受到各种控制的人工语言。
7、标引包括哪些类型?
自然语言标引包括哪些方法?
划分标准
信息标引类型
按使用的标引工具分化
分类标引
主题标引
按标引工作的不同执行者划分
手工标引
受控标引
自由标引
自由词补充标引
自动标引
自动抽词标引
自动赋词标引
自动分类
自动聚类
按采用的不同标识划分
受控语言标引
自然语言标引
几个重要概念(补)
•自然语言标引:
采用自然语言作为信息记录主题内容检索标识的标引。
自然语言标引的方法:
1.关键词法
2.文本检索
3.自由标引
4.自然语言入口词检索
8、索取号及其构成(掌握)
索取号:
是信息服务机构赋予每一种信息资源的唯一号码。
它反映每种信息资源的具体存放位置。
索取号由两部分组成:
分类号和书次号(书次号通常采用“种次号”或“著者号”)。
“种次号”是依照同类信息资源到信息服务机构的先后次序编制的顺序号或流水号;
“著者号”是依照著者姓名的音、形等特征编制的号码。
9、信息存储介质(理解)
存储介质—纸张、磁盘、磁带、缩微胶片、光盘等
10、信息存取系统的类型(理解)
信息检索系统的类型
•按照信息源类型划分:
文献型、事实型、数值型、图像型
•按照工作方式和存取介质:
手工、单机、联机、光盘、网络
信息检索系统的结构
信息检索系统一般包括五个子系统:
•选择子系统
•标引子系统
•词表子系统
•检索子系统
•交互子系统
11、衡量检索效率的指标(理解)
衡量检索效率的指标主要有:
•查全率(漏检率)
•查准率(误检率)
第二章分类法(重点)
1、什么是分类法?
包括哪些类型(即构成原理)?
分类组织法:
根据概念的划分与概括原理,按照事先规定好的学科专业体系或事物范畴,根据某一特性将信息分门别类的组织成系统,以便于用户按照学科专业或事物范畴途径查询特定信息的信息组织法。
•分类法使用分类号来标识类目,分类号可反映类目在分类体系中的位置和排列次序。
分类语言的构成原理:
1)等级体系分类法2)分面组配分类法3)等级体系—分面组配分类法(也即混合分类法)
2、什么是体系分类法?
其主要代表有哪些?
含义:
类目按等级层层展开,并详尽列举的文献分类法
☐特点
•将表达事物的概念(类目)按照知识分类与逻辑关系进行纵向从属、横向并列的方式编排成概念等级体系;
•是一种先组式定组型标引语言,其类目与类号标识都是在编制分类表时事先确定或大部分确定好的;
•按照学科专业和事物范畴区分和集中文献;
•标识符号既可以用于组织分类目录与索引,也可用于排书上架;
•采用数字和字母作为标识,便于国际标准化。
☐种类
•《中国图书馆分类法》(简称《中图法》)
•《中国科学院图书馆分类法》(简称《科图法》)
•《杜威十进分类法》(简称DDC)
•《国际十进分类法》(简称UDC)
•《美国国会图书馆图书分类法》(简称LDC)
☐局限性(补充)
•列举类目与无限增长的科学知识不相适应;
•类目体系的单向线性结构与概念多向成族的网状结构不相适应;
•分类标识的概括性与信息源主题的专指性不相适应;
•号码标识的有限性与知识单元的无限性不相适应;
•文献单元标引与知识单元检索不相适应。
3、什么是组配式分类法?
(掌握)
分面:
一组性质相同的概念因素
分面组配分类法含义:
依据概念的分析与综合原理,将概括信息内容与事物的主题概念分成若干个“分面”,通过各分面内类目之间的组配来表达信息内容的分类法,也叫分面分类法、范畴分类法。
即一个复杂主题概念可以用若干个简单概念标识的组配来表达
构成:
包括分面分析、分面引用次序和分面标记制度三大关键理论和技术。
种类:
《冒号分类法》(简称CC)
《布利斯书目分类法》(简称BC)
缺点:
类表结构和标记方法复杂,类目体系欠直观
4、什么是体系-组配式分类法?
是一种在体系分类法的基础上,引入分面分析和组配技术而形成的分类法结构模式,亦称半分面分类法。
☐背景:
全分面组配分类法很少被使用,分面分析和组配技术更多的是被体系分类法吸收,用来改善体系分类法的性能。
☐特点:
1)按照学科专业或事物范畴设置基本大类;
2)通过设置各种分面辅助复分表提供分面组配技术与概念标识。
☐种类:
•《俄国图书馆书目分类法》
5、分类法中基本标记符号包括哪些类型?
分类法的标记符号也称分类号、类号,是类目的代号。
基本符号:
单纯数字
单纯字母
数字、字母混合
辅助符号(根据分类法的功能而定)
6、常用标记制度包括哪些?
结构型标记制
非结构型标记制
层累标记制
混合标记制
分面标记制
顺序标记制
①层累标记制
•又称等级标记制,是一种类号的位数与类目等级相适应的层次分明的标记制度。
它常用一位号码表示一个大类,再加一位号码表示其下位类(二级类),以号码的层层累加表示类目的层层划分。
•《中图法》基本采用层累标记制
②混合标记制
•一种结合采用顺序制和层累制的标记方式。
包括层累-顺序制和顺序一层累制
•《科图法》采用的是顺序一层累制。
分类号的前两位数字采用顺序制,用于标识基本大类和二级、三级类目;
两位数字后,用小圆点隔开,其后基本使用层累标记制。
③分面标记制
又称分段标记制,是用若干节段符号的组合来表达主题概念的标记制度。
它能显示类目的组配关系。
例如:
“20世纪90年代中国儿童图书馆图书分类工作”的类号为2,61;
43:
51.41‘N9。
④顺序标记制
按照类目在分类体系中的次序,顺序配以号码,号码只表示类目的次序,不显示类目的
等级或其他关系。
7、《中图法》、《科图法》、《DDC》、《UDC》分别采用什么标记符号和标记制度?
《中图法》采用拉丁字母与阿拉伯数字相结合的混合号码制作为标记符号,基本采用层累标记制。
《科图法》采用单纯数字号码作为标记符号,号码分为两部分:
第一部分采用整数顺序制,第二部分基本上采用小数层累制,简而言之,采用混合标记制。
杜威十进分类法(DDC):
DDC是以阿拉伯数字作为基本的分类标记符号的,并采用层累制。
国际十进分类法(UDC):
UDC与DDC一样,采用单纯阿拉伯数字作为标记符号。
基本采用层累制,
第三章主题法(重点)
1、什么是主题法?
主题法是指用语词作为概念标识,将概念标识进行字顺排列,并用参照系统等方法间接显示概念之间相互关系的信息组织方法。
2、主题法有什么特点?
1.以主题为中心集中信息
2.直接用自然语词(主题词)作为存取标识
3.主要按字顺排列
4.用参照系统显示主题词之间的关系
3、主题法包括哪些类型?
标题法:
用规范化语词—标题词来表达主题概念
元词法(单元词法):
用规范化语词—单元词的字面组配来表达主题概念
叙词法(主题词法):
用规范化语词—叙词的概念组配来表达主题概念
关键词法:
直接以文献中的自然语词—关键词来表达主题概念
4、主题法参照系统的构成(理解)
Y用项符号:
表示该主题是正式主题词
D代项符号:
表示该主题是非正式主题词
F分项符号:
表示该主题是“显像管”的下位主题词
S属项符号:
表示该主题是“显像管”的上位主题词
C参项符号:
表示该主题是“显像管”的相关主题词
5、几种代表性主题法中哪些是自然语言,哪些是人工语言?
标题法、元词法、叙词法为人工语言;
而关键词法则为自然语言
6、主题法和分类法的比较(掌握)
①揭示对象不同
主题法揭示文献论述的主题事物(“是什么”);
分类法揭示的是文献内容的学科属性(“属什么”)。
②使用标识不同
主题法直接用词语表示文献主题;
分类法则以抽象的“分类号”表示文献主题。
③排列方式不同
主题法按词语字顺排列,如同词典,易学易查;
分类法按分类号排列,系统性较强,但不熟悉有关分类表则难以有效地利用。
④用途不同
主题法较适合于对单篇文献的组织和检索,且更适于计算机组织和检索;
分类法则比较适合于图书或文集的组织和检索。
7、什么是范畴索引、词族索引?
范畴索引,又称分类索引,是将叙词和非正式叙词按所属学科或范畴编制的词汇分类索引。
词族索引,也称等级索引,是将字顺表中具有等级关系的叙词按属分等级构成词族,并按各词族的族首词字顺排列的词汇索引。
8、什么是后控制,对网络信息资源组织的作用?
后控制主要是通过后控词表来实现的。
后控制词表是利用受控语言的基本原理和方法编制的自然语言检索用词表。
它主要是对自然语言中大量存在的等同关系、等级关系和大部分相关关系进行控制和揭示,用户在检索时通过浏览词表选用检索词,或者由系统自动调整检索式(扩检或缩检)。
所以,后控词表是一种扩检或缩检工具,一种罗列自然语言检索标识供选择的工具。
•后控制模式:
“标引不控制+检索控制”模式。
即在标引阶段使用自然语言,不对标引进行严格控制,而在检索阶段才对检索词进行控制的自然语言检索优化技术。
•后控制技术是人工语言与自然语言相结合的典范。
9、网络信息资源组织中的主题法(掌握)
①标题词法和叙词法的应用
•标题词表和叙词表用于网络信息组织主要作为后控词表使用,分为两种情况:
•第一,检索前使用:
用来规范用户的检索表达式;
•第二,检索后使用:
在给出用户检索表达式及检索结果的同时,提供相似词以便用户进一步扩检或缩检。
②关键词法的应用
•关键词法在网络中的应用相当广泛,目前,大部分搜索引擎几乎都采用关键词法进行信息组织。
•关键词法的原理
直接从文献的题目、正文、摘要中抽取出具有实际意义的语词作为文献标识,对标识不加规范化或只作少量规范化处理。
不编制受控词表,不显示词间关系,只编制禁用词表来控制抽词
每个关键词都是平等的,轮流排至检索位置,提供多途径的主题字顺检索。
关键词标引
•自由标引
•自动标引
•全文索引
10、什么是自由标引、全文检索?
•自由标引即人工关键词标引。
即人工从文献中提取自然语言作为主题标识。
•全文检索不对文献进行任何标引,直接通过计算机将自然语言检索词与文献中的语词进行匹配。
全文检索进行匹配的对象,可以是整个出版的文本,包括文章、报告甚整本图书,也可以是它的部分,如文摘、摘录或只是文献的题名。
第四章置标语言工具
1、什么是SGML?
(理解)其基本思想、特点是什么?
SGML(标准通用标记语言)一种通用的描述各种电子文件的结构和内容的国际标准。
为创建结构化、可交换的电子文件提供了依据。
SGML的基本思想是把文档的内容与样式分开
SGML的主要特点是它的通用性与独立性:
所谓通用性是指SGML可支持无数的文档结构类型,例如布告、技术手册、章节目录、设计规范、各种报告、信函和备忘录等。
所谓独立性是指它与硬件、软件独立。
SGML可以创建与特定的软硬件无关的文档,因此很容易与使用不同计算机系统的用户交换文档。
2、文档三要素包括哪些?
文档的三要素:
文档=文档内容+文档结构+文档样式
3、HTML标签的主要作用?
与SGML是什么关系?
HTML是一种表现语言,用来定义WEB上文字、图像以及声音等的显示及格式。
主要作用:
HTML的主要作用是指示浏览器按照相应格式显示信息。
与SGML关系:
HTML是标准通用标记语言(SGML)所创建的许多标记语言之一,或者说是它的一个很小的子集。
HTML是使用固定标签集的一种SGML文档。
主要在Web上使用。
4、什么是XML?
具有哪些特性和优势?
XMLeXtensibleMarkupLanguage(可扩展标记语言),是一种定义标记语言的元标记语言,是一套定义语义标记的规则。
特点:
1可扩展性——可自定义标签,元标记语言;
2数据与显示相分离——同一数据可多视;
3自我描述性——标签具有语义,支持智能检索;
4高度结构化——采用树形结构。
5简明性——SGML的子集,20%复杂、80%功能;
优势:
1结构支持:
HTML缺乏对复杂结构的支持
2内容提取:
HTML的标记缺乏语义
3国际化:
HTML对特殊字符和国际字符集的支持还很不够,在不同平台上的实现很不一致
4数据交换:
HTML难以实现自动的数据交换
5信息重用:
HTML不易重复使用已有的信息
6动态更新:
用HTML创建的主页不允许使用者改变页面的外观属性,除非使用者载入新的页面,或者使用Java小程序。
但是,任何存储在Java中的数据都不能被搜索引擎发现。
5、XML和HTML比较(掌握)
比较内容
HTML
XML
可扩展性
不具备扩展性
元标记语言,可用于定义新的标记语言
侧重点
侧重于如何表现信息
侧重于如何结构化的描述信息
语法要求
不要求标记的嵌套
严格要求嵌套配对、呈树形结构
可读性及可维护性
难于阅读、维护
结构清晰、便于阅读、维护
数据和显示的关系
内容描述和显示方式整合一体
内容描述与显示方式相分离
6、XML中用来描述信息的结构、内容、样式的语言规范分别是什么?
结构:
文档结构定义文件——.DTD(或.XSD)
<
?
xmlversion=“1.0”encoding=“GB2312”standalone=“no”?
>
!
DOCTYPE联系人列表SYSTEM“fclml.dtd”>
内容:
文档数据文件——.XML
xmlversion=“1.0”encoding=“GB2312”?
body>
我的第一个XML文档<
/body>
样式:
样式单文件——.XML(或.CSS)
xml-stylesheettype=”text/xsl”href=”mystyle.xsl”?
第五章元数据
1、什么是元数据?
(理解)
元数据是关于数据的数据(dataaboutdata),同时也是结构化的数据。
它对信息资源进行描述和解释,促进信息资源的检索、管理和利用。
元数据可以为各种形态的信息资源提供规范的描述方案和检索工具,为分布的、由多种信息资源组成的信息系统(如数字图书馆)提供整合的工具和纽带。
•关于数据的结构化数据
•用于描述数据的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等信息的数据,是数据与数据用户之间的桥梁
•资源的信息
•编目信息
•管理、控制信息
•是一组独立的关于资源的说明
•定义和描述其它数据的数据
3、什么是MARC、MARC元数据?
MARC(MachineReadableCatalog),机器可读目录(简称机读目录),是用于在计算机条件下描述、存储、交换、控制和检索著录数据的标准,已成为世界上流行最广的书目元数据标准。
MARC数据,以代码形式和特定格式结构记录在计算机存贮载体上,可由计算机进行控制、处理和编辑输出的目录。
其实质是一种元数据。
•MARC数据的交换和共享通过Z39.50协议实现。
4、MARC中856字段的用途(理解)
•856字段是专门用于记载电子信息资源定位与存取信息的字段,是在为网络信息资源编目时才特有的字段。
它包含定位与存取电子资源所需要的信息,第1指示符标识存取方式;
第2指示符标识资源关系。
5、什么是DC?
DC包括几个核心元素?
•DC是都柏林核心(DubinCore)的简称,全称是都柏林核心元素集(DubinCoreElementSet)。
核心DC指的是DC的15个核心元素:
题名、主题、描述、来源、语种、关联、覆盖范围、创建者、出版者、其他责任者、权限、日期、类型、格式、标记等。
第八章搜索引擎(重点)
1、搜索引擎的分类(掌握)
根据检索方式分类:
分类目录、关键词搜索引擎、混合搜索引擎
根据信息覆盖范围及适用用户群分类:
综合搜索引擎、专用搜索引擎(垂直搜索引擎)
根据搜索范围分类:
独立搜索引擎、集成搜索引擎(元搜索引擎)
2、什么是元搜索引擎(掌握)
元搜索引擎又称集合式搜索引擎。
即将多个搜索引擎集成在一起,并提供一个统一的检索界面。
3、搜素引擎的发展趋势(掌握)
个性化;
智能化;
整合化;
垂直化;
移动化;
开放化;
4、搜索引擎的体系结构(掌握)
•一个搜索引擎由以下五个部分组成:
–搜索器
–索引器
–索引数据库
–检索器
–用户接口
5、搜索器的功能、工作原理及网页选取策略(理解)
搜索器(Spider)俗称蜘蛛、网络机器人、爬虫,是一个自动收集网页的系统程序。
功能:
搜索器的功能是日夜不停地在互联网中漫游,搜集信息。
不光搜集各种类型的新信息,还要定期更新已经搜集过的旧信息,以避免出现死链。
工作原理:
搜索器首先将文档格式过滤掉,变成纯文本文件信息送回,然后将其放到“网页数据库”中。
该库里还记录了这些网页的URL,整个网页的HTML代码,网页标题等等信息。
网页选取策略
•广度优先:
是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。
•深度优先:
是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。
•高权重优先:
是指对搜索到的文档集合进行评级,利用计算得到的结果从中挑选评级最高的链接作为下一个搜索的对象。
6、索引器的功能、具体工作步骤(理解)
索引器的功能是理解搜索器所搜索的纯文本信息,从中抽取出索引项(属性),生成倒排索引文件,进而建立索引数据库。
具体步骤:
1分析网页:
提取正文信息并进行分词;
统计词出现的频率及位置;
提取其它相关信息,如被其他网页链接次数等;
2建立倒排索引:
形成由文档号到索引词的正向索引;
重组正向索引,建立从关键词到文档号集合的倒排索引;
3相关度及重要性计算:
通过关键词频率、位置、表面特征及超链分析等因素来决定某一个网页针对某一个关键词的重要性。
7、检索器的功能、工作内容(理解)
检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序。
检索器的工作包括查询匹配、结果排序和文档摘要三个部分。
8、搜索引擎对搜索结果进行排序的依据及主要排序算法(掌握)
依据:
内容相关度—基于相关度算法(搜索引擎怎么评价)
网站或网页权威度—基于链接分析(即其它网站怎么评价)
网站或网页的实用度—基于用户访问模式(即用户怎么评价)……
排序算法:
•PageRank(网页等级)算法
•HillTop算法
•Hits算法
9、用户接口的功能(理解)
用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。
专题多媒体信息标引
几种主要多媒体数据标引方法的基本原理
外在特征标引方法的典型代表
标签法——基本原理:
•将多媒体信息的外在特征作为标识。
以内容分析为主的标引方法
编码系统法——基本原理:
•采用某种特定的编码系统标识多媒体信息中分析出来的各个独立对象,并根据对象间存在的联系进行相应的代码拼接、组合,以完成多媒体信息的整体标引。
自由文本法——基本原理:
•先将多媒体信息的内容用文字进行确切的描述,形成描述性的自由文本,然后通过对文本内容的概念标引,间接地完成对多媒体信息记录内容的标引。
特征描述法——基本原理:
•从图像、声音等多媒体信息中捕获人们感觉最明显的特征,如图像的形状、颜色,音乐的基调、序曲等主要特征,直接建立相应的“相似图像”索引与“相似声音”索引。
全方位语义分析法——基本原理:
•强调内容特征与外在特征相结合,