《信息检索与利用》信息检索与利用课程复习.docx
《《信息检索与利用》信息检索与利用课程复习.docx》由会员分享,可在线阅读,更多相关《《信息检索与利用》信息检索与利用课程复习.docx(40页珍藏版)》请在冰豆网上搜索。
《信息检索与利用》信息检索与利用课程复习
《信息检索与利用》课程复习
绪论
一、在人类漫长的发展历程中,物质、能源和信息三种资源支配着人类最基本的生产活动。
物质-----向人类提供材料及生活必需品
信息-----向人类提供知识和智慧
能源-----向人类提供动力
二、信息时代对教育的支持和挑战
人类历史上发生的五次信息技术革命:
第一次是语言的产生。
第二次是文字的出现。
第三次是造纸术和印刷术的发明。
第四次是电报、电话、电视的问世。
第五次信息技术革命是电子计算机和现代通讯技术的结合。
信息时代为现代教育提供了新的环境和条件,也对传统教育提出了挑战,特别是社会发展对教育理念、教学内容、教学工具和手段都有了新的要求,从而引起了整个教育的变革。
三、信息素质及其内涵
信息素质(InformationLiteracy)的概念:
(1)利用大量的信息工具及信息源,使问题得到解决或解答的技能。
(2)要成为具有信息素质的人,他必须能够确定何时需要信息,并且具有检索、评价和有效利用信息的能力。
信息素质的内涵包括:
信息意识:
是指人们对信息的敏感程度
信息能力:
发现、评价、利用和交流信息的能力
信息道德:
在信息活动中应遵循的道德规范
四、信息检索的意义和作用
(一)信息检索的意义
1.信息检索是获取知识的有效途径
2.信息检索是创新型人才应具备的基本技能
3.信息检索是继承借鉴前人成果的主要手段
(二)信息检索的作用
1.信息检索能够避免重复研究和走弯路
2.信息检索有助于节约时间、提高科研效率
3.信息检索是科学决策的必要前提
第一章信息与信息资源
第一节信息的基本知识
信息可是当代社会使用最多、最广、最频繁的词汇之一,它普遍存在于自然界、人类社会以及人类思维活动之中。
信息的内涵丰富、形式多样,具有物质和能量资源所不具备的独特性质和专门功能。
一、信息的概念
到目前为止,有关信息的定义尚无统一定论
1.信息的经典定义
1948年,美国数学家、信息论的创始人香农在题为“通讯的数学理论”的论文中指出:
“信息是用来消除随机不定性的东西”。
1948年,美国著名数学家、控制论的创始人维纳在《控制论》一书中指出:
“信息就是信息,既非物质,也非能量。
”
2.信息的现代定义
信息是指一切事物存在方式和运动规律的表征。
它是事物的一种普遍属性,只要事物存在,就会有表征其属性的信息。
它广泛存在于自然界和人类社会中,信息无处不在。
人们正是通过自然界和人类社会中产生的不同信息来区别和认识各种事物的。
它是人们认识世界和改造世界,取之不尽、用之不竭的宝贵资源。
在人类进入信息社会的时代,信息已成为发展科技、经济、文化、教育的重要支柱之一。
尽管信息概念呈多样性,我们对信息的认识,一般可以从以下几个方面理解:
信息与物质、能量既有区别又有联系;信息是事物变化和差异的表现;信息的获取,可以使主体对客体的不确定性减少。
二、信息的特征
1.信息的普遍性和客观性
2.信息认识的主观性
3.信息的依附性
4.信息的可传递性(四要素:
信源、信道、信息、信宿)
5.信息价值的不定性
6.信息的共享性
信息传递四要素:
信源(信息的发出体)、信宿(信息的接收体)、信道(信息的传递媒介)、信息。
三、信息的功能
1.资源功能
2.组织管理功能
3.中介功能
4.消除不定性(解惑)功能
5.传播功能
四、信息与知识、文献的关系
1.知识(Knowledge)
知识是人类对客观事物的认识和经验的总和,是人类对客观事物规律性的认识,是信息中最有价值的部分。
知识一经产生就以声像信息、实物信息、文字信息等形式传播。
人类不仅要通过信息认识世界,而且要根据所获得的信息组织知识。
知识与信息的关系:
知识是信息的一部分,不直接等同于信息。
知识是人类大脑活动的产物,是系统化、精炼化的信息。
信息是知识产生和形成的基础。
2.文献(Document)
文献是指记录有知识的一切载体。
文献由四个基本要素组成:
1所记录的知识和信息,即文献的内容。
2记录知识和信息的符号,文献中的知识和信息是借助于文字、图表、声音、图像等记录下来并为人们所感知的。
3用于记录知识和信息的物质载体,如竹简、纸张、胶卷、胶片等,它是文献的外在形式。
4记录的方式或手段,如铸刻、书写、印刷、复制、录音、录像等,它们是知识、信息与载体的联系方式(摘自《中国大百科全书·图书馆学情报学档案学》)。
文献具有认识、存储和交流知识的作用。
3.三者的关系
可见,信息与知识之间的逻辑关系为包含与被包含的关系,知识是信息的一部分,信息是知识产生和形成的基础。
文献是信息、知识的具体体现,它不仅是信息、知识的主要物质形式,也是读者吸收利用信息、知识的主要途径。
第二节信息资源的基本知识
一、信息资源(InformationResources)的概念
国内外学者对信息资源概念的认识有两种具有代表性的观点:
狭义的理解:
信息资源是人类社会经济活动中经过加工处理使之有序化并大量积累起来的有用信息的集合,如科技信息、政策法规信息、社会发展信息、市场信息等,都是信息资源的重要构成要素。
广义的理解:
信息资源是人类社会信息活动中各种要素的集合。
二、信息资源的本质特性
1.知识性
2.共享性
三、信息资源的类型
(一)按物质载体划分
1.纸质文献
纸质文献是利用纸张作为存储介质,以手写、印刷为记录手段而产生的文献形式。
包括油印、铅印、胶印、复印等印刷品及手稿。
纸质文献历史悠久,至今仍是主要的文献形式。
2.非纸质文献
(1)缩微型文献:
缩微型文献是以感光材料为存储介质,利用缩微照相技术使文献缩微化的一种文献类型,如缩微胶卷、缩微平片。
(2)声像型文献(视听资料):
该种文献以磁性或感光材料为存储介质,利用特定的设备及技术,直接记录声音、图像,并以此传递信息。
如唱片、录音带、录像带、电影胶片、幻灯片。
(3)电子文献:
电子文献是指以电子数据的方式将图、文、声、像等信息存储在磁光介质上,通过网络通信、计算机或类似设备再现的信息资源。
它包括数据库、电子图书、电子期刊、电子报纸以及Internet信息资源(WWW站点、网络新闻组、BBS、电子邮件等)。
发展趋势:
由以纸质信息资源为主向以电子信息源为主发展。
(二)按出版类型划分
1.图书(Book)
凡篇幅达48页以上并构成一个书目单元的文献称为图书。
国际标准书号(ISBN)
2.连续性出版物
连续出版物是指具有统一题名、定期或不定期以分册形式出版、有卷期或年月标识、计划无限期连续出版的文献。
其主要特点是连续性、及时性和稳定性。
它包括期刊、报纸、年度出版物及其他连续性报告、会议录、专著性丛刊等。
在众多的连续性出版物中最具代表性的是期刊、报纸、年鉴。
连续性出版物是与图书并列的最重要的文献类型。
(1)期刊(JournalMagazineperiodical)
是指采用统一名称定期或不定期的连续性出版物。
具有连续的卷、期号或年、月顺序号。
ISSN(国际标准刊号)
核心期刊:
是指某一学科中高水平、高影响力的期刊。
(2)报纸(Newspaper)
是指以刊载新闻和评论为主的连续性出版物,出版周期短(日、隔日、周报、旬报)有年、月、日顺序。
(3)年度出版物(annual,yearbook)
汇集某领域年内重要资料,每年出版一次。
它包括年报、年鉴及按年度出版、修订的百科全书等。
3.特种文献(specialcategoriesofdocuments)
(1)专利文献
(2)标准文献
(3)学位论文
(4)科技报告
(5)会议文献
(6)政府出版物
(7)产品资料
(8)档案
(三)按加工深度划分
1.零次文献
指未经公开发表或未交流于社会的文献。
如:
私人笔记、设计草图、实验记录、论文草稿、会议记录、书信
2.一次文献
一次文献也称原始文献,是指人们根据自己的科学实验、生产实践的成果而撰写的文献,一般指期刊论文、科技报告、会议论文、学位论文、专利等。
3.二次文献
二次文献也称检索工具,是指对一次信息加工、整理后形成的各种检索工具,如目录、题录、文摘等,它不对一次信息提供评论,仅仅提供一次文献的检索线索,也就是说,二次文献是把一次文献从分散、无序的状态变成集中、有序化的状态,供人们迅速、准确地查询所需信息。
4.三次文献
三次文献是指在利用大量一次文献的基础上,对其内容进行综合、分析、研究和述评而撰写出来的文献。
分为综述研究类和参考工具类两种类型。
前者如动态、综述、学科总结、专题述评等;后者如百科全书、年鉴、手册、科技词典、名录、手册等。
三次文献源于一次文献,又高于一次文献,是一种再创性文献。
一次文献、二次文献、三次文献之间的关系:
从一次文献到二次文献、三次文献是一个由博到约、由分散到集中、由无组织到系统化的过程,也是科技文献资源的层次结构由无序走向有序、由一种有序结构演变为另一种完善的有序结构的过程。
四、网络信息资源
迄今为止,对于“网络信息资源”尚没有统一的定义,类似的名称也很多,如“电子信息资源”(ElectronicInformationResources)、“因特网信息资源”(InternetInformationResources)“联机信息”(On-lineInformation)、“万维网资源”(WorldWildWebResources)等。
有关其定义也多种多样,如有人提出“电子信息资源是以电子数据的形式将文字、图像、声音、动画等多种形式的信息存放在光磁等非印刷纸质的载体中,并通过网络通信,计算机或终端等方式再现出来的信息资源”。
网络信息资源,从字面上可以理解为“通过计算机网络可以利用的各种信息资源的总和”;从目的上看是“为了提高信息系统效率,实现资源共享而采用计算机网络整理、传递、获取的各种信息”;在范围上它不仅包括Internet上的信息资源,也包括各种局域网、城域网和广域网上的信息资源。
(一)按照网络信息的内容划分
1.网络数据库
数据库亦称文献库、资料库,是发展最早、影响最广的一种主要电子信息源。
脱离单机或专门的检索终端,与网络相结合,借助网络而提供服务的数据库即为网络数据库。
网络数据库主要包括联机数据库和光盘数据库。
2.联机馆藏目录库
图书馆作为信息的集散地,在网络的影响下纷纷向着数字化、网络化方向发展,为了使更多的读者充分利用图书馆资源并实现资源共享,众多图书馆建立了馆藏机读目录数据库并通过网络提供OPAC(OnlinePublicAccessCatalo)服务。
3.电子出版物
网络上出现了越来越多的电子出版物,包括电子图书、电子期刊和电子报纸等。
4.政府机构信息
政府机构以政府信息服务系统向公众提供信息。
包括有关组织机构的宗旨、业务范围、人员、出版物、最新消息发布、各种法律、法规或相关政策信息等,内容相当广泛。
5.休闲娱乐信息
这类资源较多,且大多免费提供给用户,包括各种新闻、广告、讨论组以及各种软件
(二)按照所采用网络信息的协议不同划分
1.基于超文本传输协议(HTTP)的信息资源
万维网(WorldWideWeb,简称WWW或Web)信息资源是一种典型的基于HTTP的网络信息资源。
Web建立在超文本、超媒体基础上,集文本、图形、图像、声音为一体,并以直观的图形用户界面(GUI)展现和提供信息的网络信息资源形式。
由于其使用简单、功能强大,自20世纪90年代问世以来,成为发展最快、信息最丰富的一种网络信息资源形式。
2.基于文件传输协议(FTP)的信息资源
FTP协议的主要功能是完成从一个系统到另一个系统完整的文件复制,即在网络的联网计算机之间传输文件。
通过FTP可以获得的信息资源类型很广泛。
广义地说,任何以计算机方式存储的信息均可通过FTP协议获取,包括书籍、图像、声音、多媒体、一些书籍的电子版、电子期刊、某些政府机构发布的信息、大量的免费与共享软件等。
3.基于远程登录(Telnet)的信息资源
这是指通过Telnet协议所访问到的网络信息资源。
其实现方法为在远程计算机上登录,使自己的计算机暂时成为远程计算机的终端,进而可以实时访问、使用远程计算机中对外开放的资源。
这些资源包括硬件资源,如超级计算机,精密绘图仪,高速打印机,高档多媒体输入、输出设备等;也包括软件资源,如大型的计算机程序、图形处理程序以及大型数据库等信息资源。
第三节我国文献信息的主要收藏及服务系统
一、图书馆系统
1.公共图书馆系统
2.高校图书馆
3.科学研究系统图书馆
二、国家科技信息系统
三、专利文献系统
四、标准文献系统
五、档案系统
第二章信息检索技术与策略
第一节信息存储的基本知识
信息存储是指利用一定的科学规则和方法,通过对信息的特征进行分析、表征和提炼,并按给定的参数和序列公式排列、存储在相应载体上,组织成系统化的具有检索功能的系统过程。
一、信息筛选
信息筛选是对原始信息的挑选和鉴别,是建立信息资源检索系统的基础和保障。
信息筛选原则:
针对性、系统性、预见性、科学性、计划性和及时性。
信息筛选方法:
直观判断法、分析法、集体讨论法、专家裁决法、数学核算法、现场核实法等。
二、信息描述
信息描述是指根据信息组织和检索的需要,依照一定的科学规则和技术标准,对信息的外部特征、物质形态和内容特征进行全面描述并给予记录的过程。
(一)信息外表特征的描述
信息的外部特征是指信息的物理载体直接反映的信息对象,构成信息的外在的、形式的特征,它包含信息载体的物理形态、题名、加工者、出版或发表日期、流通或传播的标记等。
期刊论文的外表特征:
文献的题目、著者、著者的工作单位、文献的出处(刊名、年卷期、起止页码)、语种、参考文献及图表的数量。
图书的外表特征:
书名、著者(或编者、译者)、出版项(出版社、地点、时间)、稽核项(价格、页数、参考文献)、书号
不同的检索系统(数据库)所描述的项目与标识符有所不同。
(二)内容特征的描述
信息的内容特征就是信息包含的内容,它可以由分类号、主题词、关键词或其它知识单元来表达。
内容特征标引采用的方法主要有分类标引、主题标引。
其中,分类标引是指对文献主题分析,用分类语言表达分析的主题,赋予文献分类检索标识(分类号)的过程;主题标引是指对文献进行主题分析,用主题语言(主题法)表达分析出的主题,赋予文献主题检索标识(主题词、叙词)的过程。
信息内容特征的标引较为复杂,必须借助于特定的信息检索语言。
三、信息检索语言
信息检索语言是根据信息组织和信息检索的需要而创制的人工语言,又称信息组织语言、情报语言、标引语言、索引语言等。
(一)分类检索语言
分类检索语言用分类号和类名来表达各种概念,将各种概念按学科门类的逻辑次序或事物的性质进行分类和系统排列。
分类检索语言包括体系分类法和组配分类法。
1.体系分类法
体系分类法是直接体现知识分类的等级制概念标识系统,它通过对概括文献信息内容及其某些外部特征的概念进行逻辑分类和系统排列而构成。
我国常见的体系分类法有《中国图书馆分类法》(简称中图法)、《中国科学院图书馆分类法》(简称科图法)、《中国人民大学图书馆分类法》(简称人大法);国外常见的体系分类法有《杜威十进分类法》(DC)、《国际十进分类法》(UDC)。
《中图法》是我国使用最为广泛的分类法,它分为5个基本部类、22个基本大类以及相应的二级类、三级类等。
5个基本部类为:
马克思主义、列宁主义、毛泽东思想;哲学;社会科学;自然科学;综合性图书。
采用英文字母与阿拉伯数字相结合的混合制号码,用一个字母表示一个大类,以字母的顺序反映大类序列,在字母后用数字表示大类下的类目划分。
体系分类法的主要特点是按学科、专业集中文献,并从知识分类角度揭示各类文献在内容上的区别和联系,提供从学科分类角度检索文献信息的途径。
2.组配分类法
组配分类法的原理是依据事物的性质,首先确定几个分类标准,即分面,再确定每个分类标准中的若干特征值,即类目,每一分面的类目与其他分面的类目分别组配,形成许多组配类目,达到细分的目的。
(二)主题检索语言
主题检索语言是用语词作为概念标识,按字顺排列,并用参照系统等方法间接显示概念间相互关系的一种信息检索语言,也称主题法系统。
标题词语言(Heading)受《词表》控制
单元词语言(Uniterm)受《词表》控制
叙词语言(Descriptor)受《词表》控制
关键词语言(Keyword)无《词表》,不受《词表》控制
(三)主题检索语言与体系分类法的区别
四信息存储
1.数据库及其基础构成
数据库(database)是“至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。
”通俗地说,数据库就是在计算机存储设备上,按一定方式存储的相互关联的数据集合,是信息检索的基础。
一条信息记录(record)是由若干个款目所组成,每个款目称为一个字段(Field),字段是构成记录的基础;信息记录的集合就形成文档,一个数据库可以包含有一个文档,也可以含有若干个文档。
文档也可以称为子数据库。
2.数据库记录的格式
“记录”(record)是数据库的基础成分,是对某一实体属性进行描述的结果,是组成文档的基本数据单位。
每一条记录由三种类型的字段组成:
检索系统存取号、基本索引字段和辅助索引字段。
举例:
图书的记录格式
举例:
期刊论文的记录格式
3.数据库的文档结构
数据库的文档一般有顺排文档(按存入时间排序)和倒排文档两种类型(按内容特征、外表特征整序)。
第二节信息检索概述
一、信息检索的发展历程及进展
(一)手工检索阶段
(二)机械检索阶段
(三)计算机检索阶段
1.脱机批处理检索
2.联机检索
3.光盘检索
4.网络检索
二、信息检索的概念与原理
信息检索(Informationretrieval)是指将信息按照一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程和技术。
信息检索是用户进行信息查询和获取的主要方式。
信息检索包括信息存储和信息检索两个部分
信息检索流程图
检索原理:
检索提问标识与存储标引标识进行比较,两者一致或信息标引的标识包含着检索提问标识,则具有该标识的信息就从检索系统输出,输出的信息就是检索命中的信息。
三、信息检索的类型和方法
(一)信息检索类型
1.按检索内容划分
(1)文献检索:
以文献线索为检索对象的检索。
检索系统一般为书目、索引、文摘等二次文献。
(2)数据检索:
以数值形式表示检索内容的信息检索。
(3)事实检索:
以文献中抽取的事实为检索内容的信息检索。
(4)全文检索:
以原始文献中所含的全部信息作为检索内容的信息检索,即是以文献全文作为检索内容的信息检索。
检索的内容可以是全文,也可以是部分内容,并可进行各种频率的统计和内容分析,它通常用自然语言表达检索课题。
(5)图像检索:
以有关人、事、物的形象,包括图像和图文信息为检索内容的信息检索。
(6)多媒体检索:
多媒体检索通常是以文字、图像、数据和声音为检索内容的信息检索。
2.按信息检索手段划分
(1)手工信息检索
(2)计算机信息检索
(二)信息检索方法
1.工具法
是指利用各种检索工具或数据库查找文献信息的方法。
(1)顺查法:
以研究课题的起始年代为起点,由远及近,逐年查找,直至最近期为止。
(2)倒查法:
针对研究课题,从最近期向早期回溯,直至查获适量切题文献信息为止。
(3)抽查法:
抽查法是一种利用检索工具进行重点抽查检索的方法。
2.引文追溯法
利用文献所附的参考文献进行追溯查找。
3.循环法
是工具法与引文追溯法相结合的一种检索方法。
四、信息检索工具
信息检索工具是用来存储、报道和检索文献线索的工具,具有存储和检索两个基本功能。
信息检索工具的类型按照不同的标准划分有不同的类型,最常用的一种划分方式就是按照著录内容划分,可以分为目录、题录、文摘三种。
第三节现代信息检索策略
一、分析检索课题,明确检索需求
1.分析课题学科属性、专业范围及相关内容
2.分析检索课题的信息类型和时间要求
3.明确用户自身的信息需求
二、选择检索系统
选择检索系统要考虑三方面的因素。
一方面是检索课题的具体要求,包括所需要的学科、主题范围,对语种、年代、资源类型的要求,以及对查全、查准、查新方面的具体要求。
另一方面,要考虑检索系统的类型和性能,包括其收录范围,报道内容及倾向、可获得性,存储年限、更新周期、所具有的检索功等方面。
最后,要考虑检索者对检索系统的熟悉程度。
综合上述几方面的考虑,选择匹配性最佳的检索系统。
三、确定检索途径
(一)以文献的外部特征为检索途径
1.题名途径
2.责任者途径
3.号码途径
(二)以文献信息的内容特征为检索途径
1.分类检索途径
2.主题检索途径
四、选择检索词
检索词是表达文献信息需求的基本元素,也是计算机检索系统中进行匹配的基本单元。
选择检索词一般要考虑以下基本原则:
(1)所选检索工具有叙词表或主题词表的,优先选用叙词或主题词作为最基本的检索词;
(2)要从词表规定的专业范围出发,选用各学科内具有检索价值的基本名词术语;
(3)如选择的检索词无词表可查,或在词表中未反映,可选择自由词作为检索词;
(4)选词要适应待检数据库的检索用词规则;
(5)通常要选择常用的基本词汇进行匹配。
五、构造检索式
1.概念检索
检索标识是具体的检索词或词组,每个检索词表达一个概念
2.布尔逻辑算符组配检索
是将多个检索词进行逻辑组配形成的一种复合性检索要求。
(1)逻辑与
用符号“and”或“*”表示,
其逻辑表达式为:
AandB或A*B
其意义为检索记录中必须同时含有检索词A和B的文献,才算命中文献。
(2)逻辑或
用符号“or”或“+”表示,
其逻辑表达式为:
AorB或A+B
其意义为检索记录中凡含有检索词A或检索词B,或同时含有检索词A和B的,均为命中文献。
(3)逻辑非
用符号“not”或“–”表示,
其逻辑表达式为:
AnotB或A–B
其意义为:
检索记录中含有检索词A,但不能含有检索词B的文献,才算命中文献。
3.位置逻辑算符
4.截词和屏蔽(模糊检索)
使用截词符(通配符):
?
,%,*,$
截词主要是利用检索词的词干或不完整的词形进行检索。
5.比较运算符
=等于,>大于,<小于,>=大于等于,<=小于等于
6.优先运算符
()、‘……’、“……”
7.检索字段限定符
CNKI中国知网:
专业检索
某些外文数据库:
TI=rice、AU=LiHua
六、实施检索
七、调整检索策略
检索时,应及时分析检索结果是否与检索要求一致,如果不一致,则应对检索策略做相应的修改和调整,直至得到比较满意的结果。
对检索结果的分析有如下三种情况:
1.检索结果信息量过多
检索结果信息量过多的原因可能有:
对所选的检索词的截词截得太短;未加字段限定或限定太过宽泛;使用了过多的相关词或上下位概念等。
在这种情况下,就要考虑缩小检索范围,提高检索结果的查准率。
调整检索策略的方法如下:
①减少同义词与同族相关词。
②增加限制概念,采用逻辑“与”连接检索词。
③使用字段限定,将检索词限定在某个或某些字段范围。
④使用逻辑“非”算符,排除无关概念。
⑤增加语种限制以及