信息检索概述.ppt
《信息检索概述.ppt》由会员分享,可在线阅读,更多相关《信息检索概述.ppt(23页珍藏版)》请在冰豆网上搜索。
信息检索概述,1、信息资源及其组织,信息的概念信息的特征信息的类型知识、情报和文献信息源,信息的概念,我国汉语中很早就有“信息”这个词。
早在一千多年前,唐朝诗人李中在碧云集暮春怀故人一诗中就留下了“梦断美人沉信息,目穿长路倚楼台”的佳句。
当时,“信息”指的是音信、消息。
信息就是人或者机器通过感官或者外部设备与外界交流的所有内容。
信息的特征,a、客观性与普遍性b、流动性与传递性c、时效性与有效性d、与载体的不可分割性与可加工性e、积累性与价值性,信息的类型,按照载体的形式划分:
印刷型、缩微型、声像型、电子型按信息的应用范围划分:
白色信息、灰色信息、黑色信息按信息的加工程度划分:
零次信息、一次信息、二次信息、三次信息按照数字化信息资源标准划分:
结构化数据、非结构化的数据,知识、情报和文献,知识是人类社会实践的总结,是人的主观世界对客观世界的概括和总结。
情报的概念是极其广泛的,它是一种普遍存在的社会现象。
文献一词最早出现在论语八佾中,新版辞海读文献的定义作了解释:
“记录有知识的一切载体的统称,即用文字、图像、符号、声频、视频等手段记录人类知识的各种载体(如纸张、胶片、磁带、磁盘、光盘等)。
物质的运动产生信息;各种信息经过人们系统化的加工处理,转化成知识;知识经过系统化的加工处理转化为情报;情报用于社会实践,解决实践中存在的问题,创造出物质财富或精神财富,这时的情报便转化为生产力,产生新的信息,形成一个无限循环的转化过程。
这也表明,信息包含知识、知识包含情报。
它们不仅仅是包含关系,而且可以互相转化。
信息源,a、口头信息源b、实物信息源c、文献信息源,2、信息媒体类型、特点和用途,媒体(Medium)指的是信息传递和存储的最基本的技术和手段。
或者说,媒体是信息的存在形式和表现形式。
简单地说,媒体就是人与人之间交流思想和信息的中介物。
感觉媒体:
感觉媒体能够直接作用于人的感官,使人产生感觉。
例如,人类的语言、音乐,自然界的各种声音、图形、图像,计算机系统中的文字、数据和文档等都属于感觉媒体。
表示媒体:
表示媒体的作用是加工、处理和传输感觉媒体,如语言编码、文本编码、图像编码等。
表现媒体:
表现媒体的作用是将媒体信息的内容呈现出来。
它又分为两种:
一种是输入表现媒体,如键盘、摄像机、光笔、话筒等;另一种是输出表现媒体,如显示器、喇叭、打印机等。
存储媒体:
存储媒体用于存放经过数字化后的媒体信息,以便计算机随时处理,如硬盘、软盘、磁带及光盘等。
传输媒体:
传输媒体用来将媒体从一处传送到另一处,是信息通信的载体,如双绞线、同轴电缆、光纤等。
3、信息检索的概念,信息检索,亦称为情报检索,作为一项行为的存在已经有很长时间的历史了,但信息检索的概念是在20世纪40年代由穆尔斯(C.N.Mooers)首先提出的。
信息检索(InformationRetrieval)是指将信息按照一定的方式组织和存储起来,并根据信息用户的需求找出有关的信息的过程和技术。
它的全称应该叫“信息存储与检索”(InformationStorageandRetrieval)。
这是广义的信息检索,它包括存储和检索两个方面,信息存贮主要包括对信息在选择的基础上进行信息特征描述、加工并使其有序化。
检索是指借助一顶的设备和工具,采用一系列方法和策略查找出所需要的信息。
存储是检索的基础,检索是存贮的目的。
狭义的信息检索则仅指该过程的后半部分,即从信息集合中找出所需要的信息的过程。
4、信息检索的历史,手工信息检索阶段机械信息检索阶计算机信息检索系统阶段,手工信息检索阶段,信息检索直接发源于文摘索引工作和参考咨询工作。
文摘工作的历史可以追溯到远古时代。
根据研究文摘历史的专家弗西斯威蒂(FrancisJ.Witty)介绍,一种用途类似于文摘的东西首先出现在公元前两千年封装美索不达米亚人用楔形文字写成的文献的陶制封套上。
我国最早带有内容摘要的图书目录是西汉刘向、刘歆父子整理编撰的别录和七略。
古代使用文摘的人有学者、政治家,还有教皇和僧侣。
20世纪,多数图书馆成立了参考咨询部门,主要利用图书馆的书目工具来帮助读者查找图书、期刊或现成答案。
随着文献的激增和读者需求的增长,逐渐发展倒从多种文献资源中查找、分析、评价和重新组织信息;“索引”突破了以前的狭隘范畴,成为独立的检索工具;到20世纪40年代又进一步包括回答事实性咨询、编制书目、文摘,进行专题文献检索,提供文献代译等。
“信息检索”从此成为一项独立的用户服务工作,并逐渐从单纯的经验工作向专业化方向发展。
但在此阶段所使用的馆藏目录、检索工具和参考工具书都是卡片型或者印刷型的,检索的方式基本上是以手工方式为主。
机械信息检索阶段,机械信息检索系统是20世纪40-50年代开始使用各种机械装置进行信息检索的机械系统,这个阶段的生命周期很短暂,是手工检索向计算机信息检索的过渡阶段。
机械信息检索主要包括两种基本类型。
机电信息检索系统:
使用诸如打孔机、验孔机、分类机等机电设备记录二次文献,用电刷作为检索元件的信息检索系统。
光电信息检索系统:
使用缩微照相记录二次文献,以胶卷或胶片边缘部分若干黑白小方块的不同组合做检索标志,利用光电检索元件查找文献的检索的系统。
机械信息检索系统利用当时先进的机械装置改了信息的存储和检索方式,通过控制机械动作,借助机械信息处理机的数据识别功替部分人脑,促进了信息检索的自动化。
但它并没有发展信息检索语言,只是采用单一的方法对固定的存储形式进行检索的工具,而且过分依赖于设备,检索复杂,成本较高,检索效率和质量都不理想。
机械信息检索系统很快就被迅速发展的计算机信息检索系统所取代。
计算机信息检索系统阶段,计算机信息检索可以分成四个发展阶段:
第一阶段:
脱机检索阶段第二阶段:
联机检索阶段第三阶段:
光盘检索阶段第四阶段:
网络检索阶段,5、信息检索的现状,文本信息检索基于内容检索技术WWW信息检索技术其它信息检索技术,文本信息检索,全文检索是以全文本信息为主要检索对象,允许用户以布尔逻辑和自然语言,根据资料内容而不是外在特征来实现检索的先进的检索技术。
全文检索系统标引方式有词典法标引、单汉字标引、特殊标引等。
检索技术后控检索、原文检索(含位置检索)期望值与加权检索等,检索功能强大。
以全文检索为核心技术的搜索引擎已成为因特网时代的主流技术之一。
基于内容检索技术,基于内容检索即多媒体信息检索,20世纪90年代初国际上就开始了这方面的研究。
它是直接对图像、视频、音频等多媒体信息进行分析,抽取特征和语义,利用这些内容特征建立索引,然后进行检索。
目前,大量的原型系统已推出,典型的系统有IBM公司的QBIC系统等。
超媒体检索是超文本检索的自然扩展,检索对象由文本扩展为多媒体信息。
它的检索方法与超文本检索是一样的。
目前,超媒体检索正向智能超媒体检索和协作超媒体检索方向发展。
WWW是第一个全球性分布式超媒体系统。
WWW信息检索技术,WWW上主要是利用搜索引擎为检索手段,它的检索方式有分类目录式(网站级)检索、全文(网页级)检索等几种方式。
分类目录式检索即超文本检索;在全文检索方式中,搜索引擎使用网络信息资源自动采集机器人(robot)程序(也称网络蜘蛛、爬虫软件),动态访问各站点,收集信息,建立索引,并自动生成有关资源的简单描述,存入数据库中供检索。
元搜索引擎(又称多元搜索引擎或集成搜索引擎)是网络检索的后起之秀,是多个单一搜索引擎的集合。
它没有独立的数据库,主要依靠系统提供的统一界面,构成一个一对多的分布式且具有独立功能的虚拟逻辑机制。
主要的元搜索引擎有Metacrawler等。
网络智能检索包括智能搜索引擎(IntelligentSearchEngine)、智能浏览器(IntelligentBrower)、智能体(Agent)等。
智能搜索引擎可以预期用户的需求,并可有效地控制关键词的多义性;智能浏览器是基于机器学习理论设计的智能系统,经过训练后,可成为某个领域中熟练的搜索专家;智能体是一个具有控制问题求解机理的计算机单元,网络中的智能体通常是一个专家系统、一个模块等,它在经过用户指导后,可在不用用户干预的情况下,找到所需信息。
有些智能体使用神经网络与模糊逻辑而不是关键词来识别信息的模式。
其它信息检索技术,知识发现技术就是从大量的数据中发现有用知识的高级处理过程,是数据库技术和机器学习的交叉学科。
数据挖掘(datamining)技术是知识发现的核心技术。
数据挖掘的定义是:
按照某种既定目标,对大量数据进行分析和探索,从中识别出有效的、新颖的、潜在的有用的知识,以最终可理解的模式显示的一系列处理过程。
它涉及到机器学习、模式识别、统计学、数据库、联机分析、模糊逻辑、人工神经网络、不确定推理等多种学科知识。
数据挖掘是一种分析工具。
网格技术是第三代因特网,目前还处于起步阶段。
信息推拉技术也是一种信息检索技术,分为信息推送和拉取两种模式。
6、信息检索的意义,有利于培养人才,提高学生自学能力和独立的科研能力帮助科研人员继承和借鉴前人的成果,避免重复研究,减少重复劳动帮助科研人员迅速、准确的获取所需全部资料,提高科研效率,缩短科研周期促进信息资源的开发和利用,推动社会进步和经济发展,7、信息检索的研究对象、内容、方法,信息检索研究对象、内容信息检索研究方法,信息检索研究对象、内容,a、检索语言兼容与整合的研究b、有关检索系统的研究c、检索策略的研究d、以用户为中心的网络信息服务研究e、网络信息检索技术发展研究,信息检索研究方法,信息检索是一门边缘性科学,它既具有图书馆学和情报学的范畴,也涉及到自然科学、社会科学、人文科学等多种学科和领域,诸如计算机科学、信息科学、语言学、逻辑学以及概率论、系统分析等。
因此,其研究方法也是多种多样,除各学科通用的一些研究方法,如观察法、实验法、调查法、模拟法、归纳与演绎法、分析与比较法等外,还广泛采用文献计量学法、信息计量学法、目录学法、主题法、著录法、排序法、咨询法等独特的一些研究方法。
谢谢!