第六章信息检索PPT格式课件下载.ppt
《第六章信息检索PPT格式课件下载.ppt》由会员分享,可在线阅读,更多相关《第六章信息检索PPT格式课件下载.ppt(64页珍藏版)》请在冰豆网上搜索。
将信息素材按学科或事物性质系统地加以排列。
主题排检技术:
以规范化的自然语言为标识符号来标引信息内容的排检技术时序排检技术:
按时间的顺序组合信息素材的技术,多用于编制年表、年谱等检索工具。
地序排检技术:
按一定时期的行政区域来排列信息素材的技术。
36,6.3.1手工信息检索的技术与方法,3、手工信息检索方法顺查法:
一种以信息检索课题起始年代为起点,按时间顺序由远而近地查找信息的方法。
倒查法:
一种逆时间顺序由近而远地查找信息的方法抽查法:
一种针对研究课题发展的特点,抓住学科发展迅速、发表文献较多的年代进行查找的方法。
追溯法:
又叫回溯法,是以某一篇文献末尾所附参考文献的线索进行追溯查找。
循环法:
先用检索工具查出一批文献,然后再利用这些文献末尾所附参考文献的线索进行追溯查找的方法。
37,6.3.2机械信息检索技术与方法,机电信息检索系统继手检穿孔卡片之后,出现了机检穿孔卡片和选卡机。
这就形成了机电信息检索系统。
光电信息检索系统主要是以缩微胶卷(片)检索方式出现的。
缩微胶卷(片)的检索方式大致可以分为两种类型:
(1)寻址检索方式
(2)编码检索方式,38,6.3.3计算机信息检索技术与方法,一、联机信息检索信息用户利用终端设备,通过通讯网络与世界各地的信息检索系统联机,进行人机对话,从检索系统的数据库中查找出用户所需信息的全过程。
优点:
检索速度快;
检索范围广而全面;
检索途径多、质量高;
检索内容新、实时性强;
检索辅助功能完善、使用方便,检索结果输出方式灵活、实用。
缺陷:
主机负担重,一旦出现故障,则整个网络都将瘫痪;
信息组织方式以线性为主,不够灵活;
联机检索不像Internet是面向最终用户的,操作也没有后者方便。
39,6.3.3计算机信息检索技术与方法,联机信息检索系统的结构:
由检索服务机构、国际通讯网络及终端三部分构成。
联机信息检索的技术原理:
一个典型的计算机信息系统,能完成数据收集、分析、加工处理、存储、传递通信和检索信息的全过程。
联机信息检索的服务方式:
a、定题信息提供b、专题回溯检索c、联机订购原文d、电子邮件,40,6.3.3计算机信息检索技术与方法,
(二)光盘信息检索特点:
使用光盘检索系统,可免联系检索系统所必须使用的电讯设备,节省了电讯费和联机系统使用费,还可免除由通信线路传输过程中所造成的失误。
光盘系统向用户提供相当于联机信息检索系统功能的软件。
光盘存储容量大、耐用、复制费用低如果光盘数据库量不够多,则信息资源就显得有限,购买大量光盘数据库,又受到经费限制。
光盘检索不如联机检索系统,因为光盘只能定期提供。
数据库费用大,41,6.3.3计算机信息检索技术与方法,
(二)光盘信息检索光盘信息检索系统由微机、驱动器及连接设备、CDROM数据库(光盘)及其检索软件构成。
选在驱动器时主要考虑以下性能:
a速度:
一般在185ms-500ms之间b查找速度:
一般在250ms-400ms之间c数据缓冲区越大,可直接从存储器存取的数据就越多,节省查询时间d数据传送速度:
有单速、双速乃至40倍以上的驱动器。
42,6.3.3计算机信息检索技术与方法,(三)网络信息检索特点:
信息量更大需要处理各种不同的语言(大多是自然语言)信息检索的范围更宽(多学科、多领域)信息检索的时效性要求更高检全率较高,而检准率较低,43,6.3.4信息检索技术演进,信息检索是一个具有浓重技术色彩的研究领域,其技术经历了快速而巨大的演变和进步;
检索对象:
结构化书目信息无结构化或半结构化全文文本多媒体信息信息组织方式:
传统的线性文本组织超文本/超媒体组织检索匹配技术:
关键词(字面)匹配基于概念匹配概念语义匹配与推理检索方式:
手工检索计算机化联机实时网络检索环境:
单机网络平台,集中网络分布式网络,44,6.3.5大型综合性检索系统,大型综合性检索系统:
中国知识基础设施工程(CNKI,http:
/);
万方数据资源系统(http:
维普资讯有限公司数据库系统;
中国高等教育文献保障系统CALIS(http:
/);
联机检索系统Dialog(http:
联机计算机图书馆中心OCLC(http:
/www.oclc.org);
45,46,47,48,49,50,常用的大型数据库:
中国人民大学书报资料中心复印报刊资料全文数据库;
国家科技图书文献中心(NSTL)数据库(http:
北京文献服务处(BDS)全文信息检索系统(http:
上海市图书馆全国报刊索引数据库;
ProQuest系统全文数据库(http:
/,51,常用的大型数据库:
/,52,6.4搜索引擎,搜索引擎(SearchEngine)搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具,简言之,就是一种在互联网上查找信息的工具。
工作的基本原理是:
用户提出检索要求,搜索引起代替用户在数据库中进行检索,并将检索结果反馈给用户。
检索的结果:
www上的主页、新闻组中的文章、软件的存放地址及作者、企业网站、个人主页等。
53,6.4.1搜索引擎的发展阶段,第一代:
根据词频搜索的原理开发第二代:
“超链分析”技术第三代:
以竞价排名商业模式为特征下一代:
社区化搜素“知识共享社区+搜索引擎”,54,6.4.1搜索引擎的发展阶段,
(1)基于web内容特征的排序技术主要考虑用户所查询的关键词在结果网页中的出现的频率和出现的位置等因素,并以此来评价命中网页与用户查询请求之间的相关度大小,作为排序依据。
55,6.4.1搜索引擎的发展阶段,56,6.4.1搜索引擎的发展阶段,
(2)基于网页链接结构的排序技术最早出现在1998年,主要根据网页被链接或被引用的情况来判断页面信息的权威性和质量,以此来优化对搜索结果的排序,如Google中的PageRank算法。
57,58,59,60,(3)通过关键词竞价的排名搜索,引擎通过将关键词拍卖,让网站或网页所有者对其价格进行竞争的办法来产生搜索结果的排序,61,6.4.1搜索引擎的发展阶段,(4)基于知识共享的社区化搜索机器搜索社区搜索百度知道雅虎知识堂新浪爱问,62,63,64,