信息检索结课报告.docx
《信息检索结课报告.docx》由会员分享,可在线阅读,更多相关《信息检索结课报告.docx(16页珍藏版)》请在冰豆网上搜索。
信息检索结课报告
1引言
21世纪是一个高度信息化的社会,信息已成为现代社会赖以生存和发展的三大支柱(信息、物质、能源)之一。
信息就是商品、信息就是财富、信息就是资源、信息就是机会,因此,如何获取信息和利用信息将成为人们终身学习的基本技能。
在计算机、网络通信技术日新月异,互联网遍及世界各个角落的今天,我们正身置于广袤无垠的信息海洋中。
要有效、快速地获取和利用最新信息,就必须掌握信息检索的技能。
大学生在校求学期间所获得的不应该仅仅是“黄金”,更重要的是应获得“点金术”,其中之一就是信息检索的能力。
通过检索和利用各种信息,不仅可以深化所学的知识,而且可以开阔视野,拓宽知识面,不断更新知识,为从事科学研究和发明创造奠定基础。
在商品社会中,信息已被认为是经济建设、科研、生产、经营管理中不可或缺的决策因素。
信息检索可以对社会发展产生重大影响,也能为社会创造价值。
首先,要掌握获取文献的方法,提高情报意识和情报观念。
在激烈的社会竞争中,谁首先获得了最新信息,谁便获得了发展的主动权,谁便拥有了成功,拥有了未来。
无论从事哪项研究工作或对某一问题进行研究探讨,或对某一技术、工艺进行改革,都必须从查找文献、寻求信息开始,特别是在信息社会中,如果没有信息情报,不掌握获取文献的方法,将无法承担所担负的工作任务。
文献资料越丰富,研究成功的可能性就越大。
作为一个现代科技工作者,不仅要具有实际的科学研究能力,而且还应具有文献收集、选择和利用的能力。
所以,学习文献检索,不但要学会查找文献的方法,更重要的是要通过本课程的学习,提高自身的情报意识和情报观念,提高独立分析问题和解决问题的能力,使自己具有更强的社会生存和社会竞争能力。
其次,信息检索是创新人才应具备的基本技能创新人才首先要有创新思维,创新思维是指人们在创造性活动中所特有的思维过程,它是以独特的思维方式发现、提出、解决疑难问题,创造出新观点、新理论、新知识、新方法的一系列心理过程。
只有掌握大量的信息资料,在自由想像中创造灵感,在此基础上,才能在前人不曾涉及的领域有所建树和突破。
创新人才必须具有自立和创新精神,而自立和创新精神的培养,离不开对信息的搜集、整理、分析与利用。
只有掌握信息检索技术与方法,才能高效获取、正确评价和善于利用信息。
2信息检索介绍
2.1起源
信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。
随着1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时情报检索系统文献信息检索。
相继研制成功并商业化,20世纪60年代到80年代,在信息处理技术、通讯技术、计算机和数据库技术的推动下,信息检索在教育、军事和商业等各领域高速发展,得到了广泛的应用。
Dialog国际联机情报检索系统是这一时期的信息检索领域的代表,至今仍是世界上最著名的系统之一。
2.2定义
信息检索有广义和狭义的之分。
广义的信息检索全称为“信息存储与检索”,是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。
狭义的信息检索为“信息存储与检索”的后半部分,通常称为“信息查找”或“信息搜索”,是指从信息集合中找出用户所需要的有关信息的过程。
狭义的信息检索包括3个方面的含义:
了解用户的信息需求、信息检索的技术或方法、满足信息用户的需求。
2.3分类
2.3.1按存储与检索对象划分,信息检索可以分为:
文献检索
数据检索
事实检索
以上三种信息检索类型的主要区别在于:
数据检索和事实检索是要检索出包含在文献中的信息本身,而文献检索则检索出包含所需要信息的文献即可。
2.3.2按存储的载体和实现查找的技术手段为标准划分:
手工检索
机械检索
计算机检索
其中现在发展比较迅速的计算机检索是“网络信息检索”,计算机信息检索概述,也即网络信息搜索,是指互联网用户在网络终端,通过特定的网络搜索工具或是通过浏览的方式,查找并获取信息的行为。
2.3.3检索途径划分:
直接检索
间接检索
2.3.4按出版形式分类:
图书
连续出版物:
杂志,期刊,报纸,年鉴等
特种文献:
会议论文,专利,标准,学位论文,政府出版物,科技报告等
3图书检索
图书是最早出现的文献出版类型之一,至今仍是一种主要的科技文献类型。
图书大多是对已发表的学术研究成果、生产技术知识和经验通过选择、比较、核对、组织而成的,是比较成熟定型的出版物。
它有完整定型的装帧形式根据国际文献标准草案ISO/DIS5217/II的定义:
“凡篇幅达48页以上并构成一个书目单元的文献称为图书。
”图书的类型主要有两大类:
一是阅读类图书,如论述某学科问题的专著、高等院校教科书、科普读物等等。
二是参考类图书,也称参考工具书,指专为查找特定资料而编写的工具书。
其特点:
内容广泛、概括严谨,能及时报道新的科技专业名词、新成果、新事件、统计数据、人物情况等等。
工具类图书主要有字典、词典、百科全书、年鉴、手册、文献指南、组织机构指南和名人录等、专著、丛书、教科书、词典、手册、百科全书等。
图书的特点:
内容成熟、定型,论述系统、全面、可靠,但出版周期较长,知识的新颖性不如期刊等类型的文献。
据美国情报专家对美国各大学的科学家和英国电气工程师进行调查,发现他们阅读的文献中,图书分别占19%和14%。
3.1校园图书馆
近年来随着我国经济的发展与国际交流的加强,高等院校获得了更多的校园建设资金。
在各校新建或改建的项目中,图书馆类的项目占有很大的比例,校园图书馆的设计也成为建筑界的热门话题之一。
在这种形势下,借鉴发达国家的经验,了解国际上校园图书馆建设的新趋势,正确认识当前我国校园图书馆建设的可行性将是非常有益的。
计算机技术的进步对图书馆模式的影响,首先体现在对读者的服务上。
这种服务方式的进步表现在两个方面:
第一,可以使读者尽量少到图书馆来。
传统的服务方式要求读者在阅览室作为上获取信息而计算机网络技术,特别是远程网络技术的成熟,使以获取信息为目的的人的物理运动失去了必要性。
越来越多的人可以坐在家中,通过客户端软件获得所需的知识。
第二,扩展了读者在阅览室内的活动。
在传统的阅览室中,读者主要是阅读书本和记录笔记,而在新式阅览室中,读者可以通过家具上的计算机接口树立地使用自己的便携机,在阅读的同时进行更多的工作。
最有意思的是,这种接口不仅提供便携机的电源,而且还提供网络的升年毫升断一,把网络服务一直联通到读者的阅览桌上。
如下图是我在兰州理工大学的检索结果:
3.2超星数字图书馆
超星数字图书馆为目前世界最大的中文在线数字图书馆,提供大量的电子图书资源提供阅读,其中包括文学、经济、计算机等五十余大类,数十万册电子图书,300万篇论文,全文总量4亿余页,数据总量30000GB,大量免费电子图书,并且每天仍在不断的增加与更新。
超星数字图书馆成立于1993年,是国内专业的数字图书馆解决方案提供商和数字图书资源供应商。
超星数字图书馆,是国家“863”计划中国数字图书馆示范工程项目,2000年1月,在互联网上正式开通。
它由北京世纪超星信息技术发展有限责任公司投资兴建,目前拥有数字图书八十多万种。
覆盖范围:
涉及哲学、宗教、社科总论、经典理论、民族学、经济学、自然科学总论、计算机等各个学科门类。
本馆已订购67万余册。
特点:
海量电子图书资源,先进的技术依托,海量电子图书服务,海量电子图书贡献
如下图是我在超星图书的检索结果:
3.3百链云图书馆
百链云图书馆文献传递系统实现与600多家图书馆OPAC系统、电子书系统、中文期刊、外文期刊、外文数据库系统集成,读者直接通过网上提交文献传递申请,并且可以实时查询申请处理情况,以在线文献传递方式通过所在成员馆获取文献传递网成员单位图书馆丰富的电子文献资源。
该系统的服务内容包括:
文献传递申请、文献传递处理。
百链云图书馆由4.2亿条元数据组成,其中外文元数据约8800万条,中文元数据约8200万条,能够为读者提供期刊、报纸、学位论文、会议论文、专利、标准、视频、图书等一系列海量资源检索及使用。
通过百链云图书馆期刊,您能一站式检索到各大数据库(SpringerLink、ProQuest、EBSCO等几十个外文库和中国学术期刊、万方、维普等中文库)收录的学术资源。
Medalink会将检索到的文献按照“年代”、“期刊”和“核心期刊”(SCI,SSCI,EI等收录数量)自动进行聚类,方便您缩小检索范围。
中文检索还提供外文扩展和其他文献形式的资源扩展。
每条数据都提供获取全文链接和馆藏地信息。
百链云图书馆一站式检索整合了网络数字资源,资源丰富,消除了用户在多个数据库重复检索信息的不便,大大提高了用户获取资料的效率和检索范围。
如下图是我在百链云图书馆的检索结果:
3.4读秀知识库
“读秀DSR知识库”由北京世纪读秀公司创建,是全球最大的中文图书搜索及文献传递系统。
它集图书搜索、图书试读、文献传递、参考咨询等多种功能为一体,以海量的数据资源库为基础,为用户提供切入目录和全文知识点的深度检索,以及部分图书的全文试读。
读者通过可直接进入各种检索的结果或某个章节进行图书的阅读,也可通过文献传递来阅读,帮助读者获取他们想要的文献资源,是一个真正意义上的知识搜索及文献传递服务平台。
“读秀DSR知识库”检索,集成业界领先搜索引擎内核,突破一般检索模式,实现目录和全文的垂直检索,更突破了知识点检索结果与多级分类导航、目录、全文等的联合检索,并实现与各种纸质、电子资源平台整体检索,检索结果的各种资源分布信息一目了然,使读者在最短的时间内获得最深入、最准确、最全面的文献信息。
准确--通用搜索结果中包含大量的“垃圾检索”,检准率低。
“读秀DSR知识库”能够为用户提供70%图书前17页(包括封面页、版权页、前言页、目录页、正文前17页)的原文显示,通过试读全文,读者能够清楚地判断是否是自己所需的图书;目录检索有效地缩小检索结果的范围,使用户在海量数据中迅速命中目标,大大提高了信息的检准率。
全面--“读秀DSR知识库”检索范围涵盖95%以上的中文图书以及源源不断加入的新书,并且实现了图书、期刊、网页的联合检索;全文检索把用户检索的相关信息全部囊括在内,避免了“漏检”,大大提高了信息的检全率。
一目了然--一般检索系统仅对图书元数据进行检索,读者无法看到原文,检索结果不能准确命中目标。
而“读秀DSR知识库”检索系统不但能显示图书的详细信息,而且还能提供70%以上图书前17页(包括封面页、版权页、前言页、目录页、正文前17页)的原文显示,通过试读全文读者能够清楚地判断是否是自己所需要的图书,提高了信息的检准率和读者查书、借书的效率。
4期刊检索
期刊,又称杂志,是一种定期或不定期连续出版、有比较稳定统一的名称和固定的出版形式、开本和篇幅页码、用连续的卷期或年月顺序编号、汇集若干作者撰写的多篇文章和资料,并准备无限期地继续出版的连续出版物。
期刊可分为学术性期刊、通讯性期刊、消息性期刊、资料性期刊和检索性期刊等。
期刊文献的特点:
出版周期短,报道情报速度快,情报信息多,内容广泛、新颖、学术性强,发行及影响面广。
据情报专家调查,科研人员利用的各类文献中,科技期刊占65%以上。
情报学研究表明,对许多学科专业而言,20%期刊报道了其学科专业的80%信息,这20%的期刊就是所谓的核心期刊。
这也就告诉我们掌握和利用核心期刊就可以以较少的代价获取较多的信息。
4.1中国期刊全文数据库(CNKI)
国家知识基础设施(NationalKnowledgeInfrastructure)的概念,由世界银行提出于1998年。
在党和国家领导以及教育部、中宣部、科技部、新闻出版总署、国家版权局、国家计委的大力支持下,在全国学术界、教育界、出版界、图书情报界等社会各界的密切配合和清华大学的直接领导下,CNKI工程集团经过多年努力,采用自主开发并具有国际领先水平的数字图书馆技术,建成了世界上全文信息量规模最大的"CNKI数字图书馆",并正式启动建设《中国知识资源总库》及CNKI网格资源共享平台,通过产业化运作,为全社会知识资源高效共享提供最丰富的知识信息资源和最有效的知识传播与数字化学习平台。
CNKI由中国学术期刊(光盘版)电子杂志社、清华同方知网(北京)技术有限公司主办,是基于《中国知识资源总库》的全球最大的中文知识门户网站,具有知识的整合、集散、出版和传播功能。
CNKI亦可解读为“中国知网”(ChinaNationalKnowledgeInternet)的英文简称。
CNKI的特点及评价:
(1)定位准、起点高:
起名为“中国知识基础设施工程”(CNKI),直接定位为知识经济服务;
(2)收录全、学科覆盖面广;
(3)系统设计先进、并不断完善;
(4)用户界面友好,使用方便:
检索途径多,引得深度大;
(5)与时俱进,不断创新;
(6)全文引文数据仓库知识仓库(专题、行业等)个性化服务、一站式服务等;当前世界图书情报服务中的前沿项目都有所体现,并正在快速发展。
优点(可行性):
同行专家对学科发展、研究力量等比较了解等。
缺点(局限性):
关系网、人情票、外行评内行、少数人评多数人难以做到公平、公正、合理;不利于打破学术垄断和创新等。
4.2万方数据库
万方数据库,又称万方数据资源系统。
万方数据库是由北京万方数据股份有限公司开发的,涵盖期刊、会议纪要、论文、学术成果、学术会议论文的大型网络数据库,包括工业技术、基础科学、人文科学、医药卫生和农业科学等各个门类,文献类型有期刊、会议、文献、书目、题录、报告、论文、标准、专利、法规,属于网络版全文数据库。
万方数据库也是和中国知网齐名的中国专业的学术数据库。
开发公司万方数据股份有限公司是国内第一家以信息服务为核心的股份制高新技术企业,是在互联网领域,集信息资源产品、信息增值服务和信息处理方案为一体的综合信息服务商。
万方数据库的中国学位论文全文数据库资源是由国家法定学位论文收藏机构中国科技信息研究所提供,收录了自1977年以来我国自然科学领域博士、博士后及硕士研究生论文,其中文摘已达38万余篇,首次推出最近3年的论文全文8万多篇,并年增全文3万篇。
万方数据库的会议论文全文数据库收录了1998-2001年国家级学会、协会、研究会组织召开的全国性学术会议论文。
每年涉及600余个重要的学术会议,每年增补论文15000余篇。
数据范围覆盖自然科学,工程技术,农林,医学等27个领域,收录论文近20万篇;学术全文会议数:
1890个学术会议论文数:
125008篇。
数字化期刊子收录理、工、农、医、人等5大类70多个类目2500多种科技类核心期刊,实现全文上网。
万方数据公司短短8年时间,便推出了10个数据库,几乎每年都有新数据库推出,其数据库建设在选题方面具有新颖性、权威性和针对性等特点。
(1)新颖性
新的时代有新的需求,只有内容新鲜和技术手段先进的数据库,才能符合时代的需要,才能适销对路。
随着国家改革开放的不断深入,经济的不断繁荣,人们迫切需要了解目前国内各企业、公司及其产品情况,万方数据公司首先建立了《中国企业、公司及产品数据库》,满足了广大用户的需要。
(2)权威性
中国科技信息研究所是法定的学位论文收藏单位,其收集的硕士、博士研究生的学位论文,无论是从广度还是深度上讲都具有权威性,万方数据公司充分利用这一优势,推出了《中国学位论文数据库》
(3)针对性
在进行职称评定时,评定部门和个人非常关心文献的被利用情况,每年都有大批的科研人员想方设法统计自己文献被引用情况。
万方数据公司不失时机地在历年开展科技论文统计分析工作的基础上建立了《中国科技论文与引文分析数据库》,给这些特殊的用户带来方便。
(4)数据库类型多样
“万方”数据库数据类型多样,有文献型如《中国科技文献数据库》、《中国学术会议论文数据库》,也有事实型如《中国企业、公司及产品数据库》、《中国科技名人数据库》。
(5)数据来源有保障
中国科技信息所是万方数据公司的后盾,万方数据公司的前身是中国科技信息所样本样品馆,中国科技信息研究所在国内信息机构中的主导地位,其收藏的丰富信息资料,是万方数据库数据来源的保障。
(6)标引质量过硬
数据库标引质量的因素通常取决于标引工具的选取和标引人员的素质。
万方数据公司的标引人员都从事过多年的标引工作,具有非常丰富的知识和标引经验,因此能够严把数据库的标引质量关。
(7)浏览方式较完善
万方数据库提供便捷的浏览方式,只要拥有联网终端,就可以直接采用浏览器,而不需任何专用软件,随时阅读有关刊物,查阅有关信息。
同时万方数据库的超文本链功能链接的大量科技期刊或相关专业信息,使读者可方便快捷查找到所需更多信息;并且为链接查找参考文献创造了条件。
他的检索方法非常便捷,可按中英文的标题、作者、摘要、关键词等检索,采用布尔方式在指定年份内精确查询,二次检索功能可提高查询准确性。
4.3维普期刊
重庆维普资讯有限公司是科学技术部西南信息中心下属的一家大型的专业化数据公司,是中文期刊数据库建设事业的奠基人。
自1989年以来,一直致力于期刊等信息资源的深层次开发和推广应用,集数据采集、数据加工、光盘制作发行和网上信息服务于一体;收录有中文期刊12000种,中文报纸1000种,外文期刊4000种,拥有固定客户2000余家。
目前已成为推动我国数字图书馆建设的坚强支柱之一。
公司旗下系列产品丰富多样,从中文期刊、外文期刊到中文报纸,覆盖自然科学、社会科学、工程技术、医药卫生、教育研究、农业科学等各个科研领域。
在近15年的应用中,维普数据库已成为我国科技查新、高等教育、科学研究等单位必不可少的基本工具和资料来源。
目前,维普资讯的研究领域除具传统文献资源系统产品的革新与完善外,还包括在原有产品基础上发展起来的行业资源系统的研究与开发。
诚信务实的维普人长久以来一直致力于产品内涵的深层次挖掘,无纸化加工的实现,进一步提高了生产效率,同时也更大程度保证了数据质量;专业化标引流程,最大程度保证了数据查全率、查准率;性能卓越的检索内核,使文献检索过程变得轻松、快捷。
与尚唯信息技术有限公司合作开发的行业资源系统更是集资源类产品与加工软件的优势于一体,为用户提供了信息资源集中管理和网上信息发布一体化的解决方案。
首先,看看检索方式和检索界面的特色,在进入维普的数据库的网站页面后,页面的正中部分便是检索方式,共有“快速检索”、“传统检索”、“高级检索”、“分类检索”、“期刊导航”这5个主要的检索方式。
维普数据的检索方式设置的最大特点就是简洁明了,让用户可以非常迅速的进行相关检索。
其次,从检索服务和检索效果来看,在维普检索服务的方法上来看,利用关键词、著者、和题名检索的比率最高,其他方式的检索较少,使用以上的检索方法检索基本上都能够达到用户的要求,为用户提供满意的住处解答,为其科研提供一定的前瞻性信息和启发性信息,验证了其科研的有效性。
再次,检索途径的多样化。
维普采用了多样化的检索途径,提供了关键词、题名、著者等多达十几种的检索入口,满足用户的不同需求,只要是用户掌握了一定的信息都可以利用这些检索途径检索出相关文献,如果对于检索结果不甚满意,可以通过调整检索策略、范围、以及途径,继续检索。
最后,再来看一下维普对于检索结果的处理情况,维普将检索出的结果分列表形式,展现给用户。
通常一个页面可以显示20条信息,在结果处理上,用户可以通过标记单个或者多个结果,进行打印和下载等服务,这一点上是比较方便的。
结果界面上用户可以直接看到题名、著者、时间、单位等文献外部信息,当用户进一度点开链接之后,可以看到摘要、关键词等一些更加具体的信息。
其中一个比较容易被忽视的地方就是“相关文献”一栏,点击相关文献后,会出现一个新的列表,是与与所选文献相关的一些文章,包括“参考文献”“耦合文献”“被引情况”“主题相关”四个方面,但是自己在使用时候发现基本上除了“主题相关”一栏可以直接点击以外,其他几个无法点击。
维普在结果处理方面与其检索类似,较为简单明了,这一方面方便了用户,但是从扩展性上来说,相比于万方和CNKI等数据库来说稍显不足。
5学位论文检索
中国学位论文全文数据库资源由国家法定学位论文收藏机构中国科技信息研究所提供,并委托万方数据加工建库,收录了自1977年以来我国自然科学领域博士、博士后及硕士研究生论文,其中文摘已达38万余篇,首次推出最近3年的论文全文8万多篇,并年增全文3万篇
中国学位论文全文数据库精选全国重点学位授予单位的硕士、博士学位论文以及博士后报告。
内容涵盖理学、工业技术、人文科学、社会科学、医药卫生、农业科学、交通运输、航空航天和环境科学等各学科领域,是我国收录数量最多的学位论文全文数据库。
中国学位论文全文数据库由权威专家参与学位论文加工,全程辅以专业的标引、分类、及相关引文分析;收录数量多,海量全文资源辅以文摘库;收录单位及学科覆盖面广,涉及全国985高校和211重点高校、中科院、工程院、农科院、医科院、林科院等机构的重点精选博硕士论文;收录年限跨度长,重点收录2000年以来的学位论文,并将逐年回溯并月度追加,依托丰富的馆藏,可提供1977年以来的学位论文全文传递服务。
论文质量有保障。
每位研究生在确定自己的研究课题、撰写学位论文时,都得从课题的先进性、创新性、实用性及可行性等方面进行论证;其次,学位论文是在导师的严格审核和直接指导下,用2~3年时间才完成的科研成果,还必须通过院校或研究所的专家评审答辩后才能通过。
其论文质量有保障。
具有一定的独创性。
学位论文是通过大量的思维劳动而提出的学术性见解或结论。
在收集材料和进行研究的过程中都是在具有该课题专长的老师指导下进行的,这些人都是本单位本门学科的学术带头人,目前正从事或指导较高水平的科研工作,所获得的科研成果在国内本学科中属于领先地位,所以学位论文是专业性强,阐述问题较为系统、详细的有一定独创性的参考资料。
参考文献多、全面,有助于对相关文献进行。
研究生在撰写论文的过程中,往往要查阅大量的国内外文献资料。
因此,研究生撰写的课题综述部分,不仅提供一系列尚待解决的问题,而且几乎概括了该课题的全部信息,可以说学位论文是一篇很好的三次文献,而论文后的参考文献更是不可忽视的二次情报源。
6外文电子资源(EI)
《工程索引》(TheEngineeringIndex,简称EI)创刊于1884年,是美国工程信息公司(EngineeringinformationInc.)出版的著名工程技术类综合性检索工具。
EI每月出版1期,文摘1.3万至1.4万条;每期附有主题索引与作者索引;每年还另外出版年卷本和年度索引,年度索引还增加了作者单位索引。
收录文献几乎涉及工程技术各个领域。
例如:
动力、电工、电子、自动控制、矿冶、金属工艺、机械制造、土建、水利等。
它具有综合性强、资料来源广、地理覆盖面广、报道量大、报道质量高、权威性强等特点。
出版形式有印刷版(期刊形式)、电子版(磁带)及缩微胶片。
EI选用世界上工程技术类几十个国家和地区15个语种的3500余种期刊和1000余种会议录、科技报告、标准、图书等出版物。
年报道文献量16万余条。
EICompendex是全世界最早的工程文摘来源。
EICompendex数据库每年新增的50万条文摘索引信息分别来自5100种工程期刊、会议文集和技术报告。
EICompendex收录的文献涵盖了所有的工程领域,其中大约22%为会议文献,90%的文献语种是英文。
EI公司在1992年开始收录中国期刊。
1998年Ei在清华大学图书馆建立