文献检索与论文写作讲义Word文件下载.docx

资源描述

文献检索与论文写作讲义Word文件下载.docx

《文献检索与论文写作讲义Word文件下载.docx》由会员分享，可在线阅读，更多相关《文献检索与论文写作讲义Word文件下载.docx（24页珍藏版）》请在冰豆网上搜索。

文献检索与论文写作讲义Word文件下载.docx

他说：

“任何一种学术研究活动，如果缺乏对它以前的研究史的必要的回应，本质上都是不合法的。

换言之，任何一种学术研究成果，如果不包含着对前人和同时代人的代表性研究成果的必要的回应，那么，它根本上就是不合法的，就是不符合学术规范的。

”这段话精辟地概括出了我们在写论文时既要注意研究资料自主创新，又不能抄袭别人的成果，否则大处说叫学术腐败，小处说是做人不诚实。

北京大学温儒敏认为：

学术规范应从细小的事做起，从自己做起。

“现在的确有不少学者，特别是年轻的学者和研究生、大学生，不一定都了解学术规范。

比如，引用别人观点必须注明出处，而且尽量引用第一手材料，这样一些基本要求，未必都能做到。

这是我们长期忽视学术基础教育的结果，在短时间改变恐怕很难。

但我们还是要从一些细小的事情做起，从自己做起，点滴积累和建设。

”

温教授上面的话说出了我们应用文献信息的原则，它是源头活水，我们在使用这活水时一定要记得告诉别人这水是从哪里取来的。

第一节　文献信息与检索

一、文献信息的概念

文献的定义是记录有知识的一切载体。

它的延伸含义是记录有知识或信息的物质载体。

因此，文献具有如下属性：

知识或信息性、物质实体性、人工记录性（出土文物是文献，动、植物化石不是文献）、动态发展性（数量日趋庞大、生命周期日趋缩短）。

文献的近义词是：

信息、知识、情报。

作为载体它为我们提供信息、知识和情报。

文献信息就是文献这种载体为我们提供的信息，它既指文献本身，又指文献中所包含的信息内容。

二、文献的分类和特点

按照不同的用途和特性，文献可以有不同的分类。

1、按自身的用途和编辑出版特点，文献分为10种：

图书、期刊、科技报告、会议文献、政府出版物、专利文献、标准文献、资料素材、学位论文、专业文档。

当然，随着现代传媒技术和网络技术的发展，文献的用途越来越广，按编辑特点的类型应该超出了这10种的范围。

2、按文献载体分类，文献可以归为4类：

（1）印刷型文献——纸质图书、报纸等

（2）缩微型文献——缩微胶片、胶卷等

（3）声像型文献——唱片、录音录像带等

（4）电子型文献——电子图书、电子期刊、联机数据库、网络数据库、光盘数据库等，这类数据与传统的事物文献的形态不同，也叫虚拟文件。

3、按加工深度分类，文献又可呈阶梯状分为4种类型：

（1）零次文献指未经公开发表、非正式出版、非正式渠道交流的或未交流于社会的文献。

零次文献的形式是只为个人或者某一团体所用，具有客观性、零散性和不成熟性。

如私人笔记、设计草图、试验纪录、会议记录、书信、论文草稿、私人笔记、会议记录、书信、email、BBS文章、博客、讨论组文章……等。

（2）一次文献凡是作者以自己的研究成果为基础素材，创作或撰写的，并公开发表和出版的文献，也称为原始文献，这是文献源中最主要的部分，但数量庞大、内容分散不便于管理。

一次文献具有创造性、新颖性、系统性、形式多样性等特点。

如图书、报纸、期刊论文、专利说明、会议文献、研究报告、专著、学位论文、科技报告……。

（3）二次文献是对大量无序、分散的一次文献进行加工、整理、提炼、标引及编序后形成的文献。

二次文献具有浓缩性、汇集性、系统性等特点。

二次文献的功能是报道原始文献，并为查找一次文献提供线索。

主要指检索工具，如书目、索引、文摘目录、题录、搜索引擎等，

（4）三次文献是对一定范围内的一次、二次文献信息进行分析、综合、概括后编写的系统化的文献形式，又分为综述研究类和参考工具类。

三次文献具有综合性、针对性强、参考价值高等特点。

如专题述评、动态综述、学科总结、进展报告、综述以及词典、指南、年鉴、手册、百科全书（维基百科）等参考书、网站。

三次文献主要是文献信息研究的产物和成果。

三、文献信息检索概论

文献信息检索就是对所需文献或文献中包含的信息内容进行查找、获取。

它还是一门关于信息资源存储、整序、查找理论和方法的学科。

其研究对象即为信息检索的理论和实践。

具体研究内容包括检索语言、检索系统、检索策略以及在网络环境下的检索技术与服务等。

下面我们简单地了解一下这些理论和概念。

1、文献信息检索的分类

文献信息检索根据检索目标和检出文献信息形式的不同，可分为以下三种：

（1）文献检索：

是以文献为检索目标，利用题录、索引、文摘等有关文献检索工具，从存贮的文献集合中查找出所需特定文献的过程。

（2）数据检索：

是以数据、图表、参数、公式等为检索，利用有关参考工具书进行检索的过程。

（3）事实检索：

是以特定的事实为检索目标，通过文献档案或参考工具书直接或经分析综合得出事实或知识性的答案.

2、文献信息检索的发展阶段

随着技术手段的进步，文献检索经历了手工检索、机械信息检索、计算机检索三个发展阶段。

（1）手工信息检索阶段

信息检索直接发源于文摘索引工作和参考咨询工作。

文摘工作的历史可以追溯到远古时代。

根据研究文摘历史的专家弗朗西斯·

威蒂（FrancisJ.Witty）介绍，一种用途类似于文摘的东西首先出现在公元前两千年，封装美索不达米亚人用楔形文字写成的文献的陶制封套上。

我国最早带有内容摘要的图书目录是西汉刘向、刘歆父子整理编撰的《别录》和《七略》。

古代使用文摘的人有学者、政治家，还有教皇和僧侣。

索引工作也有很长的历史。

我国是索引工作开展得最早的国家之一。

在唐宋时代，一些文人学者就编制了一些工具书，供查找古籍中的丽词骈句、诗赋文章、史实或其他资料。

人们称这类工具书为“类书”，实际上它们就是属于索引这一类的工具书。

在西方，第一种专门的索引约出现于7-8世纪，是为《圣经》编制的，叫《圣经语词索引》。

正规的参考咨询工作是由美国公共图书馆和大专院校图书馆于19世纪下半叶首先发展起来的。

“参考咨询工作”产生的标志是1876年召开的美国图书馆协会第一届大会。

1883年，波士顿公共图书馆首次设置了专职参考馆员和参考阅览室。

20世纪，多数图书馆成立了参考咨询部门，主要利用图书馆的书目工具来帮助读者查找图书、期刊或答案。

随着文献的激增和读者需求的增长，逐渐发展到从多种文献资源中查找、分析、评价和重新组织信息；

“索引”突破了以前的狭隘范畴，成为独立的检索工具；

到20世纪40年代又进一步包括回答事实性咨询、编制书目、文摘，进行专题文献检索，提供文献代译等。

“信息检索”从此成为一项独立的用户服务工作，并逐渐从单纯的经验工作向专业化方向发展。

但在此阶段所使用的馆藏目录、检索工具和参考工具书都是卡片型或者印刷型的，检索的方式基本上是以手工方式为主。

（2）机械信息检索阶段

机械信息检索系统始于20世纪40-50年代，是使用各种机械装置进行信息检索的机械系统，机械信息检索的生命周期很短暂，是手工检索向计算机信息检索的过渡阶段。

机械信息检索主要包括两种基本类型：

机电信息检索系统：

使用诸如打孔机、验孔机、分类机等机电设备记录二次文献，用电刷作为检索元件的信息检索系统。

光电信息检索系统：

使用缩微照相记录二次文献，以胶卷或胶片边缘部分若干黑白小方块的不同组合做检索标志，利用光电检索元件查找文献的检索系统。

机械信息检索系统利用当时先进的机械装置改变了信息的存储和检索方式，通过控制机械动作，借助机械信息处理机的数据识别功能代替部分人脑，促进了信息检索的自动化。

但它并没有发展信息检索语言，只是采用单一的方法对固定的存储形式进行检索的工具，而且过分依赖于设备，检索复杂，成本较高，检索效率和质量都不理想。

机械信息检索系统很快就被迅速发展的计算机信息检索系统所取代。

（3）计算机信息检索系统阶段

计算机信息检索起源于20世纪50年代初，1954年美国海军兵器中心图书馆利用IBM701机开发计算机检索系统，它标志着计算机信息检索阶段的开始，计算机信息检索可以分成四个发展阶段。

第一阶段：

脱机检索阶段。

20世纪50-60年代是脱机检索的试验和实用化阶段。

批式检索是这个阶段信息检索的主要方式。

著名的脱机检索系统包括美国国家医学图书馆的MEDLARS，美国化学文摘社发行的《化学题录》机读磁带版等。

这一阶段的数据存取与数据通信能力都比较差。

第二阶段：

联机检索阶段。

20世纪60-80年代是联机检索试验和实用化阶段。

1960年美国麻省理工学院（MIT）开始实施有关联机检索系统设计的“技术情报计划”（TIP），系统发展公司（SDC）也在它开发的全文检索系统protosynthex上进行了首次联机检索演示，该公司后来研制成功的联机信息检索软件OBIT是联机检索阶段的正式开始。

著名的联机检索系统还有DIALOG系统（属于美国洛克希德公司，1988年被Knight-Ridder公司购并）等。

这个阶段的特点是联机数据库集中管理，具有完备的数据库联机检索功能，但其数据通信能力较差。

第三阶段：

光盘检索阶段。

光盘检索阶段始于20世纪80年代中期。

1985年世界上第一个CD-ROM数据库BIBLIFILE的问世，是光盘检索系统实用化的标志。

这个阶段比较特殊。

在发达国家，光盘检索是联机检索的支持和补充，但在通信技术不太发达的国家，由于它本身的优点，确实是用户获取信息的一个十分重要的手段。

第四阶段：

网络检索阶段。

网络信息检索开始于20世纪90年代初。

1991年思维机公司、明尼苏达大学、欧洲高能粒子协会分别推出了因特网上的检索工具WAIS、Gropher和WWW。

目前，WWW因其集文本、图像、声音等多媒体信息于一体的巨大优点，已占信息服务的主导地位。

据统计，截止到2002年8月,整个WEB的容量已经超过24亿个可索引页面。

由此，基于WEB的搜索引擎已成为最重要的信息检索工具。

著名的有Yahoo、Lycos、Excite等。

在该阶段，系统大多采用分布式的网络化管理，其信息资源的主要特点是：

数字形式表达、多媒体和多载体、内容覆盖广、分布无序、难以规范化和结构化、内容特征抽取复杂、用户界面要求高等。

这些特点导致了信息处理从传统模式向新型模式的转变，如体系结构从终端主机方式到客户、服务器结构方式，网络环境从局域网到Internet等开放网络，应用接口从封闭界面到WWW等，信息结构从结构化到非结构化，系统功能从单纯信息检索到综合信息管理和服务等。

这些变化必将促使信息检索技术的不断发展，以满足人们对提高信息利用能力的需要。

信息检索发展到今天，已经呈现联机检索、光盘检索和网络检索三者并存的局面。

目前，三个阶段的检索手段并存，我们在检索时应该灵活运用，而不能单纯只依赖一种检索手段。

3、文献信息检索的方法研究和演变

文献检索在不同的发展阶段有不同的方法，把检索方法作为一种学科来研究要追溯到20世纪中期，是伴随着数学和计算机技术的发展、应用而逐步创立起来的。

其中代表人物如Granfield利用数学确立了标引语言及系统评价方案；

Salton同样运用数学原理提出了矢量空间模型（用于测量文本与检索式之间类似度的余弦公式）与文献聚类技术；

Roberson等人研制的概率模型和关于计算机语言学上的检索技术开发等。

这些研究和实验对后来的信息检索领域的研究对象、原则和方法产生了重要影响。

特别是计算机技术、网络通信技术、超媒体技术和智能技术的发展，使人们获取信息的模式由“浏览——查询”模式逐步取代传统的“提问——检索”模式，已使信息检索的研究内容、研究方法大为丰富。

“提问——检索”模式我们可以从美国70年代著名的科幻电影《异形》里看到，女主角发现异形在飞船上失控后，提问飞船的电脑主机，然后得到一个个令人毛骨悚然的回答，这就是当时信息检索在计算机应用上的一种艺术反应。

现代互联网应用的则是“浏览——查询”模式。

目前，网络信息技术还在进一步迅速发展之中，与检索有关的研究也在不断更新、进步，目的无非是更快速、更准确地显示搜索结果。

同时，包括以人为本的可视化技术、智能搜索技术等新技术的研发已经超越了过去我们以精确、快速查阅文献信息的认识范畴，达到了符合人性化诉求的高级检索阶段，比如以苹果手机为代表的可视化人机对话技术手段。

第二节文献信息检索应用

一、文献信息“检索语言”的应用

检索语言是建立和利用检索系统必要的语言，无论是信息的存储还是信息的检索，都离不开检索语言。

它在信息存储和检索过程中，主要是对信息的内容及其外部特征加以规范化的标引，对内容相同及相关的信息加以集中或揭示其相关性。

传统的文献检索系统是采用对自然语言事先规范而形成的受控语言（如分类表、主题词表）来描述文献信息特征，生成概念及其概念标识系统，人们通过分类表中的分类符号或主题词表中的主题词（或叙词）作为控制检索的入口格式进行检索。

受控语言对语义和句法上的控制策略显示了自身的优势：

标引时可以集中相关文献，提高检全率；

能显示概念间的各种关系，有利于及时调整检索策略等。

但受控语言只适应文献数量有限，以手工检索方式为主的系统，它是支持“提问——检索”模式必要的检索语言。

随着网络通信技术的发展和广泛使用，文献尤其是非文献信息数量大量增长，受控语言的专业性太强，应用范围有限，更新维护困难等不足之处日显突出，自然语言恰恰可以弥补这一不足。

所谓自然语言是指作者的书面语言，用自然语言可以减少概念间转换产生的误差，检索入口词多，操作简单方便，也可以适合专业人员之外的广大用户群。

随着自然语言标引技术的日渐成熟，电子文本的大量存在，越来越多的最终用户进行网上信息查询，自然语言的网上应用可行性大大增强了。

但是在网上自然语言使用过程中，用户也感到自然语言很多方面的不足，如选词不加严格控制，致使词语量过大，过多占用磁盘空间，从而影响主题的集中，降低查准率。

同时，自然语言对多义词也基本不加控制，往往使相关主题内容的文献分散，从而造成漏检。

受控语言与自然语言存在的互补性，说明它们在网络环境中兼容和整合的必要性。

近年来，国内外有关这方面的研究有很多，主要侧重于以下几个方面：

建立一种中介语言，解决不同检索语言之间的转换问题，实现多种检索语言之间的兼容；

制定不同词表中相关概念之间关系的类型及规则，促进兼容的研究；

为用户提供一个透明易用性的窗口，创造集标引、检索、用户提问于一体的检索语言的研究；

对各种数据库采用不同的检索语言进行综合、集成方法的研究。

二、文献信息检索技术分类和应用

1、全文检索技术

全文检索是以全文本信息为主要检索对象，允许用户以布尔逻辑和自然语言，根据资料内容而不是外在特征来实现检索的先进的检索技术。

全文检索系统标引方式有词典法标引、单汉字标引、特殊标引等。

检索技术后控检索、原文检索（含位置检索）期望值与加权检索等，检索功能强大。

以全文检索为核心技术的搜索引擎已成为因特网时代的主流技术之一。

在全文检索领域中，还包括超文本检索和概念信息检索两方面的研究内容。

超文本检索技术是以超文本网络为基础的信息检索技术。

在超文本检索系统中正文信息是以节点而不是以字符串为信息单元，节点间的各种链接关系可以动态的选择激发，通过链从一个节点跳到另一个节点，实现联想式检索。

1945年美国计算机科学家范尼瓦·

布什首先提出了超文本思想。

1965年美国的泰得·

纳尔逊（TedNelson）提出了超文本（Hypertext）概念。

1967年美国布郎大学研制成功世界上第一个超文本系统——超文本编辑系统（HypertextEditingSystem）。

因特网上的搜索引擎代表了超文本检索技术的发展水平，有的还有自动分类、自动文摘、自动索引等功能。

著名的超文本检索系统有Yahoo、WebCrawler等。

概念信息检索，又称基于知识信息检索，是基于自然语言处理中对知识在语义层次上的析取，并由此形成知识库，然后根据对用户提问的理解来检索其中的相关信息。

它与传统信息检索的不同之处在于，后者是基于关键词（主题词）为核心的标引与检索，而关键词在很多情况下并不适合用于确切表达文献信息的概念和内容，因此误检与漏检在所难免。

而概念信息检索的倡导者认为，它可以对输入的原文内容中的概念而不是关键词来进行组织和安排，在对其进行语义层次上的自然语言处理基础上来获取相关的概念和范畴知识，然后通过记忆机制将它们存储到知识库中以备检索。

概念信息检索的理论框架最早由美国著名的人工智能专家Schank,Kolodner和Dejong在1981年发表的《概念信息检索》一文中建立的。

自1981年以来一些概念信息检索系统相继推出，它们具备了一些智能检索的特性，有较强的分析和理解能力。

Web上的Excite搜索引擎既是采用概念检索技术的数据库。

2、基于内容检索技术

基于内容检索即多媒体信息检索，20世纪90年代初国际上就开始了这方面的研究。

它是直接对图像、视频、音频等多媒体信息进行分析，抽取特征和语义，利用这些内容特征建立索引，然后进行检索。

目前，大量的原型系统已推出，典型的系统有IBM公司的QBIC系统等。

超媒体检索是超文本检索的自然扩展，检索对象由文本扩展为多媒体信息。

它的检索方法与超文本检索是一样的。

目前，超媒体检索正向智能超媒体检索和协作超媒体检索方向发展。

WWW是第一个全球性分布式超媒体系统。

3、WWW信息检索技术

WWW上主要是利用搜索引擎为检索手段，它的检索方式有分类目录式（网站级）检索、全文（网页级）检索等几种方式。

分类目录式检索即超文本检索；

在全文检索方式中，搜索引擎使用网络信息资源自动采集机器人（robot）程序（也称网络蜘蛛、爬虫软件），动态访问各站点，收集信息，建立索引，并自动生成有关资源的简单描述，存入数据库中供检索。

但这种机器人程序的查准率有待提高。

元搜索引擎（又称多元搜索引擎或集成搜索引擎）是网络检索的后起之秀，是多个单一搜索引擎的集合。

它没有独立的数据库，主要依靠系统提供的统一界面，构成一个一对多的分布式且具有独立功能的虚拟逻辑机制。

主要的元搜索引擎有Metacrawler等。

网络智能检索包括智能搜索引擎（IntelligentSearchEngine）、智能浏览器（IntelligentBrower）、智能体（Agent）等。

智能搜索引擎可以预期用户的需求，并可有效地控制关键词的多义性；

智能浏览器是基于机器学习理论设计的智能系统，经过训练后，可成为某个领域中熟练的搜索专家；

智能体是一个具有控制问题求解机理的计算机单元，网络中的智能体通常是一个专家系统、一个模块等，它在经过用户指导后，可在不用用户干预的情况下，找到所需信息。

有些智能体使用神经网络与模糊逻辑而不是关键词来识别信息的模式。

4、其它信息检索技术

知识发现技术就是从大量的数据中发现有用知识的高级处理过程，是数据库技术和机器学习的交叉学科。

数据挖掘（datamining）技术是知识发现的核心技术。

数据挖掘的定义是：

按照某种既定目标，对大量数据进行分析和探索，从中识别出有效的、新颖的、潜在的有用的知识，以最终可理解的模式显示的一系列处理过程。

它涉及到机器学习、模式识别、统计学、数据库、联机分析、模糊逻辑、人工神经网络、不确定推理等多种学科知识。

数据挖掘是一种分析工具。

网格技术是第三代因特网，目前还处于起步阶段。

第一代因特网是传统因特网，第二代是WWW。

传统因特网实现了计算机硬件的连通，Web实现了网页的连通，而网格试图把因特网整合为一台巨大的超级计算机，实现因特网上所有资源的全面连通，包括计算资源、存储资源、通信资源、软件资源、信息资源、知识资源等。

也可以构造地区性网格，如企业内部网格、家庭网格等。

网格的根本特征是资源共享。

将来的第三代因特网的名称可能将由WWW变为GGG（GreatGlobalGrid）。

网格分为计算网格、信息网格和知识网格、商业网格、P2P。

信息网格和知识网格是智能信息处理，包括信息检索，它的目标是如何消除信息和知识孤岛，实现信息资源的智能共享。

网格技术采用的标准有性能优于HTML的内容与形式相分离的可扩展置标语言XML（ExtensibleMarkupLanguage）、元数据（Metadata）、资源描述框架（RDF）等。

信息推拉技术也是一种信息检索技术，分为信息推送和拉取两种模式。

如何提高信息拉取和推送的智能检索水平等是该项技术研究的内容。

信息推送技术（InformationPush）也称为“网播）（netcast），方法是通过因特网想用户主动地发布、推送各种信息，同时允许个性化定制的信息推送。

它的信息推送方式有分频道式、邮件式、网页式和专用式。

信息拉取（InformationPull）即搜索引擎的功能。

用户可以通过搜索引擎拉取信息。

三、搜索引擎在文献信息检索中的应用实例

1、认识搜索引擎

搜索引擎是互联网上三大最流行的服务（电子邮件、搜索引擎、WWW浏览）之一，使用频率仅次于电子邮件，一般说来，搜索引擎由搜索软件、索引软件和检索软件三部分组成。

搜索引擎工作时，要按照一定的规律和方式运行特定的网络信息搜索软件，定期或不定期地搜索Internet各个站点，并将收集到的网络信息资源送回搜索引擎的临时数据库；

接下来利用索引软件对这些收集到的信息进行自动标引形成规范的索引，加入集中管理的索引数据库；

在Web的客户端，提供特定的检索界面，供用户以一定的方式输入检索提问式并提交给系统，系统通过特定的检索软件检索其索引数据库，并将从中获得的与用户检索提问相匹配的查询结果再返回客户端供用户浏览。

这一过程可简单描述为：

搜索软件用来在网络上收集信息，执行的是数据采集机制；

索引软件对收集到的网络信息进行自动标引处理并建立索引数据库，执行的是数据组织机制；

检索软件通过索引数据库为用户提供网络检索服务，执行的是搜索引擎的用户检索机制。

2、搜索引擎功能简介

简单搜索（SimpleSearch）：

指输入一个单词（关键词），提交搜索引擎查询，这是最基本的搜索方式。

词组搜索（PhraseSearch）：

指输入两个单词以上的词组（短语），提交搜索引擎查询，也叫短语搜索，现有搜索引擎一般都约定把词组或短语放在引号“”内表示。

语句搜索（SentenceSearch）：

指输入一个多词的任意语句，提交搜索引擎查询，这种方式也叫任意查询。

不同搜索引擎对语句中词与词之间的关系的处理方式不同。

目录搜索（CatalogSearch）：

指按搜索引擎提供的分类目录

展开阅读全文