信息检索课件总结.docx
《信息检索课件总结.docx》由会员分享,可在线阅读,更多相关《信息检索课件总结.docx(32页珍藏版)》请在冰豆网上搜索。
信息检索课件总结
信息检索
1、信息及其特点、价值
信息——被交流的知识
知识(Knowledge)为:
基于推理并经过证实的认识。
知识是人们在改造世界的实践中所获得的认识和经验的总和。
人类不仅要通过信息感知世界,认识和改造世界,而且要通过所获得的信息组成知识。
知识是信息的一部分。
客观事物感知认识知识
《信息与文献工作术语》中定义(GB4894-2009)
信息是物质存在的方式、形态或运动状态的表征,也是事物的一种普遍属性。
一般指数据、消息中所包含的意义,可以使消息中所描述事件的不确定性减少。
(国家标准GB4894-85
《情报与文献工作词汇基本术语》)
美国哈佛大学的研究小组给出了著名的资源三角形。
他们指出:
没有物质,什么都不存在;
没有能量,什么都不会发生;没有信息,任何事物都没有意义。
作为资源:
物质为人们提供了各种各样的材料;能量提供各种各样的动力;信息提供各种各样的知识。
1.1信息的主要特点——
(1)客观性
控制论创始人维纳认为:
信息是主、客观世界进行交换的内容的名称。
(无论人们对各种信息是否敏感,但它们却客观存在。
)
(2)效用性
信息论创始人香农认为:
信息能够消除不确定性的东西,它能增强系统的有序性,减少破坏和混乱的噪声。
(只有消除不确定性,才能提高决策和行动的效益。
)
(3)多样性
《韦氏大词典》(美国)注释信息为:
信息是通信的事实,是在观察中得到的数据、新闻和认识。
(说明信息的表现形式可以是数据、消息、新闻等等,具有多样性。
)
信息的属性:
普遍性传递性、共享性、时效性
信息资源——
在人类社会及自然界的发展、运动中,不断产生着各种各样的信息,各个学科、各种领域、各类事件以及各种形式的信息层出不穷,我们把任何可标识的对象(媒介和记录信息的组合,以物质或数字形式表达的知识成果等)总称为信息资源。
信息资源它也存在两种不同的情形:
一种是本体论信息资源,这是一类潜在、巨大、未经加工的原始信息资源或称做"生信息资源";另一种是认识论信息资源,这是经过主体感知和加工的信息资源或称做"熟信息资源"。
网络上或数据库中的信息资源一般都是"熟信息资源"。
当然,信息资源的"生熟"也具有相对性。
息信息消费是一种直接或间接以信息产品和信消费是一种直接或间接以信息产品和信息服务为消费对象的经济活动。
信息需求信息占有信息处理信息再生
信息检索
信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。
1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时情报检索系统相继研制成功并商业化,20世纪60年代到80年代,在信息处理技术、通讯技术、计算机和数据库技术的推动下,信息检索在教育、军事和商业等各领域高速发展,得到了广泛的应用。
Dialog国际联机情报检索系统是这一时期的信息检索领域的代表,至今仍是世界上最著名的系统之一。
Dialog系统是目前世界上最大的国际联机情报检索系统,覆盖各行业的900多个数据库,其数据类型主要有4种,即文献型、数值型、名录字典型、全文型,涉及40多个语种。
Dialog收录的信息涉及的专业范围广泛,按涉及学科的领域被分为20类。
2.信息素质——
人们能够敏锐地察觉信息需求,并能进行相应的信息检索、评估以及有效利用所需信息的水平(美国图书馆协会-1989)
使用潜在信息
(1)、信息
(2)和相关资源的意识和能力(GB/T4894-2009)
信息素质是人的综合素质的重要的组成部分。
3.信息素质的三大要素
信息素质的三大要素
信息意识———
指人对于各种信息的自觉的心理反映(包括对于信息的科学的、正确的认识及对自身信息需求的意识)。
信息能力——
是指所具备的关于信息技术应用的知识与能力(包括信息查询获取、组织加工、综合分析以及对信息的有效利用、评估、传播等方面的知识与能力。
信息过载让我们丧失了做决定的能力。
信息道德——
是指整个信息活动中的道德规范(包括信息的生产者、加工者、传播者以及使用者都必须自觉遵守和维护的信息道德规范)。
3.信息检索与利用的主要功用
(1)开阔视野,正确决策
通过全面、准确地信息检索,能够及时、系统地了解前人的工作经验与成果,掌握事物最新动态及发展趋势。
适时作出正确决策,使所开展的工作取得最快、最有效的进展。
3.信息检索与利用的主要功用
(2)提高功效,事半功倍
高效进行的信息检索活动,能节省人们对有用信息进行搜集利用的时间及精力,提高工作效益,做到事半功倍。
同时还能培养人们的自学能力、科学研究及鉴赏能力。
3.信息检索与利用的主要功用
(3)学习借鉴,推动创新
广泛深入地开展信息检创新是一个民族进步的灵魂
索活动,不仅有利于及是国家兴旺发达的不竭动力
时把握各种信息,促进江泽民
科技发明和发现不断涌现,同时对人们开展终身学习不断提升综合素质、创作出更多、更优
秀的成果及文献也具有强大的支持和推动作用。
3.信息检索与利用的主要功用
(4)规避风险,维护权益
及时有效地开展信息检索,不仅可以避免重复劳动、少走弯路、免去低水平复制所带来的损失,使各种科研、经营、生产等活动实现投入少、收效高,还可使人们规避风险,利用知识产权保护法等法律规范,维护自身或单位(国家)的正当权益。
3.信息检索与利用的主要功用
(5)科学评价,把握全局
随着信息资源的不断膨胀、信息技术的飞速发展,信息检索活动已经成为科研活动的重要组成部分。
特别是在科学评价、权效鉴定、及时把握全局等方面的作为日益突出。
具体可以表现在以下五个方面——
①科研课题(活动)立项信息检索
也叫科技查新,是国家及各级科研部门为避免科研课题重复立项和客观正确地判别科研成果水准及新颖性、创新性、科学性而设立的一项工作。
下面列举的分别是国家科技部、教育部授权的两个查新工作机构:
②科技成果鉴定信息检索
是对已经完成并准备申报成果(奖励)的研究项目进行系统而全面的信息检索。
旨在通过客观、正确地判别科研成果的新颖性、创造性。
证明所鉴定的成果的级别,国际(领先、先进)国内(领先、先进)。
③经营、产品、决策信息检索
经营及产品信息:
是客户资料、资源情报、招投标文件、营销计划、经营决策和策略等等;
产品信息:
是关于产品从设计、制造工艺、性能价格、销售及市场的一系列信息。
(如产品图片产品类型产品名称产品规格
决策信息:
是指决策者在做出某项决策前能够对其起到参考、帮助、指导的各种信息。
对上述信息的检索和利用,关系企业生存发展,也能有效地对企业作出评价、定位。
④各种应聘及谈判信息检索
应聘信息指关于招聘者自身特点及对应聘者的要求、取向等方面的信息。
诸如招聘单位名称、性质、规模、主要业务、资产情况、招聘职位、招聘要求等方面的信息
谈判信息主要包括技术引进谈判、商品贸易谈判以及政治、军事谈判等活动中关于“敌”我双方的各种信息。
活动前能尽可能多地掌握对方的相关信息及把握自身的特点,则能胜券在握、如愿以偿。
⑤学术水平评价信息检索
指具有某种权威性的单位(机构)为了客观地考察、评价或奖励在学术研究方面做出贡献的个人或组织,借助国际公认的著名检索系统(如SCI、EI、CPCI等),对一定时限内某地区、某组织及有关个人所撰写的研究论文等进行全面检索,从一定的层面上反映和评判有关地区、组织及个人的学术水平的检索活动。
4.文献的概念:
中华人民共和国国家标准文献著录总则:
(GB3792.1-83)
文献是记录有知识的一切载体。
属性:
知识性记录性物质性
文献的内容构成文献的手段文献的形态
爱因斯坦---全部科学不过是日常思想的精髓而已。
信息知识文献三者的关系
信息是生产知识的原料,知识是被人类系统化后的信息,文献是存储传递知识信息的载体。
情报的三个基本属性是:
知识性、传递性和效用性。
第二章
1.文献信息资源的构成
文献信息资源的构成可以从不同的角度或层面予以描述和划分,比如从记录文献的物质载体、文献信息的表现形态(文献类型)、文献信息被加工的详略程度等等。
(1)按文献信息的物质载体划分
①印刷型文献②缩微型文献③声像型文献④机读型文献
(2)按文献信息的物质载体划分
①印刷型文献
是指以纸张为存贮介质,以手写、印刷(包括铅印、油印、胶印、木版印刷)为记录手段的文献形式,也是一种最为常见的文献类型。
(2)按文献信息的物质载体划分
②缩微型文献
是指以感光材料为载体(银盐片、重氮片、微泡片),以缩微照相技术为记录手段而产生的一种文献形式。
对这类载体的文献查阅,需要借助于专门的仪器设备。
(2)按文献信息的物质载体划分
③声像型文献
指以磁性材料、光学材料为记录载体,利用专门的机械电子装置记录与显示/播放声音和图像的文献,又称声像资料、视听资料、音像制品,如我们常见的磁带、录像带等。
(2)按文献信息的物质载体划分
④机读型文献
是通过一定的技术将文字、图像以及声音等转换成二进制数字代码,记录在磁性介质或光记录介质载体上,采用计算机进行阅读、浏览的文献载体。
3)按文献信息的表现形式划分有11类
①图书
是一种最为传统和常见的文献表现式,它具有内容系统、全面、成熟、
可靠等特点,但传递信息的新颖性、快捷性不如期刊、会议等文献类型。
图书可分为阅读型(教科书、专著)和工具型(词典、百科全书、手册)
图书标识格式(文后参考文献):
刘国钧,王连成.图书馆史研究[M].北京:
高等教育出版社,1979:
1-518.
Gill,R.MasteringEnglishLiterature[M].London:
Macmillan,1985:
1-145.
ISBN
3)按文献信息的表现形式划分有11类
②连续出版物(报、刊)
指定期或不定期、具有连续出版编号(卷、期、年、月、日)的出版物。
具有品种繁多、信息量大、出版周期短、报道速度快、提供内容新、能及时反映当前科技发展趋势等特点。
3)按文献信息的表现形式划分有11类
③学位论文
指高等学校学士、硕士或博士毕业生为申请学位而提交的毕业论文。
学位论文一般偏重理论,所探讨的问题比较专深。
特别是硕、博士学位论文,在某些方面往往提出了具有独到的见解和观点,对研究工作有较大的参考价值。
英国习惯称之为Thesis,美国称之为Dissertation根据我国教育制度的规定,学位论文主要有:
学士学位论文、硕士学位论文、博士学位论文
3)按文献信息的表现形式划分有11类
④会议资料
指在学术会议上宣读或交流的书面论文。
其形式可以是单行本式的会议预印本、也可以是正规出版的会议论文集。
会议文献的特点是:
文献论题集中,内容新颖、丰富、专门、深入、学术性强,能反映出一个国家、一个地区或国际当前某一科学技术领域的最新成就、最高水平和发展趋势。
图书:
以会议名称作为书名,以文集名做书名,将会议名称作为副书名。
按会议届次编号,定期或不定期出版。
连续性会议文献(ConferenceSerial):
定期或不定期地出版的丛书、丛刊等。
期刊:
以期刊形式发表。
作为期刊的副刊或专刊出版,发表在有关学会、协会主办的学术刊物中。
科技报告:
编入科技报告。
视听资料:
在开会期间进行录音、录象,会后以视听资料的形式发表。
(2)按文献信息的表现形式划分有11类
⑤专利文献
是指专门记录和反映发明创造技术信息及内容的一种文献类型。
包括专利(申请)说明书以及与专利有关的法律文件及诉讼资料、用以报道专利信息的专利公报、专利信息检索工具(书)及检索系统等等。
专利的特点:
新颖性创造性实用性
专利的三方面含义:
专利权专利技术专利文献
专利的申请:
发明专利的申请
审批程序:
受理初审公布实审(新颖性创造性实用性)
授权实用批程序:
受理初审授权
(3)按文献信息的表现形式划分有11类
⑥标准资料
指按规定程序制订,经公认权威机构(主管机关)批准的一整套在特定范围(领域)内必须执行的规格、规则、技术要求等规范性文献。
它是从事生产、设计、管理、产品检验、商品流通、科学研究的共同依据,在一定条件下具有某种法律效力,有一定的约束力。
标准的特点:
①每个国家对于标准的制订和审批程序都有专门的规定,并有固定的代号,标准格式整齐划一。
②在一定条件下具有某种法律效力,有一定的约束力。
③时效性强,随着经济发展和科学技术水平的提高,标准不断地进行修订、补充、替代或废止。
④一个标准一般只解决一个问题。
⑤不同种类和级别的标准在不同范围内贯彻执行。
⑥安全性
(3)按文献信息的表现形式划分有11类
⑦科技报告
是关于某项科研成果的正式报告,或者是对研究过程中阶段进展情况的实际记录。
特点是每份报告自成一册;篇幅长短不一,编有由机构代号和连续序号组成的报告号。
科技报告内容新颖、专深,其流通范围有一定的限制,仅有小部分可公开或半公开。
世界上较著名的科技报告系列有美国政府的四大报告(PB报告、AD报告、NASA报告、DOE报告),英国航空委员会(ARC)报告、英国原子能局(UKAEA)报告,法国原子能委员会(CEA)报告、联邦德国航空研究所(DVR)报告,日本的原子能研究所报告、东京大学原子核研究所报告、三菱技术通报,苏联的科学技术总结和中国的"科学技术研究成果报告"等。
(3)按文献信息的表现形式划分有11类
⑧产品资料
是制造厂商为了宣传推销其产品而编制的以介绍产品性能为主的资料。
如产品目录、产品样本(集)、产品说明书、产品总览、产品数据手册等。
其内容大致为已定型产品的性能与用途、结构原理、使用方法、操作规程和产品规格等。
这类文献的特点是:
技术成熟可靠,图文并茂,形象直观,内容全面具体,出版迅速,发行范围广泛,装帧美观,设计新颖,重宣传推广,轻信息,新陈代谢快,商业性强。
它对于科技人员进行产品选型和设计企业引进国外产品和设备具有参考价值。
(3)按文献信息的表现形式划分有11类
⑨科技档案
是科学技术研究和生产建设部门在研究、生产、建设活动中形成的一整套技术文件,包括任务书、协议书、技术经济指标、审批文件、研究计划、方案、原始记录、分析报告、设计图纸等等。
特点:
①反映本单位科学技术研究、生产建设活动的真实历史记录,内容真实、详细、具体、准确可靠;②数量庞大,是科技储备的最完善、最可靠的形式;③保密性较强,一般都有密级限制,主要为内部使用,借阅手续严格。
3)按文献信息的表现形式划分有11类
⑩政府出版物
是各国政府部门及其设立的专门机构发表、出版的各种文件。
内容大致可分为行政性文件(如法令、统计等)和科技文献。
其中科技文献占整个政府出版物的30%一40%左右,包括政府所属各部门的工作研究报告、科普资料和技术政策等文献资料。
政府出版物全面系统地反映了一个国家(地区、部门等)在政治、经济、军事、文化、教育等方面的思想方针、政策及措施等,
政府出版物对于了解、掌握上述情况,做出相应的决策、采取适当的行为都具有指导性意义和重大的参考价值。
(3)按文献信息的表现形式划分有11类
网络文本
指那些来自于互联网上的、不属于上述任何一类型文献(即非为上述各类文本的数字化形态)、但又具有它们中的一些相应作用的网上文献。
特点:
形式多样、图文并茂;内容广泛,质量不一;获取方便,摘录容易;更新度很高,可信度不定;作者身份难辩,信息来源欠明。
因此,虽然发展势头很快,但把它作为主要的文献信息资源还有待时日。
(4)按文献信息的加工程度划分
零次文献——是指未以公开形式进入社会流通使用的实验记录、会议记录、内部档案、论文草稿、设计草稿等。
特点:
原始性分散性非检索性
(4)按文献信息的加工程度划分
一次文献——
是指作者以本人生产与科研工作成果为依据,创作、撰写而形成的文献。
如期刊论文、科技报告、会议论文、专利说明书及各种专著等等。
特点:
在于内容新颖、翔实、具体;一般说它是文献信息检索的终极目标
4)按文献信息的加工程度划分
二次文献——
是指对一次文献信息进行加工、提炼、浓缩,而形成的工具性文献。
它主要包括各种书目、题录和文摘(数据库)。
二次文献是人们对一次文献进行有效的管理、控制和利用的工具,它提供了一次文献的概略及线索。
(4)按文献信息的加工程度划分
三次文献——
是根据特定的要求指对一次文献和二次文献的内容进行综合分析、系统整理、高度浓缩后形成的文献。
如参考工具书、指南数据库等。
三次文献提供各种事实与数据。
一次二次三次文献关系
从零次文献、一次文献、二次文献到三次文献,是一个由分散到集中,由无序到有序的加工过程。
零次和一次文献是最基本的信息源,是文献信息检索和利用的主要对象;
二次文献是一次文献的集中提炼和有序化,它是文献信息检索的工具;
三次文献是把分散的零次文献、一次文献、二次文献,按照专题或知识的门类进行综合分析加工而成的成果,是高度浓缩的文献信息,它既是文献信息检索和利用的对象,又可作为检索文献信息的工具
文献检索
检索---retrieval“查找”
信息检索的类型:
根据检索对象的不同,可以分为数值检索﹑事实检索﹑文献检索
文献检索:
以文献为检索对象。
凡是查找某一课题﹑某一著者﹑某一地域﹑某一机构﹑某一事物的有关文献的出处和收藏单位等。
文献检索——
广义上讲包括文献信息的存储和检索两个过程。
狭义是指有目的地开展对于经过有序化后的文献信息的集合体所开展的查找活动及过程。
1.文献信息存储有序化及其方法
有序化的意义——
对文献信息进行有序化的意义在于解决文献数量剧增、文献信息的产生、分布和流动的无序性与人们利用文献的有序性、特定性之间矛盾,使人们能方便地、有效地、及时地查找并利用所需的特定信息及其相关资源。
2.文献信息有序化及其方法
根据文献的外部特征组织文献——
(一)按文献的名称或文献创作者的名称(如书名、刊名、作者、出版者名称等)的字顺或音序组织/检索排列文献。
2.文献信息有序化及其方法
根据文献的外部特征来组织文献——
(二)依文献特定代码(如专利号、标准号、ISSN、ISBN、化学分子式等)的顺序组织/检索文献。
2.文献信息有序化及其方法
根据文献的内在特征(分类、主题)来组织文献——
①以文献内容的学科属性为依据,分门别类组织/检索文献。
例如《中国图书馆图书分类法》《国际专利分类法》《美国国会图书馆图书分类法》
T工业技术 TB一般工业技术 TD矿业工程 TE石油、天然气工业TF冶金工业
TG金属学与金属工艺TH机械、仪表工业 TJ武器工业TK能源与动力工程
TL原子能技术TM电工技术 TN无线电电子学、电信技术 TP自动化技术、计算机技术
TQ化学工业 TS轻工业、手工业 TU建筑科学TV水利工程
TP1自动化基础理论TP2自动化技术及设备TP3计算技术
TP30TP31TP32TP33TP34……..TP6TP7TP8
根据文献的内在特征组织文献——
②按照代表文献主题概念的词(词组)的音序、字顺等组织/检索文献。
主题词:
代表文献主题内容的实质性的词或词组。
信息的著录加工
1、著录目的目的是把一篇文献变成一条著录,压缩后必须能体现文献的外表特征和内容特征。
外部特征——指文献上显而易见的,一般情况下不反映文献实质意义的那些特征,如书名、人名、各种符号标识(专利号,标准号,文献号等)、机构名等。
内容特征——指表征文献实质意义的特征,如主题词(叙词,单元词、关键词)、分类号、化学符号等。
2、著录内容
外表特征:
篇名,作者,工作单位,号码,文种
出处:
发表在什么刊物,刊号,卷,期,页数
内容特征:
摘要
3、著录格式
检索语言
分类语言主题语言名称语言代码语言
键词与叙词性质比较
分类语言
对信息内容的学科进行分类
中国图书馆分类法美国国会图书馆分类法国际专利分类法ipc
标准分类法
作用在于对文章按其内容进行归类、以便于文献的统计、期刊评价、确定文献的检索范围,提高检索结果的适用性等。
具体如下:
A--理论与应用研究学术论文(包括综述报告)
B--实用性技术成果报告(科技)、
理论学习与社会实践总结(社科)
C--业务指导与技术管理性文章
(包括领导讲话、特约评论等)
D--一般动态性信息(通讯、报道、会议活动、专访等)
E--文件、资料(包括历史资料、统计资料、机构、人物、书刊、知识介绍等)
说明:
1)不属于上述各类的文章以及文摘、零讯、补白、广告、启事等不加文献标识码。
2)中文文章的文献标识码以"文献标识码:
"或"[文献标识码]"作为标志,如:
文献标识码:
A
3)英文文章的文献标识码以"Documentcode:
"作为标志
P631.33
TG502.37类名都是仪器
P631.33上位类号P631是地球物理勘探,
TG502.37上位类号TG502是金属切削加工和机床,
P631.33指地球物理勘探仪器TG502.37指金属切削加工机床仪器
作者机构途径
英文版著者索引中人名规则
(1)翻译规则分为音译和意译。
中国著者姓名和团体机构名称的音译,一般用汉语拼音。
【实例】原西南师范大学在欧洲专利数据库就有三种写法:
SouthwestChinaNormalUniversity/SouthwestNormalUniversity/XinanTeachers,University
(2)拼写形式
【例题】在英文数据库检索作者“金长青”的论文,作者名除了“Jin,ChangQing”还有其他拼写形式:
Jin,Chang-QingJin,CQJin,C.QJin,C.Q.Jin,C.-Q
威妥玛(wade英国人1870年)以拉丁字母拼写拼读汉字拼音的方法。
如李Lee台湾、香港地区比较常用此方法。
3.文献检索系统及其功能
文献检索系统——
是指按某种方式、方法建立起来的供文献信息用户查检文献信息及原始文献的一种有层次的体系,是表征有序的信息特征的集合体。
(包括各种手工检索工具和各类计算机检索系统)
4.文献检索系统及其功能
常见的计算机文献检索系统(按收录内容)——
(一)书目型
又称为书目数据库或者文摘数据库。
它主要用于反映文献的原始信息。
如文献篇名、作者、出处等。
包含目录、索引、文摘。
OPAC全国新书目各类索引文摘
4.文献检索系统及其功能
常见的计算机文献检索系统——
(二)事实型
内容来源于百科全书、名录、词典、年鉴等参考工具书
(三)数值型
内容以统计数据、科学技术常数为主
四)全文型
全文检索系统是一种不仅能为用户提供文献的题录、摘要等信息,而且还能揭示文献全貌的文献检索系统。
4.文献检索系统及其功能
文献检索系统的功能——
(一)报道文献信息
(二)存储文献信息(三)检索文献信息
5.常用文献检索途径及方法
常用检索途径——
(1)文献名称(包