信息检索初.docx
《信息检索初.docx》由会员分享,可在线阅读,更多相关《信息检索初.docx(17页珍藏版)》请在冰豆网上搜索。
信息检索初
填空题
1、检索文章在国际社会上的引用情况,可以借助印刷本的SCI、或者网络版的WebofScience_
2、搜索引擎的索引项有客观索引项和内容索引项两种,其中作者姓名和URL属于客观索引项_;关键词及其权重属于内容索引项
3、解释下列一级域名的含义:
COM商业性机构;ORG_非营利性组织;NET从事Internet服务的机构;GOV政府部门。
4、写出下列《SCI》著录格式中各项的含义
PEOPLEARCHANA
CHENGDU
SICHUANUNIV③DEPTCHEM④TLANAM⑤THEOCHEM⑥10429393⑦其中各项含义为:
国家名称
城市名称③机构名称④机构下属名称⑤作者姓名--⑥出版物名称缩写⑦卷号、页码和年份
5、列举四种你熟悉的图书情报刊物图书情报工作、情报学报、图书馆杂志、图书馆理论与实践、图书情报知识
6、期刊论文检索系统一般都会提供简单检索、初级检索、高级检索和专门检索。
7、《IndextoScientificandTechnicalProceedings》,简称ISTP,其中文名称为—科技会议录索引,由美国科技信息研究所编辑出版。
1979年创刊,它是一种检索多学科会议论文的索引,每年报道约3000多种会议录,10万余篇会议论文。
8、我国专利法规定专利类型有三种,分别是发明专利、实用新型专利和外观设计专利
9、我国目前主要的学术信息开放获取网站有科技部的中国预印本服务系统和教育部的中国科技论文在线
10、检索我国专利全文的免费系统主要是中国专利信息检索系统
11、按检索内容分,可以把信息检索分为:
文献、数据和事实三种类型。
12、“LASER(1n)PRINTER”表示在检索结果中,LASER和PRINTER之间可以插入1个词或0个词,即为命中记录。
13、国内三大电子期刊全文数据库分别是:
中国期刊全文数据库、万方数字化期刊全文数据库、重庆维普--中文科技期刊数据库
14、在对检索课题进行分析时,一般要把泛指概念具体化。
比如,要检索“唐山综合防灾的研究”的资料,可以将“防灾”具体化为地震、旱灾、洪灾、火灾。
15、如果要查找除“指数法”以外的所有信息化测度方法,应构建的检索式为信息化测度方法-(指数法)
16、从检索工具类型看,ElsevierSciencedirect是全文型型数据库。
17、使用digital(w)library构造检索表达式比使用digital(n)library查找出的文献数量少
18、美国的科技报告又叫美国政府的研究报告是美国科技文献中一个重要的组成部分,其中,PB、AD、NASA和DOE报告闻名世界。
19、ISO的英文全称是InternationalOrganizationforStandardization
20、SA对应的中文名称是科学文摘
21、从性质上讲,文献检索是相关性检索,数值检索是确定性检索。
22、按检索的时间跨度区分,信息检索包括回溯检索和定题检索
23、按信息加工程度划分,信息资源划分为零次文献,一次文献和二次文献和三次文献。
24、衡量检索效率的主要指标包括查全率和查准率
25、常用的词位置算符有(W)、(nW)和(N)、(nN)。
26、美国的科技报告,也叫美国政府的研究报告,它是美国科技信息中的一个重要组成部分。
其中PB、AD、NASA、DOE长期以来系统地对外报道。
27、检索会议信息的检索工具主要分为科技会议录索引—ISTP,美国《会议论文索引》—CPI和《世界会议》—WM三种。
28、期刊论文全文数据库通常可以提供学科浏览和输入检索词两种方式来获取数据库全文。
29、位置算符(nW)和(nN)的含义分别是表示在两个检索词之间可以插入n个单元词但两个检索词的位置关系不能颠倒、表示在两个检索词之间可以插入n个单元词但两个检索词的位置关系能颠倒。
30、使用截词检索可以提高查全率,使用字段限制检索可以提高查准率。
31、专利的类型主要包括发明专利、实用新型专利和外观设计专利
32、查找我国专利全文的核心系统是中国专利信息检索系统,可以通过美国专利和商标局网站专利数据库搜索引擎查找到美国专利全文,可以查找中国社会科学引文情况的数据库系统是CSSCI
33、期刊论文检索系统通常提供的外部特征检索途径主要有题名途径、责任者途径、代码途径和引文途径
34、截词检索主要包括后截断、前截断和中截断
35、衡量检索效率的主要指标包括查全率和查准率。
36、文献检索工具主要有目录型检索工具、题录型检索工具、文摘型检索工具、索引型检索工具四种类型。
37、信息资源按所依附的载体可以分为体裁信息资源、文献信息资源实物信息资源和网络信息资源。
38、检索中国期刊论文全文的数据库主要有中国期刊全文数据库、重庆维普、人大复印报刊资料和万方数字资源系统。
39、按适用范围划分,我国标准有国家标准、企业标准、行业标准和国际标准。
40、按照产生时间划分,会议文献主要包括会前文献、会间文献和会后文献。
41、ELSEVIER数据库系统提供了按刊名字顺浏览模式和按学科分类浏览模式。
42、检索我国专利全文的免费系统主要是中国专利信息检索系统
43、美国的四大报告是指PB报告、DOE、AD和NASA报告。
44、按照功能划分,书目包括登记书目、通报书目、推荐书目、专题书目、和书目之书目
45、我国目前主要的学术信息开放获取网站有科技部的中国预印本服务系统和教育部的中国科技论文在线
46、邻接检索中常用的位置算符主要有nW和nN。
47、布尔检索中的逻辑或可以提高查全率_,逻辑与可以提高查准率。
48、查找一本书都有哪些图书馆收藏,可利用书目类型的检索系统,如CALIS。
49、书本式检索工具主要由说明部分、目次表、正文部分、索引部分和
附录部分组成。
50、在计算机信息检索系统中,常用的检索技术主要有布尔逻辑检索、截词检索、词频检索和位置检索和字段限制检索等。
51、要查明同济大学图书馆是否有“computercommunications”这本期刊,可以通过电子期刊导航系统和_书目信息查询系统等系统查找。
52、在许多数据库中,都有“二次检索”功能,“二次检索”指:
在当前检索结果内进行的检索。
53、根据文献Biomedicalapplicationsofnanoscaledevices,Anon.Source:
MaterialsTechnology,v19,n2,June,2004,p118-119.的著录特点,可以判断,该文献是科技期刊
54、检索式COMPUT*,其中*代表截词符,这种截词方式为后截断,这种检索方式称为截词检索。
55、在搜索引擎中使用短语检索方式检索COMPUTERNETWORK,检索式为:
“COMPUTERNETWORK”。
56、特种文献包括会议文献、专利文献、标准文献、科技报告等。
57、SCI是的中文名称是科学引文索引,文献主要来源于期刊论文,还有少量的专著、会议录、书评、科技报告和专利文献。
58、表示主题的检索词有标题词、单元词和叙词
59、CNKI的《中国期刊全文数据库》的全文格式有PDF和CAJ两种。
60、按检索机制可将搜索引擎分为全文搜索引擎目录索引类搜索引擎和元搜索引擎
名词解释
1、查全率(RecallFactor):
是对所需信息被检出程度的量度,用来表示信息系统能满足用户需求的完备程度
2、查准率(PertinenceFactor):
是衡量信息系统拒绝非相关信息的能力的量度
3、一次文献:
是指以作者本人的研究工作或研制成果为依据撰写的、以公开发行并进入社会使用的专著、学术论文、专利说明书、科技报告等
4、三次文献:
是根据一定的目的和需求,在大量利用一、二次文献信息的基础上对有关知识信息进行综合、分析、提炼、重组而生成的再生信息资源。
如评论、综述、百科全书、年鉴等。
5、特种文献:
通常是指那些在出版发行方面或获取途径方面比较特殊的文献
6、标准文献:
是指由技术标准、管理标准及标准化过程中产生的其他具有标准性质的类型文件组成的一种特定形式的技术文献体系
7、SDI(定题检索):
查找有关特定主题最新信息的检索,其特点是只检索最新的信息,时间跨度小。
8、CNKI(中国知识基础设施工程):
是以实现全社会知识资源传播共享与增值利用为目标的信息化建设项目,由清华大学、清华同方发起,始建于1999年6月
9、CALIS(中国高等教育文献保障系统):
是经国务院批准的我国高等教育“211工程”“九五”“十五”总体规划中三个公共服务体系之一。
宗旨是,在教育部的领导下,把国家的投资、现代图书馆理念、先进的技术手段、高校丰富的文献资源和人力资源整合起来,建设以中国高等教育数字图书馆为核心的教育文献联合保障体系,实现信息资源共建、共知、共享,以发挥最大的社会效益和经济效益,为中国的高等教育服务。
10、CPI(美国《会议论文索引》):
于1973年创刊(现在属于美国剑桥科学文摘社)的月刊型检索工具,主要报导会议论文。
这些论文可能已经收集在会议录中,也可能还只是一个预告,不过都有论文的标题,因此是一种题录式报导工具
11、SCI(美国《科学引文索引》):
1963年创刊,是世界上最具有权威的国际性针对基础研究和应用研究科研成果的评价工具
12、信息检索语言:
是在信息检索系统进行信息存储与检索时共同使用的用于描述信息特征和表达用户信息提问的一种专门语言
13、截词检索:
检索者将检索词在他认为较合适的地方加上截词符断开,利用词的一个局部进行检索
14、元搜索引擎:
一种调用其他独立搜索引擎的引擎,即对多个独立搜索引擎的整合、调用、控制和优化利用,其技术成为元搜索技术,是元搜索引擎的核心
15、搜索引擎:
狭义,指对万维网站点资源和其他网络资源进行标引和检索的一类检索系统机制;广义,是互联网上的一类网站,是在Web主动搜索信息并将其自动标引的Web网站及标引的内容存储在可检索的大型数据库中,建立相应的索引和目录服务,从而对用户提出的各种问题作出响应,提供用户所需的信息或相关的指针
16、字段:
一个成员,它表示与对象或类关联的变量
简答题
1、举例说明截词检索
(1)前截断:
又称为后方一致,它允许检索词前端有一定形式的变化,如“*信息”表示可以检索出“经济信息”、“生物信息”、“医学信息”等形式的记录。
(2)后截断:
又称为前方一致:
它允许检索词的尾部有若干形式的变化,如“comput*”表示可以检索到包括“computer”、“computers”、“(computerize)”等形式的记录(3)中截断:
它允许检索词中间有若干形式的变化,如“wom*n”表示将检索出包含有“woman”、“women”的记录。
2、利用自然语言进行信息检索的利弊利:
词汇更新及时,选词灵活方便,专指性强,标引和检索速度快,用户友好性强等;弊:
存在大量的同义词、近义词、多义词等现象,如果不加以规范化处理,会影响查全率和查准率
3、顺排文档和倒排文档的异同,举例说明顺排文档以完整的记录为处理和检索单元,是主文档;倒排文档以记录中的字段为处理和检索单元,是索引文档。
例如,若要检索“反坦克导弹发展趋势”方面的文献,输入检索式:
反坦克导弹and发展趋势。
图为计算机执行该检索式时顺排文档和倒排文档在检索过程中配合使用的示意图
4、解释下列字段的含义TI标题;AU作者;AB文摘;PY出版年代;LA语种;DE主题词;KW关键词;SO文献出处
5、在一次信息检索过程中,检索结果过多或过少的原因的原因
过多多数是由误检造成的,原因主要有以下几点:
1)没有对检索词进行限制。
包括字段限制,时间限制,分类限制等。
2)主题概念不够具体或具有多义性导致误检。
例如,仅使用mathematics进行检索结果很多,就需要整检索策略,将概念具体化。
如:
mathematicsandeconomic再如,检索世界贸易组织仅输入“WTO”,系统可能会检索出“WorldTourismOrganization”(世界旅游组织)3)对所选的检索词截词截得过短。
例如,使用math?
将有太多的检索结果过少多数是由漏检造成的,原因可能有以下几点:
1)选用了不规范的主题词或某些产品的俗称、商品名作为检索词。
例如,没有使用学名“马铃薯”而使用了俗名“土豆”又如,没有使用“表面活性济”而使用了商品名称“迪恩普”,都会造成漏检。
2)同义词没有充分考虑。
例如,“检索物理化学”,没有考虑到“物理有机化学”,“物化”等同义词,导致漏检。
3)上位概念或下位概念没有完整运用。
例如,“燃料”是上位概念,下位概念可以有“固体燃料”、“液体燃料”、“气体燃料”,甚至还有“煤”、“油”、“煤气”、“天然气”等,这些概念在检索“燃料”时都应该加以考虑4)检索限制过多
6、简答SCI的主要功能
可以查找某一著作的文献被他人引用的情况;某一著者最新发表文献;某一机构发表文献情况;某一主题的最新文献
7、简述搜索引擎结果常用的排序方式
(1)按网页级别(PageRank)排序,通过网页被链接的数量和质量来确定搜索结果的排序权重
(2)按HillTop算法排序,主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。
(3)锚文本,通过网页链接直接给出搜索结果(4)根据网页提供的页面版式排序(5)收费排名
8、列举电子期刊的特点基于互联网产生、出版、发行和使用;出版周期短,时效性强;提供多个检索入口;具备多种技术功能,尤其是超文本链接功能的使用;访问方便、灵活,即可以作到随时随地访问;提供多种文件格式,目前主要有HTML格式的文本文件、PDF文件和CAJ格式
9、简述GOOLE的特殊功能图像搜索、信息挖掘、手气不错、网页快照、类似网页、按链接搜索、指定网域、地图搜索、天气查询、手机号码定位查询
10、计算机检索的一般步骤分析检索课题;选择检索系统及数据库;确定检索词;构建检索提问式;实施检索并调整检索策略;输出检索结果
11、手工检索与计算机检索之不同手工检索记忆手工操作的方式,利用书目,文摘,索引,百科全书,字典,词典等检索工具进行信息检索。
其检索结果可能是文献线索,也可能是文献原文。
优点是直观灵活,方便调整检索策略,有利于查准信息;缺点是查找速度慢,对检索人员要求高
机检是利用计算机系统对已经数字化的信息,按照设计好的程序进行信息的查找和输出。
这种检索方式是在人机协同作用下完成的,效率高,检索领域广
12、搜索引擎的指标有哪些基本指标:
查全率(Recall)、查准率(Pricision)、误检率(也叫检索噪音)(NoiseRatio)和漏检率(OmissionRatio);其他指标:
网页覆盖率;检索结果的满意度,包括检索结果相关命中数,准确率,重复连接数,死链等;响应时间;系统稳定性;网页更新速度;相关性排序;输出数量选择;
13、信息检索的途径分哪两类,各自的优缺点是什么
(1)分类途径优点:
适用于族性检索,查全率高;快,可以排除标题包含检索关键词但是主题并非所要检索内容的文章;以学科分类为基础,方便应用。
缺点:
有些文献是跨学科领域的,可能检索到不是完全符合要求范围的文章,需要进一步排除;有些文章没有按照某一个类别归类,因此可能会漏掉。
(2)主题词途径优点:
适用于特性检索,查准率高。
缺点:
检索前需要分析主题词,容易出错,不易掌握;检索结果少,容易漏掉主题不明显的相关文献。
14、图书馆中电子图书的必要性
(1)现代文献信息剧烈增长,传统图书馆空间有限,电子图书容量巨大,能节省藏书空间
(2)在现代计算机技术下,电子图书更容易保管,检索和使用(3)电子图书图,文,声,像并茂。
(4)电子图书可以低成本无限制复制,便于传播,适合资源共享。
15、提高信息检索效果的措施
(1)提高检索工具的质量。
(2)提高用户利用检索工具的能力(3)制订优化的检索策略(4)制定检索策略可供参考的意见(5)要广开思路
16、信息知识文献的关系三者之间存在着一种必然的内在联系,是同一系统的不同层次,信息是起源,是基础,包含知识和文献,是二者的纽带;知识是某些信息经过整理后符号化产物,可记录在文献上,文献则是信息,知识的存储载体和重要的传播工具,是信息知识存储的重要方式;简单概括,信息是一种广义的认识;知识是系统化的信息;文献是固化在载体上的知识和信息
17、我国有那些主要的书目检索系统CALIS中国高等教育文献保障体系、《全国总书目》、全国新书目、《科技新书目》、国家图书馆的opac
18、影响网络信息检索效果的因素
(1)信息资源质量对信息检索效果的影响
(2)检索工具或检索系统对信息检索效果的影响(3)用户水平对信息检索效果的影响
19、简答元搜索引擎的原理简介这类搜索引擎没有自己的数据,而是调用其他独立搜索引擎,将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。
服务方式为面向网页的全文检索。
技术原理元搜索引擎通常由三部分组成,即检索请求提交机制,检索接口代理机制和检索结果显示机制。
检索技术提交机制负责实现用户个性化的检索设置要求,包括调用哪些搜索引擎,检索时间限制,结果数量限制等。
检索接口代理机制负责将用户的检索请求“翻译成满足不同搜索引擎本地化要求的格式”。
检索结果显示机制负责所有目标搜索引擎结果的去重,合并,输出处理等。
20、通过馆藏目录可以获取哪些信息
(1)题名关键词:
图书/报刊/会议录/多媒体出版物的题名或题名中包含的词;
(2)著者关键词:
个人作者或团体作者名“Hemingway”或“国际货币基金组织”(3)通用关键词:
与检索内容相关的词(可任意选词),可出现在书目记录的责任者、题名、主题和丛书名中;主题词关键词:
与检索内容相关的主题词。
此为标准限定主题词,选词请参考《中图分类法》。
如您发现选择这个途径查找获得的结果很少,请再选择“通用关键词”为检索途径(4)丛书名关键词:
丛书名或丛书名中包含的词。
请注意通过这个途径检索的内容与“题名关键词”不重复,请首先确定您要查找的书名是“丛书名”还是单行本的题名。
另外,检索期刊请选择“题名关键词”或“题名浏览”途径,而不是“丛书名”途径。
如果知道丛书卷期号,可在丛书名后直接输入卷期号(如SPIE1178)查找本馆收藏(5)ISBN/ISSN/ISRC:
如果你知道书/刊/音像资料的国际标准号,这是最快捷精确的检索途径。
21、简答搜索引擎的发展趋势
(1)社区化:
社区搜索整合的目标是为用户提供一站式服务,比如在Facebook、QQ里搜索与某个用户相关的内容,依托社区网友的内容,可以实现更准确的搜索
(2)个性化:
Google的个性化搜索产品iGoogle之所以失败是因为必须要用户先注册帐户,而大多数用户并不愿意。
而腾讯有相当大的先天优势,因为腾讯的用户基本都有QQ号,因此为个性化搜索服务提供了非常好的基础(3)智能化:
智能搜索要求更懂用户的需求,比如在QQ聊天时进行情景搜索引擎可以实现更准确的判断。
22、网络信息检索工具可分为那些类型,各自优缺点
(1)全文(关键词型)搜索引擎优点:
所收录的信息量巨大,索引数据库规模大,耗费人力资源较少,信息更新速度快,搜索功能强大,适合特性检索。
缺点:
返回信息量过大,查准率较低,提供的检索结果重复链接较多,层次机构不清晰,给人一种繁多杂乱的感觉,用户需要进行筛选,费时费力。
(2)目录索引类(网站级)搜索引擎优点:
层次机构清晰,易于查找;多级类目,便于查找到具体明确的主题;内容摘要,分类目录下有简明扼要的内容,一目了然;网络信息资源经过人工筛选,查准率较高,只要按搜索引擎的分类体系层层深入即可,方便使用。
缺点:
检索范围较少,查全率较低;没有统一的,科学的分类体系为依据,类目之间交叉,内容重复;需要投入较多的人力,不易跟上网络资源的增长,更新速度慢。
(3)元搜索引擎优点:
返回结果的信息量更大、更全缺点:
不能够充分使用所使用搜索引擎的功能;用户需要做更多的筛选。
论述题
1、分析书目、文摘、全文检索系统在作用方面的异同
(1)不同点:
书目:
①指示读书的门径:
数目根据文献学术性质不同,将群书分类,有的还概述每一类书的渊源流派,评论其学术价值,又对每一类书的内容大要写出叙录、题解等。
②从事科学研究工作的指南:
书目能反映一定历史时期科学文化发展的概貌,是人们对浩如烟海的文献加以控制的有效手段,也是查阅和利用文献必不可少的工具。
③考辨古籍的依据。
④查找图书资料的线索。
文摘:
①节约阅读时间,扩大阅读范围。
②帮助查找原始文献,促进研究工作。
③克服语言障碍,促进国际学术交流。
④提高文献标引效率,改善检索工具质量。
⑤减轻并加速情报刊物的编辑与出版工作。
(P58)
全文检索系统:
全文检索是将信息以计算机可读的字符代码形式或扫描图像的形式存储到全文数据库中,以便用户以任意字、词、句、段为检索点查找全文信息的检索方式。
(P21) 功能上全文检索系统需要具有建立索引,处理查询返回结果集,增加索引,优化索引结构等功能。
结构上具有索引引擎,查询引擎,文本分析引擎和对外接口等。
(XX)
(2)相同点:
都是为了满足用户需求,从已有的检索工具或数据库总查找所需信息的过程。
都可以帮助用户查找文献资源,为科学研究工作提供指导和咨询,使用户少走弯路,节省时间。
大大提高用于思考的创造性劳动时间的比例,节省科研和非创造性劳动时间,获取更多知识信息,创造更多的成果。
用科学的方法系统地开发和利用丰富的信息资源,使我们的研究有一个较高的起点,对发展科学技术具有重要的作用。
掌握了多种信息检索的方法和技能,就可以使人们的大脑从繁重的记忆活动中解放出来,在知识的海洋中有目的地、迅速地获取信息,吸收信息,进行知识创新和成果创造性的工作。
(XX+自己总结)
2、用检索经历说明检索效果与哪些因素有关,如何提高检索效果
影响因素信息资源质量对信息检索效果的影响;检索工具或检索系统对信息检索效果的影响;用户水平对信息检索效果的影响
如何提高加强信息资源质量;选择质量较高的检索系统;提高检索者的检索水平
3、简述搜索引擎的现状及趋势
随着网络日益融入人们的日常生活和工作,作为一个信息平台,网络内容不断丰富,整个网络逐渐堆积成为一个前所未有的超大型信息库。
因此怎么样快速有效的从海量数据库中找到所需的信息就变成一个困难的问题,搜索引擎正是为解决“信息丰富,知识贫乏”奇怪现象问题而出现的技术。
搜索引擎是一个信息处理系统,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织、和处理,并为用户提供检索服务,从而起到信息导航的目的,一般包括信息搜集、信息整理、和用户查询三部分。
从用户角度看来,它是一个帮助人们进行信息检索的工具。
目前,搜索引擎已经成为信息领域的产业之一。
他要用到信心检索、人工智能、数据库、数据挖掘、自然语言理解等领域的理论和技术,具有综合性和挑战性。
搜索引擎有大量的用户,因此衍射出许多商机,具有很好的经济价值。
搜索引擎将向智能化、个性化、精确化、专业化、交叉语言检索、多媒体检索等适应不同用户需求的方向发展,更好的理解用户需求。
(1)智能化搜索引擎的职能化体现在两方面:
一是对搜索请求的理解;二是对网页内容的分析。
利用智能技术对用户的查询计划意图、兴趣方向进行推理、自动进行信息搜集过滤,自动将用户感兴趣的、有用的信息提交给用户。
这其中也包含了对服务多项化、个性化,结果精确化,交叉语言检索等方面功