检索重点超全版.docx
《检索重点超全版.docx》由会员分享,可在线阅读,更多相关《检索重点超全版.docx(30页珍藏版)》请在冰豆网上搜索。
检索重点超全版
信息检索的概念:
广义的信息检索是指将信息按一定的方式组织和存储起来,并根据用户的需要找到有关信息的过程和技术;狭义的信息检索是指从信息集合中找到所需信息的过程。
信息(information)信息是事物存在方式、运动状态及其特征的反映,是事物发出的信号、消息。
信息具有共享性、存储性和传递性、价值性、时效性。
情报是指运用一定的形式,传递给用户,并产生效益的知识或信息。
三个属性:
知识性、传递性、效用性。
知识是优化、理论化的信息集合。
文献(document)是指记录有知识的一切载体。
也就是说用文字、图形、符号、声频、视频等手段记录下来的人类知识都可以称之为文献。
四个要素:
知识载体文字、图形、符号、视频、声频记录
简述信息、知识、文献的概念及其三者之间的关系。
信息:
是事物存在方式、运动状态及其特征的反映,是事物发出的信号、消息。
知识:
是人类对自然界、人类社会中各种现象、规律的信息反映进行思维分析,加工提炼,经过系统化、理论化的结果。
文献:
记录有知识的一切载体
三者从概念范畴上看,信息大于知识大于文献,知识是信息的一部分,是理论化系统化的信息,文献是知识中记载下来的那部分。
信息素质(informationliteracy)是指判断何时、何地需要信息,并有效的定位、获取、评价和利用信息的一系列能力的总和。
包括:
计算机素养、因特网素养、媒体素养、图书馆素养、批判性思考的能力。
信息素质主要体现在:
——信息意识:
是个体对信息重要性认识程度和对信息是否具有特殊的、敏锐的感受力和持久的注意力,即对信息的捕捉、分析、判断和吸收的敏感性。
——信息能力:
是对信息的搜集获取能力、分析鉴别能力和综合利用能力。
——信息道德:
是指在整个信息活动中,信息创建者、信息服务提供者和信息使用者所必须要遵守的伦理规范。
零次文献是指未公开出版的实验记录、原始录音(像)、书信、手稿、口头交流的信息或实物等。
一次文献是指作者直接以自己的工作、科研、社会活动等实践经验为依据而撰写,并公开发行进入社会流通的专著、学术论文、专利说明书、科技报告等。
二次文献是根据一次文献外表或内容特征按照一定的规则和方法进行整理、加工、浓缩,按一定顺序编排形成的有序化文献。
如各种目录、索引、文摘和各种书目型数据库。
三次文献是为了一定的目的和需求,对大量一次文献信息中的有关内容进行综合、分析、提炼、重新组合而形成的再生性文献。
如专题评述、综述、百科全书、参考工具书等。
按文献载体划分
手写型文献(HandWritingDocument)印刷型文献(PrintedDocument)缩微型文献(MicroFormDocument)视听型文献(Audio-visualDocument)电子型文献(ElectronicDocument)
按文献出版形式划分
图书(Book)期刊(Journal)特种文献(SpecialDocument)①科技报告(国内知网国外NSTL)②专利文献③会议文献④学位论文⑤政府出版物⑥标准文献⑦技术档案⑧产品资料等
信息检索的概念广义的信息检索是指将信息按一定的方式组织和存储起来,并根据用户的需要找到有关信息的过程和技术。
狭义的信息检索是指从信息集合中找到所需信息的过程。
信息检索的原理是:
将描述特定用户所需信息的提问特征,与信息存储的检索标识进行异同的比较,从中找出与提问特征一致或基本一致的信息。
本质是用户的信息需求与存储在信息集合中的信息进行比较和选择,即匹配的过程。
检索语言分为分类语言和主题语言
常用的检索途径包括:
(主要依据文献的外部特征和内容特征来进行编排)
自由词检索、主题词检索、分类检索、著者检索、机构检索、引文检索、限定检索等
检索步骤
(1)分析检索课题,明确目的和要求
(2)选择合适的检索工具
(3)选择检索途径,确定检索标识。
(4)对检索结果分析评价必要时调整检索策略
(5)查找文献线索。
(6)浏览检索结果,获取原始文献。
检索结果主要通过查全率、查准率两个指标来进行评价。
查全率:
系统进行检索时,检出的相关文献量与系统文献库中相关文献总量的比率。
查准率:
系统中检出的相关文献量与检出的文献总量的比率。
影响查全率的因素
影响查全率的因素从文献存储上来看,主要有:
文献库收录文献不全;索引词汇缺乏控制和专指性;词表结构不完整;词间关系模糊或不正确;标引不详;标引前后不一致;标引人员遗漏了原文的重要概念和用词不当等。
此外,从情报检索来看,主要有:
检索策略过于简单;选词和进行逻辑组配不当;检索途径和方法太少;检索人员业务不熟悉和缺乏耐心;检索系统不具备截词功能和反馈功能,检索时不能全面地描述检索要求等。
影响查准率的因素
影响查准率的因素主要有:
索引词不能准确描述文献主题和检索要求;组配规则不严密;选词及词间关系不正确;标引过于详尽;组配错误;检索时所使用检索词专指度不够,检索面宽于检索要求;检索系统不具备逻辑“非”功能和反馈功能;检索式中允许容纳的词数量有限;截词部位不当,检索式中使用逻辑“或”不当等。
计算机检索的历史与发展:
脱机检索阶段联机检索阶段网络信息检索阶段
计算机检索系统的构成:
计算机硬件软件数据库
数据库类型(按内容分型)
(一)书目数据库(BibliographicDatabases)
(二)事实数据库(NumericDatabases)
(三)数值数据库(FactDatabases)
(四)全文数据库(FullTextDatabases)
(五)图像数据库(ImageDatabases)
搜索引擎Internet上具有查询功能的网页的统称,即允许用户递交查询,检索出与查询相关的网页结果列表,并且排序输出。
独立式搜索引擎的工作原理是:
定期运行搜索软件(或人工),搜集网络信息。
利用索引软件进行自动标引,建立数据库。
以Web页面形式向用户提供有关的信息资源导航、目录索引及检索界面,由用户输入检索式。
通过检索软件进行检索,匹配,按相关度排序输出。
按搜索的方式可分为:
目录式搜索引擎全文搜索引擎智能搜索引擎元搜索引擎
★GOOLE搜索引擎的具体使用策略………………
作为目前互联网上功能最强大的搜索引擎,Google的索引目录中已经储存有81亿个网页。
用户可以使用100多种语言文字进行搜索。
现在,Google平均每天接受的搜索次数达2亿人次,几乎占全球所有搜索量的1/3,而且这一数字还在不断上升。
Google的特色
1)将中、英文搜索整合于同一界面,是收集亚洲网站最多的搜索引擎之一。
2)可检索可移植文档(PDF)和PowerPoint格式(PPT)等10多种文件类型。
3)独特的“网页快照”将用户浏览过的网页贮存在服务器上,并用不同颜色突出显示检索词。
4)检索响应速度极快,搜索时间通常不超过0.5秒
5)特有的网页级别技术(PageRank™)。
6)收集了10亿多幅图像,使其成为目前因特网上的最好用的图象搜索工具
7)Preference(使用偏好)可将InterfaceLanguage(界面语言)设置为中文简体,跨越了语种障碍。
8)自动进行汉字简繁体转换,可将结果中繁体字网页翻译为简体字显示
检索途径
网页检索直接输入检索词或检索式
检索规则:
1)默认检索:
输入多个检索词以空格分隔,默认为AND匹配。
最多可输入10个检索词。
2)逻辑“或”检索:
用大写的OR连接多个检索词。
3)逻辑“非”检索:
检索词前加上减号(减号前必须留一空格),搜索不包含该检索词的网页。
如:
leukemia–child
4)短语检索:
用半角的双引号括起词组或短语,进行精确短语匹配。
5)文件类型限定:
输入filetype:
加文件名缩写。
如:
filetype:
ppt
6)检索词位置限定:
检索词前用位置代码加冒号(冒号后不能空格),可限定检索词出现在网页的标题、正文等指定位置。
7)网站或域名限定:
site:
网址或域名。
8)链接限定:
link:
网址(或超级链接名称,效果差许多).
9)禁用词:
如“的”、“of”等这类词。
自动忽略,强制检索时可用+(前面必须空一格)或“”。
用简单检索途径查找“Ⅱ型糖尿病国外病人眼部并发症研究”的相关网页。
"diabetes2"OR"type2diabetes"eyecomplications-china-chinese
1)网页高级检索:
包括“搜索结果”、“查询设置”和“搜索特定网页”3个区域。
搜索结果区内的4种匹配方式依此表示and、精确检索、or、not。
习题:
检索AmericanSocietyforInformationScienceandTechnology发布的会议公告。
2)图片高级检索
3)高级论坛检索
Google特色搜索引擎
⏹GoogleScholar(学术搜索)
⏹GoogleBookSearch(图书搜索,以前称GooglePrint)
⏹GoogleNews(新闻或资讯搜索)
⏹GoogleAnswers(专家解答)
截词检索:
用截词符号“?
”、“*”加在检索词的前后或中间,以检索一组概念相关或同一词根的词。
其中“?
”代表有限截断,即一个“?
”代表一个字符。
“*”代表无限截断,一个“*”可代表多个字符。
后截断,将截词符号放在一个字符串的右方。
例如:
librar*library,libraries,librarian,…涉及到词的单复数、作者、年代、同根词等方面的检索时,选用后截断技术。
前截断,将截词符号放在一个字符串的左方。
例如:
*sighted,可查到farsighted与nearsighted。
前截断只检索后缀相同的一类词,常用于检索化学化工文献与复合词较多的文献。
位置算符near、with
⏹位置算符:
表示所连接的各个检索词之间位置关系的符号,在不同的系统中往往以不同的符号表示。
常用的位置算符有near、with等。
⏹near算符
表示此算符两侧的检索词出现在同一句子中。
⏹Anear(n)B表示命中记录中左右两个检索词出现在同一句子中。
⏹with算符
表示此算符两侧的检索词在命中记录中必须出现在同一字段中。
⏹Awith(n)B表示同时出现于篇名或文摘中,但前后位置可以颠倒。
以上运算符的优先次序是
NOT>NEAR>WITH>AND>OR
如果有(),则先运行()
字段限制符“in”、“=”
检索系统中,缩小或约束检索结果的方法成为限制检索。
常用的有特定字段的限制检索,限制符为“in”和“=”。
例如:
“in”对某一指定数据项进行检索
如:
招聘inTI
“=”用于限定性字段的检索(精确限定)
如:
LA=ENGLISH
限制符还有其他形式:
py<2000表示检索2000年前发表的文献记录
提高查全率的方法:
(1)降低检索词的专指度,选出一些上位词和相关词补充到检索式中。
(2)调节检索式的网罗度,减少逻辑“与”的组配面。
(3)进行族性检索,可采用分类检索,或用一组同义词、近义词和相关词,用“或”连接在检索式中。
(4)采用截词技术,取消某些限制过严的限制符。
提高查准率的方法:
(1)提高检索词的专指度,换用专指度较强的规范词或自由词。
(2)增加“与”连接,进一步限定主题概念。
(3)限定检索词所在的可检字段,用位置算符控制检索词的词间顺序与位置。
(4)限制输出文献的外部特征,如限制年限、语种、文献类型等。
(5)用逻辑“非”限制与提问不相关的文献的输出。
(6)用主题词检索,不用或少用自由词检索
CBM基本概况
⏹收录年代:
1978年以来文献
⏹数据类型:
1000多种中国生物医学期刊、汇编、会议论文的题录、文摘
⏹收录范围:
基础医学、临床医学、预防医学、药学、中医学及中药学等
⏹数据标引:
全部数据均根据美国国立医学图书馆的《医学主题词表》(即MeSH词表),以及中国中医研究院图书情报研究所新版《中医药学主题词表》进行了主题标引,并根据《中国图书资料分类法》进行了分类标引。
MEDLINE是美国国立医学图书馆(TheNationalLibraryofMedicine,简称NLM)生产的国际性综合生物医学信息书目数据库,是当前国际上最权威的生物医学文献数据库。
内容包括美国《医学索引》(IndexMedicus,IM)的全部内容和《牙科文献索引》(IndextoDentalLiterature)、《国际护理索引》(InternationalNursingIndex)的部分内容,涉及基础医学、临床医学、环境医学、营养卫生、职业病学、卫生管理、医疗保健、微生物、药学、社会医学等等领域。
MEDLINE收录1966年以来世界80多个国家和地区出版的5000余种生物医学期刊的文献,近960万条记录。
目前每年递增30-35万条记录,以题录和文摘形式进行报道,其中85-90%是英文文献,75%-85%文献有英文文摘。
在计算机检索中,缩小检索范围的方法包括:
(1)增加用and连接的检索词,或用“二次检索”
(2)用特定的副主题词进行限定
(3)用字段限定检索,如标题词检索、主题词检索、加权检索等
(4)进行文献类型、语种、重要期刊、临床核心期刊、年份等的限定检索
(5)进入更专指的分类范围内输词检索
获取全文的方法包括:
(1)检索网上全文数据库
(2)利用网上出版社、杂志
(3)利用图书馆馆藏目录(馆藏联合目录)(4)利用“网上全文传递服务”(5)向著者索取
选择主题词的扩展功能可以同时检索主题词和它的所有下位词,这样就可检出用所选主题词和更专指主题词标引的所有文献,可以更好的提高检索的查全率。
不扩展的情况下只会检出用所选主题词标引的文献,不会检出它的下位词,即那些更专指主题词标引的文献。
查全率与查准率关系是呈互逆关系的。
要想做到查全,势必会要对检索范围和限制逐步放宽,则结果是会把很多不相关的文献也带进来,影响了查准率。
企图是查全率和查准率都同时提高,不是很容易的。
强调一方面,忽视另一方面,也是不妥当的。
应当根据具体课题的要求,合理调节查全率和查准率,保证检索效果。
依据我国专利法专利有哪几种类型各种类型的专利有效期为多长?
依据专利法保护对象分三种类型:
发明专利、实用新型专利、外观设计专利
发明专利,是专利法主要的保护对象。
发明专利权有效期各国不同,我国为自申请之日起20年。
实用新型专利,在我国实用新型专利权有效期为自申请之日起10年。
外观设计专利,在我国外观设计专利权有效期为自申请之日起10年。
信息检索系统的构成包括(信息检索系统的基本要素是什么?
):
(1)检索文档,即文献检索标识的有机集合。
(2)技术设备,即能存储信息及其标识,并实现存储和检索操作的各种技术设备。
(3)作用于系统的人如:
文献加工者、用户、系统维护人员、管理人员。
(4)检索工具如:
检索语言、文献标引规则、输入输出标准等。
何谓数据库的顺排文挡和倒排文挡?
顺序文档(Sequentialfile)是以文献记录作为信息存储单元,按文献记录入藏的存取号从小到大顺序排列而形成的目录式文档,由于它存储有关于每篇文献的最完整信息,所以通常又把它称为主文档(MasterFile),相当于印刷型检索工具的正文部分。
倒排文档(Invertedfile)就是把记录中一切可检字段或属性值抽出,按某种顺序重新加以组织后所得到的一种文档。
倒排档从主文档中派生出来,所以,又叫做辅助文档。
获取网络信息资源的主要工具包括:
(1)电子邮件
(2)FTP(3)Archie(4)Telnet(5)Gopher(6)Usenet(7)www浏览器(8)搜索引擎
核心期刊的主要特点是什么?
(1)刊载专业文献密度高,信息含量高;
(2)水平较高,代表本学科的最新发展水平;
(3)出版相对稳定,所载文献寿命较长;
(4)利用率和被引率较高。
搜索引擎是Internet上具有查询功能的网页的统称,即允许用户递交查询,检索出与查询相关的网页结果列表,并且排序输出。
根据检索内容分为:
综合性搜索引擎和专业性搜索引擎;
根据检索功能分类:
目录式搜索引擎、全文式搜索引擎、智能式搜索引擎;
根据检索范围分类:
独立搜索引擎和元搜索引擎。
简述会议论文的概念和特点,国内和国外会议论文的检索系统有哪些?
会议文献是指各种科学技术会议上所发表的论文、报告稿、讲演稿等与会议有关的文献。
会议文献的主要特点是:
传播信息及时、论题集中、内容新颖、专业性强、质量较高,数量较大,出版类型多种多样,往往代表某一学科或专业领域内最新学术研究成果,基本上反映该学科或专业的学术水平、研究动态和发展趋势。
会议文献是科技查新中重要的信息源之一。
国外会议论文检索工具包括:
ISI的Proceedings(ISTP+ISSHP);PapersFirst(OCLCfirstsearch的一个子库);IEEE/IEEElectronicLibrary;AIPCofferenceProceedings
国内可以进行会议论文检索的系统包括:
中国学术会议论文全文数据库(万方数据);中国重要会议论文全文数据库(CNKI)
Medline和Pubmed有什么区别?
Pubmed和MEDLINE的区别主要体现在:
(1)文献的收录范围:
Pubmed除了收录MEDLINE数据库之外,还收录了PREMEDLINE数据库,以及出版商直接提供给Pubmed的数据。
(2)数据库的更新时间:
MEDLINE联机数据库为周更新,MEDLINE光盘的报道时差为1-3个月,而Pubmed为每天更新
(3)检索机理:
MEDLINE的检索途径只有两个主题和作者,掌握Mesh表是检索的首要条件,而Pubmed具有词汇自动转换匹配功能和主题词自动扩展功能。
(4)连接功能:
Pubmed具有与原文链接、相关文献链接、相关图书链接、相关分子生物学数据库链接的功能
(5)免费全文:
Pubmed提供超过60中期刊的免费全文浏览和检索功能。
(6)费用:
MEDLINE光盘需每年租赁数据库,Pubmed免费。
专利文献的概念及特点是什么?
专利文献是实行专利制度的国家及国际组织在审批专利过程中产生的官方文件及其出版物的总称。
专利文献具有以下特点:
(1)专利文献集技术、法律和经济信息于一体,是一种数量巨大、内容广博的战略性信息资源;
(2)利文献传播最新技术信息;
(3)专利文献的格式统一规范,高度标准化,并且具有统一的分类体系,便于检索、阅读;
(4)专利文献对发明创造的揭示完整详尽,技术内容相对可靠。
查找“乙型肝炎的流行病学”的文献可选用的中文检索系统包括:
CNKI、维普、万方、CBM等,
可选的外文检索系统包括:
MEDLINE、Pubmed、EDSCO、springerlink、OpenAccess等其中,在CNKI中的检索策略为:
检索项:
篇名;检索词:
乙型肝炎;逻辑:
或者
检索项:
篇名;检索词:
乙肝;逻辑:
并且
检索项:
主题;检索词:
流行病学
在CBM中的检索策略为:
肝炎,乙型/[扩展全部树]流行病学
通过哪些检索系统可以查明济宁医学院图书馆是否有“computercommunications”这本期刊?
可以选用的检索系统包括:
图书馆联机检索系统、超星数字图书、书生数字图书馆
请列出5个Google高级检索语法,并举例说明其用法。
(1)“link”运算符:
查找与某一特定网页建立链接的所有网页,亦可在高级检索模式下实现
(2)“related”运算符:
自动查找与某一网页处于同一级别的相似网页,亦可通过高级检索模式及检索结果界面的“类似网页”实现
(3)“info”运算符:
可获取Google库存的有关某一网页的全部信息
(4)“site”运算符:
将检索结果限制在某一网域中,也可以通过高级检索界面的“网域”选项来
(5)“Allintitle”运算符:
要求提问词全部在网页标题中出现
(6)“allinurl”运算符:
要求提问词全部在URL中出现
(7)“inurl”运算符:
要求提问词部分在URL中出
(8)“filetype:
”运算符是Google开发的非常强大实用的一个搜索语法。
后面接文档类型,可限制获取某一文档类型的网页,后可接文献类型举例。
在CBMWin4.0版中的查找某作者发表的文献有几种方式?
分别是什么?
“基本检索”中的著者检索有三种方式:
一是在“检索入口”下拉彩旦中选择“作者”字段,然后在检索提问框内输入著者姓名;
二是直接在检索提问框内输入著者姓名,后加“inau”;
三是直接在检索提问框内输入“au=”,后跟著者姓名,
“作者检索”方式:
直接在检索提问框内输入著者姓名。
循证医学证据的主要类型有哪些?
依据按质量和可靠程度大体可分为以下五级(可靠性依此降低):
一级:
按照特定病种的特定疗法收集所有质量可靠的随机对照试验后所作的系统评价或Meta分析;
二级:
单个的样本量足够的随机对照试验结果;
三级:
设有对照组但未用随机方法分组的研究;
四级:
无对照的系列病例观察;
五级:
专家意见或基于生理、病理生理和基础研究的证据。
可以检索引文的数据库有:
(任写以下6种均可)
SCI;SSCI;H&ACI;《中国科技论文与引文数据库》(CSTPC);《中国科学引文数据库》;《中文社会科学引文索引》;《中文科技期刊引文数据库》;中国知识基础设施工程中的中国引文数据库;《中国生物医学文献数据库》
名词解释
索引
将文献中具有检索意义的事项(可以是人名、地名、词语、概念、或其他事项)按照一定方式有序编排起来,以供检索的工具书。
倒排文档
倒排文档就是把记录中一切可检字段或属性值抽出,按某种顺序重新加以组织后所得到的一种文档.倒排档从主文档中派生出来,所以,又叫做辅助文档.
追溯法
查找文献的方法之一。
以某一文献后所附的参考文献为线索,逐一追查原文;再根据这些原文后的参考文献逐渐扩大线索,不断追查下去,获得相关文献的方法。
用追溯法查找文献可以以各种引文索引为工具,也可利用述评、总结性文章后面的参考文献。
一般在没有适用的检索工具或检索工具不完备的情况下,利用追溯法可获得一批相关文献。
主题词
是以自然语言为基础,以概念组配为基本原理,并经过规范化处理,表达主题的最小概念单元,作为信息存储和检索依据的一种检索语言。
关键词
关键词是出现在文献题名、文摘、正文中,能够表达文献主题,具有检索意义的语词。
叙词
所谓叙词,是指从自然语言中优选出来并经过规范化处理的术语,又称主题词。
元搜索引擎
通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。
数字图书馆
数字图书馆(DigitalLibrary)是用数字技术处理和存储各种图文并茂文献的图书馆,实质上是一种多媒体制作的分布式信息系统。
它把各种不同载体、不同地理位置的信息资源用数字技术存贮,以便于跨越区域、面向对象的网络查询和传播。
它涉及信息资源加工、存储、检索、传输和利用的全过程。
脱机检索
脱机检索是指检索者直接在计算机旁进行文献检索的一种方式,在此方式中,用户勿需利用终端和电讯网络直接与计算机联系,只需要把检索要求送往检索中心,由专职操作计算机的