信息检索期末复习题.docx

资源描述

信息检索期末复习题.docx

《信息检索期末复习题.docx》由会员分享，可在线阅读，更多相关《信息检索期末复习题.docx（15页珍藏版）》请在冰豆网上搜索。

信息检索期末复习题.docx

信息检索期末复习题

1、选择题

1.下列哪项不属于信息检索的关键技术？

（B）

A.信息抽取B.文本挖掘C.自动文摘D.链接分析

2.TREC测试集主要包括3个部分，下列选项中不是TREC测试集的一部分的是：

（C）

A.主题B.文档集合C.关键词D.相关性判断

3.对向量空间模型、布尔模型及概率模型的表述有误的一项是：

（D）

A.向量空间模型与布尔模型相比具有较大的优势

B.向量空间模型无法揭示索引项之间的关系，因而向量空间模型在理论上还是不够完善

C.布尔模型是最早提出的信息检索模型

D.概率模型也称二值独立检索模型。

它是在向量空间模型的基础上为解决检索中存在的一些不确定性而引入的。

4利用文献后面所附的参考文献进行检索的方法称为（A）

A.追溯法B.直接法C.抽查法D.综合法

5、逻辑“与”运算符是用来组配（D ）

A.不同检索概念，用于扩大检索范围 B.相近检索概念，扩大检索范围

C.不同检索概念，用于缩小检索范围 D.相近检索概念，缩小检索范围

6、在《中国学术期刊全文数据库》中，不可以进行（ D）检索

A.逻辑与 B.逻辑或 C.逻辑非 D.位置

7、若想在《中国学术期刊全文数据库》中提高检索结果的查准率，可使用（A ）

A.在结果中检索 B.优先算符 C.或者 D.位置检索

9、下列检索式中，哪一种属于逻辑“与”？

（B）

A．室内装饰+室外装饰B．音乐﹡教学

C．神雕侠侣–电视剧D．火星︱金星

10、下列不属于查询构造方法的是：

（A）

A分类查询B单一词查询C布尔查询D上下文查询

11、PageRank算法的理论基础是随机冲浪模型，该模型描述了网络用户对网页的访问行为。

下列不属于用户访问行为特点的是：

（A）

A用户选择的起始网页是固定的

B用户会从起始网页含有的超链接中随机选择一个页面继续浏览

C当用户沿着超链接前进了一定数量的网页后，可能会对本主题厌倦，这时用户会重新随机选择一个网页进行浏览

D用户会重复以上的过程若干次

12、信息过滤系统是应用信息过滤技术处理信息的应用系统，下列对其特点的说法错误的是：

（B）

A信息过滤系统是针对无结构的或半结构化的数据设计的信息系统，这与传统的数据库应用有着本质的区别

B信息过滤系统只处理文本信息

C信息过滤系统一般处理的数据为输入信息流

D信息过滤系统要包含一组对用户过滤需求的描述

13、《中国学术期刊全文数据库》提供的文献内容特征检索途径有（B）

A.机构 B.篇名/关键词/摘要 C.中文刊名 D.作者

14、维护倒排文件通常需要的操作有（D）文档或文档集合。

A．插入B.插入和删除C.删除D.插入、删除、更新

15、单一查询是指由一个（）构成的查询。

（B）

A单词B.单词或词语C.词语D.单词或句子

16、下面哪项不是863信息检索评测采用的评价指标（D）

MAPB:

R-PrecisionC:

P@10D:

MRP

16、下面那一项不是容易引起歧义的符号（D）

A：

句号B：

撇号C：

连字符D：

分号

17、下列哪一种符号可以用来构成合成词（C）

A句点B撇号C连字符D其它符号

18、下面哪一项不是信息检索按照理论基础的不同划分的模型（D）

布尔模型B：

向量空间模型C：

概率模型D：

统计语言模型

19、下面哪种算法属于著名的集合选择算法？

（B）（8章）

A.KMPB.CORIC.BMD.BF

20、下列说法正确的是（C）

A.形态还原就是词干还原，即去除屈折型语言的词尾形态变化，将其还原为词的原形

B.系统检索出来的相关文档位置越靠前（排序（rank）值越小），MRR就可能越高

C.概率模型可以采用相关反馈原理，可开发出理论上更为坚实的方法

D.向量空间模型是最早提出的信息检索模型

21、下面关于平均排序倒数（MRR）计算公式正确的是（A）

22、在信息检索模型中，（）是最早提出的信息检索模型（D）

A向量空间模型B概率模型C扩展模糊集合模型D布尔模型

47、知网是一个以英语和汉语的词语所代表的概念为抽象对象，以（A）为基本单位，掲示概念之间以及概念属性之间的关系为基本内容的常识知识库

Ａ　字节　　Ｂ　字段　　Ｃ　词　　Ｄ　比特

23、关于向量空间模型的优点中，说法错误的是：

（D）

A检索结果的相关性排序B可以控制输出结果的数量

C能够进行相关性反馈D揭示了索引项之间的关系

24、下列选项中不属于信息检索模型的是（D）

A：

布尔模型B：

向量空间模型

C：

概率模型D：

实数型

25、准确率与召回率的表达式分别为（A）

A.相关文档数与检出文档数的比值，系统检出的相关文档数与实际相关文档数的比值

B.系统检出的相关文档数与实际相关文档数的比值，相关文档数与检出文档数的比值

C.检出文档数与相关文档数的比值,相关文档数与检出文档数的比值

D.相关文档数与检出文档数的比值,检出文档数与相关文档数的比值

26、下列不属于查询构造方法的是（C）

A.单一词查询B上下文查询C相邻词查询D布尔查询

27、查询处理技术中有单一查询、下文查询，D三种查询扩展方法

（A、短语查询B、相邻词查询C、反馈查询D、布尔查询）

28、TREC测试集主要包括文档集合②主题③相关性判断④企业检索任务（）

A①②B①③C①②③D①②③④

29、按照顺序表述文献检索常用的五个步骤是（D）

A.明确要求和分析课题，选择检索系统，获取原文，确定检索途径和检索策略，实施检索以及调整检索策略

B.明确要求和分析课题，获取原文，确定检索途径和检索策略，实施检索以及调整检索策略选择检索系统

C.明确要求和分析课题，实施检索以及调整检索策略选择检索系统，获取原文，确定检索途径和检索策略

D.明确要求和分析课题，选择检索系统，确定检索途径和检索策略，实施检索以及调整检索策略，获取原文

30、万方数据库使用布尔逻辑算符and/or/not.其中AandB表示（A）

A：

查找包括A和B的文献，B；查找A与B其中之一的文献，C：

查找有A无B的文献。

31、具有概念交叉限定关系的两个检索词之间应该使用（C）

A.逻辑或B.逻辑非C.逻辑与D.优先

32、具有相近含义的同义词或同族词在构成检索策略时应该使用（A）运算符予以组配。

A.逻辑与B.逻辑或C.逻辑非D.位置

33.关于万方数据资源的说法中，正确的是【A】

A：

以科技信息为主，涵盖经济，金融，人文信息

B：

以经济信息为主，涵盖科技，金融，人文信息

C：

以金融信息为主，涵盖人文，经济，科技信息

D：

以人文信息为主，涵盖金融，经济，科技信息

34、在Lucene中建立索引的主要步骤不包括（）

A文档解析B内容分析

C得出结论D生成索引

35、下列哪项属于典型的基于划分的聚类方法（）

Ak–means算法B朴素贝叶斯算法

C决策树算法D统计学方法

36、下列哪项不属于信息过滤中应用的统计模型

A向量空间模型B布尔模型

C语言模型D相关性模型

37、下列属于信息检索中的关键技术的是（）

A信息融合B信息抽取

C处理多源信息D话题检测与跟踪

38、下列属于信息检索中的基础研究课题是（）

、A文本挖掘B对抗式信息检索

B数字图书馆D基因信息检索

39属于向量空间模型的缺点的是（）

A检测结果的相关性排序B可控制输出的结果和数量

C能够进行相关性反馈D认为索引项相互独立，未能结实词语间关系

40、下列不属于文本操作技术中的断词操作技术的是（）

A句点B撇号

C连字符D未登录词识别

41、信息检索系统需要事先做一些准备工作，这两项准备工作是（B）

A信息的采集与分类B信息的采集与加工

C信息的分类与标引D信息的分类与摘要

42、信息检索的处理对象是（C）

A结构化信息B信息集合C非结构化信息D相关信息

43、下面不属于基于语言模型的检索模型的是（D）

A、查询相似度模型B、统计翻译模型

C、风险最小化模型D、隐性语义索引模型

44、试图通过统计学和概率论对自然语言进行建模，从而获取自然语言中的规律和特性，以解决语言信息处理中的特定问题。

属于下列的哪种的模型（A）

A、统计语言模型B、扩展布尔模型

C、概率模型D、向量空间模型

45、下列选项中不属于文本操作技术的中文词法分析的是（A）

A、断词B、最大匹配法C、歧义词切分D、未登录词识别

46、利用选定的检索工具由近及远地逐年查找，直到查到所需文献为止的检索方法是（A）

A、倒查法B、顺查法C、追溯法D、抽查法

47、下列那一个不是衡量一个语料的指标（A）

A准确率B标注的一致性C错误率D标注规范

48、只知道某书的ISBN，应选择那种检索途径（D）

A分类检索B主题检索C著者检索D信息代码途径

49、Google是那种类型的检索引擎（C）

A关键词型B目录型C集合型D专用型

50、下列哪项不是web搜索引擎系统的子系统（D）

A：

web数据集系统B：

网页预处理系统

C：

检索结果排序系统D：

阅读理解系统

51、TREC测试集主要包括几个部分（B）

A1个B3个C4个D5个

52、信息检索的概念是（B）

A是指用来实现信息检索功能的计算机软件系统。

B是指从非结构化的信息集合中找出与用户需求相关的信息。

C信息检索是一门多学科的交叉的应用技术学科。

D信息检索是利用各类媒体处理技术对信息进行加工，找出一定的机构。

53、一般来说，关键词出现在文献的不同字段表达的相关性不同，以表达的相关性从强到弱排序如下：

（）

A.关键词>标题>文摘>正文

B.关键词>文摘>正文>标题

C.标题>关键词>文摘>正文

D.正文>文摘>关键词>标题

54、信息检索模型按照理论基础的不同可划分为布尔模型、（）、概率模型以及基础知识的模型。

（）

A、统计模型B、向量空间模型C、全文模型D、数据模型

55、统计语言模型试图通过统计学和（A）对自然语言进行建模，从而获得自然语言中的规律和特性。

（A）

A、概率论B、布尔模型C、高等数学D、向量

56、面向用户的测度方法包括覆盖率、新颖率、相对查全率、（C）。

A、时间效率B、空间效率C、召回率负担D、出错率

57、中文检索系统主要有两种检索方案：

基于字的检索和（C）。

A、基于句子的检索B、基于文章的检索

C、基于词的检索D、基于符号的检索

58、信息检索的对象包括文字、（A）、音频、视频等。

A、图片B、文档C、网页D、数据

59、下面不属于基于语言模型的检索模型的是（D）

A、查询相似度模型B、统计翻译模型

C、风险最小化模型D、隐性语义索引模型

60、下列有关召回率与准确率正确的是（A）

A、准确率为检索的相关文档数与检出文档数的比值。

B、准确率与召回率无关。

C、准确率越高则召回率就越高。

D、准确率和召回率成等比负相关。

2、填空题

1、利用倒排文件进行检索，通常分为三个步骤：

词汇表检索、记录表检索和记录表操作。

（第5章）

2、评价相关反馈的方法很多，但主要的评价方法有：

准确率和召回率、压缩文档集合和分割文档集合。

（第6章）

3、一般情况下，分布式信息检索按照应用的场景可以分为：

合作环境下的分布式信息检索和非合作环境下的分布式信息检索。

（第8章）

4、自动查询扩展技术包括（全局分析）和（局部分析）的方法。

5、查询构造的基本方法包括（单一词查询）（上下文查询）和布尔查询。

6、常用的索引技术有（倒排文件）（后缀数组）和（签名文件）三种

7、倒排文件一般由（词汇表）和（记录表）组成。

8、国内的信息检索评测会议包括：

（863信息检索评测）和（SWEM中文Web评测）

英文的拼写检查包括（形态还原技术）、（词汇相似度计算技术）

9、信息检索的技术有全文检索、数据检索、知识检索

10、TREC测试集主要包括文档集合、主题、相关性判断。

11、信息检索模型按照理论基础的不同可以划分为布尔模型、向量空间模型、概率模型以及基于知识的模型。

【第2章】

12、为了能够客观准确的评价分词系统的效果，需要制定一些指标来对分词的结果进行评测，常用的评测指标有准确率P、召回率R和F值。

【第4章】

13、单模式的字符串匹配技术，主要包括BF、KMP、BM三种常用的精确匹配算法。

14、倒排文件建立方法：

基于内存的、基于排序的、基于合并的倒排文件建立方法

15、维护倒排文件通常需要的操作有：

插入操作、删除操作、更新文档。

16、TREC（文本检索会议）是信息检索界为进行检索系统和用户评价而举行的活动，它由美国国家标准技术协会和美国高级研究计划局共同资助，开始于1992年。

【第3章】

17、TREC的评价是按照检索到的相关文献的数量来评价系统的有效性，主要要测量召回率和准确率。

18、向量空间模型是存在不足之处的，即标引词之间被认为是相互独立的。

19、本体论是一种描述概念及概念之间的关系的概念模型，通过概念之间的关系来描述概念的语义。

20、形态还原是去除曲折型语言的词尾形态变化，将其还原为词的原型。

21、以TRECNTCIRCLEF为代表的信息检索评测在信息检索领域有着深远的影响力。

22、如果用户能够把他对返回结果中各个网页相关性的判断反馈给检索系统，检索系统就能够更准确的理解用户需求，重新给出一批更有可能满足用户需求的文档，这一过程叫做相关反馈。

23、信息检索系统要解决的核心问题是：

当用户给定其查询后，对文档集中的每一个文档与用户查询相关程度给出判断。

24、在合作的分布式信息检索环境下，可以采用两种方式对文档集合进行划分：

、。

（将文档集合进行随机划分、对文档集

合进行语义分割）

25、目前，经过国内外的专家的努力，已经产生了一些具有规模并具有一定实用性的本体库，其中最著名的三个本体库分别是知网Wordnet和SUMO

26、中文检索系统主要有两种检索方案：

基于字的检索和基于词的检索

27、TREC测试集主要包括：

文档集合、主题和相关判断。

28、在Internet上采集信息的软件被称为网络机器人。

29、本体论包括四层含义：

概率模型、明确、形式化、共享。

30、世界著名四大索引是SCI（科学引文索引）、SSCI（社会科学引文索引）、AHCI（艺术与人文科学引文索引）和EI（工程索引）。

31、表示主体的检索词有标题词、单元词、叙词、关键词。

32.信息检索工具常用的排验方法有字序法、类序法。

33．搜索引擎按信息搜集方式分类：

有目录式搜索引擎和机器人搜索引擎

34、信息（文献）检索的途径：

时序途径，地序途径，分类途径，主题途径，题名检索途径，责任者途径

35、利用文献后面所附的参考文献进行检索的方法称为追溯法

36.在大多数情况下，检索的目的是为了找到相关文献，而不是“答案”。

37.二八定律在期刊文献检索中的体现是：

20%的期刊登载了80%的重要文献，体现这种特性的期刊是核心期刊。

38.当查询关键词具有多个含义的时候，容易造成误检，使得查准率降低。

39.文献检索语言是标引与检索共同使用的约定语言

40.使用网络蜘蛛（spider）对广域网的信息进行采集，提取关键词建立索引，主要通过关键词进行检索，以上描述的搜索引擎属于索引型搜索引擎。

41.文献获取与利用的过程存在三重语言障碍，分别为:

自然语言障碍、专业语言障碍、检索语言障碍。

42.以内部特征进行检索的最重要的两种检索途径是：

主题途径、分类途径。

43、文本分类的算法有朴素贝叶斯、K–近邻、决策树方法、支持向量机、基于投票的方法等算法。

44、信息过滤系统可概括地划分为四个主要组成部分，分别是信息提供模块、用户需求描述模块、过滤模块和学习模块。

▲

45信息检索中常用的一些词典资源：

__________________

答案：

停用词、叙词表、同义词词典

46文本操作技术中在英文操作方面有：

________________

答案：

段词技术、词干提取技术、拼写检查技术

47、单模式的字符串匹配技术，主要包括（BF）,（KMP）,（BM）三种常用的精确匹配算法

48.WEB检索系统可以被分成主要的四个部分：

（web数据采集系统），（网页预处理系统），（索引检索系统），（检索结果排序系统）。

49、签名文件是基于（散列技术）的面向单词的索引结构，索引空间大约为原始文档的30%~40%

50、利用倒排文件进行检索，通常分为三个步骤：

（词汇表检索）、（记录表检索）、（记录表操作）▲

51、倒排文件也称倒排索引，索引对象是文档或文档集合中的单词等，用来存储这些单词在一个文档或者一组文档中的存储位置，是对文档或文档集合的一种最常用的索引机制，倒排文件一般由两部分组成：

词汇表和记录表。

52、信息检索中的关键技术：

信息抽取、文本分类与聚类、自动文摘、链接分析、分布式信息检索、web信息检索。

53、为了提高检索效率，人们根据领域知识或者通用知识建立了一些词典资源来辅助信息检索，通常使用的词典资源是（叙词表）和（同义词词典）

三、判断题

1，利用文献后面所附的参考文献进行检索的方法称为追溯法（对）

2、CNKI数据库的全文阅读格式有两种，其中一种是（CAJ）（对）

3、在进行信息检索的研究时，对各种算法进行实验需要使用大量的训练和评价数据，而同一个算法在不同的数据条件下得到的结果可差异很大，因此，如果没有同一的测试方法和共同的数据集合，几乎不可能比较不同的算法。

（∨）

4、常用的本体库中最著名的是知网、WordNet、SUMO。

（∨）

5、认识论是一种描述概念及概念之间的关系的概念模型，通过概念之间的关系来描述概念的语义。

（×）

6、TREC的评价是按照检索到的相关文献的数量来评价系统的有效性，主要要测量召回率和准确率。

（√）

7、设A、X、B分别为汉字串，如果其组成的汉字串AXB满足AX和AB同时为词，则汉字串AXB为交集型歧义字段。

（√）

8.文献检索是一种相关性检索，检索结果与检索人员的检索技巧等有关（√）

9、Google没有采用去停用词策略。

（×）

10、维普资讯检索系统可以进行学位论文检索。

（×）

11、核心期刊是指经常使用的期刊（×）

12、网页预处理系统的功能主要是去掉重复的网页（√）

13、信息抽取是指从文本数据中抽取有价值信息和知识的计算机技术，是数据挖掘的一个分支，也是一个边缘学科。

（×）【第1章】

14、词干提取也称词干化、词干法，它在信息检索中的作用有两个：

提高检索的准确率和减少索引文件的大小。

（×）【第4章】

解答：

词干提取的作用是提高检索的召回率不是准确率。

15、按照加工深度不同区分，文献可以分成零次、一次、二次核三次文献（V）文献检索的本质是用户的文献需求与存储在文献集合中的文献内容进行匹配的过程（V）

16、文献检索是一种相关性检索，检索结果与检索人员的检索技巧等有关（V）17、近一两个月内新发表的文献可以通过浏览图书馆阅览室现期期刊的方法获取。

（V）

18、直接检索法是通过各种检索工具或数据库查找文献的方法（X）

19、作者途径是按照文献信息所包含的作者信息，利用作者姓名进行检索的途径（V）

20、联合目录反映多个图书馆的书刊订阅收藏情况。

（V）

21、目录是将图书、报刊等文献中论文的篇目按照一定的排检方法编制而成，供人们查找篇目出处的工具（X）

22、检索语言是用来描述文献的内容特征、外表特征和表达情报提问的一种人工语言。

（V）倒排文件也称为倒排索引，索引对象是文档或文档集合中的单词等，用来存储这些单词在一个文档或一组文档中的存储位置，是对文档或文档集合的一种最常用的索引机制。

（对）

23、在进行维护倒排文件时，一般不进行更新操作，而是使用插入+删除操作代替。

（对）

24、信息检索系统评价是指对信息检索系统的性能（主要是其满足用户需求的能力）进行评估的活动。

（对）

25、对于信息检索系统的性能来说检索结果不能按照相关度进行排序（错）

26、签名文件是基于散列技术的面向单词的索引结构，索引占用的空间大小约为原始文档集得50%~60%。

（×）

27、相关反馈是用户对最终检索出的相关文档结果的反馈。

（×）

28、相关反馈可以同时提高准确率和召回率。

（√）

29、根据检索手段的不同，信息检索可分为手工检索、光盘检索、联机检索和网络检索四种方式（√）

30、逻辑运算符的优先顺序为AND、NOT、OR。

（×）

31、Google是目录式搜索引擎。

（√）

32、《中国学术期刊全文数据库》的“在结果中检索”最多可以进行两次。

（×）

33、概率模型中没有用到对用户的查询技术要求比较高的布尔逻辑方法，同时可以将文档按照它们相关的概率的递增顺序排序（X）

34、本体论是一种描述概念及概念之间关系的模型，通过概念之间的关系来描述概念的语义。

（√）

35、早期TREC评测主要包括两个任务，一个是adhoc检索任务；另一个是固定主题检索任务（√）

36、为了提高检索效率，人们根据领域知识或者通用知识建立了一些词典资源来辅助信息检索。

其中包括两种词典资源：

斜词表和同义词表。

37、概率检索模型可以采取相关反馈原理，可开发出离乱上更为见识的方法（√）

38、对于一个检索系统，可以从功能和性能两方面对其进行分析评价（√）

39、中文检索系统主要有三种检索方案：

基于字的检索，基于词的检索，基于句的检索（ｘ）

40、XX采用了去停用词的方法。

（ｘ）

四、简答题

1、什么是索引？

索引（Index）是一种数据结构，其将关键词与包含该关键词的文档（或关键词在文档中的位置）建立了一种映射关系，以加快检索的速度。

（5章）

2、什么是信息检索？

信息检索的处理对象是什么？

答：

信息检索是从非结构化的信息集合中找出与用户需求相关的信息。

信息检索的处理对象：

信息检索系统处理的是“非结构化的信息”，除文本外，还有图像、图形、语言、视频等多媒体信息。

3、比较布尔模型和向量模型的优缺点？

答：

布尔模型的优点：

检索式的结构化—用布尔算法明确揭示了索引项之间的关系。

缺点：

（1）不能对结构按相似度进行排序；

（2）不能控制返回文档的数量；

（3）不能进行相关性反馈。

向量模型的优点：

（1）检索结果的相关性排序；

（2）可以控制输出结果的数量；

展开阅读全文