信息检索技术习题答案版.docx-资源下载

信息检索技术习题答案版.docx

1、信息检索技术习题答案版答案* 一 *填空1.数值型文字型（字符）语音型图像型2.原料成品3.信息4.自然人为5.数据文本声音图像6.语义差异传递载体7.外表整体内容8.收集传输加工储存（存储）9.信息形式信息内容10.内在的信息需要外在刺激11.标题词单元词叙词关键词12.线性结构非线性结构树形结构网状结构13.数据预处理索引生成查询处理检索14.信息需求信息集合15.出发点依据16.人工赋予自动生成名词解释1数据：是指记载下来的事实，是客观实体属性的值，它是由原始事实组成的。2信息加工：是指对获取的信息进行判别、筛选、分类、排序、分

2、析、计算和研究等一系列过程，使收集到的信息成为对我们有用的信息资源。3信息组织：即信息序化或信息整序，也就是利用一定的科学规则和方法，通过对信息外在特征和内容特征的表征和序化，实现无序信息流向有序信息流的转换，从而保证用户对信息的有效获取和利用及信息的有效流通和组合。 4检索标识：就是为沟通文献标引与文献检索而编制的人工语言，也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道，是用于文献标引和检索提问的约定语言。5信息检索：可以从广义和狭义两个角度理解。广义的信息检索是指将信息按一定方式组织和存储起来，并根据用户的需要找出相关信息的过程，其中包括存与取两个方面。狭义的信息检索仅指

3、信息查找过程。6信息检索系统：是指按某种方式、方法建立起来的用于检索信息的一种有层次的体系，是表征有序的信息特征的集合体。7检索效果：是指利用检索系统（或工具）开展检索服务时所产生的有效结果。简答题1简述了解用户信息需求的作用答：用户信息需求是信息系统发展的动力，也是制定信息政策的出发点和依据。了解用户需求的特点、心理规律、查询行为及需求方式，有助于系统制订合理的信息搜集方针和信息资源的合理布局，从而提高服务效益和质量。2简述影响信息动机向信息行为转化的主要因素答：（1）信息动机强度（2）认知能力（3）抱负水平3简述信息需要的特点答：（1）信息需要的广泛性（2）信息需要的社会性（

4、3）信息需要的发展性（4）信息需要的多样性4简述信息检索系统的构成模式答：（1）信息数据的选择、处理、录入、维护子系统（2）词表和标引子系统（3）检索子系统（4）系统-用户接口子系统5.简述信息检索系统的流程系统可分为数据预处理、索引生成、查询处理和检索四个部分。论述题1有人说，信息加工是一个体系，你如何理解，请着重从“体系”这个角度加以说明答：（1）加工的方式、方法多种多样。（2）加工的方式、方法相互之间有关联，从不同角度对信息进行加工的。（3）加工过程有其内在联系，构成一个完整的系统。（4）整个加工体系会随着时间的变化，信息数量的变化，载体的变化和技术的变化而不断变化和完善。（5）

5、信息的加工按其加工对象的不同可分为对外表信息的描述与加工，对整体信息的描述与加工，还有对内容信息的描述与加工。2.请探讨一下信息加工的层次性根据信息加工特点，信息加工分为6个层次：外表信息的加工是描述性的，给用户提供的是信息的线索；整体信息的加工是概述性的，给用户提供的是信息的内容特点；内容信息的加工要深入信息内部，对有用的信息给予揭示标引，使读者利用信息有据可查；精粹信息的加工是通过比较鉴别的方法，选取价值高的整体或局部信息，给用户直接提供信息的精华，满足用户对实质性信息的要求；深度信息的加工是研究性和评价性的，解决信息的优劣和有关信息的有效组合问题，给用户以启迪和决策依据；相关信息的加工是

6、信息的外延和扩展，使有关信息根据一定关系进行链接，给用户检索和直接利用的方便。* 二 *填空1.数据字典2.定义机制验证约束机制3.外模式内模式模式4.题录文摘全文5.人工标引计算机辅助标引自动标引6.对比匹配7.概念相关性位置相关性8.夹角余弦9.知识库文本处理智能接口名词解释1数据模型：是描述数据、数据联系、数据操作、数据语义以及一致性约束的概念工具的集合。2著录：就是对信息外部特征进行分析、选择与记录的过程。3标引：就是指对信息内容特征进行分析，赋予信息以检索标识的过程。4词位检索：是以数据库原始记录中的检索词之间的特定位置关系为对象的运算，又称全文检索、邻近检索。简

7、答题1什么是倒排文档？为什么要使用倒排文档？答：倒排文档是将主文档中的可检字段抽出，按某种顺序重新排列起来所形成的一种文档。按表达文献内容特征的主题词排列的文档称为基本索引文档；按表达文献外部特征排列的文档称为辅助索引文档。在实施检索时，必须和顺排文档配合使用。倒排文档类似于检索工具中的辅助索引。2简述布尔模型及其优缺点答：布尔模型是最简单的信息检索模型。这种模型的理论基础是集合论。布尔模型最大的优点是理论简单、使用方便。缺点是：（1）它只能给出精确匹配的结果；（2）检索结果有可能因查询词在大量文档中出现而数量太多；（3）由于找不到与查询词完全匹配的文档而使结果太少。3简述向量空间模型及

8、其优点答：向量空间模型是一种简便、高效的文本表示模型，其理论基础是代数学。向量空间模型最主要的优点在于：（1）该模型的权重计算方法能够提高系统的检索性能；（2）模型中使用的部分匹配方法能检索出与用户的查询输入条件“近似”的文档；（3）在模型中可以根据检索出的结果与查询条件的相关程度对结果进行排序。另外，向量空间模型计算简单，检索速度快。4简述“网播”的信息推送方式答：（1）频道式推送（2）邮件式推送（3）网页式推送（4）专用式推送5简述智能信息检索的系统结构答：智能信息检索系统是由知识库、文本处理和智能接口三部分组成。6简述智能信息检索的主要方法答：（1）统计方法（2）文本分析

9、方法（3）人工智能方法（4）语料库方法7.有哪些种类的加权检索？各有哪些特征？加权检索把量化思想引入定性检索之中，是改善和提高检索效果的一种重要手段。分标引加权和检索加权；检索加权是指检索者在给出检索词的同时，并为每个检索词赋予权值，以区分每个检索词在检索中的重要程度。通过加权，明确了各检索词的重要程度，使检索更有针对性，并且能依据权值的大小，对命中记录的重要性进行排序词频加权检索是根据检索词在记录中出现的频次来计算命中记录的权和，依据命中记录权和数从大到小排列，最后由阈值控制输出命中结果。与检索词加权检索不同的是，词的权值是由数据库记录中的词频决定，不是由检索者指定，不需人工干预，减轻

10、了检索者的负担。词频加权检索方法应建立在对全文数据库和文摘数据库基础之上，否则词频加权将失去意义。简单词频加权检索：指检索时累计检索词在记录中出现的次数来决定记录的权值，然后累计该记录每个检索词权值之和来决定该记录是否为命中记录。相对词频加权检索：是将每一个检索词在本文中频率和在整个数据库中的频率综合考虑，进行加权检索的方法。标引加权检索是指在对文献进行标引时，根据每个标引词在文献中的重要程度不同，为它们附上不同的权值，检索时通过对检索词的标引权值相加来筛选命中记录。* 四 *填空1.表示存储组织访问2.文件内容表达信息查询的获得相关信息的匹配3.基于文本基于Web 基于字表基于

11、词表4.分词子系统句法语义子系统总控部分5.自动主题标引自动分类标引6.统计标引法概率标引法句法分析法语义分析法人工智能法7.文本输入词典抽词知识库综合与转换输出8.词频标题位置句法结构线索词指示性短语9.索引数据库检索机制10.主文件倒排文件11.数据准备文本预处理数据加载名词解释1全文检索：是指以全文本信息作为检索对象，建立全文数据库，除了具有布尔逻辑检索功能外，还具有文本检索功能，并允许用户以自然语言检索，直接获得原文中的有关章节和段句。2自动标引：是根据文献内容，依靠计算机系统全部或部分地自动给出标引符号的过程。3主题词标引：是指抽取信息中能够

12、表达其核心内容的词或词组，并将这些词或词组转化为受控词的过程。4自动文摘：就是利用计算机自动地从原始文献中提取文摘。简答题1简述单汉字标引法及其优缺点答：单汉字标引法是众多标引方法中比较有影响的一种。吸收了西文自动抽词标引的思想，把一个单汉字看成一个西文单词而作为标引词，检索时先匹配单字，再进行词组重组。另外增加了一个停用字表，提高了标引效率。优点：单汉字法绕开切分问题，容易实现，便于系统维护，标引速度快、深入、客观且一致，词语组配灵活。缺点：检索速度不快，增加了用户的智力负担，浪费了计算机存储空间，牺牲了隐含概念主题及词汇间相互关系的表达，系统的查全率和查准率都不能令人满意。2简述主题词标

13、引的基本思路答：主题词标引的基本思路是利用汉语自动分词的研究成果，采用词典分词法将文献进行切分，通过词加权或词频统计法对切分后的词进行排序确定关键词，利用主题词表将关键词转化、合并、去重、重新排序后确定系统正式使用的主题词，并追加文献代号送入系统主题词字段中。3简述主题词标引的实现答：（1）构造词表构造切分词表构造主题词表（2）主题词标引抽取关键词归并关键词确定标引词主题词标引4简述自动标引的基本流程答：自动标引的基本流程包括：确定标引源、输入标引源内容、预处理、分词处理、确定关键词、转换为受控词、给出主题标识符。9.简述自动标引的基本方法自动标引的方法主要有：(1)统计标引

14、法；(2)概率标引法；(3)句法分析法；(4)语义分析法；(5)人工智能法10.简述汉语自动标引的方法较典型的汉语自动标引方法包括：词典标引法、切分标引法、语法分析标引法、汉语自动标引专家系统、单汉字标引法等。11.简述自动标引的系统构成一个自动标引系统通常包括文本输入、词典、抽词、知识库、综合与转换以及输出等6个子系统。* 五 *填空1.从互联网上抓取网页建立索引数据库在索引数据库中搜索排序2.目录式机器人元3.搜索器索引器检索器用户接口4.页面数据索引数据 URL数据5.域名服务器（DNS）6.站点爬行7.消除重复辨别类型限制范围限制深度8.深度优先广度优先9.插

15、件10.字符串词条11.数据汇编12.单词13.词汇词汇出现情况14.索引15.效率准确性16.模板级网页库级17.全面性更新性准确性功能性18.以网对网一级映射模式19.词典生成工具词典导出工具词典连接工具20.语意分析器词典维护工具关键词分析名词解释1搜索引擎：从狭义的角度来说，搜索引擎由信息收集软件、索引数据库和查询接口三部分组成。从广义的角度上讲，搜索引擎是互联网上的一类网站，是提供查询、搜索的网站。2垂直搜索：是针对某一个行业的专业搜索引擎，是搜索引擎的细分和延伸，是对网页库中的某类专门的信息进行一次整合，它通过定向分字段抽取出需要的数据进行处理后再以某种形式

16、返回给用户。3Innernet网：就是由一个或多个相关的词典组成的反映人的知识网络及相关工具的系统。简答题1简述搜索引擎的特点答：（1）信息服务的综合性（2）信息服务的智能性（3）信息服务的个性化（4）具有支持Agent的能力（5）具有与电子商务灵活结合的能力2Robot程序设计时需要考虑的问题是什么答：（1）与平台无关性（2）要考虑是否直接影响访问Web的效率，影响搜索数据库的质量（3）要考虑对网络或被访问站点的影响（4）还应遵守一些协议3简述网络蜘蛛的工作过程答：（1）网络蜘蛛向被访问的站点标明自己的身份（2）一般会访问一个特殊的文本文件Robots.txt（3）遵守相关协

17、议（4）网络蜘蛛在下载网页的时候，会去识别网页的HTML代码。4简述文本预处理的步骤答：（1）文本的词法分析（2）无用词汇的删除（3）词干提取（4）索引词条/词干的选择（5）构造词条的分类结构5简述检索器的功能答：检索器的功能是根据用户输入的查询关键字在索引库中快速检出文档，进行文档与查询的相关度评价，对将要输出的结果进行排序，并实现某种用户相关性反馈机制。6倒排文件如何搜索答：（1）词汇查找（2）查询词汇出现情况（3）词汇出现情况的操作7简述PageRank算法的计算公式答：网页A级别=（1-系数）+系数 ( 网页1级别 + 网页2级别 + 网页N级别 ) 网页1链出个数

18、网页2链出个数网页N链出个数 8简述垂直搜索的特点答：（1）垂直搜索的表现方式和一般的搜索引擎表现方式不同，结构化的搜索和非结构化的搜索并用。（2）从广告模式上，提供了除Google adsense和XX竞价排名广告之外的另一种可能。（3）垂直搜索引擎抓取的数据来源于垂直搜索引擎关注的行业站点，倾向于结构化数据和元数据。（4）垂直搜索引擎的搜索行为是基于结构化数据和元数据的结构化搜索。（5）垂直搜索引擎的搜索结果要覆盖整个行业。（6）垂直搜索引擎的Web2.0需求。（7）垂直搜索引擎的目标是帮助用户解决问题。（8）垂直搜索引擎的社区化特征。9简述模板级垂直搜索和网页库级垂直搜索的优缺点

19、答：垂直搜索技术主要分为两个层次：模板级和网页库级。模板级是针对网页进行模板设定或者自动生成模板的方式抽取数据，对网页的采集也是针对性的采集，适合规模比较小、信息源少且稳定的需求，优点是快速实施、成本低、灵活性强，缺点是后期维护成本高，信息源和信息量小。网页库级就是在信息源数量上、数据容量上、检索容量上、稳定性可靠性上都是网页库搜索引擎级别的要求，其灵活性差、成本高。10简述个性化搜索中用户兴趣信息存放的解决方案答：关于用户兴趣信息的存放有三种解决方案：一是将用户的兴趣信息存放在搜索引擎服务器上；二是将用户的兴趣信息存放在用户的机器上；三是用户的兴趣信息存放在其他服务器上。11简述智能化

20、搜索引擎的特征答：（1）网络蜘蛛的智能化（2）为特定用户提供相关信息（3）搜索引擎人机接口的智能化13.简述垂直搜索的内容来源垂直搜索的内容主要来源于：门户网站自身的资源；以开放接口方式让行业用户提供的资源；普通用户发布的资源；抓取行业用户的资源。14.简述垂直搜索所需要的技术垂直搜索大致需要信息采集技术、网页信息抽取技术、信息的处理技术、语意相关性分析、分词技术和索引技术等。15.搜索引擎所使用的信息检索模型有那些？各有什么特点？布尔逻辑模型：布尔型信息检索是最简单的信息检索模型，用户利用布尔逻辑关系构造查询并提交，搜索引擎根据事先建立的倒排文件确定查询结果。标准布尔逻辑模型为二元逻辑，

21、并可用逻辑符“and”、“or”、“not”来组织关键词表达式。布尔型信息检索模型的查全率高，查准率低。目前大多搜索引擎均使用布尔逻辑检索模型，查询结果一般不进行相关性排序。模糊逻辑模型：这种模型在查询结果处理中加入模糊逻辑运算，将检索的数据库文档信息与用户的查询要求进行模糊逻辑比较，按照相关的优先次序排列查询结果。模糊逻辑模型可以克服布尔型信息检索模型在查询中其结果具有无序性的问题。向量空间模型：向量空间模型用检索项的向量空间来表示用户的查询要求和数据库文档信息。查询结果是根据向量空间的相似性而排列的。向量空间模型可方便地产生有效的查询结果，能提供相关文档的文摘，并对查询结果进行分类，为用户

22、提供准确的信息。概率模型：基于贝叶斯概率论原理的概率模型利用相关反馈的归纳学习方法，获取匹配函数，这是一种较复杂的检索模型。16.简述建立搜索引擎的关键技术信息收集和存储一般分为人工和自动两种方式。信息预处理包括信息格式支持与转换以及信息过滤。信息索引技术就是创建文档信息的特征记录，以使用户能够快速地检索到所需信息。17.搜索引擎如何对网页的内容进行提取1关键词的提取。网页处理阶段的一个基本任务，就是要提取出网页源文件的内容部分所包含的关键词。2重复或转载网页的消除3链接分析4网页重要程度的计算论述题1请尝试着比较一下搜索引擎与全文检索答：（1）数据量。全文检索的数据量只有几百万条，而搜索引

23、擎的数据量极大。（2）内容相关性。全文检索强调内容相关性，而搜索引擎不强调内容相关性。（3）安全性。全文检索有安全性要求，而搜索引擎没有安全性要求。（4）个性化和智能化。全文检索的个性化和智能化要比搜索引擎的更好。2请评价一下收费排名答：收费排名并不属于排序技术，而是一种搜索引擎的赢利模式。但收费排名已经最直接的影响到了搜索引擎的排序。收费排名一方面给搜索引擎公司带来收益，一方面给企业带来访问量，另外对访问者也有一定好处。对于企业来说，收费排名是提升网站在搜索引擎中排名的最直接和最简单的办法。3如何看待垂直搜索的信息采集策略答：采集可通过人工设定网址和网页分析URL方式共同进行。策略上可以

24、评估网站/网页更新的系数、网站/网页的重要系数、用户点击系数、网站稳定系数，根据这些系数来确定对这些网站/网页更新的频率，对网页进行很好的分级可以以低成本很好的解决更新问题。4你如何看待传统搜索引擎技术的不足？你准备如何解决？(解决办法自己写) 答：传统的搜索引擎，一方面存在“文海捞针”的问题，但另一方面又存在“信息丢失”的问题。它是由以下四个深层次的问题引起的。这四个问题都与词汇紧密相关。第一个是“忠实表达”问题，第二个是“表达差异”问题，第三个是“词汇孤岛”问题，第四个是“机械式匹配”问题。* 六 *填空1.内容获取内容描述内容操纵2.场景镜头帧3.镜头4.视频分割代表帧动态特

25、征提取5.突变渐变6.示例查询名词解释1基于内容的图像检索：是基于内容检索技术的一种，是指利用图像的颜色、形状、纹理、语义等特征对图像进行查询，试图在理解图像内容的基础上，检索出与示例相类似的图像。简答题1简述基于内容检索的特点答：（1）以综合性学科为基础（2）从媒体内容中提取信息线索（3）相识性比较（4）交互性查找（5）直观的查询方式（6）大型数据库的快速检索2简述基于内容检索的过程答：（1）初始查询说明（2）相似性匹配（3）相似度排列（4）特征调整3简述基于内容检索的系统结构答：完整的CBR系统一般由两个子系统构成，即数据库生成子系统和查询子系统。（1）对象标识（2）特征

26、提取（3）数据库（4）用户查询和浏览接口（5）检索引擎（6）索引/过滤器4简述基于内容检索的评价标准答：（1）易用性（2）性能（3）可移植性（4）经济性（5）可维护性5简述基于特征的图像检索过程答：（1）图像的预处理（2）图像特征的抽取（3）数据库系统* 七 *填空1.逻辑学方法数量分析方法系统科学方法2.竞争对手竞争情况3.公共领域非公共领域4.情报规划收集数据分析情报传播5.未知有效可实用6.数据组织形式知识表示推理方式7.Web内容挖掘 web结构挖掘 Web使用记录挖掘8.一般存取路径追踪专用化追踪9.个性挖掘系统改进站点修改智能商务 W

27、eb特征描述10.文本收集文本分析特征修剪名词解释1信息分析：是运用科学的理论和方法，通过对信息的加工处理，使信息成为全新的信息，并从中找出描述该事物发展规律的数学模型，进而对其未来的发展状态进行分析预测，为决策提供科学的依据的过程。2数据挖掘：是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的，但又是潜在有用的信息和知识的过程。3文本挖掘：是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识，并且利用这些知识更好的组织信息的过程。简答题1简述信息分析的特点答：（1）综合性（2）针对性（3）政策性（4）客观性（5）先导性（6

28、）趋优淘劣性2简述信息分析的工作程序答：（1）选题（2）制定研究计划（3）信息反馈与决策跟踪3简述信息分析报告的内容和结构答：信息分析研究报告应该包括以下内容（1）提出拟解决的问题和要达到的目标（2）研究背景情况，描述与分析（3）分析研究方法（4）结论与论证（5）具体实施的建议、方案与措施结构:研究报告由题目、摘要、引言、正文、结论、参考文献、注释等组成。4简述数据挖掘的功能答：（1）自动预测趋势与行为（2）数据关联（3）聚类（4）概念描述（5）偏差检测5简述数据挖掘的过程答：（1）定义问题（2）获取数据（3）整理和初探数据（4）选择和准备数据（5）挖掘数据（6）解释

29、结果（7）运用知识6简述Web挖掘的基本原理答：目标数据集就是根据用户要求，从Web资源中提取的相关数据；预处理是从目标数据集中除去明显错误的数据和冗余的数据，并将数据转换成有效形式，以使数据开采算法寻求感兴趣的模型；模式分析是对发现的模式进行解释和评估，最后将发现的知识以能够理解的方式提供给用户。7简述个性化信息服务的特点答：（1）以用户为中心（2）允许用户充分表达个性化需求，能够对用户需求行为进行挖掘（3）服务方式更加灵活、多样（4）能够主动将用户所需信息推送给用户8简述个性化信息服务的类型答：（1）个性化内容定制服务（2）个性化信息检索定制服务（3）个性化界面定制服务（4）个性化信息推荐服务9.个性化信息模型的构建方法个性化信息模型的构建方法：信息Agent的自主学习方法、信息过滤的方法、基于多Multi-Agent System的合作方法用户模型的构建方法：在对用户的信息服务中，用户所处的领域不同，使用的信息服务系统不同，获取用户信息的方法不同，建模的方法也不同。通常情况下，通过

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？