刘挺的信息检索系统导论总结Word下载.docx

资源描述

刘挺的信息检索系统导论总结Word下载.docx

《刘挺的信息检索系统导论总结Word下载.docx》由会员分享，可在线阅读，更多相关《刘挺的信息检索系统导论总结Word下载.docx（6页珍藏版）》请在冰豆网上搜索。

刘挺的信息检索系统导论总结Word下载.docx

主要是SEO方面的知识点，对我的视野开阔还是蛮有帮助的。

但是没有专门讲述信息检索的资料，这个还是有点可惜的。

此外第一章节还介绍与信息检索相关的课程，比如自然语言处理、分布式计算、数据库、数据挖掘、情报学、社会学、统计学等等。

首先第一个自然语言处理也是很热门的研究方向，我上网查了一下XX百科了解到一些概念性的知识。

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。

它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

自然语言处理是一门融语言学、计算机科学、数学于一体的科学。

因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。

自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。

因而它是计算机科学的一部分。

语言是人类区别其他动物的本质特性。

在所有生物中，只有人类才具有语言能力。

人类的多种智能都与语言有着密切的关系。

人类的逻辑思维以语言为形式，人类的绝大部分知识也是以语言文字的形式记载和流传下来的。

因而，它也是人工智能的一个重要，甚至核心部分。

用自然语言与计算机进行通信，这是人们长期以来所追求的。

因为它既有明显的实际意义，同时也有重要的理论意义：

人们可以用自己最习惯的语言来使用计算机，而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言；

人们也可通过它进一步了解人类的语言能力和智能的机制。

实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义，也能以自然语言文本来表达给定的意图、思想等。

前者称为自然语言理解，后者称为自然语言生成。

因此，自然语言处理大体包括了自然语言理解和自然语言生成两个部分。

历史上对自然语言理解研究得较多，而对自然语言生成研究得较少。

但这种状况近年来已有所改变。

无论实现自然语言理解，还是自然语言生成，都远不如人们原来想象的那么简单，而是十分困难的。

从目前的理论和技术现状看，通用的、高质量的自然语言处理系统，仍然是较长期的努力目标，但是针对一定应用，具有相当自然语言处理能力的实用系统已经出现，有些已商品化，甚至开始产业化。

典型的例子有：

多语种数据库和专家系统的自然语言接口、各种机器翻译系统、全文信息检索系统、自动文摘系统等。

自然语言处理，即实现人机间自然语言通信，或实现自然语言理解和自然语言生成是十分困难的。

造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性（ambiguity）。

一个中文文本从形式上看是由汉字（包括标点符号等）组成的一个字符串。

由字可组成词，由词可组成词组，由词组可组成句子，进而由一些句子组成段、节、章、篇。

无论在上述的各种层次：

字（符）、词、词组、句子、段，……还是在下一层次向上一层次转变中都存在着歧义和多义现象，即形式上一样的一段字符串，在不同的场景或不同的语境下，可以理解成不同的词串、词组串等，并有不同的意义。

一般情况下，它们中的大多数都是可以根据相应的语境和场景的规定而得到解决的。

也就是说，从总体上说，并不存在歧义。

这也就是我们平时并不感到自然语言歧义，和能用自然语言进行正确交流的原因。

但是一方面，我们也看到，为了消解歧义，是需要极其大量的知识和进行推理的。

如何将这些知识较完整地加以收集和整理出来；

又如何找到合适的形式，将它们存入计算机系统中去；

以及如何有效地利用它们来消除歧义，都是工作量极大且十分困难的工作。

这不是少数人短时期内可以完成的，还有待长期的、系统的工作。

以上说的是，一个中文文本或一个汉字（含标点符号等）串可能有多个含义。

它是自然语言理解中的主要困难和障碍。

反过来，一个相同或相近的意义同样可以用多个中文文本或多个汉字串来表示。

因此，自然语言的形式（字符串）与其意义之间是一种多对多的关系。

其实这也正是自然语言的魅力所在。

但从计算机处理的角度看，我们必须消除歧义，而且有人认为它正是自然语言理解中的中心问题，即要把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示。

歧义现象的广泛存在使得消除它们需要大量的知识和推理，这就给基于语言学的方法、基于知识的方法带来了巨大的困难，因而以这些方法为主流的自然语言处理研究几十年来一方面在理论和方法方面取得了很多成就，但在能处理大规模真实文本的系统研制方面，成绩并不显著。

研制的一些系统大多数是小规模的、研究性的演示系统。

这个研究方向涉及到的学科门类还是很多的，要我去学习的知识还有很多很多。

信息检索要解决的问题或是它本身研究的内容有：

处理海量的数据、评价检索、处理多源信息。

另外信息检索的关键技术有：

信息抽取、文本分类与聚类、自动文摘、链接分析、web信息检索。

信息检索领域还有很多的应用研究，有话题检测与跟踪、信息过滤、垃圾信息过滤、对抗式信息检索、企业检索、数字图书馆、跨语言检索、基于内容的多媒体检索、基因信息检索。

信息检索的历史、现状和未来，在本章中也有体现。

我个人比较感兴趣的有信息融合，问答系统、数据挖掘等等，这些都是比较难的或是很难的领域问题，但是还是比较有趣的。

有了兴趣后很多的事情做起来就比较有动力了。

下面讲一下第二章的内容，第二章对信息检索的模型进行了介绍。

首先介绍了三个经典的模型：

布尔模型、向量空间模型、概率模型。

接着由于这三个模型的前两个模型有各自的缺点和优点，所以这一章对其进行了结合，把布尔模型和向量空间模型结合起来形成扩展布尔模型。

在很多实际应用中也是多个模型一起使用的，这样能取得很好的使用效果，比单一的使用某个模型来得好，据此本章对此进行了详细的介绍，然后还对预计与语言模型的信息检索加以重点介绍，这部分我没怎么看明白。

在本章节的最后比较热门的隐性语义索引模型与基于本体论的信息检索模型，将语义的知识运用与信息检索是未来的发展趋势。

虽然这部分只是很难，或是很难被我们一般人所理解，但是确实是我们未来信息检索取得突破的关键或是重要方向。

至于具体的介绍还要再看几遍这个章节。

看书的重复是很有必要的，第一次看书也许只是看懂一部分，然后接下来的几遍就是更好的理解与消化自己所懂的知识点。

下面是第三章信息检索系统的评价，信息检索评价对信息检索研究来说具体非常重要的作用，本章主要介绍了在信息检索领域中的各种评价方法以及比较有影响力的评测会议。

这章还介绍在国际信息检索领域方面，介绍了好几种方法，感觉像是规定一样。

评价一般是评价某个系统或是某个产品的性能或是质量什么的好坏。

对于我们的信息检索系统来说，除了系统的处理时间和空间因素，还要求各种排序算法或是相关度的计算尽量的好，尽量的能及时满足用户的检索需要。

一般的性能评价指标有准确率和召回率，本章中也给出了相应的计算公式，当然还有其他很多种的评价方法。

包括国内的和国外的评价方法。

我感觉这一部分还有好多的地方可以研究创新一下，然后发表论文，就是计算准确率的方法上应该可能改进一下，什么召回率还有涉及到相关度的计算方法也是可能改进的，国内也已经有很多的研究者们已经基于相关的方法进行了改进。

在这一部分我也会花一定的时间在上面，多看一些文献，总结一下自己的想法，多看看其他人的改进方法，以便以后自己设计一套方法出来，在信息检索评价方法有自己的独特的一套方法，不管是国际上的还是国内现有的方法中，有很多的前辈已经给我们打好路子，让我们在他们的基础之上进一步的改进以便使得我们的信息评价算法更加的完善。

今后研究发展的趋势和问题有很多，网络上的信息越来越多，各种评测方法也是越来越多，人工的相关判断已经是不能满足日益增加的信息要求，越来越不能很好的满足用户的检索需求。

其实评测很大一部分是基于返回的网页的内容是否和用户所需求的一样或是相似的，这里就又涉及到网页内容上的抽取、整理、加工与处理。

在和用户的相关反馈进行交流以后就能更好的满足需求。

听师哥说他就是搞信息评价这一块内容的，他好像也做过相关的实验，这一部分只有在试验中才能知道什么评测方法是好的，在什么领域内是好的。

里面可能深入很多，以后还有很多的东西要学，说实话，就我现在的总结来说，其实只是我的自己的想法或是看完书后的表面一层最基本的总结，远远没有一般论文的结构或是构思，当然这方面我也会注意的，尽量写出来的是有自己的一个顺序或是思路在上面，按照每章每节的内容详细的总结出来。

现在的一点点积累为了以后写大论文打下坚实的基础。

一开始进入研究生阶段的我可能是浮躁的，静不下心来写点东西，写出来的也是一些只是一些初次看过什么资料后的不再那么深入思考的话语。

当然不是说现在的总结多么的好还是怎么的。

每个人经历过一点的事情或是经过一段时间后总会思考点什么，想到或是想通点什么。

第四章介绍的是一些文本处理的技术。

可以说这一部分是自然语言处理这一块比较难的地方，也是个重点。

目前的方法不多，基于词典或是统计学的方法是我看得到比较多的。

除此之外当然还有其他比较好的方法。

下面来详细的介绍一下，中文不像英语有那么明显的断词的地方或是标记。

中文需要进行切分，现在就是关于切分就有很多的难点，怎么个切法才能更好地体现出用户的想要查询的意思。

当然首先要做的还是网页内容的抽取，将网页上的内容抽取整理出来。

抽取的方法还是有很多的，就光是信息的抽取，里面涉及到的知识点就非常的多。

第四章具体的后期可以再总结一下，现在的感悟不是很多，也有许多不懂的地方，今天在开始看lucene的源代码，其实是我在图书馆借的一本关于搜索引擎开源代码的讲解类似的书籍，一共借了两本，感觉代码好多，这是第一感觉，我会耐下性子看下去，相信自己会有所收获的。

下面就这本书的第五章开始总结一下自己的观点和想法，第五章讲的是文本索引和搜索，索引是搜索引擎重要的一环。

文本索引一般有三种方法：

倒排索引、后缀数组、签名文档。

这三种类型我在很多的参考书中见到过。

对于第一种倒排索引理解的差不多，当然也有很的变种版本，后两个接触的比较少，只是听说过而已。

我先描述一下什么是后缀数组，在后缀数组中可以将文本看作是一个很长的字符串，文本中的每一个位置都被看做是文本的一个后缀，所以索引的位置可以是每个字符的位置、或是每个单词的位置。

后缀数组就是对文本的所有后缀按照字典序存放每个后缀对应的起始位置的一个列表。

在使用后缀数组前先构造后缀数组，构建结束后使用与分析，其实后缀数组对于大量数据的检索是有一定的局限性的，因为构造出来的后缀数组需要大量的存储空间，通常是原文本的1.7倍，所以说当文本比较大的时候我们通常使用倒排索引来存储我们的数据。

接下来是签名文件的使用，签名文件是基于散列技术的面向单词的索引结构，索引占用的空间大约是原始文档的30%--40%。

但是因为采用这个技术需要顺序比较，时间复杂度为线性，所以这种技术只适合于小规模的文本，在大多数应用中其性能不如倒排索引文件。

在文本的索引技术中我介绍三种比较常见的匹配技术算法：

BF、KMP、BM

其中BF算法最为简单，就是一个字一个字的比较，下面的KMP算法我们在数据结构中学到过，还是一种不错的查找匹配算法，可以说是BF的改进版本。

BM算法确是和KMP截然不同的算法。

BM算法在实际匹配中跳过了很多无用的字符，这些是在前面两个算法中无法实现的关键之处。

当然书中介绍的这些算法之所以提出来肯定有他们各种使用的场合，一般情况下，如果规模很小可以使用BF算法，因为其相当的简单，实现起来也不会很麻烦，而且不需要额外构造跳转表，如果字母表很大可以选择KMP算法因为模式中含有的重复的情况较少，对于长文本来说，BM算法是最佳的选择。

这些都是研究者们在实践生活中总结出来的方法，我们后续的学习者可以借鉴使用，达到高效率的办公、学习、科研。

这些算法我感觉还得自己使用下，在实践中才能获取更多的感悟，实践出真知还是有一定的道理的。

每一次一本书的总结总是感觉蛮不错，起码完本后有一种成就感，虽然现在总结或是每周汇报的内容，都只是理论的内容，在下面的学习中内容是基础，不会放下了，在这基础之上，学习实际的代码部分，开始找个开源的搜索引擎，开始看看，最后改一下源代码实现自己的搜索引擎。

然后开始写小论文，发表，继而大论文的材料也就有了。

听师哥师姐们说发表一篇论文不是件容易的事情，这是个日积月累的过程，也是量变达到质变的过程，需要我们有耐心的年复一年，日复一日的学习与总结，不断的完善自己的学习方法，改进自己的学习方法，不断的提高自己的科研水平与自己读研的动力。

第六章讲的是查询处理技术，用户查询时可以自己选择查询词，不同的查询词所搜索到的结果是不一样的，所以选择适合的关键词才能查询到我们用户想要的信息。

下面说一下我所理解到的查询构造方法，通常有单一词查询，顾名思义，就是由单一的一个单词或是词语组成的查询词，这个根据生活中或是网页上词的频率来搜索关键词的。

还有一组词的查询，我在其他书中见到过一般的通用的比较好的方法是布尔模型和向量空间模型里面的查询，上下文查询，类似于我们人类的思想来查找自己所需要的信息。

里面还涉及到很多的公式，比如布尔模型最为简单，但是也是最为重要的模型之一。

很多的查询都是基于布尔模型的，一般的搜索引擎利用的查询系统就是几个比较好的模型联合在一起进行查询，这样的查询才是高效的，能最好最接近的反应用户的需求。

、

我在一般的搜索引擎，比如XX上进行信息的检索时，或有一个很好的方法，有时自己想要查询一个东西，但是又不太好表达自己的查询，于是输入一个相关的查询词进行信息的查询。

然后在搜索引擎返回到搜索结果中在最下面的导航栏里或是不是导航栏，会出现一个类似用户的相关性反馈的界面，里面还有很多的关键词和自己想查询的相类似。

真的这个方法就是不错，我们在不知道怎么表达自己寻找的那个关键词的时候，给与我们几个相类似的关键词。

我们可以从中选择自己表到类似的。

这种相关性的反馈，也有评价机制，有些相关性反馈是很好的，当然也有很多的是不怎么样的。

在这里就和信息的评价差不多，利用或是根据准确率、召回率、或是文档的相关度来进行评价。

还有一种和相关性反馈差不多的叫做自动搜索扩展技术，也是在同一个地方根据用户的关键词，联想到想要表达什么意思，根据意思产生相同的扩展来达到用户查询的目的。

这一章的知识点不是很多，但是也是后续章节的基础，里面利用到很多的方法，也是前面提到过的，像什么布尔模型、向量空间模型，这些经典的模型，在搜索引擎或是信息检索领域没都是非常出名的。

也是很关键的技术之一。

关于查询，合适搜索引擎唯一一个在线处理的模块，其余大多数时间都是在离线计算网页上的信息，各种抽取信息，然后建立索引什么的，为的就是后续的用户的查询，能满足用户的查询需求就是最好的搜索引擎，也是最好的查询搜索算法所实现的目标。

离这一步还很远。

在搜索引擎这个领域内，很多的研究者们花费很长的时间来优化我们的搜索引擎，从一开始网络爬虫，怎么样来从互联网上进行网页的爬取，怎么样高效的利用相关的算法进行网页信息的爬取，爬取下来后怎么样高效的存储又变成一个至关重要的问题，其中当然也有很多的牛人提出很多的算法，来进行存储，利用缓存，当然这个是为了用户查询时，能够在更短的时间内把用户所需要的信息反馈给他，所有才采用这样的减少时间的技术，在建立索引的时候就有很多的方法来进行时间和空间上的，或是硬件上的改进来满足用户的需求，不仅是算法的改良就可以的，大多数情况下的确是这样的。

搜索引擎的各个构件上的的每一个都是高效的话，那么到最后的查询阶段也就是非常高效的。

这个是理想的情况下的说法。

第七章讲的是WEB检索技术。

介绍了基本的概念以及一些相关的算法，web检索技术与一般的检索技术不一样的地方是，web检索技术是针对互联网上的文本数据的检索技术，一开始早期的搜索引擎有一种是目录式搜索引擎，为的就是满足用户的文本搜索需求。

下面简单的讲一下web搜索或是叫做web检索的工作流程和系统结构，首先是web数据的采集，从互联网上面采集信息下来，然后对网页进行预处理，建立网页正文的数据库，通过建立索引然后方便以后用户的查询，在建立索引的时候还涉及到相关性排序的问题，这个是由相关性排序系统完成的。

前面几个部分和一般的搜索引擎的原理一样，也是离线部分完成的，接一下的是和用户的互动环节，也叫做在线查询部分，这一模块比较重要，也是最关键的部分。

除此之外有一个专门处理用户的行为的分析器，分析出用户对那些信息比较感兴趣，用户在网上进行信息的检索的时候通过用户的行为也可以适当的分析出用户的需求，当然可能只是一部分的需求，整个系统结构的架构是采用分布式的搜索引擎结构，和它极其类似。

用户的数量非常的多，实际的生活中的用户在同一时间内或是同一时刻的查询就非常的多，所以一般来说搜索引擎也好，web检索技术也罢，由前面的讲述可知，搜索引擎是个大的内容，web检索只是其中的一小部分，也是信息检索领域内的一部分。

但是我感觉搜索引擎的原理好像和web检索技术的原理差不多，我在之前的搜一些与信息检索的论文的时候当时只是觉得很奇怪，检索技术和web检索技术有区别吗，还是有其他的检索技术。

这个问题一直高不太清楚，看过一些论文上也是讲了一些和搜索引擎技术上差不多的东西。

在本章中我还了解到web上的数据采集就分为很多的种类，就像之前讲述的网络爬虫怎么获取互联网上的信息资源差不多，有很多的方法，最为常见的方法是基于整个网络的数据采集、增量式数据采集、还有的就是基于主题的数据采集、迁移的数据采集。

基于元搜索引擎的数据采集。

和网络爬虫相当的类似。

写到这里我好像有点迷糊了，第七章本来就是信息检索系统的一部分，当然会和搜索引擎的架构和原理差不多，搜索引擎中利用到的原理技术都是web技术的体现，网页排序算法的研究在本章中也写了出来，很常见的排序算法比如pagerank、hits、多数据融合算法的研究。

展开阅读全文

刘挺的信息检索系统导论 总结Word下载.docx

刘挺的信息检索系统导论总结Word下载.docx