信息存储与检索复习资料2.ppt

资源描述

信息存储与检索复习资料2.ppt

《信息存储与检索复习资料2.ppt》由会员分享，可在线阅读，更多相关《信息存储与检索复习资料2.ppt（33页珍藏版）》请在冰豆网上搜索。

信息存储与检索复习资料2.ppt

第二章第二章信息检索模型信息检索模型第二章第二章信息检索模型信息检索模型信息检索模型概述1布尔检索模型2向量空间检索模型向量空间检索模型3扩展布尔检索模型扩展布尔检索模型4信息存储与检索技术第一节第一节信息检索模型概述信息检索模型概述一、信息检索模型的基本概念一、信息检索模型的基本概念1、信息检索模型的概念、信息检索模型的概念信息检索模型（信息检索的数学模型）：

信息检索模型（信息检索的数学模型）：

就是运用数学的语言和工具，对信息检索系统中的信息及其处理过程加以翻译和抽象，表述为某种数学公式，再经过演绎、推断、解释和实践检验，反过来指导信息检索实践。

信息检索模型由以下几部分组成：

（1）用户的需求表示

（2）文档的表示（3）匹配机制最简单的信息检索模型就是单项检索模型。

vQ=TkvDocA=（Ta,Tb,Tc）vDocB=（Tb,Tk,Tm）信息检索模型主要从两个方面抽象地研究信息检索方法（P27）：

v确定在检索模型中如何表示构成检索系统的两个要素，即文档和检索式；v确定在检索模型中如何定义和计算文档与检索式之间的关系。

信息存储与检索技术第一节第一节信息检索模型概述信息检索模型概述一、信息检索模型的基本概念一、信息检索模型的基本概念2、信息检索模型表示、信息检索模型表示一般一个信息检索系统可以形式化地抽象表示为如下的四元组（P28），如下：

System=（D,Q,F,R（dj,q）D：

信息检索系统的信息资源集合Q：

用户信息需求集合F：

信息资源与信息需求的匹配处理框架R（dj,q）：

（相似性）匹配函数信息存储与检索技术第一节第一节信息检索模型概述信息检索模型概述一、信息检索模型的基本概念一、信息检索模型的基本概念2、信息检索模型表示、信息检索模型表示

（1）信息资源集合）信息资源集合DD：

用集合论的观点，我们可以把D表示成：

D=d1,d2,dnn=0）每篇原始文档信息在检索系统中存储时，一般都要进行必要的加工，生成文档的某种逻辑视图（logicviewofdocument）。

文档逻辑视图：

通常是由从文档中抽取出的、能表达文档内容的特征项（如索引词）所构成的，是文档的一种形式化表示。

文档逻辑视图的生成文档逻辑视图的生成可以通过施加不同的文本操作（或转换）来实现。

可以把D看作是全体文档逻辑视图的一个集合体。

信息存储与检索技术第一节第一节信息检索模型概述信息检索模型概述一、信息检索模型的基本概念一、信息检索模型的基本概念2、信息检索模型表示、信息检索模型表示

（2）用户信息需求集合）用户信息需求集合Q用户的信息需求有不同的存在状态：

v潜在真实需求（RealinformationNeed：

RIN）；v意识到或感知到的需求（PerceptionInformationNeed：

PIN）；v表达的需求（Request）；v提问（Query）这里，我们把用户信息需求集合（Q）简化为用户的提问集合：

Qq1，q2，qm注意：

（1）提问式也可以理解为用户信息需求的一种逻辑视图表示。

（2）在某一检索系统中，使用自然语言表达的用户需求（即Request）一般也要采用与文档类似的形式化表示方法加以表述，以形成满足系统检索语言语法要求的提问式（Query）。

信息存储与检索技术第一节第一节信息检索模型概述信息检索模型概述一、信息检索模型的基本概念一、信息检索模型的基本概念2、信息检索模型表示、信息检索模型表示（3）信息资源与信息需求的匹配处理框架（）信息资源与信息需求的匹配处理框架（F）匹配处理框架（F）提供对文档视图、提问式以及它们之间关系进行模型化处理的框架与规则。

v布尔模型而言，匹配规则为二值相关性判断，匹配运算主要基于集合论的集合基本运算；v向量空间模型而言，匹配规则采用多值相关性判断，匹配处理建立在代数论的多维向量空间操作基础之上。

信息存储与检索技术第一节第一节信息检索模型概述信息检索模型概述一、信息检索模型的基本概念一、信息检索模型的基本概念2、信息检索模型表示、信息检索模型表示（4）匹配函数）匹配函数R（dj，q）匹配函数R（dj，q）用于计算任一文档dj与任一提问q形成的文档提问对（dj，q）之间的相似度的大小一般R（dj，q）的函数值为一实数，其取值区间为0,1。

从数学上来讲，匹配函数的选取，要求能够具备一下特点：

计算方法简单，计算量小；函数值在取值区间均匀分布；针对某一提问所获取的相关文档集合，能够实现合理的排序输出。

信息存储与检索技术第一节第一节信息检索模型概述信息检索模型概述一、信息检索模型的基本概念一、信息检索模型的基本概念3、信息检索模型的分类、信息检索模型的分类传统的文本信息检索模型主要有三种：

布尔模型、向量空间模型和概率模型，也称经典的信息检索模型。

经典信息检索模型的基本假设：

（1）被检索对象主要是文档对象；

（2）标引词是相互独立的、彼此无关的。

（3）所有文档的内容和所需信息的表示都是非常精确的。

信息存储与检索技术布尔模型布尔模型（集合论模型）：

文献和查询用标引词集合来表示，匹配规则为二值相关性判断。

向量模型向量模型（代数模型）：

文献和查询用t维空间的向量来表示，匹配规则采用多值相关性判断。

概率模型概率模型（概率模型）：

检索是文献和查询之间匹配程度的概率估计问题。

经典模型（如集合论，代数，概率模型）的各种不同的改进模式：

v集合论模型：

模糊集合论和扩展布尔模型；v代数模型：

广义向量模型、潜语义标引模型和神经网络模型。

大多数检索系统往往将各种检索模型混合以达到最佳的检索效果。

信息存储与检索技术第二节第二节布尔检索模型布尔检索模型一、布尔逻辑模型的概念一、布尔逻辑模型的概念文献表示文献表示：

每一文献用一组标引词表示，标引词可以是关键词、作者、篇名等能反映文档特征的词。

提问表示提问表示：

每个提问都表示为提问词（检索词）的布尔组配，称其为布尔逻辑表达式。

布尔逻辑表达式指采用布尔运算符（逻辑与“and”、逻辑或“or”、逻辑非“not”等）来连接运算分量（检索词），以及表示运算优先级的括号组成的一种表达检索要求的一种算式，简称提问逻辑式。

匹配函数匹配函数：

布尔模型对于任一篇文档djD，定义dj与用户提问q的匹配函数为：

Sim（dj,q）1：

dj中包含有Q的合取向量，dj与Q相关Sim（dj,q）0：

dj中不包含有Q的合取向量，dj与Q不相关信息存储与检索技术第二节第二节布尔检索模型布尔检索模型二布尔逻辑运算符及其运算含义二布尔逻辑运算符及其运算含义常用的布尔逻辑运算符有三种，它们是逻辑或“or”、逻辑与“and”、逻辑非“not”。

（1）逻辑或（）逻辑或（“or”，逻辑加，），逻辑加，）逻辑或可使检索命中结果的区域扩大，达到了扩检的目的，从而增强了检全率。

（2）逻辑与（）逻辑与（“and”，逻辑乘，逻辑乘，）通过对检索词之间的与运算，增强了查找的专指性，可提高查准率。

以网络搜索引擎为例：

见P30。

（3）逻辑非）逻辑非“not”（实质上为与非）（实质上为与非）信息存储与检索技术第二节第二节布尔检索模型布尔检索模型二布尔逻辑运算符及其运算含义二布尔逻辑运算符及其运算含义（4）布尔逻辑运算符的运算次序）布尔逻辑运算符的运算次序绝大多数检索系统是按照如下规则进行检索运算的：

同级运算是从左向右进行的；括号内的逻辑运算优先执行，括号有多层时，最内层括号中的运算最先执行；当检索提问式含有截词符、位置算符、限制符时，布尔运算最后执行；但对于运算符or、and、not，它们的运算优先次序在不同的系统中有着不同的规定：

vDIALOG的RECON软件：

not最先执行，and其次执行，or最后执行；vSTAIRS软件、ORBIT软件：

and与not同级，并高于or，它们依其自然顺序执行，or最后执行；v在UNIVAS上运行的UNIDAS软件：

and最先执行，not其次执行，or最后执行。

信息存储与检索技术第二节第二节布尔检索模型布尔检索模型三、传统布尔查询的评价三、传统布尔查询的评价优点：

优点：

（1）与思维习惯相一致；

（2）方便扩检与缩检；（3）易于计算机实现。

缺点：

（1）信息集合的标引问题无权重设计

（2）用户需求的表示问题v逻辑运算符的理解和应用；v提问词的选择（例如整体与部分）（3）匹配问题：

v二值匹配策略问题相关性排序以及检索结果输出量控制；v匹配标准不尽合理。

信息存储与检索技术第三节第三节向量空间检索模型向量空间检索模型20世纪60年代末期，GerardSalton（现代信息检索的奠基人），SMART系统。

向量空间检索模型：

VectorSpaceModel,简称VSM向量空间模型向量空间模型是用提问词和标引词的向量空间来表示用户的查询要求和文档信息，根据向量空间的相似度，排列查询结果。

向量空间方法的基本思想要点基本思想要点是：

（1）将文档D和查询Q都用向量表示；

（2）检索的过程就是计算文档向量和查询向量之间的相似度；（3）根据相似度的不同，对检索结果进行排序。

信息存储与检索技术第三节第三节向量空间检索模型向量空间检索模型一向量空间模型的基本原理一向量空间模型的基本原理

（1）文档向量的构造）文档向量的构造考虑到一个有n个记录（文献）的集合：

D=d1，d2，dn对一条属于该集合的特定的文档记录di，可以用属性向量把它表示成：

di（ti1，ti2，tim）di就称为文档向量，其中：

m：

用于描述这些记录的属性的个数，一般情况下，该属性为主题词；tij：

表示文献di中具有属性tj（j1，2，m）的程度。

把这种程度用数值的形式表示出来，就是人们常说的“加权”。

一般来讲，若文献di具有属性tj，则tij1；否则tij0。

我们称向量di（ti1，ti2tim）为文档向量文档向量。

信息存储与检索技术第三节第三节向量空间检索模型向量空间检索模型一向量空间模型的基本原理一向量空间模型的基本原理

（1）文档向量的构造）文档向量的构造把文档向量di（i1，2，n）看成矩阵C的第i行，那么整个文献集合可以用矩阵C来表示：

C=（cij）nm（i1，2，n；j1，2，m）N:

是文献集合中文献的篇数；M:

是用来标引文献的主题词的个数。

我们把矩阵C叫做文献集合的文献属性相关矩阵。

文献属性相关矩阵。

信息存储与检索技术第三节第三节向量空间检索模型向量空间检索模型一向量空间模型的基本原理一向量空间模型的基本原理

（2）提问向量的构造）提问向量的构造对于一个特定的提问Q也可以用属性向量把它表示成：

Q（q1，q2qm）这里qj（j1，2，m）表示提问Q包含属性tj的程度。

信息存储与检索技术第三节第三节向量空间检索模型向量空间检索模型一向量空间模型的基本原理一向量空间模型的基本原理（3）匹配函数的选择及相似度阈值的确定）匹配函数的选择及相似度阈值的确定较常采用的相似度计算指标是两个向量夹角的余弦值。

按照两个向量夹角余弦的计算含义，文档dj和提问q的相似度值可以通过下面的计算公式获得（P31）：

1）简单匹配系数：

2）余弦系数：

信息存储与检索技术第三节第三节向量空间检索模型向量空间检索模型一向量空间模型的基本原理一向量空间模型的基本原理（3）匹配函数的选择及相似度阈值的确定）匹配函数的选择及相似度阈值的确定利用相关性计算结果，可以：

v计算系统中所有文档与某一提问的相似度，并能够按照其相似度值的降序排列方式输出命中的结果文档。

v量化地判断系统文档两两之间的相似程度文档相关矩阵D；v量化地判断系统中标引词（属性）两两之间的相似程度属性相关矩阵T；信息存储与检索技术第三节第三节向量空间检索模型向量空间检索模型量化地判断系统文档两两之间的相似程度文档相关矩阵D；文献相关矩阵文献相关矩阵D：

为了表示文献之间的相关关系，分别计算C矩阵中第i行与第j行之间的相关系数dij，由dij构成的一个nn的矩阵就称作文献相关矩阵。

当C矩阵中的值取1和0时，dijk，说明这两篇文献中有k个相同的标引词。

矩阵中dij元可以理解成第i篇文献与第j篇文献包含的属性词的重复面的大小，dij越大，说明第i篇文献与第j篇

展开阅读全文