ImageVerifierCode 换一换
格式:PPT , 页数:33 ,大小:740KB ,
资源ID:2653554      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/2653554.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(信息存储与检索复习资料2.ppt)为本站会员(b****2)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

信息存储与检索复习资料2.ppt

1、第二章第二章 信息检索模型信息检索模型 第二章第二章 信息检索模型信息检索模型 信息检索模型概述 1 布尔检索模型 2 向量空间检索模型向量空间检索模型 3 扩展布尔检索模型扩展布尔检索模型 4信息存储与检索技术第一节第一节 信息检索模型概述信息检索模型概述一、信息检索模型的基本概念一、信息检索模型的基本概念1、信息检索模型的概念、信息检索模型的概念信息检索模型(信息检索的数学模型):信息检索模型(信息检索的数学模型):就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表述为某种数学公式,再经过演绎、推断、解释和实践检验,反过来指导信息检索实践。信息检索模型由以下几部

2、分组成:(1)用户的需求表示(2)文档的表示(3)匹配机制最简单的信息检索模型就是单项检索模型。vQ=TkvDocA=(Ta,Tb,Tc)vDocB=(Tb,Tk,Tm)信息检索模型主要从两个方面抽象地研究信息检索方法(P27):v确定在检索模型中如何表示构成检索系统的两个要素,即文档和检索式;v确定在检索模型中如何定义和计算文档与检索式之间的关系。信息存储与检索技术第一节第一节 信息检索模型概述信息检索模型概述一、信息检索模型的基本概念一、信息检索模型的基本概念2、信息检索模型表示、信息检索模型表示一般一个信息检索系统可以形式化地抽象表示为如下的四元组(P28),如下:System=(D,Q

3、,F,R(dj,q)D:信息检索系统的信息资源集合Q:用户信息需求集合F:信息资源与信息需求的匹配处理框架R(dj,q):(相似性)匹配函数信息存储与检索技术第一节第一节 信息检索模型概述信息检索模型概述一、信息检索模型的基本概念一、信息检索模型的基本概念2、信息检索模型表示、信息检索模型表示(1)信息资源集合)信息资源集合DD:用集合论的观点,我们可以把D表示成:D=d1,d2,dn n=0)每篇原始文档信息在检索系统中存储时,一般都要进行必要的加工,生成文档的某种逻辑视图(logic view of document)。文档逻辑视图:文档逻辑视图:通常是由从文档中抽取出的、能表达文档内容的

4、特征项(如索引词)所构成的,是文档的一种形式化表示。文档逻辑视图的生成文档逻辑视图的生成可以通过施加不同的文本操作(或转换)来实现。可以把D看作是全体文档逻辑视图的一个集合体。信息存储与检索技术第一节第一节 信息检索模型概述信息检索模型概述一、信息检索模型的基本概念一、信息检索模型的基本概念2、信息检索模型表示、信息检索模型表示(2)用户信息需求集合)用户信息需求集合Q用户的信息需求有不同的存在状态:v潜在真实需求(Real information Need:RIN);v意识到或感知到的需求(Perception Information Need:PIN);v表达的需求(Request);v提

5、问(Query)这里,我们把用户信息需求集合(Q)简化为用户的提问集合:Qq1,q2,qm注意:(1)提问式也可以理解为用户信息需求的一种逻辑视图表示。(2)在某一检索系统中,使用自然语言表达的用户需求(即Request)一般也要采用与文档类似的形式化表示方法加以表述,以形成满足系统检索语言语法要求的提问式(Query)。信息存储与检索技术第一节第一节 信息检索模型概述信息检索模型概述一、信息检索模型的基本概念一、信息检索模型的基本概念2、信息检索模型表示、信息检索模型表示(3)信息资源与信息需求的匹配处理框架()信息资源与信息需求的匹配处理框架(F)匹配处理框架(F)提供对文档视图、提问式以

6、及它们之间关系进行模型化处理的框架与规则。v布尔模型而言,匹配规则为二值相关性判断,匹配运算主要基于集合论的集合基本运算;v向量空间模型而言,匹配规则采用多值相关性判断,匹配处理建立在代数论的多维向量空间操作基础之上。信息存储与检索技术第一节第一节 信息检索模型概述信息检索模型概述一、信息检索模型的基本概念一、信息检索模型的基本概念2、信息检索模型表示、信息检索模型表示(4)匹配函数)匹配函数R(dj,q)匹配函数R(dj,q)用于计算任一文档dj与任一提问q形成的文档提问对(dj,q)之间的相似度的大小一般R(dj,q)的函数值为一实数,其取值区间为0,1。从数学上来讲,匹配函数的选取,要求

7、能够具备一下特点:计算方法简单,计算量小;函数值在取值区间均匀分布;针对某一提问所获取的相关文档集合,能够实现合理的排序输出。信息存储与检索技术第一节第一节 信息检索模型概述信息检索模型概述一、信息检索模型的基本概念一、信息检索模型的基本概念3、信息检索模型的分类、信息检索模型的分类传统的文本信息检索模型主要有三种:布尔模型、向量空间模型和概率模型,也称经典的信息检索模型。经典信息检索模型的基本假设:(1)被检索对象主要是文档对象;(2)标引词是相互独立的、彼此无关的。(3)所有文档的内容和所需信息的表示都是非常精确的。信息存储与检索技术布尔模型布尔模型(集合论模型):文献和查询用标引词集合来

8、表示,匹配规则为二值相关性判断。向量模型向量模型(代数模型):文献和查询用t维空间的向量来表示,匹配规则采用多值相关性判断。概率模型概率模型(概率模型):检索是文献和查询之间匹配程度的概率估计问题。经典模型(如集合论,代数,概率模型)的各种不同的改进模式:v集合论模型:模糊集合论和扩展布尔模型;v代数模型:广义向量模型、潜语义标引模型和神经网络模型。大多数检索系统往往将各种检索模型混合以达到最佳的检索效果。信息存储与检索技术第二节第二节 布尔检索模型布尔检索模型一、布尔逻辑模型的概念一、布尔逻辑模型的概念文献表示文献表示:每一文献用一组标引词表示,标引词可以是关键词、作者、篇名等能反映文档特征

9、的词。提问表示提问表示:每个提问都表示为提问词(检索词)的布尔组配,称其为布尔逻辑表达式。布尔逻辑表达式指采用布尔运算符(逻辑与“and”、逻辑或“or”、逻辑非“not”等)来连接运算分量(检索词),以及表示运算优先级的括号组成的一种表达检索要求的一种算式,简称提问逻辑式。匹配函数匹配函数:布尔模型对于任一篇文档djD,定义dj与用户提问q的匹配函数为:Sim(dj,q)1:dj中包含有Q的合取向量,dj与Q相关Sim(dj,q)0:dj中不包含有Q的合取向量,dj与Q不相关信息存储与检索技术第二节第二节 布尔检索模型布尔检索模型二布尔逻辑运算符及其运算含义二布尔逻辑运算符及其运算含义常用的

10、布尔逻辑运算符有三种,它们是逻辑或“or”、逻辑与“and”、逻辑非“not”。(1)逻辑或()逻辑或(“or”,逻辑加,),逻辑加,)逻辑或可使检索命中结果的区域扩大,达到了扩检的目的,从而增强了检全率。(2)逻辑与()逻辑与(“and”,逻辑乘,逻辑乘,)通过对检索词之间的与运算,增强了查找的专指性,可提高查准率。以网络搜索引擎为例:见P30。(3)逻辑非)逻辑非“not”(实质上为与非)(实质上为与非)信息存储与检索技术第二节第二节 布尔检索模型布尔检索模型二布尔逻辑运算符及其运算含义二布尔逻辑运算符及其运算含义(4)布尔逻辑运算符的运算次序)布尔逻辑运算符的运算次序 绝大多数检索系统是

11、按照如下规则进行检索运算的:同级运算是从左向右进行的;括号内的逻辑运算优先执行,括号有多层时,最内层括号中的运算最先执行;当检索提问式含有截词符、位置算符、限制符时,布尔运算最后执行;但对于运算符or、and、not,它们的运算优先次序在不同的系统中有着不同的规定:v DIALOG的RECON软件:not最先执行,and其次执行,or最后执行;v STAIRS软件、ORBIT软件:and与not同级,并高于or,它们依其自然顺序执行,or最后执行;v 在UNIVAS上运行的UNIDAS软件:and最先执行,not其次执行,or最后执行。信息存储与检索技术第二节第二节 布尔检索模型布尔检索模型三

12、、传统布尔查询的评价三、传统布尔查询的评价优点:优点:(1)与思维习惯相一致;(2)方便扩检与缩检;(3)易于计算机实现。缺点:缺点:(1)信息集合的标引问题无权重设计(2)用户需求的表示问题v逻辑运算符的理解和应用;v提问词的选择(例如整体与部分)(3)匹配问题:v 二值匹配策略问题相关性排序以及检索结果输出量控制;v匹配标准不尽合理。信息存储与检索技术第三节第三节 向量空间检索模型向量空间检索模型 20世纪60年代末期,Gerard Salton(现代信息检索的奠基人),SMART系统。向量空间检索模型:Vector Space Model,简称VSM 向量空间模型向量空间模型是用提问词和

13、标引词的向量空间来表示用户的查询要求和文档信息,根据向量空间的相似度,排列查询结果。向量空间方法的基本思想要点基本思想要点是:(1)将文档D和查询Q都用向量表示;(2)检索的过程就是计算文档向量和查询向量之间的相似度;(3)根据相似度的不同,对检索结果进行排序。信息存储与检索技术第三节第三节 向量空间检索模型向量空间检索模型一向量空间模型的基本原理一向量空间模型的基本原理(1)文档向量的构造)文档向量的构造考虑到一个有n个记录(文献)的集合:D=d1,d2,dn 对一条属于该集合的特定的文档记录di,可以用属性向量把它表示成:di(ti1,ti2,tim)di就称为文档向量,其中:m:用于描述

14、这些记录的属性的个数,一般情况下,该属性为主题词;tij:表示文献di中具有属性tj(j1,2,m)的程度。把这种程度用数值的形式表示出来,就是人们常说的“加权”。一般来讲,若文献di具有属性tj,则tij1;否则tij0。我们称向量di(ti1,ti2tim)为文档向量文档向量。信息存储与检索技术第三节第三节 向量空间检索模型向量空间检索模型一向量空间模型的基本原理一向量空间模型的基本原理(1)文档向量的构造)文档向量的构造把文档向量di(i1,2,n)看成矩阵C的第i行,那么整个文献集合可以用矩阵C来表示:C=(cij)nm(i1,2,n;j1,2,m)N:是文献集合中文献的篇数;M:是用

15、来标引文献的主题词的个数。我们把矩阵C叫做文献集合的文献属性相关矩阵。文献属性相关矩阵。信息存储与检索技术第三节第三节 向量空间检索模型向量空间检索模型一向量空间模型的基本原理一向量空间模型的基本原理(2)提问向量的构造)提问向量的构造 对于一个特定的提问Q也可以用属性向量把它表示成:Q(q1,q2qm)这里qj(j1,2,m)表示提问Q包含属性tj的程度。信息存储与检索技术第三节第三节 向量空间检索模型向量空间检索模型一向量空间模型的基本原理一向量空间模型的基本原理(3)匹配函数的选择及相似度阈值的确定)匹配函数的选择及相似度阈值的确定 较常采用的相似度计算指标是两个向量夹角的余弦值。按照两

16、个向量夹角余弦的计算含义,文档dj和提问q的相似度值可以通过下面的计算公式获得(P31):1)简单匹配系数:2)余弦系数:信息存储与检索技术第三节第三节 向量空间检索模型向量空间检索模型一向量空间模型的基本原理一向量空间模型的基本原理(3)匹配函数的选择及相似度阈值的确定)匹配函数的选择及相似度阈值的确定利用相关性计算结果,可以:v计算系统中所有文档与某一提问的相似度,并能够按照其相似度值的降序排列方式输出命中的结果文档。v量化地判断系统文档两两之间的相似程度文档相关矩阵D;v量化地判断系统中标引词(属性)两两之间的相似程度属性相关矩阵T;信息存储与检索技术第三节第三节 向量空间检索模型向量空间检索模型 量化地判断系统文档两两之间的相似程度文档相关矩阵D;文献相关矩阵文献相关矩阵D:为了表示文献之间的相关关系,分别计算C矩阵中第i行与第j行之间的相关系数dij,由dij构成的一个nn的矩阵就称作文献相关矩阵。当C矩阵中的值取1和0时,dijk,说明这两篇文献中有k个相同的标引词。矩阵中dij元可以理解成第i篇文献与第j篇文献包含的属性词的重复面的大小,dij越大,说明第i篇文献与第j篇

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1