ImageVerifierCode 换一换
格式:DOCX , 页数:10 ,大小:188.05KB ,
资源ID:2977689      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/2977689.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(信息检索.docx)为本站会员(b****3)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

信息检索.docx

1、信息检索信 息 检 索 课 程 考 查 论 文学 号 姓 名 系 别 年 级 专 业 面向Internet 的个性化智能信息检索摘要文中提出了一个面向Interne的个性化智能信息检索系统,该系统的研究内容属目前智能信息检索领域的重要研究课题。系统采用分布式智能体Agent技术、相关反馈学习算法和基于多用户个性化模式的层次智能信息滤波算法,并采用多模块之间在线交互机制和个性化检索与集中浏览相结合的检索方式等方法,有效地解决了现有系统在交互方式、自适应用户兴趣和信息源的变化、高效并行检索等方面的不足。该系统普遍适用于Internet 、电子商务等分布式系统中的信息检索,具有理论价值和应用价值。关

2、键词智能信息检索,Internet,个性化,软件智能体Agent1引言近年来, 智能信息检索( intelligent information retrieval ) 作为人工智能( AI) 的一个独立研究分支得到了迅速发展。 在Inter net 技术迅速普及的今天, 面向Inter net 的信息获取与精化技术已成为当代计算机科学与技术领域中迫切需要研究的课题, 将人工智能技术应用于这一领域是人工智能走向应用的一种新的契机与突破口。由于Internet 是一个开放、分布的信息空间,它本身所固有的3个特点已经明显地阻碍了人们充分地使用Internet 上的信息资源:( 1) Internet

3、 上可利用的信息是无组织的,多种结构形式的,并且分布在全世界的各个站点上;( 2) 数据和服务的类型以及数量每天都在大量增加。因而信息可利用性和可靠性也在不断地变化;( 3) 由于信息源的动态性以及潜在的有用信息的更新和保存问题, 信息常常是模糊的,有时甚至是错误的。由于上述原因, 在Internet上进行信息检索经常会出现“信息过载”,即网上的信息是海量和无组织的,易发生“资源迷向”,即用户不知道如何更加有效地利用源等问题。对于Inter net 这样一个分布的信息空间,采用分布式人工智能方法是实现人机交互学习的一种较好的方法,它可以代替人类完成繁杂信息的收集、过滤、聚类以及融合等任务。分布

4、式人工智能研究中的两大方向, 即分布式问题求解( DPS) 和多智能体系统( MAS) ,是属于同一研究范畴的两个方面。MAS 是人工智能技术与传统技术相结合的产物,用MAS 处理像Internet 这样具有异构、分布、动态、规模大及自主特性的系统,是人工智能技术在信息处理方面的一个崭新的应用。尽管有关智能体( Agent ) 的理论与技术已被成功地应用于许多应用领域,但对Agent在分布式环境下信息检索的应用研究必将会促进人工智能、信息处理等相关领域进一步向前发展。为了实现信息检索的智能化,人们将人工智能技术引入到信息检索中, 已经研究出了各种智能信息检索方法,提出了许多智能型检索系统模型,

5、 主要分为两大类: 一类是基于机器学习的大范围信息检索系统,另一类是智能化的用户个性化信息检索系统。人们在进行信息检索时, 总是抱有两种期望, 一种是期望找到所有与感兴趣的主题相关的文档, 也即期望获得高检索率, 同时又不希望包含与主题不相关的文档, 也就是期望获得高检索精度, 要实现这两点常常是非常困难的。尤其是在Inter net 这个开放的信息空间中实现这个目标更加困难, 这是因为用户不但需要提交高质量的检索提问方式,而且还要知道信息源位于何处, 这对一般用户来说不易做到。因此,人们希望探索一种智能化的信息检索方法。 针对这一问题,目前已经提出了各种探索方法,如基于机器学习和人工智能的方

6、法, 以及近年来发展起来的基于Agent的智能信息检索。从当前和将来发展的观点看,分布式软件智能体Agent方法是实现人机交互学习, 代替人们从事繁杂信息收集、过滤、聚类以及信息融合的更好方法,尤其是应用在用户个性化智能信息检索方面,以及实现对现有传统信息检索系统的智能化接口封装上。2 现有系统的缺陷和解决方案综上所述,智能信息检索尤其个性化智能信息检索系统是帮助人们快速获取信息的有效手段。然而,现有系统仍然存在如下一些缺陷或不足。( 1) 非个性化检索方式适应用户兴趣变化的能力较差。现有大部分信息检索系统采用关键词输入方式进行检索,对任何用户都是一种模式,很容易让用户感到迷茫, 使得用户无法

7、准确地表述自己的兴趣。尽管有些系统为此进行了改进, 确实改善了检索效率。但是,由于没有不同个性化模式之间的相互学习和信息共享机制, 因而不能很好地适应用户兴趣变化。( 2) 没有综合利用个性化检索和集中浏览的各自优点。现有信息检索系统不是注重发展大范围信息检索系统,就是注重解决特定需求信息检索问题, 没有综合地考虑这两种检索方式的优点。( 3) 用户与检索系统的交互方式比较单调。现有系统普遍采用相关反馈技术作为用户和系统进行交互的主要手段。针对不同需求的用户,提供不同的输入方式是目前现有系统所缺少的。( 4) 缺少分布式智能信息检索和适应信息源信息变化的能力。现有系统主要通过学习用户的历史关联

8、信息,在线引导用户检索感兴趣的信息。这种为用户导航的方式每次只能浏览一个站点,效益比较低,而且无法避免用户浏览以前已经浏览过而现在不需再看的文档或链接。此外,由于没有有效地适应信息源信息变化的机制,不能及时为用户提供新的信息,因而无法为用户快速定位感兴趣的主题。针对上述问题,我们设计了一个面向Internet的个性化信息检索系统,下面详细介绍该系统。3 个性化智能信息检索系统我们设计了一个面向Internet的个性化信息检索系统,采用分布式智能体Agent技术适用于Internet上文档的并行查询与检索,该系统能够满足人们在信息检索时的个性化要求,反映了当前及今后信息检索领域发展的趋势。该信息

9、检索系统从用户的角度出发,为了满足不同用户个性化检索的需求,采用相关反馈学习算法和基于多用户个性化模式的层次智能信息滤波算法,过滤掉了大量不相关文档,有效地消除了用户迷茫问题。采用用户与用户Agent以及用户Agent与信息Agent的交互机制,智能化适应用户兴趣的变化及环境的变化。此外,采用个性化检索和集中浏览相结合的检索方式,使得用户使用起来灵活、方便,得心应手。3. 1系统结构该系统由二层Agent结构组成,第一层是用户接口Agent,简称用户Agent,第二层是信息检索管理Agent简称信息Agent,如图1所示。每个用户一个Agent,表示一个用户个性化模式, 其主要功能是负责实现与

10、用户Agent 和信息检索管理Agent的交互任务、相关反馈学习任务、个性化模式产生和信息过滤以及相关的策略。信息Agent主要负责处理与WWW上的各种商业化信息检索系统的交互,其作用相当于一个检索领域专家,是一种中介搜索引擎,具有交互和协调能力,同时又起到对传统数据库信息检索系统的智能Agent封装作用。此外,为了支持个性化的全局浏览检索,在信息Agent的本地上,聚类部分相关的文档,即用户以往检索过的感兴趣文档。32系统特点该系统具有以下特点:( 1) 实现浏览式检索与用户个性化检索的有机结合;( 2) 快速自适应用户兴趣的变化和环境的变化;( 3) 智能化检索用户感兴趣的Web 文档;(

11、 4) 自动过滤不相关文档, 提高检索精度和效率.4 系统模块的实现在介绍系统模块之前先介绍本系统中的文档模型和文档相似度计算模型。4.1 文档矢量空间模型4.1.1文献或文档的矢量空间表示设D 是一个包含m 篇文献的文献集合文献集合中的任一文献di 可以表示为标引词空间中的一个n 维矢量其中, dij 为文献di的第j个标引词分量。本系统中文档矢量有以下几种表示方法:( 1) 简单的二值矢量表示其中T ij 是术语Tj 在文档之中的出现次数, log ( N / nj ) 表示术语T j 的倒置文档频次, N 是文档数据库中文档总数, nj 是文献数据库含有术语T j 的文档数。4.1.2

12、文档相似度计算方法假设用分别表示第i个和j个文档矢量, 我们采用余弦系数法计算文档的相似度:在系统的相关反馈学习、信息滤波及文档聚类中都用该公式计算文档矢量之间的相似度或文档矢量与类中心矢量的相似度。4.2 用户接口Agent用户接口Agent 结构如图2 所示,采用面向用户个性化模式进行设计, 用层次类结构描述用户接口Agent顶层是用户个性化描述类,包含若干个完成特定功能的属性类,如显示结果模式类、相关反馈学习类、信息滤波类、用户个性化模式形成和管理类、通信方式类等。这些属性类又有自己的属性类,如此逐层深入。属性类都是动态可变的,比如运行时的功能、状态是可变的。用户开始一项个性化查询q0

13、( 可能是不完全信息),通过与个性化模式库中模式的类比学习,产生精化了的个性化检索模式,提交给信息Agent协调模块选择相关信息检索引擎进行检索。返回的检索结果通过信息滤波,过滤掉不相关文档,送显示模块显示。用户通过浏览返回的结果,确认是否为感兴趣文档,若为感兴趣文档,就提交给用户相关反馈文档模块并进行聚类,产生个性化模式,同时存在该用户的个性化模式库中。如果用户对返回的结果不满意,也可将确认的结果提交给强化学习模块,进行交互学习,进一步精化检索结果。 用户Agent 中包含以下主要算法或模块:( 1) 用户Agent以及用户Agent与信息Agent的交互;( 2) 相关反馈学习算法,分为离

14、线无教师学习算法和在线启发式学习算法;( 3) 信息滤波算法;( 4) 用户个性化模式生成算法;( 5) 信息Agent的选择算法;( 6) 通信模式和机制。其中,相关反馈学习算法、信息滤波算法、用户个性化模式产生算法、通信模式和机制等是用户Agent的核心算法.4.2.1相关反馈学习算法由于信息环境和用户兴趣变化不定,本系统在相关反馈学习算法中采用了相应的应变策略,即采用离线无教师学习算法和在线启发式学习算法相结合来实现相关反馈学习算法。( 1) 无教师学习算法,如下面将要介绍的基于多层SOM 的聚类算法等,用于离线方式情况,由下列4步实现:步骤1: 提取样本文档关键词矢量;步骤2: 主题域

15、词加权矢量的生成;步骤3: 层次聚类;步骤4: 个性化模式形成。其中主题域词矢量生成步骤如图3 所示。( 2) 在线启发式学习方法。 步骤如下:步骤1: 提取反馈文档的关键词;步骤2: 用基于提取的词进行分类决策树的学习;步骤3: 转化决策树为检索矢量;步骤4: 重复上述步骤直到用户满意为止。首先采用离线方式实现无教师学习算法,产生高质量的用户个性化模式。我们设计一种定时机制,在每天夜里执行该算法,然后完成用户个性化模式的更新。 若用户在一段时间内感兴趣的主题发生了变化,有可能与系统储存的个性化模式毫不相关, 这时就选择在线启发式学习方法。4.2.2 信息滤波信息滤波的目的主要有两点,即过滤掉不相关的文档以及将相关文档列表分为新的文档和已经查阅过的文档,并按相似度大小排序。对已检索的相关文档, 通知信息Agent不必返回全文文档, 以减少通信费用。信息滤波方法种类繁多, 我们采用基于层次的智能信息滤波算法,并利用用户个性化模式对信息过滤,主要步骤如下:步骤1: 搜索已检索文档标题表,判定反馈文档标题是否属于已检索文档;步骤2: 提取反馈文档的关键词;步骤3: 生成主题域词矢量;步骤4: 层次分类、计算相似度;步骤5: 按相似度大小过滤反馈文档。通过信息滤波,与用户个性化模式不相关的文档或用户不感兴趣文档被过滤掉了,反馈的结果都是用户感兴趣的文档,并按相似

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1