信息检索Word下载.docx

资源描述

信息检索Word下载.docx

《信息检索Word下载.docx》由会员分享，可在线阅读，更多相关《信息检索Word下载.docx（10页珍藏版）》请在冰豆网上搜索。

信息检索Word下载.docx

该系统普遍适用于Internet、电子商务等分布式系统中的信息检索,具有理论价值和应用价值。

关键词　智能信息检索,Internet,个性化,软件智能体Agent

1　引　言

近年来,智能信息检索（intelligentinformationretrieval）作为人工智能（AI）的一个独立研究分支得到了迅速发展。

在Internet技术迅速普及的今天,面向Internet的信息获取与精化技术已成为当代计算机科学与技术领域中迫切需要研究的课题,将人工智能技术应用于这一领域是人工智能走向应用的一种新的契机与突破口。

由于Internet是一个开放、分布的信息空间,它本身所固有的3个特点已经明显地阻碍了人们充分地使用Internet上的信息资源:

（1）Internet上可利用的信息是无组织的,多种结构形式的,并且分布在全世界的各个站点上;

（2）数据和服务的类型以及数量每天都在大量增加。

因而信息可利用性和可靠性也在不断地变化;

（3）由于信息源的动态性以及潜在的有用信息的更新和保存问题,信息常常是模糊的,有时甚至是错误的。

由于上述原因,在Internet上进行信息检索经常会出现“信息过载”,即网上的信息是海量和无组织的,易发生“资源迷向”,即用户不知道如何更加有效地利用源等问题。

对于Internet这样一个分布的信息空间,采用分布式人工智能方法是实现人机交互学习的一种较好的方法,它可以代替人类完成繁杂信息的收集、过滤、聚类以及融合等任务。

分布式人工智能研究中的两大方向,即分布式问题求解（DPS）和多智能体系统（MAS）,是属于同一研究范畴的两个方面。

MAS是人工智能技术与传统技术相结合的产物,用MAS处理像Internet这样具有异构、分布、动态、规模大及自主特性的系统,是人工智能技术在信息处理方面的一个崭新的应用。

尽管有关智能体（Agent）的理论与技术已被成功地应用于许多应用领域,但对Agent在分布式环境下信息检索的应用研究必将会促进人工智能、信息处理等相关领域进一步向前发展。

为了实现信息检索的智能化,人们将人工智能技术引入到信息检索中,已经研究出了各种智能信息检索方法,提出了许多智能型检索系统模型,主要分为两大类:

一类是基于机器学习的大范围信息检索系统,另一类是智能化的用户个性化信息检索系统。

人们在进行信息检索时,总是抱有两种期望,一种是期望找到所有与感兴趣的主题相关的文档,也即期望获得高检索率,同时又不希望包含与主题不相关的文档,也就是期望获得高检索精度,要实现这两点常常是非常困难的。

尤其是在Internet这个开放的信息空间中实现这个目标更加困难,这是因为用户不但需要提交高质量的检索提问方式,而且还要知道信息源位于何处,这对一般用户来说不易做到。

因此,人们希望探索一种智能化的信息检索方法。

针对这一问题,目前已经提出了各种探索方法,如基于机器学习和人工智能的方法,以及近年来发展起来的基于Agent的智能信息检索。

从当前和将来发展的观点看,分布式软件智能体Agent方法是实现人机交互学习,代替人们从事繁杂信息收集、过滤、聚类以及信息融合的更好方法，尤其是应用在用户个性化智能信息检索方面,以及实现对现有传统信息检索系统的智能化接口封装上。

2现有系统的缺陷和解决方案

综上所述,智能信息检索尤其个性化智能信息检索系统是帮助人们快速获取信息的有效手段。

然而,现有系统仍然存在如下一些缺陷或不足。

（1）非个性化检索方式适应用户兴趣变化的能力较差。

现有大部分信息检索系统采用关键词输入方式进行检索,对任何用户都是一种模式,很容易让用户感到迷茫,使得用户无法准确地表述自己的兴趣。

尽管有些系统为此进行了改进,确实改善了检索效率。

但是,由于没有不同个性化模式之间的相互学习和信息共享机制,因而不能很好地适应用户兴趣变化。

（2）没有综合利用个性化检索和集中浏览的各自优点。

现有信息检索系统不是注重发展大范围信息检索系统,就是注重解决特定需求信息检索问题,没有综合地考虑这两种检索方式的优点。

（3）用户与检索系统的交互方式比较单调。

现有系统普遍采用相关反馈技术作为用户和系统进行交互的主要手段。

针对不同需求的用户,提供不同的输入方式是目前现有系统所缺少的。

（4）缺少分布式智能信息检索和适应信息源信息变化的能力。

现有系统主要通过学习用户的历史关联信息,在线引导用户检索感兴趣的信息。

这种为用户导航的方式每次只能浏览一个站点,效益比较低,而且无法避免用户浏览以前已经浏览过而现在不需再看的文档或链接。

此外,由于没有有效地适应信息源信息变化的机制,不能及时为用户提供新的信息,因而无法为用户快速定位感兴趣的主题。

针对上述问题,我们设计了一个面向Internet的个性化信息检索系统,下面详细介绍该系统。

3个性化智能信息检索系统

我们设计了一个面向Internet的个性化信息检索系统,采用分布式智能体Agent技术适用于Internet上文档的并行查询与检索，该系统能够满足人们在信息检索时的个性化要求,反映了当前及今后信息检索领域发展的趋势。

该信息检索系统从用户的角度出发,为了满足不同用户个性化检索的需求,采用相关反馈学习算法和基于多用户个性化模式的层次智能信息滤波算法,过滤掉了大量不相关文档,有效地消除了用户迷茫问题。

采用用户与用户Agent以及用户Agent与信息Agent的交互机制,智能化适应用户兴趣的变化及环境的变化。

此外,采用个性化检索和集中浏览相结合的检索方式,使得用户使用起来灵活、方便,得心应手。

3.1　系统结构

该系统由二层Agent结构组成,第一层是用户接口Agent,简称用户Agent,第二层是信息检索管理Agent简称信息Agent,如图1所示。

每个用户一个Agent,表示一个用户个性化模式,其主要功能是负责实现与用户Agent和信息检索管理Agent的交互任务、相关反馈学习任务、个性化模式产生和信息过滤以及相关的策略。

信息Agent主要负责处理与WWW上的各种商业化信息检索系统的交互,其作用相当于一个检索领域专家,是一种中介搜索引擎,具有交互和协调能力,同时又起到对传统数据库信息检索系统的智能Agent封装作用。

此外,为了支持个性化的全局浏览检索,在信息Agent的本地上,聚类部分相关的文档,即用户以往检索过的感兴趣文档。

3．2　系统特点

该系统具有以下特点:

（1）实现浏览式检索与用户个性化检索的有机结合;

（2）快速自适应用户兴趣的变化和环境的变化;

（3）智能化检索用户感兴趣的Web文档;

（4）自动过滤不相关文档,提高检索精度和效率.

4系统模块的实现

在介绍系统模块之前先介绍本系统中的文档模型和文档相似度计算模型。

4.1　文档矢量空间模型

4.1.1　文献或文档的矢量空间表示

设D是一个包含m篇文献的文献集合

文献集合中的任一文献di可以表示为标引词空间中的一个n维矢量

　　其中,dij为文献di的第j个标引词分量。

本系统中文档矢量有以下几种表示方法:

（1）简单的二值矢量表示

　　其中Tij是术语Tj在文档之中的出现次数,log（N/nj）表示术语Tj的倒置文档频次,N是文档数据库中文档总数,nj是文献数据库含有术语Tj的文档数。

4.1.2文档相似度计算方法

假设用

分别表示第i个和j个文档矢量,我们采用余弦系数法计算文档的相似度:

在系统的相关反馈学习、信息滤波及文档聚类中都用该公式计算文档矢量之间的相似度或文档矢量与类中心矢量的相似度。

4.2用户接口Agent

用户接口Agent结构如图2所示,采用面向用户个性化模式进行设计,用层次类结构描述用户接口Agent顶层是用户个性化描述类,包含若干个完成特定功能的属性类,如显示结果模式类、相关反馈学习类、信息滤波类、用户个性化模式形成和管理类、通信方式类等。

这些属性类又有自己的属性类,如此逐层深入。

属性类都是动态可变的,比如运行时的功能、状态是可变的。

用户开始一项个性化查询q0（可能是不完全信息）,通过与个性化模式库中模式的类比学习,产生精化了的个性化检索模式,提交给信息Agent协调模块选择相关信息检索引擎进行检索。

返回的检索结果通过信息滤波,过滤掉不相关文档,送显示模块显示。

用户通过浏览返回的结果,确认是否为感兴趣文档,若为感兴趣文档,就提交给用户相关反馈文档模块并进行聚类,产生个性化模式,同时存在该用户的个性化模式库中。

如果用户对返回的结果不满意,也可将确认的结果提交给强化学习模块,进行交互学习,进一步精化检索结果。

用户Agent中包含以下主要算法或模块:

（1）用户Agent以及用户Agent与信息Agent的交互;

（2）相关反馈学习算法,分为离线无教师学习算法和在线启发式学习算法;

（3）信息滤波算法;

（4）用户个性化模式生成算法;

（5）信息Agent的选择算法;

（6）通信模式和机制。

其中,相关反馈学习算法、信息滤波算法、用户个性化模式产生算法、通信模式和机制等是用户Agent的核心算法.

4.2.1　相关反馈学习算法

由于信息环境和用户兴趣变化不定,本系统在相关反馈学习算法中采用了相应的应变策略,即采用离线无教师学习算法和在线启发式学习算法相结合来实现相关反馈学习算法。

（1）无教师学习算法,如下面将要介绍的基于多层SOM的聚类算法等,用于离线方式情况,由下列4步实现:

步骤1:

提取样本文档关键词矢量;

步骤2:

主题域词加权矢量的生成;

步骤3:

层次聚类;

步骤4:

个性化模式形成。

其中主题域词矢量生成步骤如图3所示。

（2）在线启发式学习方法。

步骤如下:

提取反馈文档的关键词;

用基于提取的词进行分类决策树的学习;

转化决策树为检索矢量;

重复上述步骤直到用户满意为止。

首先采用离线方式实现无教师学习算法,产生高质量的用户个性化模式。

我们设计一种定时机制,在每天夜里执行该算法,然后完成用户个性化模式的更新。

若用户在一段时间内感兴趣的主题发生了变化,有可能与系统储存的个性化模式毫不相关,这时就选择在线启发式学习方法。

4.2.2信息滤波

信息滤波的目的主要有两点,即过滤掉不相关的文档以及将相关文档列表分为新的文档和已经查阅过的文档,并按相似度大小排序。

对已检索的相关文档,通知信息Agent不必返回全文文档,以减少通信费用。

信息滤波方法种类繁多,我们采用基于层次的智能信息滤波算法,并利用用户个性化模式对信息过滤,主要步骤如下:

搜索已检索文档标题表,判定反馈文档标题是否属于已检索文档;

生成主题域词矢量;

层次分类、计算相似度;

步骤5:

按相似度大小过滤反馈文档。

通过信息滤波,与用户个性化模式不相关的文档或用户不感兴趣文档被过滤掉了,反馈的结果都是用户感兴趣的文档,并按相似

展开阅读全文