信息检索研究现状.docx
《信息检索研究现状.docx》由会员分享,可在线阅读,更多相关《信息检索研究现状.docx(14页珍藏版)》请在冰豆网上搜索。
信息检索研究现状
引言
信息检索的目标是"所得即所需"。
一个具体的体现就是:
不同的用户在使用同样查询的时候可能获得不同的结果;更进一步,同一个用户在不同时间或者不同地点发出同样的查询可能获得不同的结果。
例如,同一个用户对"java"信息的需求:
在工作时间希望得到有关编程语言java的相关文档,在休息时间希望得到有关java岛的旅游信息。
为了达到这样的目的,检索系统需要充分地理解并掌握检索活动的主体〔用户〕和客体〔资源〕。
面对这样的挑战,人们一方面在信息资源端做工作,提出了语义网〔SemanticWeb,也称为语义Web〕的概念,使得检索系统能够更好地理解内容,从而使检索结果更符合检索的条件;另一方面是在用户端做工作,通过各种手段获得用户的特征信息并进行用户建模,使用用户个性化信息来修正查询条件,从而改善检索结果。
这两个方面的研究对达到"所得即所需"的目标起到了很大的推动作用。
尽管语义网和用户建模技术极大地提高了检索系统的智能化、个性化水平,但是,人们也已经意识到,将资源和用户分开来考虑,难以达到"所得即所需"的目标。
必须用系统的观点来看待信息检索活动,也就是说,用户检索的结果应该是特定"环境"下的结果,这个环境就是检索过程的上下文〔context〕。
考虑了上下文的检索称为上下文信息检。
1上下文信息检索的概念
WordNet是Princeton大学的心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。
在WordNet2.1中,上下文〔context〕被定义如下:
1〕语言学上下文,即在一个语言单位附近的片断,用以帮助解释该语言单位。
2〕环境,即一种情形或事件发生于其中的环境和背景。
信息检索领域中,上下文最初是指"自然语言处理中的文档片段",专门用于自然语言学中指代短语或句子在实际应用中的语言环境。
它在自然语言处理中的价值体现在两个方面:
一方面,在自然语言知识获取的过程中,上下文是知识获取的来源,在相应推理机制下,上下文本身就是知识;另一方面,在自然语言处理的应用问题解决过程中,上下文扮演着解决问题所需信息和资源提供者的重要角色。
从20世纪中期开始发展的信息检索系统,基本上是千人一面,不同用户提出同一查询,得到的答案完全相同。
这种模式带来的最大问题就是不够人性化,难以准确地满足不同用户的个性化需求。
所以,人们最先关注的是和用户有关的上下文,即把用户有关的信息引入检索系统以满足用户的"所得即所需"。
文献[6]于20xx总结的Web搜索中的上下文信息主要包括和用户查询意图以与用户查询表达相关的信息。
文献[7]也指出上下文和个性化检索紧密相关,用来帮助提高用户检索体验,需要理解每一个用户查找信息的模式习惯、用户目标,以与信息本身。
然而,对信息检索系统而言,可利用的上下文并不仅限于此。
20xx9月在MassachusettsAmherst大学智能信息检索中心〔theCenterforIntelligentInformationRetrieval〕召开的关于智能信息检索未来研究方向和发展的研讨会上,许多信息检索领域顶级研究者经过讨论给出了上下文信息检索定义[8],即:
定义1〔上下文信息检索,ContextualInformationRetrieval,CIR>就是把有关用户、查询的上下文知识和信息检索技术融合在一起,统一组织在一个整体框架内,以向用户提供最适合用户需求的检索信息。
随着人们对CIR的关注,20xx第12届TREC〔TextRetrievalConference〕国际会议第一次增加了HARD评测〔HighAccuracyRetrievalfromDocumentsTrack〕。
HARD评测的目的是考察用户与其相关信息对检索过程和检索结果评估的影响,即考察信息检索过程中上下文〔如用户地域特点、文档风格等上下文信息〕对信息检索性能的影响。
20xx第1届IRiX〔InformationRetrievalinContext〕研讨会在第27届SIGIR上举行,并一举成为SIGIR2004上参会人数最多、最受人关注的研讨会。
该研讨会的总目标是如何在信息检索过程中考虑上下文因素以提高用户信息需求满意度。
在该研讨会上,信息检索领域中的上下文定义如下。
定义2〔上下文,Context〕信息检索中的上下文包括一切与检索查询相关的任务信息、交互历史信息、用户信息等明确给出或隐含在检索交互环境中的相关信息。
从定义2中可以看出,只要和用户检索过程相关的一切隐含或明确的信息都将是智能个性化信息检索的上下文,都可能用于优化检索系统,提高检索性能。
因此,智能信息检索的上下文实际上是无所不在,无处不在。
事实上,从20世纪90年代后期以来,围绕信息检索、信息推荐等信息服务系统的上下文的研究就层出不穷,有许多研究成果已经成功运用在实际系统中来帮助提高效率和性能,如针对用户兴趣的相关反馈技术、针对Web文档内容的PageRank技术、针对用户访问历史记录的Web日志分析技术等,并取得了一系列重要成果。
这为人们进一步挖掘可用上下文以帮助提高检索效果树立了信心,指明了方向。
在20xx欧洲信息检索大会上〔EuropeanConferenceOnInformationRetrieval,ECIR〕,Yahoo公司新兴搜索技术部门的AndreiBroder指出上下文信息不仅在当前第三代搜索引擎实现满足"查询背后的需求"〔theneedbehindthequery〕目标中起着关键作用,更在未来第四代搜索引擎实现"上下文驱动的信息推送"〔contextdriveninformationsupply〕目标中占据主导地位。
2CIR中的上下文因素与其分类
2.1学术界的观点
PeterIngwersen等人把信息检索系统中涉与的上下文因素抽象概括为六大因素,表示为一个上下文分层嵌套模型〔NestedModelofcontextstratificationforIR〕,如图1所示。
该模型作者认为,传统信息检索技术更多的是关注检索对象本身以与检索对象之间的特征,如词语、段落以与文档内容的超级等;如今,信息检索系统的上下文技术开始转向用户检索对话过程中〔session-time〕可获取的上下文信息,如鼠标移动、打印保存等操作,即转向从交互式过程中获取用户的上下文信息。
图1PeterIngwersen等人提出的分层嵌套的上下文模型
20xxIRiX〔InformationRetrievalinContext〕研讨会上研究者则把信息检索中的上下文看作是包含了信息检索过程中涉与的各种因素的超类,把各种因素不同取值之间的组合看作情景〔Situation〕,把每种因素的取值可能性看作是任务〔Task〕。
上下文中包含的因素主要是3个方面的,分别是系统、用户和环境。
其中每一方面的因素又包含多种因素,如用户方面包括动机〔Motivation〕、知识〔Knowledge〕、历史〔History〕和个体差异〔Individualdifferences〕等,系统方面包括资源〔Resource〕、检索模型〔RetrievalModel〕、设备〔Device〕、接口〔Interface〕等方面。
2.2产业界的观点
AndreiBroder在20xx欧洲信息检索大会上强调了当前和未来上下文信息在信息检索过程中的重要性,指出当前第三代检索技术是依赖上下文信息满足"查询背后的需求",并提出未来第四代检索技术需要实现"上下文驱动的信息推送"。
同时,他指出第三代搜索引擎中上下文中的决定因素〔ContextDetermination〕包括空间信息〔如userlocal/targetlocation〕、查询信息〔如previousqueries〕、个人信息〔如userprofile〕、明确信息〔如userchoiceofaverticalsearch〕以与潜在信息〔如useGooglefromChina,use〕等5种。
除了上面学术界给出的阐述外,产业界给出了更为实用的基于上下文的信息检索的说明。
他们把基于上下文的信息检索看作是由信息检索领域3种技术构成的三维空间上的一个平面。
这3种技术保障了对上下文信息的获取和挖掘,如图2所示。
这3种技术分别是:
1>智能的文本挖掘和数据挖掘,通过自动文本概念标注、模式发现和实体知识识别等技术发现各种可用的信息;
2>灵活的内容构建技术,能从结构化或半结构化的数据源中发现独立的XML模式和相关关联;
3>高性能的检索技术,面对超大规模的数据能进行迅速和可扩展的内容处理和检索。
图2产业界关于上下文检索的一种观点
2.3本文的分类观点
纵观上面的讨论,PeterIngwersen等人的看法层次分明,抽象意义明显;20xxIRiX研讨会上给出的结论比较系统、清楚自然,更便于在实现过程中区分和理解;AndreiBroder给出的上下文更符合Internet上搜索引擎环境下的应用;而产业界则在技术层面上给出了挖掘应用上下文因素的相关分析。
结合以上讨论和上下文信息在信息检索领域已有的研究成果,本文把人们当前比较关注的上下文因素按照信息检索的逻辑流程分为3个类别,如图3所示,分别是用户上下文、文档上下文和系统上下文。
图3本文对检索系统中上下文因素的分类
1〕用户上下文:
检索系统中围绕用户的上下文信息,如用户的兴趣、爱好等,以与用户的查询日志、检索反馈行为等。
用户上下文提供了理解用户需求的信息,是现在实现个性化检索与未来实现上下文驱动的信息推送服务的必要条件之一。
为了便于详细解析和用户有关的上下文信息,本文把用户上下文分为用户静态上下文和检索任务上下文两个类别。
用户静态上下文和用户的专业背景、工作内容、爱好、经验、生活习惯、理解水平等因素密切相关;检索任务上下文包括检索任务的内容、特点、发生时间、作用X围、发生背景等方面,一方面反映用户本次信息需求的内容,另一方面反映用户检索需求的变化和迁移。
用户静态上下文描述了用户检索需求的一种长期特点,是用户长期检索兴趣的反映;检索任务上下文描述了用户检索需求的一种短期特点,是用户短期检索需求的反映。
2〕文档上下文:
文档是指信息检索的目标对象。
文档的内容特征、使用X围、产生的时间和地点以与其它元数据〔metadata〕信息等都属于文档上下文。
文档内容特征包括文档的书写语言、术语化程度〔专业性程度〕、布局特点等因素。
除了文档内容外,对Web网页而言,超链分析〔linkanalysis〕、布局分析〔blockanalysis〕可以较准确地挖掘出其特征;对Pdf、Word等文档而言,元数据分析、布局分析能更有效地发现其特点。
另外,整个文档集的组织结构、文档之间的关系等独立于单个文档之外的信息也属于文档上下文的X畴。
3〕系统上下文:
反映了信息检索系统实现过程中的相关特征,如采用的索引机制、检索模型、检索界面等。
3CIR研究现状
3.1用户上下文
3.1.1用户静态上下文
用户静态上下文包括用户的专业背景、工作内容、爱好、经验、生活习惯、理解水平等各种和用户个体相关的许多因素,用户建模〔usermodeling〕就是对用户上下文中的因素进行模型表示。
当前,研究者比较关注对用户上下文中用户认知特点〔cognitivecharacteristics〕的建模,如兴趣、技能、偏好等。
随着近年来语义Web〔SemanticWeb〕和本体〔Ontology〕技术的发展,许多研究纷纷以本体为工具来分析和描述用户上下文。
文献[25]在具有层次关系的轻量级本体ODP〔OpenDirectoryProject〕上对用户查询兴趣进行扩展:
把用户兴趣归纳到ODP上的不同类别上,把用户对某个类别下的实例兴趣度的50%加到其父类别上,达到由下层到上层对用户兴趣进行扩展的目的。
文献[6]提出基于Lycos的目录层次结构构建一个表示用户兴趣的个性化层次树,以帮助实现Web的个性化浏览。
文献把用[27]户的研究兴趣建立在ODP之上,并通过计算搜索结果网页所属类别和用户兴趣所属类别之间的语义距离来实现个性化的检索。
这些研究使用的本体大都集中在一些大型的通用本体,所利用的语义关系大都是父子关系,还缺乏对本体信息更充分的利用和进一步挖掘,如本体上概念之间的关联关系、建立在更细粒度上〔如领域本体〕的分析等。
信息检索系统中常通过用户描述文件〔userprofile〕为每个用户刻画其用户特征。
用户描述文件可以表示成加权向量模型、层次结构模型、加权语义网模型、书签和目录结构等,存储时可以采用纯文本文件、XML文件、关系数据库、XML数据库等各种形式。
获取用户上下文最为直接简单的方法就是由用户自我提供确认。
系统可以在用户注册该系统时获取相关的用户上下文信息,如年龄、专业、兴趣等。
NEC研究所〔NECResearchInstitute〕著名的Inquirus-2项目[6]就是通过用户手工选择查询类别来获取相应的用户上下文信息;GooglePersonal也是由用户选择兴趣所属类别来创建用户描述文件的。
然而,通过许多研究调查表明人工方式获得的用户上下文并不很准确,原因在于大部分用户不愿意花费精力认真准确地填写自己的相关信息。
针对许多系统并不能获得用户准确上下文信息的问题,人们提出许多自动获取方法来获得用户静态上下文,如相关反馈〔RelevantFeedback,RF,RF〕、机器学习〔Machinelearning,ML〕、数据挖掘〔DataMining,DM〕等。
这些方法通过对用户操作历史、用户访问过的资源特征、用户访问日志等信息的统计分析来获取某方面的用户上下文,帮助创建用户描述文件。
例如,文献[12]介绍了使用关联规则挖掘用户的Web日志以构建用户的个性化描述文件;WY.Men等人提出根据用户的点击历史自动把用户兴趣定位到Yahoo的某个类别层次上,从而确定用户的个性化信息;文献[2]通过增量式文本挖掘方式〔incrementaltextmining〕发现用户兴趣。
为了获取更准确的用户上下文信息,这些自动方法或者需要长期用户的检索任务上下文信息,或者需要与用户上下文人工获取方式结合起来。
3.1.2检索任务上下文
检索任务上下文提供围绕用户检索目的的上下文信息,包括检索任务的内容特点、发生时间、发生地点〔IP地址〕、作用X围、发生背景〔客户端背景〕、用户的反馈信息、响应操作等许多因素。
根据这些因素的变化性和复杂性,我们把检索任务上下文分为简单因素和复杂因素两类,两类因素比较如表1所列。
简单因素包括用户提交检索时可以获得的一次性数据,这类数据在用户的一次查询过程中基本没有变化,如检索内容、发生时间、发生地点、发生背景等因素。
根据这些简单因素,结合文档集的特点,检索系统可以在第一次返回检索结果时向用户提供更适合其需求的文档。
例如:
根据发出查询用户的IP地址,搜索引擎可以判断用户的使用语言偏好以向用户提供适合用户语言阅读的检索结果;根据用户发出查询的时间,例如是在普通工作时间内还是在休假时间内,搜索引擎可以把用户更满意的结果排在前面。
Yahoo公司的基于上下文的信息检索工具Y!
Q1首先做到的就是从用户在Web页面上选取的上下文中识别出用户需求并把相关页面返回给用户。
复杂因素是指和用户进行该检索时对检索过程和检索结果的响应相关的因素,和简单因素相比,这类数据动态不定,如用户的反馈信息、响应操作、查询持续时间等。
根据复杂因素,系统可以将反馈结果应用在用户查看下一页的结果排列上。
SteveFox把复杂因素又划分为结果级别〔Result-Level〕和会话级别〔Session-Level〕,并详细列出了每一级别上更为细致的因素。
表1检索任务上下文中的简单因素和复杂因素的比较
简单因素
复杂因素
共同点
都是围绕用户检索任务的上下文信息
区别
在用户的一次查询过程中基本没有变化
和用户在检索过程中的响应
行为有关,动态不定
具体因
素包括
检索内容、发生时间、发生地点、发生背景等
用户的反馈信息、响应操作、
查询持续时间等
复杂因素与用户在检索过程中的响应行为有关,而相关反馈技术是获得这些因素最为重要的方法之一。
相关反馈技术不仅在创建用户描述文件时可用于获取用户的兴趣和偏好,对即时提高检索性能、满足用户短期查询也有很好的效果。
相关反馈分为明确反馈〔explicitfeedback〕、伪反馈〔pseudofeedback〕、潜在反馈〔implicitfeedback〕3种形式。
明确反馈是指由用户明确给出是否满意检索结果的评价。
由于大部分用户在检索过程中不愿主动参与,因此在Web检索系统中单独应用较少;即使有用户主动参与了明确反馈,效果也不是很好。
伪反馈是一种没有用户参与的方法,它假设第一次检索结果中Top-N篇文档正是用户所需,并把这种假设的反馈信息通过查询扩展〔queryexpansion〕技术调整新查询的结果排序。
伪反馈中可提取出许多信息,如段落和概念等,用于优化检索性能,提取出真正有助于增强了解用户个性化的上下文信息将更具有意义。
伪反馈是应用较多的一种方法,但它基于的前提假设"Top-N篇文档与用户所需相关"值得进一步关注。
文献[7]曾通过实验发现伪反馈的效果受N值的影响较大,因此提出了两阶段混合模型的解决方法。
潜在反馈是指在用户检索和浏览检索结果的过程中由检索系统自动收集有关用户响应行为的反馈信息,并把反馈信息与时应用到当次检索结果的优化调整上。
潜在反馈由于具有不需用户主动配合、能即时修正检索结果的优点,因此成为当前研究领域获取检索任务上下文最主要的方法。
也有人对潜在反馈的效果存有疑虑,但研究[8]表明通过潜在结构化的个性化信息进行的个性化Web检索性能要比明确反馈信息的效果好,文献[9]也得出了类似的结论,并且通过进一步研究表明在越复杂的检索任务中,潜在反馈的效果越明显。
随着人们对检索任务上下文内容更细致的挖掘应用,针对检索任务上下文的潜在反馈模型也成为最近研究的重点,如文献[9]针对用户的点击流〔clickthrough〕信息提出一种基于决策理论的潜在反馈模型;文献[4]针对用户与Top-N文档交互的上下文信息提出一种基于启发式的二元投票模型〔BinaryVotingModel〕。
3.2资源上下文
超链分析技术主要针对Web文档超链分析技术主要针对Web文档中的超级〔hypertext〕信息,早期曾在LawrencePage和SergeyBrin等提出的PageRank算法中实现[1]。
考虑到重要的文档会有更多的指向它,PageRank算法从文档页面上的进链〔backwardlink〕和出链〔forwardlink〕数量出发计算每个页面的权重。
近年来,人们又提出了面向主题〔topic-sensitive〕的PageRank算法和基于PPV〔PersonalizedPageRankVector〕的个性化PageRank算法,这些算法都是在原有PageRank的基础上增加了主题特征、用户偏好等其它上下文因素来计算页面的权重。
除了PageRank算法,Kleinberg提出的HITS〔HypertextInducedTopicSearch〕算法也是超链分析技术中的一个重要算法,与PageRank的全局平均思想不同,HITS算法针对一个查询请求分析权威页面〔Authority〕和枢轴〔Hub〕页面来计算页面的重要程度。
然而HITS算法还是单纯从文档中的超级出发,忽略了文档中的其它因素。
有许多算法研究文档如何分块,这些文献大都从视觉位置、内容模式方面着手;也有一些研究专门从文档分块角度研究特征,如分块的重要性、分块的吸引性、分块的语义性、分块的指向性等;这些研究在分析分块特征时常常依据的是块中词语的熵信息,或者根据的统计信息,或者根据分块中的语义信息。
布局分析的一个重要意义在于充分挖掘文档特征,以用于提高信息检索性能。
3.3 系统上下文
信息检索系统所采用的检索模型是系统上下文中关键的一种。
信息检索领域中经典的3种检索模型分别是布尔模型、向量模型和概率模型,它们分别基于集合论、代数论和Bayesian概率论。
布尔模型基于简单的关键词匹配但检索效果很差;向量模型虽然提供了更好的改进但缺乏一个规X的框架;Bayesian概率论最大的优势在于提供了一个完整的框架以便人们把检索中的各种因素组合在一起考虑。
各种模型与其相应的模型扩展在文献[2]中介绍得比较详细,本文不再一一列举。
检索系统中检索界面决定了人机交互〔human-computerinteraction〕的内容,和检索系统中的其它上下文信息配合使用,对实现智能个性化检索非常关键。
检索界面主要包括接受用户的查询输入和显示结果两个部分。
对查询输入界面,一方面可以在布局设计上考虑满足不同用户的使用偏好和习惯,另一方面可以在功能上考虑向用户与时推送其感兴趣的检索信息。
如当前的Google,一方面针对不同地区用户自动推出不同的语言版本以适应用户的语言习惯,另一方面结合世界新闻事件不断更换其标志图案〔logo〕以向用户推送最新消息。
根据我们使用Web搜索引擎的经验,结果显示界面往往根据我们使用Web搜索引擎的经验,结果显示界面往往是把从海量信息中筛选出的大量信息显示给用户,因此除了检索性能,结果显示界面的设计常常影响用户对该检索系统是否偏好。
好的结果显示界面一方面在布局上要简洁清晰、便于浏览查看,另一方面在功能上还能帮助用户理解个性化的检索结果、提高用户的检索效率。
例如,在检索结果列表中加入准确的文档摘要信息,高亮度显示影响文档排序的关键词,按类别显示文档列表等都是比较有效的方法。
除了接受查询部分和显示结果部分,JaimeTeevan认为增加个性化参数控制部分也非常重要。
虽然这部分功能用户可能较少使用,但提供给用户简易快捷的调整功能还是可以帮助用户获得更加满意的检索效果的。
另外,我们把独立于检索系统之外的社会环境也看作系统上下文的一部分。
这些上下文是指隐藏在社会生活、国际背景和文化趋势中的一些外界常规或突发信息。
拥有与时社会环境的信息检索系统可以向用户提供更准确更与时的信息。
这类上下文有两种方式可以获得,一种是人工收集,另一种是系统自动收集。
人工收集是由工作人员根据现实生活,人工收集这类上下文;系统自动收集是指对所有用户检索日志进行统计分析与对比比较,发现这类上下文。
两种方法相比而言,人工收集方式具有响应速度快、准确率高等特点,而系统自动收集往往能发现潜在的社会环境信息,从而更易于满足大部分人群潜在的检索需求。
如谷歌搜索引擎2能自动向用户提供和用户输入字面最接近的、最常出现的前10个查询,而网易3总是把系统统计得出的热门搜索显示在其主页面上,以向用户传递人们当前最为关心的信息。
4CIR研究面临的挑战
尽管自从上个世纪五六十年代开始的信息检索技术研究历史已达半个多世纪,并且已经发展到当前依赖上下文信息满足"查询背后的需求"的第三代检索技术;尽管各地研究者在理解用户个性化兴趣、解析文档特征、发展不断具有适应性的检索模型等方面进行了多角度研究,并不断从机器学习、人工智能、自然语言处理、数据库系统、数据挖掘等领域借鉴方法和思路;但是面对不断出现的超大规模在线数据,面对快速发展的语义网资源,面对用户对检索效果越来