组织专家检索系统的设计与实现论文.docx
《组织专家检索系统的设计与实现论文.docx》由会员分享,可在线阅读,更多相关《组织专家检索系统的设计与实现论文.docx(60页珍藏版)》请在冰豆网上搜索。
组织专家检索系统的设计与实现论文
大学本科毕业论文
组织专家检索系统的
设计与实现
摘要
Internet的快速发展和互联网相关技术的不断成熟,使得企业(组织)的相
关资源纷纷上网,TREC(文本检索国际会议)也因此提出了企业检索任务,主要
目标是帮助用户实现在对企业相关数据进行检索的基础上完成特定任务。
企业检
索的内容既可以是组织外部的数字资源也可以是组织内部的数字资源,这些数字
资源通常以异构的形式存在,如邮件、数据库记录、文档、共享文件等。
组织(企业)专家检索是企业检索的很重要的分支,也是当前垂直信息检索
研究的热门领域。
本文总结了目前国内外组织专家检索的研究现状,分析了构建
组织专家检索系统的需求和挑战,并以此为基础,利用组织内外部的网页和期刊
论文数据库等信息,设计了从数据资源采集、规整、索引、检索到可视化等整个
过程的组织专家检索系统模型及以武汉大学为例的专家检索系统平台——
WHU-ES。
该系统通过动态定义组织内外表征专家信息的资源列表,设定资源动态
更新周期,可实现资源的动态采集、专家专长的智能识别、专家共现聚类关系图
的动态生成和分析、专家个人档案信息自动抽取(包括专家肖像提取、专家简介
自动识别等)等功能。
此外,本文也分析了构建专家检索系统存在的网页正文抽
取、专家姓名重叠、社会网络关系分析等难点,提出了可能的解决方案,最后对
WHU-ES专家检索系统做了初步评价。
关键词:
专家检索;专长识别;组织检索;专家聚类
IV
ABSTRACT
TherapidprogressofInternetandrelatedtechnologymakeitmucheasierforusto
accesstheenterprise(ororganization)documentsandwebpages.Asaresult,TREC
(TextREtrievalConference)proposedtheenterpriseretrievaltaskwhichpurposeisto
studyenterprisesearch:
satisfyingauserwhoissearchingthedataofanorganizationto
completesometask.Thecorpuscombinesthedigitalresourceswithdiversetypessuch
aspublishedreports,email,databaserecords,filesandshareddocuments.
AsanimportantpartoftheEnterpriseRetrieval,OrganizationExpertSearch
(ExpertiseRetrieval)isthecurrenthotareaofVerticalInformationRetrievalresearch.
Basedontheanalysisoftherequirementandchallenges,thispapersummarizesthe
currentdevelopmentoftheexpertsearch,andproposesageneralarchitectureofthe
organizationexpertsearchsystem,whichcontainsdatacollections,sorting,indexing,
retrieving,visualizingandsoon,byusingtherelevantwebpagesandacademic
databaseasthedatacollections.Thenweconstructanexpertsearchsystemtaking
WuhanUniversityasanexample,whichwecalledWHU-ESforshort.Thissystem
achievessomespecificfunctionssuchasthedynamiccollectionofdiverseresources,
theintelligentrecognitionofexpertiseandtheautomaticextractionofexpertprofile(the
portraitpictureextractionetc.)andsoon.Wealsoanalyzethedifficultiessuchas
PersonalNameResolution,SocialNetworksAnalysis,andContentExtraction,andthen
providethepossiblesolutions.Atlast,wegivethepreliminaryevaluationoftheexpert
searchresult.
Keywords:
ExpertSearch;ExpertiseRecognition;OrganizationSearch;Expert
Clustering
V
目录
中文摘要..............................................................................................................Ⅲ
ABSTRACT.......................................................................................................…….Ⅳ
1绪论............................................................................................................................1
1.1引言....................................................................................................................1
1.2本文研究的内容................................................................................................1
1.3研究的创新点....................................................................................................2
1.4本文篇章结构....................................................................................................2
2国内外研究现状.....................................................................................................4
2.1TREC企业专家检索子任务..............................................................................4
2.2现有专家检索系统介绍....................................................................................5
2.2.1MITREExpertFinder................................................................................6
2.2.2PeopleFinder.............................................................................................6
2.2.3IBMSmallBlue.........................................................................................7
2.3专家检索其他相关研究....................................................................................7
3组织专家检索系统的分析与设计....................................................................9
3.1系统总体思路.....................................................................................................9
3.2系统体系结构...................................................................................................11
3.2.1Spider模块...............................................................................................11
3.2.2Indexer模块............................................................................................13
3.2.3Searcher模块..........................................................................................14
3.2.4Assistant模块..........................................................................................16
3.3专家检索系统的难点及对策..........................................................................16
3.3.1网页数据噪音剔除................................................................................16
3.3.2专家姓名重叠问题................................................................................17
3.3.3专家社会网络分析................................................................................17
4WHU-ES的实现与评价.....................................................................................20
VI
4.1相关软件介绍..................................................................................................20
4.1.1Lucene全文检索系统............................................................................20
4.1.2NetDraw社会网络软件.........................................................................20
4.1.3HttpClient开源项目...............................................................................20
4.1.4CMU的FaceDetect工具.......................................................................21
4.2WHU-ES的实现...............................................................................................21
4.2.1初始辅助文档库的定义........................................................................21
4.2.2专家数据集的动态采集和更新............................................................21
4.2.3数据集的规整及索引............................................................................22
4.2.4专家档案自动生成的实现....................................................................22
4.2.5Web检索接口的实现和使用.................................................................23
4.3WHU-ES的初步评价.......................................................................................25
5结语和展望............................................................................................................28
参考文献..............................................................................................................29
本科期间的相关科研成果.....................................................................................34
附录..............................................................................................................36
1
1绪论
1.1引言
组织的竞争优势源于其自身知识的集合及学习能力[1]。
根据DelphiGroup的调
查,组织中最大部分(42%)的知识是存在于员工头脑中的隐性知识[2]。
这使得越来
越多的组织意识到对自身知识,尤其是员工头脑中的隐性知识进行有效管理的必
要性。
然而识别这些知识并加以直接利用却非易事。
随着Internet的发展,企业、科研教学机构等纷纷构建起自己的网站,使得
员工的专长信息及员工头脑中的隐性知识可以通过组织的相关网页(如组织官方
网页、相关项目网页、员工主页等)、内部交流和共享的邮件记录等一系列相关文
档逐渐间接显化。
因此如何从这些文档中识别出员工的专长进而辅助发现特定专
长的专家,促进组织内外部人员的协作、为项目或团队挑选合适的人选、选择项
目评审专家、快速发现和寻找合作者等就成为一个现实需要解决的研究课题。
在
国际上,该研究属于组织专家检索研究的范畴。
与人工智能领域的专家系统不同,本文所谓组织专家的检索(ExpertSearch
或ExpertiseRetrieval),是指利用组织内外能够表征专家专长的各种文档和资
源,识别专家在某给定查询主题(领域)的专长(相关性)程度,并按程度高低
排序显示专家结果列表等的过程。
早期组织内专家检索的方法主要是通过建立描
述组织内人员专长信息的数据库[3],然而该方法不仅耗费人力财力,而且由于专家
的技能和知识存在着分布性、难以量化、难以分级、不断变化的特点[4],使得专家
的描述信息具有很强的动态性和模糊性,从而导致数据库方法明显缺乏灵活性。
1.2本文研究的内容
为了满足日益增加的专家检索需求、了解拥有特定专长专家之间的关联、解
决专家专长信息的动态变化问题,本文借鉴TREC(文本检索国际会议)组织专家
检索的基本方法,构建了一个通用的组织专家检索系统框架模型。
该框架模型可
以定义组织内外表征专家信息的资源列表,设定资源动态更新周期,实现信息的
动态采集,并结合组织内部专家列表,智能识别组织专家专长。
在专家检索的过
程中,实现了特定查询主题下专家列表的排序、专家共现聚类关系图的动态生成
和分析、专家档案信息(主要包括专家性别、专家所在学院、专家职称、专家个
2
人简介、专家肖像图片等,下同)的自动抽取等功能。
基于此框架模型结构,本
文以武汉大学为例构建了武汉大学专家检索系统(WHU-ES),重点研究了不同专
家数据的采集、专家得分模型的构建、专家档案信息抽取、专家社会网络关系的
生成和分析等,并研究了构建专家检索系统存在的网页正文抽取、专家姓名重叠、
社会网络关系分析等难点,提出了可能的解决方案,最后对WHU-ES专家检索系统
做了初步评价。
1.3研究的创新点
组织专家检索系统的构建过程涉及到数据集的采集、规整、索引、专家专长
的检索以及结果的可视化等整个过程,现有的国内外研究(见章节2)尚未考虑到
数据集的构建策略和不同数据集对专家检索结果的影响,TREC实验检索系统预定
义了使用的数据集,其余实际应用系统的数据集也只是整合了组织内部数据集,
尚未考虑到组织外部数据集和不同数据集之间的整合和比较,本文将对其做初步
研究。
此外,为了便于用户准确把握专家相关信息和专家之间的的关联,组织专家
检索系统需要快速生成专家的档案信息(包括专家职称、性别、学院、个人简介、
专家照片等)和专家之间聚类的社会网络关联图并加以分析。
针对专家档案生成
过程,本文提出了基于共现的专家院系职称等信息抽取方法、基于规则的专家个
人简介等信息的抽取方法及基于PicExtractor(见3.2.3.3)的专家肖像提取方法;
针对专家共现社会网络,本文实现了专家聚类关系图的动态生成,专家社会网络
分析(包括社会网络密度分析,点度中心性、中间中心性、接近中心性分析,最
短路径分析等),并支持用户交互调整关系图呈现效果,寻找关系图中任意专家之
间的最短路径,便于用户直观的了解专家的专长和专家之间的关联程度。
目前国
内外尚未对此做深入研究的论文和系统,本文也将做初步的探索。
1.4本文篇章结构
本文篇章结构如下:
在下文章节二中,将介绍国内外组织专家检索的研究现状,包括TREC专家检
索子任务的现状介绍、现有的专家检索系统分析以及专家检索其他相关研究等。
章节三中,将详细介绍通用组织专家检索系统框架模型的设计,包括系统设
计的整体思路、功能模块的划分和各模块的详细介绍。
3
在章节四中,将以武汉大学为例构建一个实际的组织专家检索平台——
WHU-ES,同时也分析了系统构建中存在困难和可能的解决方案,并给出了关于专
家识别效果和专家档案信息抽取的初步评价。
章节五中分析了本文研究的不足之处,并对下一步的工作做了简单的介绍和
展望。
文章的最后是参考文献和附录。
4
2国内外研究现状
为了动态挖掘组织内外部的相关资源和专家专长信息,国内外展开了一系列
相关研究。
TREC企业检索任务中的专家检索(ExpertSearch)子任务在一定程度上
代表了当前组织专家检索研究的进展,包括IBM研究院、微软研究院(Microsoft
Research)、澳大利亚联邦科学与工业研究组织(CSIRO)、伦敦城市大学、伊利诺
伊大学、清华大学等机构也纷纷加入了专家专长检索的研究队列中。
考虑到专家
专长检索的重要意义,SIGIR(SpecialInterestGrouponInformationRetrieval)
2008将于7月份在新加坡举行以“FutureChallengesinExpertiseRetrieval”
为主题的Workshop,总结专家检索已经完成的工作,并讨论未来的研究方向[5]。
当
然目前也有如PeopleFinder,MITRE’sExpertFinder,IBMSmallBlue等在实
际中使用的专家专长检索系统,下文将分别予以介绍。
2.1TREC企业专家检索子任务
作为WebTrack的后继项目,TREC[6]于2005年起增加了企业检索(Enterprise
Search)任务,并设立专家检索(EnterpriseExpertSearch)子任务[7]。
该任务
利用企业内部的网站网页信息、共享文档、电子邮件、数据库文件以及访问日志
等作为企业数据集,对于给定的查询主题,参与者构建各自的专家检索模型,并
将得到排序后的相关专家列表等结果返回到TREC组办者进行测评。
迄今为止,企
业专家检索已经举办了三届,在专家实体识别、专家专长表征信息提取、专家排
序检索模型构建等方面取得了一系列的研究成果。
TREC专家检索的核心过程主要包括专家实体识别和专家检索排序两个部分。
专家实体识别作为实体识别的一种特殊情况,本文尚未考虑,笔者在具体实现时
采用手工方式构建组织内的候选专家列表;关于专家检索排序,目前主要有两种
典型方法[8],即:
基于专家档案的方法和基于相关文档集归并排序的方法。
前者利
用组织内的各种信息资源,如网页、报告、邮件信息等,根据专家特征信息(主
要是利用专