WEB日志挖掘技术的研究及应用Word文档格式.docx
《WEB日志挖掘技术的研究及应用Word文档格式.docx》由会员分享,可在线阅读,更多相关《WEB日志挖掘技术的研究及应用Word文档格式.docx(58页珍藏版)》请在冰豆网上搜索。
这三类挖掘分别作用于网页信息站点中的内容、结构和使用信息,并且已经在发现用户访问模式、反竞争情报活动、建立数据仓库等很多方面得到了应用。
1.1课题背景及研究意义
随着万维网的迅速发展以及良好的发展趋势,尤其是电子商务的蓬勃发展为网络应用提供了强大的支撑。
然而处理Web日志上海量的数据量,需要一种能高效快捷地从Web日志页面中获取信息的工具,由此搜索引擎产生了。
现有的搜索引擎技术在很大程度上方便了人们对信息的检索,不过仍然存在一些不足之处,比如搜索精度不高、覆盖率有限等问题,无法更好地发现Web日志上潜在、隐藏的知识。
将传统的数据挖掘同Web日志相融合,从而发展出了Web日志挖掘,该技术就传统的数据挖掘来看存在较多优势。
传统数据挖掘技术只是对数据结构中结构化的数据进行挖掘,通过数据间的存储结构不同来发现知识,而Web日志挖掘是针对半结构化、杂乱、动态的数据进行挖掘,由于Web日志页面内容的复杂程度远超过普通文本的样式结果,所以导致了Web日志挖掘技术无法直接传承传统的数据库挖掘模型和技术。
这就让挖掘的前提需要将传统数据挖掘技术与Web日志挖掘相结合,融合各自的优点,使整个数据挖掘系统同数据库能更紧密的结合在一起。
由于要对数据进行组织和整合,这就需要一个完整的Web日志挖掘体系,才能分析并得出自己需要的信息。
因此进行挖掘之前需要找到相关的Web日志文档。
各Web日志信息之间有着密切的关系,从中找到正确的数据结构特点,利用自动化搜索的方法实现对Web日志上信息结构排序和内容的抽取,避免了各算法之间使用的重复性。
蚁群算法是一种模拟进化的算法,它是借鉴蚂蚁在寻找食物过程中会自动搜寻最短路径而衍生出来的。
该算法具有优良的分布式计算、正反馈性等特点,特别是在解决组合最优的问题上已经吸引了很多中外学者的关注。
它也是继遗传算法、人工神经网络算法后又一个得到大家认可的研究性课题。
1.2研究现状及分析
Web日志挖掘无论在国内还是国外都是通过挖掘服务器存储的Web日志,进而发现用户访问Web站点的访问模式。
根据对Web日志数据源处理方法的不同,Web日志挖掘可以分为以下两类:
第一类是将Web日志记录中的数据进行转换,然后传递进传统的关系表中,再用常规的算法对关系表中的数据进行挖掘。
第二类是在对Web日志记录的数据进行挖掘之前对数据先进行数据预处理操作。
国外对Web日志挖掘的研究基本上可以从1996年算起,比较突出的有:
1996年学者M.S.Chen、H.Mannila、T.Yan提出了可以将数据挖掘方法用于Web研究领域。
Mannila和Chen在研究过程中都假设去掉了图形文件、声音文件以后的Web服务器日志如实地反映了用户在网站中访问的情况。
Mannila[2]把用户访问页面当作事件,从网站访问日志中试着寻找用户访问网站的周期。
ChenError!
Referencesourcenotfound.提出了最大向前参引路径,并提出用这种方法把用户的Session分解成为一个个访问事务,然后就可以在事务基础上,挖掘用户访问的模式。
T.Yan研究了如何动态地根据将用户进行分类,并根据同类用户访问页面的情况提供推荐页面。
1997年,PerKowitz[4]等人在人机界面研究领域提出了AdaPtiveWebSite的概念,主要研究的是如何以历史访问为依据,使服务器提供的页面可以自动或者半自动化地调整。
1998年Han把Web服务器访问日志集成到数据立方体结构(Datacubestructure)中,这样就可以对访问日志用传统的在线数据分析处理过程(oLAP)来处理日志数据了Error!
Referencesourcenotfound.。
国内互联网是从1997年开始迅速蓬勃的发展起来的。
直到1999年,国内互联网用户达到一定数量以后,国内学者才开始关注Web数据挖掘,相比国外起步较晚。
国内的学者在基于Web日志挖掘的个性化服务方面主要侧重于理论研究,比较突出的有:
沈钧毅[6]等人提出以Web站点的URL为行,以UserID为列,建立URLes-UserID关联矩阵,元素值为用户的访问次数。
然后,对列向量进行相似性分析得到相关Web页面;
对相关页面进行进一步处理,便可以发现频繁访问路径。
王红侠[7]等人采用基于事务的方法,研究Web日志挖掘预处理及用户访问序列模式挖掘方法,提出了一种基于BitlnaP序列模式进行用户浏览模式识别的Web日志挖掘方法。
吴俊杰[8]等人采用Web站点的访问日志进行事务识别后,根据群体用户对Web站点的访问顺序进行路径聚类,最终的聚类结果反映出全体用户的访问兴趣。
吴跃进认为,能够成为Web用户聚类算法评价因素的参数有且仅有三个,分别是点击次数、访问时间和访问路径;
并在此基础上利用Kruskal算法衍生出了K-Bacer算法,根据访问频繁路径对用户进行聚类Error!
吴跃进将所有用户的访问序列生成无向图,通过K-Bacer算法找出其中的频繁路径。
K-Bacer算法是利用Kruskal算法的思想去产生最小生成树,溯其根源是贪心算法。
算法的时间复杂度依赖于排序算法,同时对所有用户生成同一个无向图,随着用户量的增加,其可维护性和可扩展性大大降低。
(1)Web日志挖掘聚类和分类技术
聚类是从Web日志的访问数据中分析并整合出来具有相似特征事务的技术。
Web日志使用挖掘中分为:
页面聚类和使用聚类。
页面聚类是通过搜索引擎在Web日志上找到具有相关内容的页面组,这更方便于用户在上网时能更容易地获得想要的信息。
使用聚类就是将具有相似浏览模式的用户分为一组,这样形成了若干组,并对其量化,从中得到对用户有用的规则,当前该技术常应用于电子商务和一些个性化服务上。
这两种聚类方法就是通过搜索引擎分析用户查询或访问网页信息时产生的历史记录所形成的HTML,来向用户提供超链接。
分类是对新添加的数据进行分类并将一个对象分到事先定义好的类中,根据用户群的特征来挖掘出用户群的访问特征。
在Web日志挖掘中,分类可以通过访问用户信息而得到的一些用户特征,这需要抽取并选择出最好地描述这组特定用户的特征,并根据这些特征对用户进行分类。
常使用监督归纳学习算法来进行分类,如决策树、K-邻近分类法和支持向量机、机器学习法、贝叶斯分类方法等。
(2)蚁群算法
蚁群算法,现在被称为蚁群优化(ACO,AntColonyOptimization)是一种用来在图中寻找优化路径的机率型算法,它源于社会昆虫的群体活动所表现出来令人惊讶的行为,也这对日后研究蚁群行为提供全新的领域。
ACO技术是一种基于群体智能的算法,它源于自然解决问题的思想,并在求解组合优化类问题上有明显的优越性。
MarcoDorigo在1991年他的论文中首先提出了蚂蚁系统(AS),通过正反馈、分布式协作来寻找最优路径。
并且常用于解决二次指派、多维背包、Job-shop调度等问题上。
AS优化算法采用了分布式计算方法,具有多代理性和较强的鲁棒性等特点,且该算法已被大量应用于机器人协作问题求解、电力、通信、数据分析等领域。
蚁群算法是学者受到蚂蚁觅食的启发而发现的,蚂蚁总能找到巢穴与食物源之间的最短路径。
经研究发现,蚂蚁群体协作功能是通过遗留在来往路径上的信息素(Pheromone)来进行信息通讯并形成正反馈。
假设蚂蚁走两条不同的路径来寻找食物,刚开始的时候走两条路的蚂蚁一样多,并且在搜索过程中释放出一定量的信息素,当蚂蚁沿着一条路到达终点后返回,短路径的蚂蚁来回一次时间就短且重复频率快,因而在同一时间内走过该路径的蚂蚁数目就多,洒下的信息素也就多,自然就有更多的蚂蚁会吸引过来,这样慢慢当蚂蚁数量不断增加时(同样信息素浓度也增加),最短的路径就近似被发现了。
蚂蚁系统具有搜索最优的能力,得利于其同分布式计算和正反馈机制相结合的特点,使其具有较强的并行性和鲁棒性,但也同样存在一些缺陷,如搜索停滞以及搜索结果局部最优等问题。
针对该系统存在的不足,很多中外学者提出了许多改进的蚁群算法,这些优化算法在解决局部搜索最优问题以及搜索停滞问题上有很大的提升。
在当前研究形势下,蚁群算法已经成为中外学者广泛关注的热点问题。
1.3论文组织结构
论文中较系统地分析和论述了Web日志挖掘中的各项技术。
在此理论基础上,引入了改进的蚁群算法,并将其成功应用于Web日志挖掘的聚类和分类上。
论文的整体构架如下:
第一章绪论
介绍了本课题的研究背景,主要内容和论文的组织结构
第二章基于蚁群算法的Web日志挖掘理论
介绍了Web日志挖掘理论,在论述了Web日志挖掘过程的基础上,详细地分析了Web日志挖掘中聚类和分类技术。
然后分析了蚁群算法及几种改进的蚁群算法的思想。
最后,对现有算法应用于Web日志挖掘技术上存在的问题做了详细地论述。
第三章Web日志挖掘的预处理技术
对Web日志挖掘中的关键技术,即Web日志挖掘预处理技术进行了全面的分析和总结。
第四章基本蚁群算法及其改进
对蚁群算法基本原理以传统日志挖掘算法原理进行了分析,并对基本蚁群算法进行了改进,通过仿真来说明基本蚁群算法的原理。
第五章Web日志数据挖掘系统的实现
以中名老中医临床经验、学术思想传承研究中的Web日志数据为例,基于改进的蚁群算法设计了一套Web日志数据挖掘系统,并对系统进行了评价和分析,为改善中医系统网站提出了优化建议。
第六章总结与展望
总结了本文的研究工作,提出进一步研究的方向。
2基于蚁群算法的Web日志挖掘概念
2.1Web日志挖掘
随着信息技术的普及和应用,各个领域产生了大量的数据,这些数据被获取、存储下来,其中蕴含着丰富的信息。
人们持续不断地探索处理这些数据的方法,以期最大程度地从中挖掘有用的信息,面对如潮水般不断增加的数据,人们不再满足于数据的查询和统计分析,而是期望从数据中提取信息或者知识为决策服务。
数据挖掘技术突破了数据分析技术的种种局限,它结合统计学、数据库、机器学习等技术解决从数据中发现新的信息,辅助决策这一难题,是正在飞速发展的前沿学科。
一些大型企业对数据挖掘产品和工具的使用都超过20年,并已产生了期望的效应。
此外,数据挖掘产品和工具在金融、商业、电信、医学等多个领域也得到广泛推广应用。
在数据库技术飞速发展的同时,人工智能领域的一个分支----机器学习的研究也取得了很大的进展。
自20世纪50年代开始机器学习的研究以来,在不同时期的研究途径和研究目的也不尽相同。
一般大致可以分为三个阶段,其研究内容则分别为:
神经模型和决策理论、概念符号获取及知识加