数据挖掘算法的改进及其在Chord网络中的应用.docx

资源描述

数据挖掘算法的改进及其在Chord网络中的应用.docx

《数据挖掘算法的改进及其在Chord网络中的应用.docx》由会员分享，可在线阅读，更多相关《数据挖掘算法的改进及其在Chord网络中的应用.docx（4页珍藏版）》请在冰豆网上搜索。

数据挖掘算法的改进及其在Chord网络中的应用.docx

数据挖掘算法的改进及其在Chord网络中的应用

摘要:

为了提高数据挖掘算法的效率以及chord资源定位的速度，引入条件模式以及深度优先的策略改进数据挖掘算法，并将改进后的数据挖掘算法应用到chord网络的路由表中，通过删除无效或使用频率极低的路由和增加相关路由信息的方法，加速资源定位过程。

最终性能比较实验表明，数据挖掘改进算法不仅体现了优越的算法性能，同时通过挖掘chord网络的关联规则，有效地提升了系统的资源定位性能。

关键词:

数据挖掘；资源定位；定位机制；频繁项目集；路由信息中图分类号:

tp311.131文献标志码:

aabstract:

toimprovetheefficiencyofdataminingalgorithmsandthespeedofchordresourcelocation,thepaperoptimizedthedataminingalgorithmbyintroducingtheconditionalmodelandthedepth-firststrategy,andthenappliedthedataminingalgorithminthechordnetworkroutingtable.thepaperspeededuptheprocessofresourcelocationbydeletingtheroutinginformationofinvalidorlowfrequencyuse,andaddingtherelevantroutinginformation.finally,theperformancecomparisonexperimentsshowthattheimproveddataminingalgorithmreflectsthesuperiorperformance,andeffectivelyimprovesthepositioningperformanceofthesystemsresourcesbyminingtheassociationrulesofthechordnetwork.keywords:

datamining;resourcelocation;locationmechanism;frequentitemset;routinginformation0引言网络中数据资源分布在各个独立的节点上，如何高效地索引、查找、定位以及访问这些数据信息资源是一个重要的问题，在分布式系统中这些问题同样也是正在研究的热点问题。

本文主要研究优化后的数据挖掘技术在网络chord定位中的应用。

因为网络在运行的过程中会产生大量的访问日志数据，而数据挖掘技术可以从海量的数据中挖掘出有用的知识，利用从这些日志数据中挖掘出的规则来指导网络的运行，可以改善网络在chord定位速度方面的性能。

1数据挖掘算法的分析与改进1.1问题的提出关联规则挖掘是数据挖掘技术中的一个重要研究领域，apriori算法一直作为经典的关联规则挖掘算法被引用。

apriori算法的实现过程比较简单，但是每次生成含有不同项目数的候选集时都要扫描数据库，当候选集规模较大时，该算法在时间上的开销就会比较大［1］。

另外由于事务数据库中的数据在不断地增加，每次增加数据后，apriori算法计算频繁项目集和生成关联规则这两项工作必须针对增加新数据后的数据库重新做起，这意味着以前生成的频繁项目集和关联规则都没用了，这显然不利于快速高效地发现关联规则［2］。

再有当数据库的规模超出主存的容量时，该算法效率较低，不足也就明显体现。

频繁模式树（frequentpatterntree,fp-tree）算法采用了一种fpgrowth的方法。

它采用了分而治之的策略：

在对数据库进行第一次扫描后，把找到的频繁集压缩进一棵fp-tree，同时依然保留其中的关联信息。

随后再将fp-tree分化成一些条件库，然后再对这些条件库分别进行挖掘。

fpgrowth方法挖掘过程中将会产生所有的频繁项集,当数据集中包含大量频繁项集时，fp-tree算法性能较差,而且大量的cpu时间被fp-tree遍历占用［3-4］。

本文在apriori算法及fp-tree算法的基础上，提出了一种有效且快速发现最大频繁项目集的算法——基于条件模式的最大频繁项集的挖掘算法。

它一方面引入条件模式，很好地达到了压缩事务数据库的目的；另一方面充分利用了挖掘技术的特点，采用深度优先的策略，将计算量压缩到很小。

该算法在挖掘最大频繁项目集时，具有更优越的性能。

1.2数据挖掘算法的改进思想本文所研究的数据挖掘改进算法采用深度优先搜索策略和数据库的垂直表示形式，无需重复扫描数据库，节省了算法的执行时间。

改进算法的思想是：

首先从根节点执行基于深度优先的搜索算法，这样可以更有效到达最大频繁项目集所对应的叶子节点；其次，在搜索算法的执行过程中，可以根据频繁扩展策略对相关节点进行修剪操作，而修剪节点操作与树节点的排序有一定的关联性。

因此，可以对树在搜索算法执行之前进行适当的排序，这样就可以使树达到瘦窄状态。

需要注意的是：

针对基于深度优先的搜索算法，树的左部瘦窄可以更早到达最大频繁项目集所对应的叶子节点。

改进算法将整个搜索空间组织成如图1所示的树（虚线表示父子节点关系）。

假设某条黑粗线将频繁项集和非频繁项集分割开来,频繁项集在图1中树的上部,而非频繁项集在下部。

显然,最大频繁项集就在黑线旁边（图1中椭圆）。

根据频繁项集支持度的性质1和2,对任何事务数据库和任意给定的最小阈值,这条黑线总是存在的。

对于树中每个节点,本文定义头项集（headitemset,his）和尾项集（tailitemset,tis）。

头项集由树中当前节点的项组成；尾项集由当前节点的子节点的所有项除去当前节点的项组成（图1中括号里的项）。

而该数据挖掘改进算法的深度优先就是沿着树的子孙往下搜索,一旦发现某个节点头项集是不频繁的，该节点及其所有子孙节点将被剪枝。

1.3数据挖掘改进算法的描述数据挖掘改进算法描述如下:

程序前输入数据head0,tail0。

输出数据m。

针对输入的tail0进行排序操作whiles≠是空集吗？

请明确。

do{if（s.flagbits并不是全为1）{则选择s.tail最左边标志位为0的项ai;newnode.head:

=s.head∪{ai};//对叶子节点实施频繁扩展策略newnode.tail:

={y|y∈s.tail∧（y>ai）∧support（newnode.head∪{y}）≥ε}}if（p:

p∈m:

mnewnode.head∪newnode.tail）then{可以直接对树节点实施剪枝操作;}else{ifnewnode.tail=then//直接实施多步回退策略{m:

=m∪newnode.head;whiles.head∪s.tail=newnode.headdopop;}else//对树节点进行相关的扩展操作push（newnode.head,newnode.tail,…）endif}endif将m中的所有元素连接到head0;returnm;endwhile程序后数据挖掘改进算法是借助于栈s保持搜索路径的。

执行基于深度优先的搜索算法时，首先进行初始化：

s.head=head0,s.tail=tail0,并将相关标志位置0。

算法执行完成后，所有的标志位应该均为1。

而且，执行进栈操作的节点所对应的标志位应均为0，只有标志位中包含0的节点表示并没有进行扩展操作。

针对没有执行扩展操作的节点，数据挖掘改进算法的处理方法是进行频繁扩展策略的应用，生成新的节点，并执行不扩展策略对节点进行修剪操作。

如果叶节点没有被剪掉，则表示已经是最大频繁项集，可通过多步回退策略执行剪枝操作。

1.4数据挖掘改进算法的性能分析对于给定的数据库d和频繁项集的最小支持度阈值ε，数据挖掘改进算法的最大频繁项集集合为m（d,ε）。

由于算法采用了基于深度优先的搜索策略，并在执行过程中使用了多种剪枝策略（频繁扩展策略、多步回退策略等），有效减小了搜索覆盖面。

此外，改进算法通过项目集支持度来完成集合的计算，可以减少了访问数据库的次数，节省了时间。

2基于数据挖掘改进算法的chord定位2.1chord定位机制的设计chord网络要耗费大量的工作来维护路由表的正确性，需要使用find_successor函数来查找网络中的节点。

而且find_successor函数调用所使用的时间是o（logn）［5-6］。

在网络较大的情况下，调用该函数极有可能会出现错误。

将数据挖掘中的关联规则挖掘技术应用到chord机制中，把数据挖掘改进算法挖掘的结果应用到chord网络的路由表中，从传送信息中挖掘提取重要的内容来更新节点保存的路由表，将无效或使用频率极低的路由进行删除，增加相关的路由信息，从而加速资源定位过程［7］。

针对chord网络，初始路由表构建完成后，就可以使用数据挖掘改进算法进行实时更新。

一个具体的chord系统如图2所示。

从图2可见，当由n8处挖掘出的后继节点中有三项均指向n14时，可以根据数据挖掘结果，保存第一项，而丢弃另两项，并将其他路由信息进行上移操作，并增加使用频率较高的路由信息，从而提高查询效率。

具体过程如下：

1）将节点对应的路由器进行初始化；此句不通顺，请作相应调整。

2）使用数据挖掘改进算法，从路由表开始处进行扫描，挖掘路由表中的重复信息，并标记出冗余的信息，假设共有x条冗余信息；3）根据数据挖掘结果，更新路由信息，并进行信息的上传操作；4）针对余下的1/2chord环，同样挖掘出有效路由信息，并进行路由表的更新。

2.2定位结果的返回按照挖掘结果更新的路由信息，如图3所示。

可见，节点对应路由表的规模基本不变，但对应节点的查询幅度原来的1/2环距离缩小到几步即可完成，查询速度得到了明显的提高［8-9］。

比如：

针对图3中的节点8，查询的节点关键字为52。

节点8根据路由表信息，可以一步定位到n51，而n51的下一节点即是需要查询的节点。

归纳一下：

如果节点需要查询的结果在该点之后的前1/2环内，那节点的定位查询效率与原来差不多；但如果查询结果位于该点之后的后1/2环，那么查询效率即可有很大的提升。

2.3实验性能分析本文采用p2psim来进行模块实验，来比较原来的chord路由机制和引入数据挖掘改进算法的chord路由机制在资源定位性能方面的差别［10］。

p2psim运行之后，从它的输出可以得到很多重要的数据，包括平均查找延迟时间、平均路径长度等，本文主要是考查这两方面的数据［11-12］。

在此实验中进行了两次测试，也就是原chord机制和引入数据挖掘改进算法后的chord机制的性能的测试，每组测试中节点的总数按2n递增，对应的文档总数为20×2n，查询请求总数为10×2n，并假定每个hop平均网络延迟为50ms，依次来观察其平均查找延迟时间和平均路径长度的变化。

1）平均查询延迟时间。

首先，本文比较两个机制的平均查询延迟时间的差异。

查询延迟时间定义为考虑每个hop的平均物理网络延迟时的资源定位时间。

平均查询延迟时间的比较如图4所示。

从图4中可以清楚看出，随着节点数量的增加，两个机制的平均查询延迟时间都稍微地增长，因此由此可以证明两者一样都具有一定的可扩展性。

并且引入数据挖掘改进算法后的chord机制相对于原chord机制还能够更有效地降低查询延迟时间。

2）平均查询路径长度。

路径长度定义在网络上查询某一个资源时所经过的节点数目。

平均查询路径长度的比较数据如表2所示。

平均查询路径长度的比较折线如图5所示。

图5中，可以看出平均查询路径长度延迟的结果相同，随着节点数量的增长，这两种机制的平均路径长度也是稍微增长，而且引入数据挖掘改进算法后的chord机制的平均路径长度比原chord机制要更短一些，这也证明了引入数据挖掘改进算法后的chord机制在资源定位方面的效率更高一些。

总之，实验表明引入数据挖掘改进算法后的chord机制在平均查询延迟时间和平均查询路径长度这两方面的性能相对于原chord机制有较大的提高。

因为随着节点数的增加，路由表信息的冗余量也会增加，这时可以引入数据挖掘改进算法的chord机制，过滤更多的无用或者冗余的节点，系统的资源定位性能将会有很大的提高。

3结语本文的创新点如下：

1）提出了一种有效、快速发现最大频繁项目集的数据挖掘改进算法，该算法能够压缩事务数据库，采用深度优先的策略实现计算量进一步压缩。

2）将数据挖掘改进算法引入chord网络发现机制中，利用挖掘出chord网络日志数据中的关联规则来指导chord网络更好地运行。

需总结本文的主要内容、优势、劣势和下一步研究方向之类的。

本文提出了一种有效的快速发现最大频繁项目集的数据挖掘改进算法，该算法能够压缩事务数据库，采用深度优先的策略实现计算量进一步压缩。

实验结果表明，将数据挖掘改进算法引入chord网络发现机制中，利用挖掘出chord网络日志数据中的关联规则来指导chord网络，能够明显提升资源定位性能，弥补了传统chord网络资源定位不准确以及速度慢等不足。

目前的缺点是如果节点需要查询的结果在该点之后的前1/2chord环内，定位查询效率与原来差不多，没有得到明显的提高。

后期的工作是进一步减少chord网络路由的冗余信息，当资源定位后，如何高效地实现资源的获取与传递。

参考文献:

[1]郭健美,宋顺林,肖仁财.高效的关联规则挖掘算法［j］.计算机工程与设计,2008,29（13）:

3378-3380.[2]agrawalr,imielinskt,swamia.miningassociationrulesbetweensetsofitemsinlargedatabase［j］.acmsigmodrecord,2008,22

（2）:

207-216.[3]grahneg,zhujf.fastalgorithmsforfrequentitemsetminingusingfp-trees［j］.ieeetransactionsonknowledgeanddataengineering,2010,17（10）:

1347-1362.[4]zhoujiaogen,guanjihong,lipingxiang.dcad:

adualclusteringalgorithmfordistributedspatialdatabases[j].geo-spatialinformationscience,2007,10

（2）:

137-144.[5]谭淑丹,彭舰,李雪韬.基于chord的多集群网格系统资源查找算法改进［j］.计算机应用,2009,29（s1）:

26-29.[6]李建军,熊选东,谭晓贞.基于多环的chord改进算法［j］.计算机工程,2010,36

（2）:

116-118.[7]ramaswamyl,gedikb,liul.adistributedapproachtonodeclusteringindecentralizedpeer-to-peernetworks［j］.ieeetransactionsonparallelanddistributedsystems,2008,16（9）:

814-829.[8]leipeng,guodongli,liuchangan.theapplicationresearchofresourcescataloginthenetworktechnologyinformationorganizations［c］//proceedingsof20104thinternationalconferenceonintelligentinformationdatabases.oulu,finland:

academypublisher,2007:

167-172.[9]王必晴,钟志水,孟伟东.s-chord:

一种层次式chord路由模型［j］.计算机工程,2011,37

（1）:

96-100.[10]赵静,张振宇.基于chord的p2p路由模型［j］.计算机应用,2010,30（10）:

2645-2647.[11]dabekf,coxr,kaashoekf.vivaldi:

adecentralizednetworkcoordinatesystem［c］//proceedingsofthe2004conferenceonapplications,technologies,architectures,andprotocolsforcomputercommunications.newyork:

acmpress,2003:

15-26.[12]郭松梅,王新生,龚华,等.基于网络拓扑和节点异构的chord系统［j］.计算机科学,2009,36（3）:

90-92.收稿日期:

2011-07-14;修回日期:

2011-08-26。

基金项目:

盐城市科技发展计划项目（yk2009092）。

作者简介:

王春风（1979-），女，江苏南通人，讲师，硕士，主要研究方向：

数据挖掘、虚拟现实、网格技术；周宁（1972-），男，江苏盐城人，副教授，硕士，主要研究方向：

计算机网络、语义web。

展开阅读全文