数据挖掘中聚类算法的新发展文档Word文档下载推荐.docx

上传人:b****6 文档编号:20450904 上传时间:2023-01-23 格式:DOCX 页数:8 大小:100.40KB
下载 相关 举报
数据挖掘中聚类算法的新发展文档Word文档下载推荐.docx_第1页
第1页 / 共8页
数据挖掘中聚类算法的新发展文档Word文档下载推荐.docx_第2页
第2页 / 共8页
数据挖掘中聚类算法的新发展文档Word文档下载推荐.docx_第3页
第3页 / 共8页
数据挖掘中聚类算法的新发展文档Word文档下载推荐.docx_第4页
第4页 / 共8页
数据挖掘中聚类算法的新发展文档Word文档下载推荐.docx_第5页
第5页 / 共8页
点击查看更多>>
下载资源
资源描述

数据挖掘中聚类算法的新发展文档Word文档下载推荐.docx

《数据挖掘中聚类算法的新发展文档Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《数据挖掘中聚类算法的新发展文档Word文档下载推荐.docx(8页珍藏版)》请在冰豆网上搜索。

数据挖掘中聚类算法的新发展文档Word文档下载推荐.docx

以下几个方面:

a)可伸缩性。

聚类算法对小数据集和大规模数据

有同样的效果。

b)处理不同数据类型属性的能力。

实际应用要求算法能够处理不同类型的数据。

c)能发现任意形状的聚类。

聚类

中空的等

特征的未知性决定聚类算法要能发现球形的、嵌套的、任意复杂形状和结构的聚类。

d)决定输入参数的领域知识最小化。

聚类算法要尽可能地减少用户估计参数的最佳取值所需要的领域知识。

e)能够有效地处理噪声数据。

聚类算法要能处理现实世界的数据库中普遍包含的孤立点、空缺或错误的数据。

f)对于输入记录的顺序不敏感。

聚类算法对不同次序的记录输入应具有

h)基于

相同的聚类结果。

g)高维性。

聚类算法不仅要擅长处理低维数据集,还要处理高维、数据可能稀疏和高度偏斜的数据集。

约束的聚类。

聚类结果既要满足特定的约束,又要具有良好聚类特性。

i)可解释性和可用性。

聚类结果应该是可解释的、可理解和可用的。

所有的聚类方法都具有各自的特点。

有些以方法简单、执行效率高见长(如Kmeans);

有些对任意形状、大小的类识别能

力强(如CUBN(clusteringusingborderandnearest

有些能很好地过滤噪声数据(如DBSCA)N。

但这些方法都有各自的局限性。

例如Kmeans方法只能识别大小近似的球形类;

CUBNDBSCA的时间复杂度都为0(n2)。

另外,很多聚类方法对

输入参数十分敏感,而且参数很难确定,加重了用户的负担。

目前普遍认为不存在某种方法能适合各种特点的数据。

经典聚类分析方法在很多领域已经得到了成功的应用。

如在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体,并且概括出每一类消费者的消费模式或习惯;

在生物学中,它可以被用来辅助研究动物、植物的分类,可以用来分类具有相似功能的基因,还可以用来发现人群中一些潜在的结构等;

另外它在空间数据处理、金融数据、卫星图像等领域都得到非常成功的应用。

但是由于每一种方法都有缺陷,再加上实际问题的复杂性和数据的多样性,使得无论哪一种方法都只能解决某一类问题。

近年来,随着人工智能、机器学习、模式识别和数据挖掘等领域中传统方法的不断发展以及各种新方法和新技术的涌现,数据挖掘中的聚类分析方法得到了长足的发展。

1数据挖掘领域中的聚类方法新发展

1.1基于群的聚类方法

群优化(antcolonyoptimization,ACO;

另一类称为PSO

particleswarmoptimization)[17]

用蚁群算法或蚁群优化来进行分类规则挖掘的算法称为antminer[18,19]。

Antminer是将数据挖掘概念和原理与生物界中蚁群行为结合起来形成的新算法。

受生物进化机理的启发,

1991年意大利学者A.Dorigo等人提出了蚁群算法,它是一种新

型的优化方法。

该算法不依赖于具体问题的数字描述,具有全局优化能力。

后来其他科学家根据自然界真实蚂蚁堆积尸体及分工行为,提出蚂蚁的聚类算法[20,21];

2002年,Labroche等人提出基于蚂蚁化学识别系统的聚类方法。

总的说来,基于蚁群算法的聚类方法从原理上可以分为四种:

运用蚂蚁觅食的原理,利用信息素来实现聚类[22];

利用蚂蚁自我聚集行为来聚类;

基于蚂蚁堆的形成原理实现数据聚类;

运用蚁巢分类模型,利用蚂蚁化学识别系统进行聚类[23]。

蚁群聚类算法的许多特性,如灵活性、健壮性、分布性和自组织性等,使其非常适合本质上是分布、动态及又要交错的问题求解中,能解决无人监督的聚类问题,具有广阔的前景。

后来

antminer3[24]对antminer进行了改进,它的预测精度高于

antminer。

PSC是进化计算的一个新的分支,它模拟了鱼群或鸟群的行

为。

PSC将群中的个体称为Particles,整个群称为swarmo在优化领域,PSO可以与遗传算法相媲美。

文献[25]将PSC用于分类,对discretePSO(DPSO)[26]lineardecreasingweight

PSO(LDWPSO)[27和constrictedPSO(CPSO)[28]进行了比较,并选取CPSC作为挖掘分类规则的工具。

文献[29]对CPSOa行了改进,并与遗传算法进行了比较。

实验结果表明,在预测精度和运行速度方面,PSC方法都占优势。

对ACO或PSC在数据挖掘中应用的研究仍处于早期阶段,要

将这些方法用到实际的大规模数据挖掘的聚类分析中还需要做大量的研究工作。

1.2基于粒度的聚类方法

从表面上看,聚类和分类有很大的差异――聚类是无导师的学习,而分类是有导师的学习。

更进一步地说,聚类的目的是发现样本点之间最本质的抱团性质的一种客观反映;

分类在这一点上却不大相同。

分类需要一个训练样本集,由领域专家指明哪些样本属于一类,哪些样本数据属于另一类,但是分类的这种先验知识却常常是纯粹主观的。

如果从信息粒度的角度来看的话,会发现聚类和分类有很大的相通之处:

聚类操作实际上是在一个统一粒度下进行计算的;

分类操作是在不同粒度下进行计算的

[30]。

所以说在粒度原理下,聚类和分类是相通的,很多分类的方法也可以用在聚类方法中。

作为一个新的研究方向,虽然目前粒度计算还不成熟,

尤其是对粒度计算语义的研究还相当少,但是相信随着粒度计算理论本身的不断完善和发展,今后几年它必将在数据挖掘中的聚类算法及其相关领域得到广泛的应用。

1.3基于模糊的聚类方法

在实践中大多数对象没有严格的属性,它们的类属和形态存在着中介性,适合软划分。

由于模糊聚类分析具有描述样本类属中间性的优点,能客观地反映现实世界,成为当今聚类分析研究的主流。

最早系统的表达和研究模糊聚类问题的著名学者

Ruspini[31~33]率先提出了模糊划分的概念。

利用这一概念,人们相继提出了多种模糊聚类分析方法。

比较典型的有基于相似性关系和模糊关系的方法[34~36]、基于模糊等价关系的传递闭包方法[37,38]、基于模糊凸轮的最大树方法[39~41]以及基于数据集的凸分解、动态规划和难以辨识关系[42~44]等方法。

然而上述方法均不适于大数据的情况,难以满足实时性较高的场合。

基于目标

基于目标函数的模糊聚类方法把聚类归结成一个带约束的非线性规划,通过优化求解获得数据集的模糊划分和聚类。

函数的模糊聚类算法成为新的研究热点。

FCM基于目标的模糊聚

类方法)的原理为:

由于梯度法的搜索方向总是沿着能量减小的方向,使得算法存在易陷入局部极小值和对初始化敏感的缺点。

为了克服上述缺点,近几年来人们提出了各种算法对目标函数进行优化。

采取的主要措施是在FCM算法中引入全局寻优法[45]。

例如1989年徐雷提出模拟退火对硬分类矩阵U进行退火处理的硬C均值算法[46];

1993年Selim[47]和Asultan[48]等人提出模拟退火+模

糊聚类算法;

1995年刘健庄、谢维新等人提出用遗传算法进行硬聚类和模糊聚类的分析方法;

1999年杨广文等人利用确定性

极长的

退火技术提出一种聚类模型及聚类算法[49],然而由于模拟退

火算法只有当温度下降足够慢时才能收敛于全局最优点,

策略对目标函数进行聚类的方法[50];

2002年陈金山、韦岗提

出遗传+模糊C均值混合聚类算法[51]。

这些算法利用遗传算法的全局搜索能力来摆脱FCM聚类运算时可能陷入的局部极小点,

优化了聚类的性能。

众所周知,传统的进化算法是一种具有“生成+检测”迭代过程的搜索算法。

这种算法多是由体现群体搜索和群体中个体之间信息交换的两大策略的交叉和变异算子组成,为每个个体提供了优化机会,即进化的趋势。

进化算法在进化过程中不可避免地产生退化现象的固有缺点,导致了进化后期的波动现象,并会出现迭代次数过多和聚类准确率不太高的现象。

在某些情况下,这种退化现象还比较明显。

免疫进化算法[52](immuneevolutionaryalgorithm,IEA)借鉴生命科学中的免疫概念和理论在保留原算法优良特性的前提下,力图有选择、有目的地利用待求问题中的一些特征或知识来抑制其优化过程中出现的退化现象。

免疫算法的核心在于免疫算子的构造。

免疫算子通过接种疫苗或免疫选择两个步骤来完成。

免疫进化算法能提高个体的适应度和防止群体的退化,从而达到减轻原有进化算法后期的波动现象和提高收敛速度。

文献

[53]提出了基于免疫进化的模糊聚类算法(IFCM、IFCSS、IFCL)

和基于免疫进化的硬聚类算法。

这种算法既较大地提高了获取全局最优的概率,又减轻了基于遗传聚类算法在遗传后期的波动现象。

进一步的工作是参数的适当选取和减小运行时间等。

文献[54]

提出了一种基于有限资源的模糊网络结构聚类算法。

由于该算法引入模糊识别球,大大提高了运算效率,使得该算法更加适合于

大数据集聚类分析;

同时,因为采用了有限资源网络,克服了标准基于网络聚类算法对噪声点敏感的缺点,使得到的网络具有清晰的结构;

通过分析网络神经元的最小树,能够快速准确地获得类别数以及相关的分类信息,从而实现了聚类分析的自动化。

该算法不依赖于初始原型的选择,也无须类数的先验知识,可以真正做到无监督自学习。

该算法中只需要预先设定最大资源数一个参数,而初始的网络规模并不影响最终的结果,所以该算法在现实生活中是非常方便的。

人们对于客观事物的认识往往带有模糊性。

人类大多用一些模糊的词语来交流思想、互通信息,然后进行推理分析、综合判断,最后作出决策。

客观事物是有确定性的,而反映在人的认识上却带有模糊性。

人对于客观事物的识别往往只通过一些模糊信息的综合,便可以获得足够精确的定论。

实质上,上面所说的模糊聚类算法就是利用了人认识事物的规律,使计算机接近人类的智能。

模糊聚类分析仍然是今后研究的重要课题之一。

1.4基于综合其他领域的聚类方法

1.4.1量子聚类

目前常用的聚类算法是基于距离的分割聚类算法,它仅仅根据数据间的几何相似性进行分类,是一种无监督的学习方法。

般来说,它的效果并不加入数据间的几何相识性进行分类,是一种无监督的学习方法,其效果并不尽如人意;

而且在现有的聚类算法中,聚类数目一般需要事先指定,如Kohenon自组织算法、

Kmeans算法和模糊Kmeans聚类算法。

然而,在很多情况下类

别数是不可知的,而且绝大多数聚类算法的结果一般都要依赖于初值,即使类别数目保持不变,聚类的结果也可能相差很大[55]。

受到物理学中量子机理和特性的启发,可以用量子理论解决此类问题。

一个很好的例子就是基于相关点的Pott自旋和统计机理提出的量子聚类模型。

它把聚类问题看做一个物理系统。

许多算例表明:

对于传统聚类算法无能为力的几种聚类问题,该算法都得到了比较满意的结果。

Horn等人提出了一种新的量子聚类算法[56]。

该方法是对尺度空间向量聚类和支撑矢量机聚类固有思想的一种扩充。

类似于支撑机聚类算法,该方法也与Hilbert空间中向量的每个点相关联;

同时,他还强调了它们的总和,这等于尺度空间概率函数。

在这一点上与尺度空间聚类算法类似。

新方法是研究Hilbert空间的一个算子,由Schrodinger等式表示,其概率函数是一个解。

这个Schrodinger等式包括一个从概率函数中解析导出的势函数。

本文将聚类中心与势能最小值联系在一起,最后验证了新方法在已知数据集合上的可行性,并通过限定Schrodinger势能对数据点位置的估价,将此方法应用到高维空间中的聚类问题。

1.4.2核聚类算法

目前比较经典的聚类算法,如Kmeans、模糊Kmeans聚类

算法和Kohonen自组织神经网络[57]等,只能对一些经典分布的样本奏效。

它们没有对样本的特征进行优化,而是直接利用样本

的特征进行聚类。

因此这些方法的有效性在很大程度上取决于样本的分布情况。

例如一类样本散布较大,而另一类散布较小的情

况,这些方法的聚类效果就比较差。

如果样本分布更加混乱,则

通过把核方法[58,59]引入到聚类算法中,本文提出了一种核聚类方法。

该方法增加了对样本特征的优化过程,通过利用

Mercer核把输入空间的样本映射到高维特征空间,并在特征空间中进行聚类。

核聚类方法是普适的,并在性能上优于经典的聚类算法,它通过非线性映射能够较好地分辨、提取并放大有用的特征,从而实现更为准确的聚类;

同时,算法的收敛速度也较快。

在经典聚类算法失效的情况下,核聚类算法仍能够得到正确的聚类。

1.4.3谱聚法

最近一类有效的聚类方法开始受到广泛关注。

该类方法建立在谱图理论基础之上,并利用数据的相似矩阵的特征向量进行聚类,因而统称为谱聚类方法。

谱聚类算法是一种基于两点间相似关系的方法[60],这使得该方法适用于非测度空间。

算法与数据点的维数无关,而仅与数据点的个数有关,可以避免由特征向量的过高维数所造成的奇异性问题。

谱聚类算法是一个判别式算法,不用对数据的全局结构作假设,而是首先收集局部信息来表

示两点属于同一类的可能性;

然后根据某一聚类判据作全局决

以在一个嵌入空间中得到解释,该嵌入空间是由数据矩阵的某几

个特征向量张成的。

谱方法成功的原因在于:

通过特征分解,可

与其他方法相比,谱聚类方法具有明显的优势。

该方法不仅思想简单、易于实现、不易陷入局部最优解,而且具有识别非凸分布的聚类能力,非常适合于许多实际应用问题。

目前,谱聚类方法已应用于语音识别、视频分割、图像分割、VLSI设计、网页划分、文本挖掘等领域。

谱聚类方法尽管取得了很好的效果,但目前仍处在发展的初期。

算法本身仍存在许多值得深入研究的问题。

1.5多种聚类方法的融合

实际应用的复杂性和数据的多样性往往使得单一的分类方法不够有效。

因此,学者们对多种分类方法的融合(fusion)进行了广泛研究,取得了一系列成果。

纵观文献中的研究,大致可以分为以下几类:

a)基于传统聚类方法的融合,如CLIQUE[13]、

CUBN[61]、CURD[62]、RDVS(clusteringusingreferencesanddensitybyVISOM)[61]方法等。

b)模糊理论与其他聚类方法融合的方法,如遗传+模糊C均值混合聚类算法[51]等。

c)遗

传算法与机器学习融合的方法。

d)传统聚类方法与其他学科理

论融合的方法,如上文中的量子算法、核算法和谱算法等。

CLIQUE方法就是一种综合了基于密度和网格的聚类方法。

它首先将数据空间划分为网格单元;

然后识别其中密度大于某输

入参数的密集单元,类定义为相连密集单元的最大集合。

此方法明显提高了算法执行效率,但由于方法大大简化,聚类的精确性较低。

然后

CUBN是一种基于密度、网格和距离的聚类新方法。

为了提

高算法执行效率,该方法首先将数据空间划分为网格单元;

在每个单元中利用密度方法识别出该单元中各类边界,并使用最邻近距离的方法将非边界点聚到各个类中;

最后将各单元中相连的类合并成最后的聚类结果。

CUBN方法综合了基于密度和网格聚类方法的优点,不仅算法执行效率高,而且可识别任意形状的聚类、过滤噪声数据。

Guha等人提出的CURE[61方法采用了多代表点的思想来识

别数据空间中形状复杂和不同大小的类。

CUR方法的出现,使

人们对此思想很感兴趣,出现了众多基于代表点的聚类方法。

CURD[62也受到CURE算法的启发,是一种基于参考点和密度的

快速聚类方法。

CUR[采用一定数目的参考点来有效地表示一个聚类区域和形状。

与CURE方法不同的是,参考点是虚拟点,不

是实际输入数据的点,因此称其为参考点而非代表点;

另外,

个聚类中的参考点数目是不固定的。

CUR[方法同时考虑参考点

的密度,将密度小于密度阈值的参考点看做异常点屏蔽掉,参考

点可以反映数据空间的几何特征;

CURD方法在经过筛选过滤的

参考点集上进行聚类分析。

王莉根据CURD方法的缺点,提出一

种综合的聚类方法一一RDVS该方法首先选取代表点并计算密

度;

然后将代表点及其密度信息作为神经网络(VISOM的输入

信息;

经过网络训练,将代表点映射到二维平面上,在二维平面

域内,代表同一类的代表点即可直观地得到聚类结果。

VISOM[63]

)是由YinHujun提出

visualizationselforganizingmap

的一种改进自组织映射模型(SOM,它大大提高了传统SOM勺

可视性。

RDVSr法回避了密度阈值设置这一难题,而且由于代表点个数远远少于初始数据,网络训练速度也很快。

2结束语

聚类分析作为数据挖掘中的重要组成部分,已经广泛应用于各个领域。

在实际应用中,应根据具体问题具体分析,选择使用最佳的聚类方法。

纵观数据挖掘中聚类分析方法的发展,可以看出聚类分析的新趋势:

a)新方法不断涌现,如基于群的分类方法和基于粒度计算的分类方法[17]。

b)传统聚类方法的融合发

以提

展,如CUBN是一种基于密度、网格和距离的聚类新方法等。

c)

根据实际问题的需要,有针对性地综合了众多领域的技术,高分类的性能。

总之,数据挖掘中的聚类算法综合了机器学习、数据挖掘、模式识别、物理等领域的研究成果。

相信随着这些领域中相关理论的发展、完善和相互渗透,聚类方法也将得到更进

步的发展。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 成人教育 > 电大

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1