子空间聚类算法概要.docx
《子空间聚类算法概要.docx》由会员分享,可在线阅读,更多相关《子空间聚类算法概要.docx(18页珍藏版)》请在冰豆网上搜索。
子空间聚类算法概要
研究背景和意义
随君科学技术的进步,数据采集及存贮能力得到了快速发展,很多学
科都出现了信息爆炸的现彖.研究人员需要而对越來越庞大的观测数据。
因此.数据挖掘技术受到大家的广泛关注。
<•数据挖掘(DataMining.DM)一般是指从数据库的大姐:
数据屮.门动搜索隐藏J:
氏中何看持定价伉和规艸的伯息的过程。
此外,数抓挖撇也足一•种决策支持过程,畢「•人L智能.机器7习、模式识别、统计学、町视化序技术,分析各种类型的数据,做出归纳性的推理,从屮挖掘出潜在模式,帮助齐个领域的专家及研究人员做HI正确的决策和判断
<•数据挖掘的上要过程包括数据准备.信息挖掘、结果表达和解释三个处理阶段<•数据准备是指从相关的数据源小选取所需的数据样本,将兀整合成用r数据分析的样本集:
«信息挖掘址指利用并种数据挖掘算法将所得的样本集中包禽的规律信息或潜4模式挖掘小来:
<•结果表达和解释是指尽町能以用门町理解的方式将找出的规律或模式表示出來
❖首先,数据的规模越來越大的,也就是所谓的大规模数据(Large-ScaleData)的问题
❖
其次,数据的特征不断增加,冷致数据维数的增加,出现了数据密度稀统和“维数灾难”等现彖,导致出现如卜的问题
亠1)很难定义准确的业离度暈函数。
“2)算法的空间奴杂度和时间圮杂度急剧上升.随右:
数据维数的渐增.片致各种数期挖掘«法的性能出现明显卜•降.难以解决实际何题中的实时性问題:
-3)数据簇之间或数据类之间的差界无法判断。
山于岛维空间中《在人就兀余的特征.使得在整个特征空间中,齐个样木点之间的距离几乎是和等的。
«最后,数据挖掘越来越强调多学科的交叉,不仅需耍灵沾运用统计洋、计算机、数学等建模技术,还需殃具冇生物学、脑科学、证券金融等学科的知识背駅
❖针对J:
这些问题,人们提出了大规模数据的数据流(DataStream)分析方法:
针对局维数据的特征加权(FeatureWeighting)和特征选择(FeatureSelection)方法:
同时,生物信息学(Bioinformatics)等交义学科也成为II而数据挖掘领域的研究匝点
子空间聚类算法
«一鞭来说,样本Z间的差界往往是由若干个关键的特紅所引起的,如果能恰当的找出这些
乘耍特征,对建立合理的聚类或分类模熨将起到积极削作用。
这样不仅可以减少模世的建
立时何,捉高模型侦测的准确率,还能仃效地提商数抑挖捌算法的儈棹性和适应性。
因此,我们希望可以针对数据的筒维特征,对兀外个持征的求要性进行加权,或者挑选出放盪耍的特征子集,减少或消除冗余特征以及不相关特征的影响,最大限度地保留和利用原始数据中的关键特征,在这个想法的基础上我们提出了子空间聚类。
4r空间聚类算法是指把数据的原始持征空间分割为不何.的特征J'•集,从不同的r空间角度考察S个数据簇聚类划分的意义,同时在聚类过程中为毎个数据簇寻找到相应的特征子空间。
。
子空间聚类算法实际上是将传统的特征选择技术和聚类算法进行结合,在对数据样木聚类划分的过程中,得到备个数据簇对应的特征子集或者特征权垂。
。
根据冃前的研究结果,/空间聚类可以分为破「空间聚类和软r空间聚类两种形式。
*更具体而言,根据搜索方式的不同,硕子空间聚类方法乂可分为门底向上的子空间搜索舁法和自顶向下的f空间搜索算法两种;对J-软f空间聚类方法而言,根据持征加权不确定件衣不力式的不同,町以分为模糊加权软了•空间聚类用爛加权软了空间聚类两种
自底向上子空间聚类算法
•>白底向I:
了空间聚类算法-•般足基J:
网格密度,采用H底向I:
搜索策略进行的子空间聚类算法。
它先将原始特征空间分成若于个网格,再以落到某网格中样木点的概率表示该子空间的密度悄况。
对J:
密度超过一沁阈(fi的子空间作为密集单元进行保留,而对年密集的子空间进行舍弃。
•>经典的门底向上子空间聚类方法有垠早的M态网格聚类算法CLIQUE、利用爛理论作为密度度量的ENCLUS方法,以及后来提出的通过动态何找策略,为到更加稳定划分结果的f空间聚类知法:
MAFIA和DOC等
•在高维(多属性)空何中进行聚类,一般的聚类算法耍求有一个降维的预处理过程,典型的做法是:
(1)由用户指定其屮的若干熏耍属性,从血达到维度的降低:
(2)通过屈性约简,将一些不重要的属性去掉,经常采用的方法何主成分分析法和粗糙集方法:
(3)将数据空间通过不同维度的线性组合变换到一个低维空间中,使御不同点间的何隔在两个京间中近似相同。
但址这些方法都存在处的缺陷,対丁询两种方法有丢失有趣的结构或模式的可能。
对于第三种方法因为进行了屈性的组介,打乱了号原空间的对应关系,使得产生的聚类结果很难解释。
«CLIQUES法采用了基于网格和密度的方法。
首先对每个属性进行等分,整个数据空间就被分成一个超长方体集合,对每个单元进行数据点计数,大J•某个阈值的单元称这稠密单元,然后对稠密单元进行•连接就构成类。
不同「其它方法,它町以白动地识别朕入在数据子空间屮的类。
CLIQUE聚类算法包含卜列步骤:
•找出包含密久的犷空间:
对n维数据空间进行划分,划分为互不和交的矩形单元,同时识别其中的密集单元。
•识别聚类:
町运用深度优先算法来发现空间中的聚类。
•为行个紡V•成垠小化的描述:
对r每个簇來说,它确疋覆盖相连的密集单
元的最大区域,然肩确泄最小的覆盖区域。
Cliqued法的优缺点
优点*
CLIQUE町1'1动发现最离维的子空间,高密度聚类存在9这些子空间屮。
CLIQUE对元组的输入顺序不故感,无需假设任何规范的数据分布。
它麵输入数据的人小线性地扩展。
当数据维数增加时具有•良好的町仲縮性。
缺点:
1、子空间明枝:
CLIQUE算法应用了一种剪枝技术來减少密集巾•元候选集的数冃,但可能遗失•些密集。
如果•个密集存在J:
k维空间屮,那么它的所有子空间映射都址密集的。
在门底向上的舁法中,为了发现一个k维的密集所冇的子空间都应该被考虑,但如果这些子空间在被剪抻的空间中,那么这个密集就永远不町能发现了。
2、由/算法中的很多步骤都人人简化,以及很多步骤用的是近似算法,所以聚类结果的将确性可能会降低。
<•门顶向卜子空间聚类算法主要是垒「•数据投彩技术,运用迭代搜索策略进行的子空间聚类方法。
具体而言,片先将烙个样卜集划分为C个数抑;徭,对J:
毎个数据簇赋予相同的权值,并为每-•类的*个特征賦予不同权重。
然后利用迭代策略对这些初始划分不断进行改进和史讲,产生新的权重和聚类划分。
山「•在大规模数撫集中,女次迭代所岛的计算攵杂度相当高,因此,这类算法通常利用采样技术提高其算法的性能。
<•PROCLUS是最早且域经典的自顶向下子空间聚类算法。
•:
-PROCLUS算法(PROjectedCLUSEng)首先选取幣个样本集的小部分数据作为初始样木,再从屮选取C个聚类中心通过迭代策略对数据簇的质址进行改进。
人执行过程分为1
个阶段:
•号初始化阶段:
对整个数据集进行随机抽样,利用贪心策略得到•个潜在中心点集合的超集M,并且保证毎个数据簇至少包含一个样木点在这个超集中:
«-迭代阶段:
从超集M中随机选择C个聚类中心,将随机抽取到的新中心替代当前集合屮不好的样木点,直到获得更优的中心点集。
然后按照上述过程反奴迭代,直到所得的聚类中心点的集合达到稳定。
同时,以%个子空间包含的样本点到兀対应聚类屮心的平均距离作为该数据簇的半径,找到各个数据簇对应的特征子集:
。
改进阶段:
对每个数据簇的聚类中心再次进行打描以确疋其対应的特征子集,并在该特征子集I:
计算样本点到聚类中心的曼哈顿距离,进行新削划分,同时去除孤立点。
<•实齡结果农明,PROCLUS舁法适合发现超球而形状的数据簇。
但PROCLUS算法在聚类过程屮,需耍确定三个参数:
簇的数量、簇的平均维数、故小偏差:
所以PROCLUS知法対数据集的参数设迓比较緻感。
但由「PROCLUS靠法使用了采样技术,在聚类速度方而要明显优J-CLIQUE算法
❖上述两类硕子空间聚类方法都是利用门底向上或者门顶向卜的策略,从全部特征集合屮选収某些持征子集组成其相应的子空间:
而软子空间聚类算法则是指在聚类过程中,对毎个数据簇的齐个特征賦予相应的特征加权系数,在聚类过程中得到并个轻征在对应数据簇的重耍性。
9駛f空间聚类方法对比,软「空间聚类算法对数据集的处理具冇更好的适应件与灵活性。
因此,软子空间聚类算法也受到人们越來越多的关注
•>具体而言,对于给定的数据集x=x・%“x”}u/r,人们希望利用软子空间聚类第法得到C个聚类中心一叽皿mg疋义“”表示第j个样木®属「诩i个聚类中心的模糊隶属度,则U农示整个数据集的模糊隶屈度矩阵u同时,为了更好地发现乞个
数据簇相应的子空间结构,软子空间聚类算法在聚类过程中对每个数据簇的全部持征都赋予-个持征加权系数。
模糊加权软子空间聚类算法
#由此,定义%衣示第k个持征对于第i个数据簇的重要性,则W衣示整个数抵集的特征加权系数矩阵叫网11口匕1办《},根据现有的研究结果.软子空河聚类算法按照其特征加权系数不确定性表示方式的不同•町以分为模糊加权软子空间聚类方法,如AWA、FWKM、FSC:
以及炯加权软子空间聚类算法,如EWKIVkLAC.
ESSC等
<•通过引入特征加权系数叫和模糊加权指数r,模糊加权软f空间聚灸算法(FuzzyWeightingSubspaceClustering,FWSC)的冃标函数可以我示成:
NCD
几咤=SSnu2Z、唸匕伙一vu)2
;-1!
-11
C*D
st.0<%<\工I®=1;0O妆
利用Lagrange乘/优化方法最小化公式(1-1九得到FWSC算法模糊隶属度叫厂聚类中心心和特征加权系数趾X的迭代公式,如定理1・1所示:
定理11给定加>1和贰>1,跟:
小化FWSC飭法的冃标函数(1-1),当11仅当模糊
隶屈度Uir聚类中心心和特征加权系数心的迭代公式为:
(1-2)
(1-3)
(1-4)
定理1-1的证明可以参考文献[26]。
爛加权软子空间聚类算法
同样,Jing等人将信息爛引入软子空间聚类方法中,利用爛农示第k个数据特征对于第i个数据簇的不确定程度,捉出了爛加权软子空间聚类笄法(EntropyWeightingSubspaceClustering.EWSC)。
宦义-般化的EWSCII标函数,
Jesc~工S
/■!
J«1上・11・1*・1
s.t.0MUi}<1,X^iMu=1»o-%Ml,工二叫=L
利用Lagrange乘子优化方法最小化公式(1-5),得到EWSC算法模糊隶居度“厂聚类中心林和特征加权系数"k的迭代公式,如定理1-2所示:
定理丄-2・给定加>1和卩>0・取小化EWSC算法的目标函数(1・5),当且仅当模糊隶居度知、聚类中心映和特征加权系数%的迭代公式为:
(1-6)
(1-8)
•>随石人规模数据和向维特征数据的涌现,原仃的待征选样算法己难以满足实际的需求•对特征选择的研究呈现出综介性和多样化的趋势。
•加肌特征选择技术开始向机器学习领域拓展,利用不同的学习算法对训练样木的特征进行挑选,选出合理的特征子集。
另一方lftl\特征选择技术呈现出系统化、结构化的态势。
Dash和Liu在对人呆特征选择方法进行分析后给出r•个通用的特征选择技术的框架
•个特征选择篦法主耍由牛:
成策略、评价准则.停止条件和结论验证四个部分组成:
1住成策略是指从原始特征集合中生成某些特征于集;
2.评价准则是指评价待征子集的相关性,判断生成的特征子集的合理性;
3.停止条件是指判断生成的特征子集是否符合起始左义的要求:
4.
阳】・i待広逡择的円个步毋
Ei^l-lEottistep*itthefeatureelectionpi^ceM
4•结论验证是指验证所生成的特征子集的有效性
•>根据训练数据集的林记伙用帖况,持征选样㉛法可以分为冇监咎、无监督和半监督三种类型。
〜仃监督待征选杼算法利川特征和各个数撫类标的相关性.决定待征/集的豆咚性;
〜无监怦特征选择廉法利用数据的方差或分离性対齐个特id的櫃耍性进行判断:
〜半监征选择隊法则利用少数u标记的数据样木作为附加信息•去提高未标记样本特征选择舁法的性能。
<•根据特征选择算法评估方法的不同,特征选择町以大致分为以下三类:
f第•类足将特征选择和分类验证过程分离,持征选择的过程和貝体的分类器无关,这类第法被称为过滤療方法(FilterApproach):
f第二类是対装型方法(WrapperApproach)•将特征选卄和分类器的设计结合金一起.利用预先指定的分类学习%法公评价备个持征或者舒征子集的分类性能,从而述行合理的待征选杼:
f第三类是嵌入式的方法(EmbeddedApproach),即将特征选择方法作为分类器训练的一个部分•通过分析所得学习模电的结果得到眾终的持征选择子集。
•>过滤型方法的评价标准不依赖11•体的分类器,而仅仅依赖丁•数据恃征本疗所附带的信息。
亠般而言,该方法假设何个特征都和4独立,通过某种捜索策略,选择合理的特征了集。
过滤熨方法也是垠为简m•的特征选杼方法
H41-2过淀割方江的流程图
bin1-2Theflowchaitoffilterapproach
廿封装型持征选择方法放早在1994年,由John等人捉出,其持征性能的评价依赖「貝・体的分炎器,所以该类方法的分类粘度得到了人幅度的提高。
封装型方法由于受到所选分类器的限制,算法效率很低,不适介针对人规模数执:
集或高维数据进行运算。
此外,封装型方法还仃一个明显的缺陷,就是対小样本数据集进行特征选择时,容易出现过拟合的帖况
"
•、-
♦
%
学
I1*4U*:
目
冲If.Mftr仍Ml
--•
并
全琢M
■
法
TeJWiA
/
■
•
国1・3打装収力法的流丹国
Fig.1-3Theflowchailofwrapperap|noutomatedVariableWeightingink-MeansTypeClustering
(自动给变量加权的k-means聚类算法)
引言
❖W-k-Means算法
❖在高维数据中有意义的聚类结构通常出现在子空间中
•:
-为了找到这些聚类结构,识别变量的子集非常重要』
K・mcans算法不能自动地选择变最,它在聚类过程中平等地对待所有变
量
•:
・本文捉出了一种新的k-means算法,U|JW-k-means,能够根据变量在聚类过程中的重要性自动地给变量加权
<•K-means算法是很典空的基J•距离的聚类算法.采川趾离作为和似性的评价指标,即认为两个对彖的距离越近•其相似度就越大。
该算法认为鎂是山距离靠近的对彖组成的,因此把得到紧凑且独立的簇作为以终冃标
•>k个初始类聚类中心点的选取对聚类结果具有较大的影响.因为在该算法第一步中是随机的选取任总k个对彖作为初始聚类的屮心,初始地代农一个簇。
该养法在每次迭代屮对数据集小剩余的每个对彖,根据比与族个族中心的距离将每个对線枣新赋给域近的簇。
出考察完所有数据对象后,-次迭代运算完成.新的聚类中心彼计算出來。
如果在-次迭代询后,J的值没有发生变化,说明算法已经收敛。
。
算法过程如下:
f1)从N个文档随机选取K个文档作为质心
“2)対剩余的毎个文档测肚梵到毎个质心的距离.并把它Id到放近的质心的类
13)垂新计算已经得到的各个类的质心
亠4〉迭代2〜3步直至新的质心与廉质心相等或小J:
指定WtfL.尊法结束
-means算法
O设X=C・X,•…・XJ是具有X个对彖的集合。
对彖兀=(心轧•…•心)具有加个变量(属性)O
❖K-means^法通过最小化卜列冃标函数将X划分成R个簇,
U走•个勺划分矩阵,叫是•个二元变量,衣示对彖i被分配到簇仁
Z・{Z|.Z”….乙}是一个具有R个向址的集合,表刀伙个簇的中心。
dg"是对斛和簇/的小心在為个变量上的距离。
如果变城是数值些的,则O如果变量是分类型的,则畑S绍
■means算法
❖上而的优化问题可以通过迭代地求解以卜两个最小化问题解决:
心Py:
假定Z=2求解P(U.Z):
<-A:
假定UJ求解p(t/.z>:
…{町/・1尊冲(兀forIV
求解片:
1-
uu=0for
求解A:
对J:
数值型变量研一
i
for
l^l<^kand
1对于分类型变量g詁其中—;是簇冲变呈值的模。
•AS忙pl选择一个初始的求解P(S巧須到『°设代匸0
❖Step2使0=i/',求解p(Nz〉得到z“-如果Mn)=p(Nz“),输HlU.z1»算法结束:
否则,转到Step3
❖Step3使z=z-,求解p(u.z)得到"叫如果W.z)=W.z),输如忆算法结束;否则,设1^/=/+1,转到Step2
❖设w=网.%…•心是/〃个变址的权值,Q是属性权值匕的参数。
修改II标函数为:
P("・Z・W)=工£土坷比d(xtJS
J1-1J-I
I
2MrJ=I・ISdS”
MrjefO.l}.Isis仏ISfSR
2Wj-1.OS/VI
最小化上述11标两数通过迭代地求解下面三个最小化问题:
片:
假定Z-Z.W■心求解P(U.Z.W);
马:
假定1/"・吩认求解P(U.Z.W)•
必:
假KuU,求解P(U.Z.W).
-k・means算法
求解a:
uu=1if文吋dgj.zJW士比forl^t^k
MZ
uu■Ofor"/
•:
・Stepl随机选抒一个初始的Z*=(zI,z2,...,zjJf.随机生成一个初始权值集合“鼻时•町…•心J収二耳=1)。
通过域小化PiU\Z°.W°)定旷。
设置/=0:
•:
・Step2使t/=t/,.w,=w,»求解P{U.z.w)f得到z"1。
如果p(u.z\w)^P{U.z^l.w)输出DzM,算法结束;否则,转到Stcp3:
<•Step3使〃・"2・才叫求解P(U.z.w),得到W如果Ptu.z.w^^Ptu.z.w^1),输出u.z.w1,算法结束;否则,转到Stcp4:
❖Step4使—求解p(u.z.w)9得到y如果W,zjv)=p(t/^,zjv),输出"为叙算法结束:
否则,设首f转到Stcp2:
人工数据集上的头验一确定初始的簇中心,随机生成权值
人1.数抵集包含5个奸b300个记录•在询三个殳秋上被分成3个鎳•毎个簇屮仃100个昴后两个芟就足噪海•
W-k-means
设abed足SS.SDQSQD的数虽,则xb+c+d二M,m=n(n-1:
./2是町能的点对的总数.N址点数。
RandhidcxR=
C間eriMAcwacy,牛”真中,-是C;中包含的G中的止数,“是数据集中的点数。
设c={crcrcj足3个族的集合,u=cgc;}是川聚类T7法生成的三个族M永合。
给定数据集上的•对点(x.x7),称其为
人工数据集上的实验
VariableIndex
VariableIndex
(a)
(b)
人工数据集上的头验一确定权值,随机生成初始的簇屮心
澳大利亚伫川卜数据集山690个实例组成.毎个实例包含6个数値型屈件和9个分类型属件.比中663个可川.心虹病数拯集曲200个实例组成,毎个实例包存5个数值型属性和8个分类型属性•
盹机匝排原数据记录.并为何个实际数据集创建100个测试数撫集。
倍用K数据集
结论
❖实验结果农明:
•>在恢复数据集屮的簇时,w-k-means算法比k-means算法做的好。
•:
・权值可以有效地区分噪声变最和正常变最。
在聚类的过程中,选择变量的能力是很有用的。
AnEntropyWeightingk-MeansAlgorithmforSubspaceClusteringofHigh-DimensionalSparseData
一种在高维稀疏数据上进行子空间聚类的炳加权ri•:
・引言
❖EntropyWeightingk-Means
实验
❖结论
高维稀疏数据的聚类需要使用子空间聚类方法
❖根据确沱r空间的方式,/空间聚类分为硕/空间聚类和软了帘间聚类
❖本文捉出了一•种在高维稀疏数据上进行软了空问聚类的新的k-means»法EWKM
提出EWKM算法的动机是为了在高维稀疏数据上进行聚类
ntropyWeightingk-Means
❖目标函数:
2%=h仏lsfshwf/€{0.1)
m
另入=1,1MiGn.OV人Ml
第1项足簇内分散度的和•第2项於负的加权炯“正参数2■控制右激励在更多的维上进行聚类的強度。
EWKMAlgorithm
cxpf^l
❖假设矩阵w和z己确疋,F被瑕小化,如果人=一,兀中心-卩)2(I)
<■假设乙和人已确定,W被史新卜"•矿魚(ZJ*权伽'Wk
(2)
1-
心假设w和A已确定,Z被更新0=——for】M/“and\Mi£m(3)
/-I
cO时,入成反比°q越小以越大,衣示相应的维越重要。
I.
EWKMAlgorithm
•:
-输入:
簇数妬II参数门随机选择R个簇屮心并设置所有的初始权值为归
・:
・重复
❖更新划分矩阵W通过
(2)
•更新簇中心Z通过(3)
•:
・更新维的权值A通过
(1)
❖直到目标函数得到局部最小值
人工数据集上的实验
•:
・EWKM在聚类过程屮同时域小化簇内分散度和故人化负加权爛
•山于激励更多的维在识别簇时起作用,避免了在很少的稀疏维上识别簇,解决了高维数据的稀疏性问题
❖实验结果表明,EWKM的聚类结果的精度非常高。
EWKM还叮以扩展到人的高维数据集,由于输入参数a■不敏感算法容易使用