外文翻译不确定性数据挖掘一种新的研究方向.docx
《外文翻译不确定性数据挖掘一种新的研究方向.docx》由会员分享,可在线阅读,更多相关《外文翻译不确定性数据挖掘一种新的研究方向.docx(26页珍藏版)》请在冰豆网上搜索。
外文翻译不确定性数据挖掘一种新的研究方向
毕业设计(论文)外文资料翻译
系部:
计算机科学与技术系
专业:
计算机科学与技术
姓名:
学号:
外文出处:
ProceedingofWorkshoponthe
(用外文写)
ofArtificial,Hualien,TaiWan,2005
指导老师评语:
签名:
年月日
不确定性数据挖掘:
一种新的研究方向
MichaelChau1,ReynoldCheng2,andBenKao3
1:
商学院,香港大学,薄扶林,香港
2:
计算机系,香港理工大学九龙湖校区,香港
3:
计算机科学系,香港大学,薄扶林,香港
摘要
由于不精确测量、过时的来源或抽样误差等原因,数据不确定性常常出现在真实世界应用中。
目前,在数据库数据不确定性处理领域中,很多研究结果已经被发表。
我们认为,当不确定性数据被执行数据挖掘时,数据不确定性不得不被考虑在内,才能获得高质量的数据挖掘结果。
我们称之为“不确定性数据挖掘”问题。
在本文中,我们为这个领域可能的研究方向提出一个框架。
同时,我们以UK-means聚类算法为例来阐明传统K-means算法怎么被改进来处理数据挖掘中的数据不确定性。
1.引言
由于测量不精确、抽样误差、过时数据来源或其他等原因,数据往往带有不确定性性质。
特别在需要与物理环境交互的应用中,如:
移动定位服务[15]和传感器监测[3]。
例如:
在追踪移动目标(如车辆或人)的情境中,数据库是不可能完全追踪到所有目标在所有瞬间的准确位置。
因此,每个目标的位置的变化过程是伴有不确定性的。
为了提供准确地查询和挖掘结果,这些导致数据不确定性的多方面来源不得不被考虑。
在最近几年里,已有在数据库中不确定性数据管理方面的大量研究,如:
数据库中不确定性的表现和不确定性数据查询。
然而,很少有研究成果能够解决不确定性数据挖掘的问题。
我们注意到,不确定性使数据值不再具有原子性。
对于使用传统数据挖掘技术,不确定性数据不得不被归纳为原子性数值。
再以追踪移动目标应用为例,一个目标的位置可以通过它最后的记录位置或通过一个预期位置(如果这个目标位置概率分布被考虑到)归纳得到。
不幸地是,归纳得到的记录与真实记录之间的误差可能会严重也影响挖掘结果。
图1阐明了当一种聚类算法被应用追踪带有不确定性位置的移动目标时所发生的问题。
图1(a)表示一组目标的真实数据,而图1(b)则表示记录的已过时的这些目标的位置。
如果这些实际位置是有效的话,那么它们与那些从过时数据值中得到的数据集群有明显差异。
如果我们仅仅依靠记录的数据值,那么将会很多的目标可能被置于错误的数据集群中。
更糟糕地是,一个群中的每一个成员都有可能改变群的质心,因此导致更多的错误。
图1数据图
图1.(a)表示真实数据划分成的三个集群(a、b、c)。
(b)表示的有些目标(隐藏的)的记录位置与它们真实的数据不一样,因此形成集群a’、b’、c’和c”。
注意到a’集群中比a集群少了一个目标,而b’集群中比b集群多一个目标。
同时,c也误拆分会为c’和c”。
(c)表示方向不确定性被考虑来推测出集群a’,b’和c。
这种聚类产生的结果比(b)结果更加接近(a)。
我们建议将不确定性数据的概率密度函数等不确定性信息与现有的数据挖掘方法结合,这样在实际数据可利用于数据挖掘的情况下会使得挖掘结果更接近从真实数据中获得的结果。
本文研究了不确定性怎么通过把数据聚类当成一种激励范例使用使得不确定性因素与数据挖掘相结合。
我们称之为不确定性数据挖掘问题。
在本文中,我们为这个领域可能的研究方向提出一个框架。
文章接下来的结构如下。
第二章是有关工作综述。
在第三章中,我们定义了不确定性数据聚类问题和介绍我们提议的算法。
第四章将呈现我们算法在移动目标数据库的应用。
详细地的实习结果将在第五章解释。
最后在第六章总结论文并提出可能的研究方向。
2.研究背景
近年来,人们对数据不确定性管理有明显的研究兴趣。
数据不确定性被为两类,即已存在的不确定生和数值不确定性。
在第一种类型中,不管目标或数据元组存在是否,数据本身就已经存在不确定性了。
例如,关系数据库中的元组可能与能表现它存在信任度的一个概率值相关联[1,2]。
在数据不确定性类型中,一个数据项作为一个封闭的区域,与其值的概率密度函数(PDF)限定了其可能的值[3,4,12,15]。
这个模型可以被应用于量化在不断变化的环境下的位置或传感器数据的不精密度。
在这个领域里,大量的工作都致力于不精确查找。
例如,在[5]中,解决不确定性数据范围查询的索引方案已经被提出。
在[4]中,同一作者提出了解决邻近等查询的方案。
注意到,所有工作已经把不确定性数据管理的研究结果应用于简化数据库查询中,而不是应用于相对复杂的数据分析和挖掘问题中。
在数据挖掘研究中,聚类问题已经被很好的研究。
一个标准的聚类过程由5个主要步骤组成:
模式表示,模式定义,模式相似度量的定义,聚类或分组,数据抽象和造工评核[10]。
只有小部分关于数据挖掘或不确定性数据聚类的研究被发表。
Hamdan与Govaert已经通过运用EM算法解决使混合密度适合不确定性数据聚类的问题[8]。
然而,这个模型不能任意地应用于其他聚类算法因为它相当于为EM定制的。
在数据区间的聚类也同样被研究。
像城区距离或明考斯基距离等不同距离测量也已经被用来衡量两个区间的相似度。
在这些测量的大多数中,区间的概率密度函数并没有被考虑到。
另外一个相关领域的研究就是模糊聚类。
在模糊逻辑中的模糊聚类研究已经很久远了[13]。
在模糊聚类中,一个是数据簇由一组目标的模糊子集组成。
每个目标与每个簇都有一个“归属关系度”。
换言之,一个目标可以归属于多个簇,与每个簇均有一个度。
模糊C均值聚类算法是一种最广泛的使用模糊聚类方法[2,7]。
不同的模糊聚类方法已被应用在一般数据或模糊数据中来产生的模糊数据簇。
他们研究工作是基于一个模糊数据模型的,而我们工作的开展则基于移动目标的不确定性模型。
3.不确定数据的分类
在图2中,我们提出一种分类法来阐述数据挖掘方法怎么根据是否考虑数据不准确性来分类。
有很多通用的数据挖掘技术,如:
关联规则挖掘、数据分类、数据聚类。
当然这些技术需要经过改进才能用于处理不确定性技术。
此外,我们区分出数据聚类的两种类型:
硬聚类和模糊聚类。
硬聚类旨在通过考虑预期的数据来提高聚类的准确性。
另一方面,模糊聚类则表示聚类的结果为一个“模糊”表格。
模糊聚类的一个例子是每个数据项被赋予一个被分配给数据簇的任意成员的概率。
图2.不确定性数据挖掘的一种分类
例如,当不确定性被考虑时,会发生一个有意思的问题,即如何在数据集中表示每个元组和关联的不确定性。
而且,由于支持和其他指标的概念需要重新定义,不得不考虑改进那些著名的关联规则挖掘算法(如Apriori)。
同样地,在数据分类和数据聚集中,传统算法由于未将数据不确定性考虑在内而导致不能起作用。
不得不对聚类质心、两个目标的距离、或目标与质心的距离等重要度量作重新定义和进行更深的研究。
4.不确定性数据聚类实例
在这个章节中,我们将以不确定性数据挖掘的例子为大家介绍我们在不确定性数据聚类中的研究工作。
这将阐明我们在改进传统数据挖掘算法以适合不确定性数据问题上的想法。
4.1问题定义
用S表示V维向量xi的集合,其中i=1到n,这些向量表示在聚类应用中被考虑的所有记录的属性值。
每个记录oi与一个概率密度函数fi(x)相联系,这个函数就是oi属性值x在时间t时刻的概率密度函数。
我们没有干涉这个不确定性函数的实时变化,或记录的概率密度函数是什么。
平均密度函数就是一个概率密度函数的例子,它描述“大量不确定性”情景中是最糟的情况[3]。
另一个常用的就是高斯分布函数,它能够用于描述测量误差[12,15]。
聚类问题就是在数据集簇Cj(j从1到K)找到一个数据集C,其中Cj由基于相似性的平均值cj构成。
不同的聚类算法对应不对的目标函数,但是大意都是最小化同一数据集目标间的距离和最大化不同数据集目标间的距离。
数据集内部距离最小化也被视为每个数据点之间距离xi以及xi与对应的Cj中平均值cj距离的最小化。
在论文中,我们只考虑硬聚类,即,每个目标只分配给一个一个集群的一个元素。
4.2均值聚类在精确数据中的应用
这个传统的均值聚类算法目的在于找到K(也就是由平均值cj构成数据集簇Cj)中找到一个数据集C来最小化平方误差总和(SSE)。
平方误差总和通常计算如下:
(1)
||.||表示一个数据点xi与数据集平均值cj的距离试题。
例如,欧氏距离定义为:
(2)
一个数据集Ci的平均值(质心)由下面的向量公式来定义:
(3)
均值聚类算法如下:
1.Assigninitialvaluesforclustermeansc1tocK
2.repeat
3.fori=1tondo
4.AssigneachdatapointxitoclusterCjwhere||cj-xi||istheminimum.
5.endfor
6.forj=1toKdo
7.RecalculateclustermeancjofclusterCj
8.endfor
9.untilconvergence
10.returnC
收敛可能基于不同的质心来确定。
一些收敛性判别规则例子包括:
(1)当平方误差总和小于某一用户专用临界值,
(2)当在一次迭代中没有一个目标再分配给不同的数据集和(3)当迭代次数还达到预期的定义的最大值。
4.3K-means聚类在不确定性数据中的应用
为了在聚类过程中考虑数据不确定性,我们提出一种算法来实现最小化期望平方误差总和E(SSE)的目标。
注意到一个数据对象xi由一个带有不确定性概率密度f(xi)的不确定性区域决定。
给定一组数据群集,期望平方误差总和可以计算如下:
(4)
数据集平均值可以如下给出:
(5)
我们到此将提出一种新K-means算法,即UK-means,来实现不确定性数据聚类。
1.Assigninitialvaluesforclustermeansc1tocK
2.repeat
3.fori=1tondo
4.AssigneachdatapointxitoclusterCjwhereE(||cj-xi||)istheminimum.
5.endfor
6.forj=1toKdo
7.RecalculateclustermeancjofclusterCj
8.endfor
9.untilconvergence
10.returnC
UK-mean聚类算法与K-means聚类算法的最大不同点在于距离和群集的计算。
特别地,UK-means基于数据不确定性模型来计算预期的距离和数据集质心。
同时,收敛可按照不同的标准来定义。
注意到如果收敛依赖于下平方误差,那么在方程式(4)中E(SSE)应该替代SSE使用。
在第4步中,常常很困难用代数方法来确定E(||cj-xi||),特别地,各种各样的几何图形不确定性区域(如,线,圆)和不同的不确定性概率密度函数意味着需要使用数值积分法。
鉴于此,比较容易获得的E(||cj-xi||2)用来替代E(||cj-xi||)。
这使我们能够确定在聚类任务(即步骤4)中使用简单的代数表达式。
5.一个案例研究和评估
5.1线性移动不确定性数据聚类
在最后一章提出的UK-means算法可适用于任意一个不确定性区域和概率密度函数。
为了证明方法的可行性,我们将描述所推荐的算法是如何运用于特定于在平面空间中移动的目标的不确定性模型。
我们也会介绍算法的评估结果。
这个算法已被应用于一个含有单向线性移动不确定性的模型中。
在这个模型里,我们需要让每一目标在某一方向移动的位置均匀地分布在一段直线上。
假设我们在一个质心c=(p,q)和一个数据对象x被指定在一个线性不确定的均匀分布的区域中。
让线性不确定性线段的终结点为(a,b)和(c,d)。
这样这个线性方程式可用参数表示为(a+t(c-a),b+t(d-b)),其中t属于[0,1]。
使用f(t)表示不确定性概率密度函数。
同时,不确定性线段的距离表示为
。
我们可以得到:
(6)
其中B=2[(c-a)(a-p)+(d-b)(b-q)]
C=(p-a)2+(q-b)2
如果函数f(t)是均匀分布的,那么当f(t)=1时,上面的公式就变成:
(7)
从而我们就能很容易为均匀分布的线性移动不确定性计算出期望平方距离。
这些公式很容易被UK-means算法用于决定群集分配。
但是,均匀分布的应用在这里仅仅是一个特定的例子。
当概率密度函数不是均匀分布时(如,高斯分布),采样技术可能被用来估计E(||cj-xi||)。
5.2实验
实验的开展是为了评估UK-means算法的可行性。
我们目标是研究考虑数据不确定性是否会提高聚类质量。
我们模拟以下情景:
一个可以追踪一组移动目标位置的系统已经拍了一组反应这些目标位置的快照。
这个位置数据存在记录集中。
其中的每个对象都有着一定的不确定性。
我们使用这些不确定性因素来捕捉不确定性信息。
接下来我们来比较两种聚类方法的不同之外:
(1)把K-means方法应用于记录中和把UK-means方法应用于记录中+不确定性。
更具体地说,我们首先一个100×100的二维空间产生一组随机数据点作为记录。
对于每个数据点,我们根据单向线性不确定性模型为其随机产生不确定性。
一个目标的不确定性规格包括不确定性的类型(双向线性)、目标能够移动的最小距离d以及目标能够移动的方向。
接下来,这些目标的真实位置就根据记录和不确定性来模拟目标已经从累存记录中的原始位置偏移来产生。
特别地,对于每个数据点,我们把它的位置记录在案,然后随机产生一个数据决定目标可能的移动距离。
如果它属于自由移动(多向)或双向不确定性,那么我们将产生另外一个数据来决定目标可能的移动方向。
我们使用实际值来表示这些目标的位置。
理论上,一个系统需要知道实际情况且把K-means方法应用于实际位置中。
尽量不是实际的,但是这个聚类结果却可视为聚类结果质量的一个很好的参照。
因此,我们计算和比较以下数据集的聚类输出结果:
(1)记录(使用传统K-means)
(2)记录+不确定性(使用UK-means)
(3)真实值(使用传统K-means)
为了核实UK-means算法在产生的数据群集接近从真实数据中产生的数据集群中的作用,我们采用广泛使用的用来计算聚类结果间相似度的调整兰德指数(ARI)[16]。
ARI值越高,则两个聚类结果相似度越高。
我们将对由
(2)与(3)产生的数据群集间的ARI指数和
(1)与(3)产生的数据群集间的ARI指数进行比较。
目标的个数(n)、群集的个数(K)以及目标可能移动的最小距离(d)这三个参数的值在实验中将改变。
表1呈现是当保持n=1000和K=20时改变d的值所得到的不同实验结果。
在不同的参数组合情况下,我们做了500次的实验。
每一次实验,我们事先生成记录、不确定性度、实际值的组合。
这些数据组合是同时在三种聚类过程中被使用。
相同的质心集合也被同时使用到三种聚类过程中,这样可以避免由K-means方法和UK-means方法初始条件引起的偏差。
每一次实验,我们允许K-means方法(
(1)中和(3)中)和UK-means方法(
(2)中)在一直运行到当在群集中的所有目标在两次连续迭代中没有变化时或迭代次数达到10000次时才结束。
调整兰德指数和时间间隔由分别的UK-means方法和K-means方法500次实验取平均值得到。
从表1可以看到,在应用于记录数据中,UK-means算法的调整兰德指数始终比传统K-means算法高。
成对测试结果表明,在所有的设置条件下(每一个用例中p<0.000001)两种方法的调整兰德指数值不同之处是明显的。
这个结果表明,由UK-means算法得到的数据群集更接近于从真实世界获得的数据群集。
换言,UK-means算法能获得一个数据群集,而这个数据群集是从真实世界可利用数据中得到数据群集的一个较好的预测。
表1.实验结果
D
2.5
5
7.5
10
20
50
ARI(UK-means)
0.733
0.689
0.652
0.632
0.506
0.311
ARI(K-means)
0.700
0.626
0.573
0.523
0.351
0.121
改进
0.033
0.063
0.079
0.109
0.155
0.189
改进百分比
4.77%
10.03%
13.84%
20.82%
44.34%
155.75%
在效率方面,我们发现UK-means方法比K-means方法需要更多的计算时间,但是它常常只需要合理数量的额外时间。
这是合乎情理的,因为它考虑了不确定性使得聚类质量更好。
我们通过给n、K及d赋予不同的值且保持其他变量恒定来进行深入地实验。
在所有情况下,我们发现UK-means方法比传统的K-means方法改进了,而且两者的差异有统计学意义(如图所示每一种情况试验结果)。
我们的初步研究表明当不确定性程度增加时,UK-means算法的改进度也就越高。
另一方面,除了当群集的个数非常小的时候,目标的个数和群集的个数对UK-means算法的作用是不会有大的影响。
6.总结与展望
传统的数据挖掘算法没有考虑数据项中固有的不确定性而且产生的挖掘结果与真实世界的数据不相符。
在本论文中,我们提出了在不确定性数据挖掘领域研究的一个分类方法。
同时我们以UK-means算法作为案例研究和阐明该算法是如何被应用的。
随着由先进传感器设备带来的现实数据日益复杂,我们相信不确定性数据挖掘是一个重要和有意义的研究领域。
感谢
我们要感谢JackeyNg(香港大学),DavidCheung(香港大学),EdwardHung(香港理工大学),和KevinYip(耶鲁大学)的宝贵建议。
参考文献
[1].Barbara,D.,Garcia-Molina,H.andPorter,D.“TheManagementofProbabilisticData,”IEEETransactionsonKnowledgeandDataEngineering,4(5),1992.
[2].Bezdek,J.C.PatternRecognitionwithFuzzyObjectiveFunctionAlgorithms.PlenumPress,NewYork(1981).
[3].Cheng,R.,Kalashnikov,D.,andPrabhakar,S.“EvaluatingProbabilisticQueriesoverImpreciseData,”ProceedingsoftheACMSIGMODInternationalConferenceonManagementofData,June2003.
[4].Cheng,R.,Kalashnikov,D.,andPrabhakar,S.“QueryingImpreciseDatainMovingObjectEnvironments,”IEEETransactionsonKnowledgeandDataEngineering,16(9)(2004)1112-1127.
[5].Cheng,R.,Xia,X.,Prabhakar,S.,Shah,R.andVitter,J.“EfficientIndexingMethodsforProbabilisticThresholdQueriesoverUncertainData,”ProceedingsofVLDB,2004.
[6].deSouza,R.M.C.R.anddeCarvalho,F.deA.T.“ClusteringofIntervalDataBasedonCity–BlockDistances,”PatternRecognitionLetters,25(2004)353–365.
[7].Dunn,J.C.“AFuzzyRelativeoftheISODATAProcessandItsUseinDetectingCompactWell-SeparatedClusters,”JournalofCybernetics,3(1973)32-57.
[8].Hamdan,H.andGovaert,G.“MixtureModelClusteringofUncertainData,”IEEEInternationalConferenceonFuzzySystems(2005)879-884.
[9].Ichino,M.,Yaguchi,H.“GeneralizedMinkowskiMetricsforMixedFeatureTypeDataAnalysis,”IEEETransactionsonSystems,ManandCybernetics,24(4)(1994)698–708.
[10].Jain,A.andDubes,R.AlgorithmsforClusteringData.PrenticeHall,NewJersey(1988).
[11].NileshN.D.andSuciu,D.“EfficientQueryEvaluationonProbabilisticDatabases,”VLDB(2004)864-875.
[12].PfoserD.andJensen,C.“CapturingtheUncertaintyofMoving-objectsRepresentations,”ProceedingsoftheSSDBMConference,123–132,1999.
[13].Ruspini,E.H.“ANewApproachtoClustering,”InformationControl,15
(1)(1969)22-32.
[14].Sato,M.,Sato,Y.,andJain,L.FuzzyClusteringModelsandApplications.Physica-Verlag,Heidelberg(1997).
[15].Wolfson,O.,Sistla,P.,Chamberlain,S.andYesha,Y.“UpdatingandQueryingDatabasesthatTrackMobileUnits,”DistributedandParallelDatabases,7(3),1999.
[16].Yeung,K.andRuzzo,W.“AnEmpiricalStudyonPrinci