不确定性数据挖掘外文翻译文献Word格式.docx
《不确定性数据挖掘外文翻译文献Word格式.docx》由会员分享,可在线阅读,更多相关《不确定性数据挖掘外文翻译文献Word格式.docx(19页珍藏版)》请在冰豆网上搜索。
![不确定性数据挖掘外文翻译文献Word格式.docx](https://file1.bdocx.com/fileroot1/2022-10/7/504b86b1-b860-4d64-a8e8-55a667f97096/504b86b1-b860-4d64-a8e8-55a667f970961.gif)
特别在需要与物理环境交互的应用中,如:
移动定位服务[15]和传感器监测[3]。
例如:
在追踪移动目标(如车辆或人)的情境中,数据库是不可能完全追踪到所有目标在所有瞬间的准确位置。
因此,每个目标的位置的变化过程是伴有不确定性的。
为了提供准确地查询和挖掘结果,这些导致数据不确定性的多方面来源不得不被考虑。
在最近几年里,已有在数据库中不确定性数据管理方面的大量研究,如:
数据库中不确定性的表现和不确定性数据查询。
然而,很少有研究成果能够解决不确定性数据挖掘的问题。
我们注意到,不确定性使数据值不再具有原子性。
对于使用传统数据挖掘技术,不确定性数据不得不被归纳为原子性数值。
再以追踪移动目标应用为例,一个目标的位置可以通过它最后的记录位置或通过一个预期位置(如果这个目标位置概率分布被考虑到)归纳得到。
不幸地是,归纳得到的记录与真实记录之间的误差可能会严重也影响挖掘结果。
图1阐明了当一种聚类算法被应用追踪带有不确定性位置的移动目标时所发生的问题。
图1(a)表示一组目标的真实数据,而图1(b)则表示记录的已过时的这些目标的位置。
如果这些实际位置是有效的话,那么它们与那些从过时数据值中得到的数据集群有明显差异。
如果我们仅仅依靠记录的数据值,那么将会很多的目标可能被置于错误的数据集群中。
更糟糕地是,一个群中的每一个成员都有可能改变群的质心,因此导致更多的错误。
图1数据图
图1.(a)表示真实数据划分成的三个集群(a、b、c)。
(b)表示的有些目标(隐藏的)的记录位置与它们真实的数据不一样,因此形成集群a’、b’、c’和c”。
注意到a’集群中比a集群少了一个目标,而b’集群中比b集群多一个目标。
同时,c也误拆分会为c’和c”。
(c)表示方向不确定性被考虑来推测出集群a’,b’和c。
这种聚类产生的结果比(b)结果更加接近(a)。
我们建议将不确定性数据的概率密度函数等不确定性信息与现有的数据挖掘方法结合,这样在实际数据可利用于数据挖掘的情况下会使得挖掘结果更接近从真实数据中获得的结果。
本文研究了不确定性怎么通过把数据聚类当成一种激励范例使用使得不确定性因素与数据挖掘相结合。
我们称之为不确定性数据挖掘问题。
文章接下来的结构如下。
第二章是有关工作综述。
在第三章中,我们定义了不确定性数据聚类问题和介绍我们提议的算法。
第四章将呈现我们算法在移动目标数据库的应用。
详细地的实习结果将在第五章解释。
最后在第六章总结论文并提出可能的研究方向。
2.研究背景
近年来,人们对数据不确定性管理有明显的研究兴趣。
数据不确定性被为两类,即已存在的不确定生和数值不确定性。
在第一种类型中,不管目标或数据元组存在是否,数据本身就已经存在不确定性了。
例如,关系数据库中的元组可能与能表现它存在信任度的一个概率值相关联[1,2]。
在数据不确定性类型中,一个数据项作为一个封闭的区域,与其值的概率密度函数(PDF)限定了其可能的值[3,4,12,15]。
这个模型可以被应用于量化在不断变化的环境下的位置或传感器数据的不精密度。
在这个领域里,大量的工作都致力于不精确查找。
例如,在[5]中,解决不确定性数据范围查询的索引方案已经被提出。
在[4]中,同一作者提出了解决邻近等查询的方案。
注意到,所有工作已经把不确定性数据管理的研究结果应用于简化数据库查询中,而不是应用于相对复杂的数据分析和挖掘问题中。
在数据挖掘研究中,聚类问题已经被很好的研究。
一个标准的聚类过程由5个主要步骤组成:
模式表示,模式定义,模式相似度量的定义,聚类或分组,数据抽象和造工评核[10]。
只有小部分关于数据挖掘或不确定性数据聚类的研究被发表。
Hamdan与Govaert已经通过运用EM算法解决使混合密度适合不确定性数据聚类的问题[8]。
然而,这个模型不能任意地应用于其他聚类算法因为它相当于为EM定制的。
在数据区间的聚类也同样被研究。
像城区距离或明考斯基距离等不同距离测量也已经被用来衡量两个区间的相似度。
在这些测量的大多数中,区间的概率密度函数并没有被考虑到。
另外一个相关领域的研究就是模糊聚类。
在模糊逻辑中的模糊聚类研究已经很久远了[13]。
在模糊聚类中,一个是数据簇由一组目标的模糊子集组成。
每个目标与每个簇都有一个“归属关系度”。
换言之,一个目标可以归属于多个簇,与每个簇均有一个度。
模糊C均值聚类算法是一种最广泛的使用模糊聚类方法[2,7]。
不同的模糊聚类方法已被应用在一般数据或模糊数据中来产生的模糊数据簇。
他们研究工作是基于一个模糊数据模型的,而我们工作的开展则基于移动目标的不确定性模型。
3.不确定数据的分类
在图2中,我们提出一种分类法来阐述数据挖掘方法怎么根据是否考虑数据不准确性来分类。
有很多通用的数据挖掘技术,如:
关联规则挖掘、数据分类、数据聚类。
当然这些技术需要经过改进才能用于处理不确定性技术。
此外,我们区分出数据聚类的两种类型:
硬聚类和模糊聚类。
硬聚类旨在通过考虑预期的数据来提高聚类的准确性。
另一方面,模糊聚类则表示聚类的结果为一个“模糊”表格。
模糊聚类的一个例子是每个数据项被赋予一个被分配给数据簇的任意成员的概率。
图2.不确定性数据挖掘的一种分类
例如,当不确定性被考虑时,会发生一个有意思的问题,即如何在数据集中表示每个元组和关联的不确定性。
而且,由于支持和其他指标的概念需要重新定义,不得不考虑改进那些著名的关联规则挖掘算法(如Apriori)。
同样地,在数据分类和数据聚集中,传统算法由于未将数据不确定性考虑在内而导致不能起作用。
不得不对聚类质心、两个目标的距离、或目标与质心的距离等重要度量作重新定义和进行更深的研究。
4.不确定性数据聚类实例
在这个章节中,我们将以不确定性数据挖掘的例子为大家介绍我们在不确定性数据聚类中的研究工作。
这将阐明我们在改进传统数据挖掘算法以适合不确定性数据问题上的想法。
4.1问题定义
用S表示V维向量xi的集合,其中i=1到n,这些向量表示在聚类应用中被考虑的所有记录的属性值。
每个记录oi与一个概率密度函数fi(x)相联系,这个函数就是oi属性值x在时间t时刻的概率密度函数。
我们没有干涉这个不确定性函数的实时变化,或记录的概率密度函数是什么。
平均密度函数就是一个概率密度函数的例子,它描述“大量不确定性”情景中是最糟的情况[3]。
另一个常用的就是高斯分布函数,它能够用于描述测量误差[12,15]。
聚类问题就是在数据集簇Cj(j从1到K)找到一个数据集C,其中Cj由基于相似性的平均值cj构成。
不同的聚类算法对应不对的目标函数,但是大意都是最小化同一数据集目标间的距离和最大化不同数据集目标间的距离。
数据集内部距离最小化也被视为每个数据点之间距离xi以及xi与对应的Cj中平均值cj距离的最小化。
在论文中,我们只考虑硬聚类,即,每个目标只分配给一个一个集群的一个元素。
4.2均值聚类在精确数据中的应用
这个传统的均值聚类算法目的在于找到K(也就是由平均值cj构成数据集簇Cj)中找到一个数据集C来最小化平方误差总和(SSE)。
平方误差总和通常计算如下:
(1)
||.||表示一个数据点xi与数据集平均值cj的距离试题。
例如,欧氏距离定义为:
(2)
一个数据集Ci的平均值(质心)由下面的向量公式来定义:
(3)
均值聚类算法如下:
1.Assigninitialvaluesforclustermeansc1tocK
2.repeat
3.fori=1tondo
4.AssigneachdatapointxitoclusterCjwhere||cj-xi||istheminimum.
5.endfor
6.forj=1toKdo
7.RecalculateclustermeancjofclusterCj
8.endfor
9.untilconvergence
10.returnC
收敛可能基于不同的质心来确定。
一些收敛性判别规则例子包括:
(1)当平方误差总和小于某一用户专用临界值,
(2)当在一次迭代中没有一个目标再分配给不同的数据集和(3)当迭代次数还达到预期的定义的最大值。
4.3K-means聚类在不确定性数据中的应用
为了在聚类过程中考虑数据不确定性,我们提出一种算法来实现最小化期望平方误差总和E(SSE)的目标。
注意到一个数据对象xi由一个带有不确定性概率密度f(xi)的不确定性区域决定。
给定一组数据群集,期望平方误差总和可以计算如下:
(4)
数据集平均值可以如下给出:
(5)
我们到此将提出一种新K-means算法,即UK-means,来实现不确定性数据聚类。
4.AssigneachdatapointxitoclusterCjwhereE(||cj-xi||)istheminimum.
10.returnC
UK-mean聚类算法与K-means聚类算法的最大不同点在于距离和群集的计算。
特别地,UK-means基于数据不确定性模型来计算预期的距离和数据集质心。
同时,收敛可按照不同的标准来定义。
注意到如果收敛依赖于下平方误差,那么在方程式(4)中E(SSE)应该替代SSE使用。
在第4步中,常常很困难用代数方法来确定E(||cj-xi||),特别地,各种各样的几何图形不确定性区域(如,线,圆)和不同的不确定性概率密度函数意味着需要使用数值积分法。
鉴于此,比较容易获得的E(||cj-xi||2)用来替代E(||cj-xi||)。
这使我们能够确定在聚类任务(即步骤4)中使用简单的代数表达式。
5.一个案例研究和评估
5.1线性移动不确定性数据聚类
在最后一章提出的UK-means算法可适用于任意一个不确定性区域和概率密度函数。
为了证明方法的可行性,我们将描述所推荐的算法是如何运用于特定于在平面空间中移动的目标的不确定性模型。
我们也会介绍算法的评估结果。
这个算法已被应用于一个含有单向线性移动不确定性的模型中。
在这个模型里,我们需要让每一目标在某一方向移动的位置均匀地分布在一段直线上。
假设我们在一个质心c=(p,q)和一个数据对象x被指定在一个线性不确定的均匀分布的区域中。
让线性不确定性线段的终结点为(a,b)和(c,d)。
这样这个线性方程式可用参数表示为(a+t(c-a),b+t(d-b)),其中t属于[0,1]。
使用f(t)表示不确定性概率密度函数。
同时,不确定性线段的距离表示为