ImageVerifierCode 换一换
格式:DOCX , 页数:19 ,大小:136.68KB ,
资源ID:13182953      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/13182953.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(不确定性数据挖掘外文翻译文献Word格式.docx)为本站会员(b****0)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

不确定性数据挖掘外文翻译文献Word格式.docx

1、特别在需要与物理环境交互的应用中,如:移动定位服务15和传感器监测3。例如:在追踪移动目标(如车辆或人)的情境中,数据库是不可能完全追踪到所有目标在所有瞬间的准确位置。因此,每个目标的位置的变化过程是伴有不确定性的。为了提供准确地查询和挖掘结果,这些导致数据不确定性的多方面来源不得不被考虑。在最近几年里,已有在数据库中不确定性数据管理方面的大量研究,如:数据库中不确定性的表现和不确定性数据查询。然而,很少有研究成果能够解决不确定性数据挖掘的问题。我们注意到,不确定性使数据值不再具有原子性。对于使用传统数据挖掘技术,不确定性数据不得不被归纳为原子性数值。再以追踪移动目标应用为例,一个目标的位置可

2、以通过它最后的记录位置或通过一个预期位置(如果这个目标位置概率分布被考虑到)归纳得到。不幸地是,归纳得到的记录与真实记录之间的误差可能会严重也影响挖掘结果。图1阐明了当一种聚类算法被应用追踪带有不确定性位置的移动目标时所发生的问题。图1(a)表示一组目标的真实数据,而图1(b)则表示记录的已过时的这些目标的位置。如果这些实际位置是有效的话,那么它们与那些从过时数据值中得到的数据集群有明显差异。如果我们仅仅依靠记录的数据值,那么将会很多的目标可能被置于错误的数据集群中。更糟糕地是,一个群中的每一个成员都有可能改变群的质心,因此导致更多的错误。图1 数据图图1.(a)表示真实数据划分成的三个集群(

3、a、b、c)。(b)表示的有些目标(隐藏的)的记录位置与它们真实的数据不一样,因此形成集群a、b、c和c”。注意到a集群中比a集群少了一个目标,而b集群中比b集群多一个目标。同时,c也误拆分会为c和c”。(c)表示方向不确定性被考虑来推测出集群a,b和c。这种聚类产生的结果比(b)结果更加接近(a)。我们建议将不确定性数据的概率密度函数等不确定性信息与现有的数据挖掘方法结合,这样在实际数据可利用于数据挖掘的情况下会使得挖掘结果更接近从真实数据中获得的结果。本文研究了不确定性怎么通过把数据聚类当成一种激励范例使用使得不确定性因素与数据挖掘相结合。我们称之为不确定性数据挖掘问题。文章接下来的结构如

4、下。第二章是有关工作综述。在第三章中,我们定义了不确定性数据聚类问题和介绍我们提议的算法。第四章将呈现我们算法在移动目标数据库的应用。详细地的实习结果将在第五章解释。最后在第六章总结论文并提出可能的研究方向。2.研究背景近年来,人们对数据不确定性管理有明显的研究兴趣。数据不确定性被为两类,即已存在的不确定生和数值不确定性。在第一种类型中,不管目标或数据元组存在是否,数据本身就已经存在不确定性了。例如,关系数据库中的元组可能与能表现它存在信任度的一个概率值相关联1,2。在数据不确定性类型中,一个数据项作为一个封闭的区域,与其值的概率密度函数(PDF)限定了其可能的值3,4,12,15。这个模型可

5、以被应用于量化在不断变化的环境下的位置或传感器数据的不精密度。在这个领域里,大量的工作都致力于不精确查找。例如,在5中,解决不确定性数据范围查询的索引方案已经被提出。在4中,同一作者提出了解决邻近等查询的方案。注意到,所有工作已经把不确定性数据管理的研究结果应用于简化数据库查询中,而不是应用于相对复杂的数据分析和挖掘问题中。在数据挖掘研究中,聚类问题已经被很好的研究。一个标准的聚类过程由5个主要步骤组成:模式表示,模式定义,模式相似度量的定义,聚类或分组,数据抽象和造工评核10。只有小部分关于数据挖掘或不确定性数据聚类的研究被发表。Hamdan与Govaert已经通过运用EM算法解决使混合密度

6、适合不确定性数据聚类的问题 8。然而,这个模型不能任意地应用于其他聚类算法因为它相当于为EM定制的。在数据区间的聚类也同样被研究。像城区距离或明考斯基距离等不同距离测量也已经被用来衡量两个区间的相似度。在这些测量的大多数中,区间的概率密度函数并没有被考虑到。另外一个相关领域的研究就是模糊聚类。在模糊逻辑中的模糊聚类研究已经很久远了13。在模糊聚类中,一个是数据簇由一组目标的模糊子集组成。每个目标与每个簇都有一个“归属关系度”。换言之,一个目标可以归属于多个簇,与每个簇均有一个度。模糊C均值聚类算法是一种最广泛的使用模糊聚类方法2,7。不同的模糊聚类方法已被应用在一般数据或模糊数据中来产生的模糊

7、数据簇。他们研究工作是基于一个模糊数据模型的,而我们工作的开展则基于移动目标的不确定性模型。3.不确定数据的分类在图2中,我们提出一种分类法来阐述数据挖掘方法怎么根据是否考虑数据不准确性来分类。有很多通用的数据挖掘技术,如: 关联规则挖掘、数据分类、数据聚类。当然这些技术需要经过改进才能用于处理不确定性技术。此外,我们区分出数据聚类的两种类型:硬聚类和模糊聚类。硬聚类旨在通过考虑预期的数据来提高聚类的准确性。另一方面,模糊聚类则表示聚类的结果为一个“模糊”表格。模糊聚类的一个例子是每个数据项被赋予一个被分配给数据簇的任意成员的概率。图2. 不确定性数据挖掘的一种分类 例如,当不确定性被考虑时,

8、会发生一个有意思的问题,即如何在数据集中表示每个元组和关联的不确定性。而且,由于支持和其他指标的概念需要重新定义,不得不考虑改进那些著名的关联规则挖掘算法(如Apriori)。同样地,在数据分类和数据聚集中,传统算法由于未将数据不确定性考虑在内而导致不能起作用。不得不对聚类质心、两个目标的距离、或目标与质心的距离等重要度量作重新定义和进行更深的研究。4不确定性数据聚类实例在这个章节中,我们将以不确定性数据挖掘的例子为大家介绍我们在不确定性数据聚类中的研究工作。这将阐明我们在改进传统数据挖掘算法以适合不确定性数据问题上的想法。4.1 问题定义用S表示V维向量xi的集合,其中i=1到n,这些向量表

9、示在聚类应用中被考虑的所有记录的属性值。每个记录oi与一个概率密度函数fi(x)相联系,这个函数就是oi属性值x在时间t时刻的概率密度函数。我们没有干涉这个不确定性函数的实时变化,或记录的概率密度函数是什么。平均密度函数就是一个概率密度函数的例子,它描述“大量不确定性”情景中是最糟的情况3。另一个常用的就是高斯分布函数,它能够用于描述测量误差12,15。聚类问题就是在数据集簇Cj(j从1到K)找到一个数据集C,其中Cj由基于相似性的平均值cj构成。不同的聚类算法对应不对的目标函数,但是大意都是最小化同一数据集目标间的距离和最大化不同数据集目标间的距离。数据集内部距离最小化也被视为每个数据点之间

10、距离xi以及xi与对应的Cj中平均值cj距离的最小化。在论文中,我们只考虑硬聚类,即,每个目标只分配给一个一个集群的一个元素。4.2 均值聚类在精确数据中的应用这个传统的均值聚类算法目的在于找到K(也就是由平均值cj构成数据集簇Cj)中找到一个数据集C来最小化平方误差总和(SSE)。平方误差总和通常计算如下: (1)| . |表示一个数据点xi与数据集平均值cj的距离试题。例如,欧氏距离定义为: (2)一个数据集Ci的平均值(质心)由下面的向量公式来定义: (3)均值聚类算法如下:1. Assign initial values for cluster means c1 to cK2. rep

11、eat3. for i = 1 to n do4. Assign each data point xi to cluster Cj where | cj - xi | is the minimum.5. end for6. for j = 1 to K do7. Recalculate cluster mean cj of cluster Cj8. end for9. until convergence10. return C 收敛可能基于不同的质心来确定。一些收敛性判别规则例子包括:(1)当平方误差总和小于某一用户专用临界值,(2)当在一次迭代中没有一个目标再分配给不同的数据集和(3)当迭代

12、次数还达到预期的定义的最大值。4.3 K-means聚类在不确定性数据中的应用为了在聚类过程中考虑数据不确定性,我们提出一种算法来实现最小化期望平方误差总和E(SSE)的目标。注意到一个数据对象xi由一个带有不确定性概率密度f(xi)的不确定性区域决定。给定一组数据群集,期望平方误差总和可以计算如下: (4)数据集平均值可以如下给出: (5)我们到此将提出一种新K-means算法,即UK-means,来实现不确定性数据聚类。4. Assign each data point xi to cluster Cj where E(| cj - xi |) is the minimum.10. ret

13、urn CUK-mean聚类算法与K-means聚类算法的最大不同点在于距离和群集的计算。特别地,UK-means基于数据不确定性模型来计算预期的距离和数据集质心。同时,收敛可按照不同的标准来定义。注意到如果收敛依赖于下平方误差,那么在方程式(4)中E(SSE)应该替代SSE使用。在第4步中,常常很困难用代数方法来确定E(| cj - xi |),特别地,各种各样的几何图形不确定性区域(如,线,圆)和不同的不确定性概率密度函数意味着需要使用数值积分法。鉴于此,比较容易获得的E(| cj - xi |2)用来替代E(| cj - xi |)。这使我们能够确定在聚类任务(即步骤4)中使用简单的代数

14、表达式。5一个案例研究和评估5.1线性移动不确定性数据聚类在最后一章提出的UK-means算法可适用于任意一个不确定性区域和概率密度函数。为了证明方法的可行性,我们将描述所推荐的算法是如何运用于特定于在平面空间中移动的目标的不确定性模型。我们也会介绍算法的评估结果。这个算法已被应用于一个含有单向线性移动不确定性的模型中。在这个模型里,我们需要让每一目标在某一方向移动的位置均匀地分布在一段直线上。假设我们在一个质心c=(p,q)和一个数据对象x被指定在一个线性不确定的均匀分布的区域中。让线性不确定性线段的终结点为(a,b)和(c,d)。这样这个线性方程式可用参数表示为(a+t(c-a),b+t(d-b),其中t属于0,1。使用f(t)表示不确定性概率密度函数。同时,不确定性线段的距离表示为

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1