数据挖据.docx - 冰豆网

资源描述

数据挖据.docx

《数据挖据.docx》由会员分享，可在线阅读，更多相关《数据挖据.docx（17页珍藏版）》请在冰豆网上搜索。

数据挖据.docx

数据挖据

数据挖掘算法总结1.分类算法分类与预测是两种数据分析形式，它们可以用来抽取能够描述重要数据集）用于预测数据对合或预测未来数据趋势的模型。

分类方法（Classification

）用于预测数据Prediction预测方法（象的离散类别（CategoricalLabel）；连续取值。

对象的分类流程：

分类器训练：

训练集——>特征选取——>训练——>分类：

新样本——>特征选取——>分类——>判决主要的分类算法：

）决策树（1J.Ross.Quinlan年代后期和80年代初期，机器学习研究者在20世纪70年几位统计学家出1984算法；开发了决策树算法，称作ID3.后来又提出C4.5决策树归纳是经典的分类算法。

它采用自顶向下递CART版了分类与回归树（）.度量选择测试属性。

归的分治方式构造决策树。

树的每一个结点上使用信息增益可以从生成的决策树中提取规则。

KNN）法（适用于标称型和数值型数据）（2是一个理论和最近邻法KNN法即K，最初由CoverHart于1968年提出的，上比较成熟的方法。

该方法的思路非常简单直观：

如果一个样本在特征空间中的样本中的大多数属于某一个类别，则该的k个最相似）（即特征空间中最邻近样本也属于这个类别。

该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

只与极少量的KNN方法虽然从原理上也依赖于极限定理，但在类别决策时，样本的不平衡问题，精度相邻样本有关。

因此，采用这种方法可以较好地避免方法主要靠周围有限高、对异常值不敏感，无数据输入假定。

另外，由于KNN的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。

，空间复杂度和时间复杂度都比较大，因计算量较大该方法的不足之处是K为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的．

个最近邻点。

目前常用的解决方法是事先对已知样本点进行剪辑，事先去除对算法的计算法，能降低KNN分类作用不大的样本。

另外还有一种ReverseKNN复杂度，提高分类的效率。

的类域的自动分类，而那些样本容量较样本容量比较大该算法比较适用于

小的类域采用这种算法比较容易产生误分。

（3）SVM

SVM法即支持向量机（SupportVectorMachine）法，由Vapnik等人于1995年提出，具有相对优良的性能指标。

该方法是建立在统计学习理论基础上的机器学习方法。

通过学习算法，SVM可以自动寻找出那些对分类有较好区分能力的支持向量，由此构造出的分类器可以最大化类与类的间隔，因而有较好的适应能力和较高的分准率。

该方法只需要由各类域的边界样本的类别来决定最后的分类结果。

支持向量机算法的目的在于寻找一个超平面H（d）,该超平面可以将训练集中的数据分开，且与类域边界的沿垂直于该超平面方向的距离最大，故SVM法亦被称为最大边缘（maximummargin）算法。

待分样本集中的大部分样本不是支持向量，移去或者减少这些样本对分类结果没有影响，SVM法对小样本情况下的自动分类有着较好的分类结果。

（4）贝叶斯法

Bayes法是一种在已知先验概率与类条件概率的情况下的模式分类方法，待分样本的分类结果取决于各类域中样本的全体。

Bayes方法的薄弱环节在于实际情况下，类别总体的概率分布和各类样本的概率分布函数（或密度函数）常常是不知道的。

为了获得它们，就要求样本足够大。

另外，Bayes法要求表达文本的主题词相互独立，这样的条件在实际文本中一般很难满足，因此该方法往往在效果上难以达到理论上的最大值。

贝叶斯信念网络的优点：

——不同于朴素贝叶斯分类，贝叶斯网络不假定类条件独立性。

——一种概率的图模型，允许表示属性子集之间的依赖关系。

——在处理不确定性复杂问题方面有其独特优点。

）神经网络5（．

神经网络分类算法的重点是构造阈值逻辑单元，一个值逻辑单元是一个对象，它可以输入一组加权系数的量，对它们进行求和，如果这个和达到或者超过了某个阈值，输出一个量。

如有输入值X1,X2,...,Xn和它们的权系数：

W1,W2,...,Wn，求和计算出的Xi*Wi，产生了激发层a=（X1*W1）+（X2*

W2）+...+（Xi*Wi）+...+（Xn*Wn），其中Xi是各条记录出现频率或其他参数，Wi是实时特征评估模型中得到的权系数。

神经网络是基于经验风险最小化原则的学习算法，有一些固有的缺陷，比如层数和神经元个数难以确定，容易陷入局部极小，还有过学习现象，这些本身的缺陷在SVM算法中可以得到很好的解决。

（6）VSM法

VSM法即向量空间模型（VectorSpaceModel）法，由Salton等人于60年代末提出。

这是最早也是最出名的信息检索方面的数学模型。

其基本思想是将文档表示为加权的特征向量：

D=D（T1，W1；T2，W2；…；Tn，Wn），然后通过计算文本相似度的方法来确定待分样本的类别。

当文本被表示为空间向量模型的时候，文本的相似度就可以借助特征向量之间的内积来表示。

在实际应用中，VSM法一般事先依据语料库中的训练样本和分类体系建立类别向量空间。

当需要对一篇待分样本进行分类的时候，只需要计算待分样本和每一个类别向量的相似度即内积，然后选取相似度最大的类别作为该待分样本所对应的类别。

由于VSM法中需要事先计算类别的空间向量，而该空间向量的建立又很大程度的依赖于该类别向量中所包含的特征项。

根据研究发现，类别中所包含的非零特征项越多，其包含的每个特征项对于类别的表达能力越弱。

因此，VSM法相对其他分类方法而言，更适合于专业文献的分类。

（7）基于规则的分类

基于规则的分类器是使用一组“if`......then”规则来记录进行分类的技术。

算法1.Apriori

布尔关联规则年提出的，为AgrawalApriori算法是和R.Srikant于1994挖掘频繁项集的原创性算法。

算法的名字基于这样的事实：

算法使用频繁项集性质的先验知识。

项集用于探索的迭代算法，其中k逐层搜索Apriori算法使用一种称为

，通过扫描数据库，累计每个项的计数，并收集满足最小支首先k+1）项集。

（2L找出频繁。

持度的项，找出频繁1项集的集合，该集合记为L然后，使用11项集。

找出k-，如此下去，直到不能再找到频繁项集的集合L，使用L找出L322L需要一次数据库的完整扫描。

每个k项集到，合并两个频繁（k-1）Apriori算法使用“一般到特殊”的搜索策略的搜索只要频繁项集的最大长度不是太长，这种“一般到特殊”候选k-项集。

策略是有效的。

的一个子必须是CkLkCk中的项集是用来产生频集的候选集，最后的频集，这里的LkCk中的每个元素需在交易数据库中进行验证来决定其是否加入集。

。

这个方法要求多次扫描可能很大的交易数据验证过程是算法性能的一个瓶颈这需要10个项，那么就需要扫描交易数据库10遍，库，即如果频集最多包含负载。

很大的I/O2.FP-增长树次算法只进行2FP-treeHan等提出了一个称为的算法。

FP-tree2000年，数据库扫描。

它不使用候选集，直接压缩数据库成一个频繁模式树，最后通过这棵树生成关联规则。

：

①利用事务数据库中的数据构造两个主要步骤完成FP-tree算法由FP-treeFP-tree；②从中挖掘频繁模式。

优缺点：

算法只需对事务数据库进行二次扫描，并且避免产生的大量候选FP-tree

，所以内存开销大，FP-tree集．但由于该算法要递归生成条件数据库和条件而且只能用于挖掘单维的布尔关联规则．2．聚类算法把一个给定的数据对象集合划分成不同的子集的过程，每个子聚类分析：

集是一个簇；

簇（Cluster）:

一个数据对象的集合。

在同一个簇中，对象之间彼此相似性；不同簇的对象之间是相异的。

聚类是一种无监督分类法:

没有预先指定的类别；遇到要分析的数据缺乏描述性信息时，或者无法组织成任何分类模式时，采用聚类分析。

聚类与分类的根本区别：

分类需要事先知道所依据的数据特性（有监督学习），而聚类是要找到这个数据特性（无监督学习）

常见的聚类算法如下：

（1）划分方法

首先创建K个划分的初始集合，其中参数K是要构建的划分数目，然后采用迭代重定位技术，设法通过将对象从一个簇移到另一个来改进划分的质量。

典型的划分有K均值、K中心点，CLARANS和对它们的改进。

1.K均值

基于原型的聚类技术创建数据对象的单层划分。

其中最突出的是K均值和K中心点。

K均值用质心定义原型，其中质心是一组点的均值。

通常K均值聚类用于n维连续空间的对象。

优点：

提高了可伸缩性：

使用合适规模的样本；使用过滤方法；使用微聚类思想。

当数据类型是标称型时，使用K均值就没有意义，可以使用K众数来对标称型数据进行聚类。

缺点：

1.需事先给出生成的簇数k；

2.不适合发现非凸形状或差别较大的簇；

3.对噪声和离群点敏感。

2.K中心点

K中心点使用中心点定义原型，其中中心点是一组点中最有代表性的点。

K中心点聚类可以用于广泛的数据，因为它只需要对象之间的邻近性度量。

K均值与K中心点的比较：

1.当n和k较大时，k-均值方法计算开销远小于k-中心点算法。

中心点算法每次k-中心点方法更具鲁棒性。

k-当存在噪声和离群点时，2.

迭代复杂度是O（k（n-k）2）。

（2）层次方法

该方法可以分为自上而下（分解）和自下而上（合并）两种操作方式。

为弥补分解与合并的不足，层次合并经常要与其它聚类方法相结合，如循环定位。

典型的方法如下：

1.BIRCH（BalancedIterativeReducingandClusteringusingHierarchies）

方法

首先用树结构对对象进行层次划分，其中叶节点或者是低层次的非叶节点可以看作是由分辨率决定的“微簇”，然后使用其他的聚类算法对这些微簇进行宏聚类。

BIRCH方法通过集成层次聚类和其他聚类算法来对大量数值数据进行聚类。

其中层次聚类用于初始的微聚类阶段，而其他方法如迭代划分（在后来的宏聚类阶段）。

该算法的计算复杂度是O（n），其中n是聚类的对象的数目。

实验表明该算法关于对象数目是线性可伸缩的，并且具有较好的数据聚类质量。

如果簇不是球形的，BIRCH不能很好地工作，因为它使用半径或直径的概念来控制簇的边界。

2.ROCK:

分类属性的层次聚类算法

ROCK基于簇间的互联性进行合并。

对于聚类包含布尔或分类属性的数据。

ROCK是一种层次聚类算法，针对具有分类属性的数据使用了链接（指两个对象间共同的近邻数目）这一概念。

ROCK采用一种比较全局的观点，通过考虑成对点的邻域情况进行聚类。

如果两个相似的点同时具有相似的邻域，那么这两个点可能属于同一个簇而合并。

3.CURE：

基于质心和基于代表对象方法之间的中间策略

CURE选择基于质心和基于代表对象方法之间的中间策略。

很多聚类算法只擅长处理球形或相似大小的聚类，另外有些聚类算法对孤立点比较敏感。

CURE算法解决了上述两方面的问题，选择基于质心和基于代表对象方法之间的中间策略，即选择空间中固定数目的具有代表性的点，而不是用单个中心或对象来代表一个簇。

分的对象，然后根据一个特定的分散产生方式：

首先选择簇中代表点簇的．

数或收缩因子向簇中心收缩或移动它们。

在算法的每一步，有最近距离的代表点对（每个点来自于一个不同的簇）的两个簇被合并.

该算法首先把每个数据点看成一簇，然后再以一个特定的收缩因子向簇中心“收缩”它们，即合并两个距离最近的代表点的簇。

CURE算法优点：

1.可以适应非球形的几何形状。

将一个簇用多个代表点来表示，使得类的外延可以向非球形的形状扩展，从而可调整类的形状以表达那些非球形的类。

2.对孤立点的处理更加健壮。

收缩因子降底了噪音对聚类的影响，从而使CURE对孤立点的处理更加健壮.

3.而且能够识别非球形和大小变化较大的簇。

4.对大型数据库有良好的伸缩性。

CURE算法的复杂性为O（n）。

n是对象的数目，所以该算法适合大型数据的聚类。

4.Chameleon：

利用动态建模的层次聚类算法

Chameleon是一种层次聚类算法，它采用动态建模来确定一对簇之间的相似度。

在Chameleon中，簇的相似度依据如下两点评估：

（1）簇中对象的连接情况

（2）簇的邻近性

也就是说，如果两个簇的互连性都很高并且它们又靠的很近就将其合并。

Chameleon算法的思想是：

首先使用一种图划分算法将k最近邻图划分成大量相对较小的子簇。

然后使用凝聚层次聚类算法，基于子簇的相似度反复地合并子簇。

为了确定最相似的子簇对，它既考虑每个簇的互连性，又考虑簇的邻近性。

与一些著名的算法（如BIRCH和基于密度的DBSCAN）相比，Chameleon在发现高质量的任意形状的簇方面具有很强的能力。

然而，在最坏的情况下，高维数据的处理代价可能对n个对象需要

2时间。

）O（n的．

（3）基于密度的方法

密度聚类方法的指导思想是，只要一个区域中的点的密度大于某个域值，就把它加到与之相近的聚类中去。

对于簇中每个对象，在给定的半径ε的邻域中至少要包含最小数数目（MinPts）个对象。

这类算法能克服基于距离的算法

只能发现“类圆形”的聚类的缺点，可发现任意形状的聚类，且对噪声数据不敏感。

1.DBSCAN算法

DBSCAN算法是一个比较有代表性的基于密度的聚类算法。

与层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在有“噪声”的空间数据库中发现任意形状的聚类。

DBSCAN通过检查数据集中每个对象的ε-邻域来寻找聚类。

如果一个点p的ε-邻域包含多于MinPts个对象，则创建一个p作为核心对象的新簇C。

然后，DBSCAN从C中寻找未被处理对象q的ε-邻域，如果q的ε-邻域包含多MinPts个对象，则还未包含在C中的q的邻点被加入到簇中，并且这些点的ε-邻域将在下一步中进行检测。

这个过程反复执行，当没有新的点可以被添加到任何簇时，该过程结束。

2.OPTICS算法

OPTICS算法并不显式的产生数据及聚类，而是输出簇排序（cluster

ordering），这个排序是所有分析对象的线性表，并且代表数据基于密度的聚类结构。

较稠密簇中的对象在簇排序中相互靠近。

这个排序等价于从较广泛的参数设置中得到基于密度的聚类。

这样optics不需要用户提供特定密度阈值。

optics算法计算给定数据库中所有对象的排序，并且存储每个对象核心距离和相应的可达距离。

3.DENCLUE算法

密度估计是基于密度的聚类方法的核心问题。

DENCLUE（DENsity-based

CLUstEring,基于密度的聚类）是一种基于一组密度分布函数的聚类算法。

每个数据点的影响可以用一个数学函数来形式化地模拟，它描述了一个数据点在邻域内的影响，被称为影响函数。

数据空间的整体密度（全局密度函数）可以被模拟为所有数据点的影响函数的总和；

聚类可以通过确定密度吸引点（densityattractor）来得到，这里的密度吸引点是全局密度函数的局部最大值。

一个点x是被一个密度吸引点x*密度吸引的，如果存在一组点x0，x1，…,xk，使得x0=x，xk=x*，对0

i-1

（4）基于网格的方法

基于网格的聚类方法使用一种多分辨率的网格数据结构。

它将对象空间量化为有限数目的单元，形成网格结构，所有的聚类操作都在网格上进行。

基本思想是将每个属性的可能值分割成许多相邻的区间，创建网格单元的集合（假设属性值是序数的、区间的或者连续的）。

每个对象落入一个网格单元，网格单元对应的属性区间包含该对象的值。

优点是它的处理速度很快，其处理时间独立于数据对象的数目，只与量化空间中每一维的单元数目有关。

1.STING:

统计信息网格

STING是一种基于网格的多分辨率聚类技术，它将空间区域划分为矩形单元。

针对不同级别的分辨率，通常存在多个级别的矩形单元，

这些单元形成了一个层次结构：

高层的每个单元被划分为多个低一层的单元。

关于每个网格单元属性的统计信息（例如平均值、最大值和最小值）被预先计算和存储。

这些统计信息用于回答查询。

2.CLIQUE:

一种类似于Apriori的子空间聚类方法

CLIQUE算法是1998年提出的典型的高维空间的子空间聚类算法，综合了基于密度和基于网格的聚类算法思想，因此既可以像基于密度的方法发现任意形状的簇，又可以像基于网格的方法处理较大的多维数据集。

CLIQUE把每个维划分成不重叠的区间，从而把数据对象的整个嵌入空间划分成单元。

它使用一个密度阈值识别稠密单元，如果映射到它的对象超过该密度阀值，则这个单元是稠密的。

利用小波变换聚类3.WaveCluster:

WaveCluster是一种多分辨率的聚类算法，它首先通过在数据空间加一个多维网格结构来汇总数据，然后采用小波变换来变换原特征空间，在变换后的空。

密集区域间中发现．

WaveCluster算法通过把d维数据对象看作是d维信号，信号的高频部分对应特征空间中对象分布有急剧变化的区域，也就是类簇边界；而低频中高振幅部分则对应于对象分布比较集中的区域，也就是簇的内部。

通过信号处理中的小波变换技术把信号分解成不同的频率段，找出d维信号的高频部分和低频部

分，也就找出了簇。

其中的噪声可以自动地被消除。

（5）基于模型的方法

该方法为每一个簇假设一个模型，并找出数据与该模型的最佳拟合。

1.聚类与模糊聚类

1965年，LotfiZadeh引进模糊集合论和模糊逻辑作为一种处理不精确和不确定性的方法。

简要的说，模糊集合论允许对象以0和1之间的某个隶属度属于一个集合，而模糊逻辑允许一个陈述以0和1之间的确定度为真。

2.EM算法

EM算法是Dempster，Laind，Rubin于1977年提出的求参数极大似然估计的一种方法，它可以从非完整数据集中对参数进行MLE估计，是一种非常简单实用的学习算法。

这种方法可以广泛地应用于拟合数据缺损的混合分布。

（6）高维聚类算法

一般，当数据的维度高于10维时，我们认为是高维的数据。

聚类高维数据的方法：

（1）子空间聚类方法：

搜索存在于给定高维数据空间的子空间中的簇，其中子空间用整个空间中的属性子集定义。

CLIQUE、PROCLUS

（2）维归约方法：

试图构造更低维的空间，并在这种新的空间中搜索簇。

通常，这种方法可能通过学习组合原数据的一些维，构造新的维。

如何为高维数据聚类创建一个合适的模型。

与传统的的低维空间聚类不同，隐藏在高维空间中的簇通常非常小。

通常，有指数多个可能的子空间或维归约选项，因此最优解的计算机开销非常高。

1.PCA（主成分分析）算法

PCA搜索k个最能代表数据的n维正交向量（k<=n）。

原数据投影到一个小得。

维归约多的空间上，导致．

PCA通过创建一个替换的、较小的变量集“组合”属性的基本要素。

PCA可用于有序和无序的属性，并且可以处理稀疏和倾斜数据。

2.PROCLUS算法

PROCLUS算法（投影聚类）是一种典型的维归约子空间聚类方法。

类似于K-中心点的方法。

它不是从单维空间开始，而是从高维的属性空间中寻找簇的初始近似开始。

对每维为每个簇赋值一个权重，并在下一轮迭代中使用这些更新的权重产生簇。

PROCLUS算法通过类似于CLARANS使用的爬山过程来发现最佳中点集，推广到处理投影聚类。

PROCLUS算法采用曼哈顿分段距离度量，也是一种自顶向下的子空间方法。

展开阅读全文