聚类算法叙述Word文档下载推荐.docx

资源描述

聚类算法叙述Word文档下载推荐.docx

《聚类算法叙述Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《聚类算法叙述Word文档下载推荐.docx（21页珍藏版）》请在冰豆网上搜索。

聚类算法叙述Word文档下载推荐.docx

利用网格单元保存数据统计信息，从而实现多分辨率的聚类

WaveCluster：

在聚类分析中引入了小波变换的原理，主要应用于信号处理领域。

（备注：

小波算法在信号处理，图形图像，加密解密等领域有重要应用，是一种比较高深和牛逼的东西）

CLIQUE：

是一种结合了网格和密度的聚类算法

OPTIGRID：

基于神经网络的聚类算法：

自组织神经网络SOM：

该方法的基本思想是--由外界输入不同的样本到人工的自组织映射网络中，一开始时，输入样本引起输出兴奋细胞的位置各不相同，但自组织后会形成一些细胞群，它们分别代表了输入样本，反映了输入样本的特征

基于统计学的聚类算法：

COBWeb：

COBWeb是一个通用的概念聚类方法，它用分类树的形式表现层次聚类

CLASSIT：

AutoClass：

是以概率混合模型为基础，利用属性的概率分布来描述聚类，该方法能够处理混合型的数据，但要求各属性相互独立

---------------------------------------------------------

几种常用的聚类算法从可伸缩性、适合的数据类型、高维性（处理高维数据的能力）、异常数据的抗干扰度、聚类形状和算法效率6个方面进行了综合性能评价，评价结果如表1所示：

算法名称

可伸缩性

适合的数据类型

高维性

异常数据的抗干扰性

聚类形状

算法效率

WaveCluster

很高

数值型

较高

任意形状

ROCK

很高

混合型

一般

BIRCH

较高

数值型

较低

球形

CURE

一般

任意形状

K-Prototypes

DENCLUE

OptiGrid

CLIQUE

较低

DBSCAN

CLARANS

目前聚类分析研究的主要内容：

对聚类进行研究是数据挖掘中的一个热门方向，由于以上所介绍的聚类方法都存在着某些缺点，因此近些年对于聚类分析的研究很多都专注于改进现有的聚类方法或者是提出一种新的聚类方法。

以下将对传统聚类方法中存在的问题以及人们在这些问题上所做的努力做一个简单的总结：

1从以上对传统的聚类分析方法所做的总结来看，不管是k-means方法，还是CURE方法，在进行聚类之前都需要用户事先确定要得到的聚类的数目。

然而在现实数据中，聚类的数目是未知的，通常要经过不断的实验来获得合适的聚类数目，得到较好的聚类结果。

2传统的聚类方法一般都是适合于某种情况的聚类，没有一种方法能够满足各种情况下的聚类，比如BIRCH方法对于球状簇有很好的聚类性能，但是对于不规则的聚类，则不能很好的工作；

K-medoids方法不太受孤立点的影响，但是其计算代价又很大。

因此如何解决这个问题成为当前的一个研究热点，有学者提出将不同的聚类思想进行融合以形成新的聚类算法，从而综合利用不同聚类算法的优点，在一次聚类过程中综合利用多种聚类方法，能够有效的缓解这个问题。

3随着信息时代的到来，对大量的数据进行分析处理是一个很庞大的工作，这就关系到一个计算效率的问题。

有文献提出了一种基于最小生成树的聚类算法，该算法通过逐渐丢弃最长的边来实现聚类结果，当某条边的长度超过了某个阈值，那么更长边就不需要计算而直接丢弃，这样就极大地提高了计算效率，降低了计算成本。

4处理大规模数据和高维数据的能力有待于提高。

目前许多聚类方法处理小规模数据和低维数据时性能比较好，但是当数据规模增大，维度升高时，性能就会急剧下降，比如k-medoids方法处理小规模数据时性能很好，但是随着数据量增多，效率就逐渐下降，而现实生活中的数据大部分又都属于规模比较大、维度比较高的数据集。

有文献提出了一种在高维空间挖掘映射聚类的方法PCKA（ProjectedClusteringbasedontheK-MeansAlgorithm），它从多个维度中选择属性相关的维度，去除不相关的维度，沿着相关维度进行聚类，以此对高维数据进行聚类。

5目前的许多算法都只是理论上的，经常处于某种假设之下，比如聚类能很好的被分离，没有突出的孤立点等，但是现实数据通常是很复杂的，噪声很大，因此如何有效的消除噪声的影响，提高处理现实数据的能力还有待进一步的提高。

经典算法研究系列：

七、深入浅出遗传算法

分类：

01.Algorithms（研究）2011-01-1220:

49922人阅读

算法优化生物图像处理数据挖掘

作者:

July

二零一一年一月十二日。

本文参考：

维基百科

华南理工大学电子讲义

互联网

-------------------------------------------------------------------------------

一、初探遗传算法

Ok，先看维基百科对遗传算法所给的解释：

遗传算法是计算数学中用于解决最优化的搜索算法，是进化算法的一种。

进化算法最初是借鉴了进化生物学中的一些现象而发展起来的，这些现象包括遗传、突变、自然选择以及杂交等。

遗传算法通常实现方式为一种计算机模拟。

对于一个最优化问题，一定数量的候选解（称为个体）的抽象表示（称为染色体）的种群向更好的解进化。

传统上，解用二进制表示（即0和1的串），但也可以用其他表示方法。

进化从完全随机个体的种群开始，之后一代一代发生。

在每一代中，整个种群的适应度被评价，从当前种群中随机地选择多个个体（基于它们的适应度），通过自然选择和突变产生新的生命种群，该种群在算法的下一次迭代中成为当前种群。

光看定义，可能思路并不清晰，咱们来几个清晰的图解、步骤、公式：

基本遗传算法的框图：

所以，遗传算法基本步骤是：

1）

初始化

t←0进化代数计数器；

T是最大进化代数；

随机生成M个个体作为初始群体

P（t）；

2）

个体评价

计算P（t）中各个个体的适应度值；

3）

选择运算

将选择算子作用于群体；

4）

交叉运算

将交叉算子作用于群体；

5）

变异运算

将变异算子作用于群体，并通过以上运算得到下一代群体P（t

1）;

6）

终止条件判断

t≦T：

t←

t+1

转到步骤2；

T：

终止

输出解。

好的，看下遗传算法的伪代码实现：

▲Procedures

GA：

伪代码

begin

initialize

P（0）;

//t是进化的代数，一代、二代、三代...

while（t

T）

for

//M是初始种群的个体数

Evaluate

fitness

P（t）;

//计算P（t）中各个个体的适应度

end

for

Select

operation

//将选择算子作用于群体

M/2

Crossover

//将交叉算子作用于群体

Mutation

//将变异算子作用于群体

P（t+1）

//得到下一代群体P（t

1）

//终止条件判断

转到步骤2

while

end

二、深入遗传算法

1、智能优化算法概述

智能优化算法又称现代启发式算法，是一种具有全局优化性能、通用性强且适合于并行处理的算法。

这种算法一般具有严密的理论依据，而不是单纯凭借专家经验，理论上可以在一定的时间内找到最优解或近似最优解。

遗传算法属于智能优化算法之一。

常用的智能优化算法有：

遗传算法

、模拟退火算法、禁忌搜索算法、粒子群算法、蚁群算法。

（本经典算法研究系列，日后将陆续阐述模拟退火算法、粒子群算法、蚁群算法。

）

2、遗传算法概述

遗传算法是由美国的J.

Holland教授于1975年在他的专著《自然界和人工系统的适应性》中首先提出的。

借鉴生物界自然选择和自然遗传机制的随机化搜索算法。

模拟自然选择和自然遗传过程中发生的繁殖、交叉和基因突变现象。

在每次迭代中都保留一组候选解，并按某种指标从解群中选取较优的个体，利用遗传算子（选择、交叉和变异）对这些个

体进行组合，产生新一代的候选解群，重复此过程，直到满足某种收敛指标为止。

基本遗传算法（Simple

Genetic

Algorithms，GA）又称简单遗传算法或标准遗传算法），是由Goldberg总结出的一种最基本的遗传算法，其遗传进化操作过程简单，容易理解，是其它一些遗传算法的雏形和基础。

3、基本遗传算法的组成

（1）编码（产生初始种群）

（2）适应度函数

（3）遗传算子（选择、交叉、变异）

（4）运行参数

接下来，咱们分门别类，分别阐述着基本遗传算法的五个组成部分：

1、编码

遗传算法（GA）通过某种编码机制把对象抽象为由特定符号按一定顺序排成的串。

正如研究生物遗传是从染色体着手，而染色体则是由基因排成的串。

基本遗传算法（SGA）使用二进制串进行编码。

初始种群：

基本遗传算法（SGA）采用随机方法生成若干个个体的集合，该集合称为初始种群。

初始种群中个体的数量称为种群规模。

2、适应度函数

遗传算法对一个个体（解）的好坏用适应度函数值来评价，适应度函数值越大，解的质量越好。

适应度函数是遗传算法进化过程的驱动力，也是进行自然选择的唯一标准，

它的设计应结合求解问题本身的要求而定。

3.1、选择算子

遗传算法使用选择运算对个体进行优胜劣汰操作。

适应度高的个体被遗传到下一代群体中的概率大；

适应度低的个体，被遗传到下一代群体中的概率小。

选择操作的任务就是从父代群体中选取一些个体，遗传到下一代群体。

基本遗传算法（SGA）中选择算子采用轮盘赌选择方法。

Ok，下面就来看下这个轮盘赌的例子，这个例子通俗易懂，对理解选择算子帮助很大。

轮盘赌选择方法

轮盘赌选择又称比例选择算子，其基本思想是：

各个个体被选中的概率与其适应度函数值大小成正比。

设群体大小为N，个体xi的适应度为f（xi），则个体xi的选择概率为：

轮盘赌选择法可用如下过程模拟来实现：

（1）在［0,1］内产生一个均匀分布的随机数r。

（2）若r≤q1,则染色体x1被选中。

（3）若qk-1<

r≤qk（2≤k≤N）,则染色体xk被选中。

其中的qi称为染色体xi（i=1,2,…,n）的积累概率,其计算公式为：

积累概率实例：

轮盘赌选择方法的实现步骤:

（1）计算群体中所有个体的适应度值；

（2）计算每个个体的选择概率；

（3）计算积累概率；

（4）采用模拟赌盘操作（即生成0到1之间的随机数与每个个体遗传到下一代群体的概率进行匹配）

来确定各个个体是否遗传到下一代群体中。

例如，有染色体

s1=13（01101）

s2=24（11000）

s3=8

（01000）

s4=19（10011）

假定适应度为f（s）=s^2，则

f（s1）=f（13）=13^2=169

f（s2）=f（24）=24^2=576

f（s3）=f（8）=8^2=64

f（s4）=f（19）=19^2=361

染色体的选择概率为：

染色体的累计概率为：

根据上面的式子，可得到：

例如设从区间［0,

1］中产生4个随机数:

0.450126,

0.110347

0.572496,

0.98503

3.2、交叉算子

交叉运算，是指对两个相互配对的染色体依据交叉概率Pc按某种方式相互交换其部分基因，

从而形成两个新的个体。

交叉运算是遗传算法区别于其他进化算法的重要特征，它在遗传算法中起关键作用，

是产生新个体的主要方法。

基本遗传算法（SGA）中交叉算子采用单点交叉算子。

单点交叉运算

3.3、变异算子

变异运算，是指改变个体编码串中的某些基因值，从而形成新的个体。

变异运算是产生新个体的辅助方法，决定遗传算法的局部搜索能力，保持种群多样性。

交叉运算和变异运算的相互配合，共同完成对搜索空间的全局搜索和局部搜索。

基本遗传算法（SGA）中变异算子采用基本位变异算子。

基本位变异算子是指对个体编码串随机指定的某一位或某几位基因作变异运算。

对于二进制编码符号串所表示的个体，若需要进行变异操作的某一基因座上的原有基因值为0，

则将其变为1；

反之，若原有基因值为1，则将其变为0。

基本位变异算子的执行过程：

4、运行参数

（1）M

：

种群规模

（2）T

遗传运算的终止进化代数

（3）Pc

交叉概率

（4）Pm：

变异概率

三、浅出遗传算法

遗传算法的本质

遗传算法本质上是对染色体模式所进行的一系列运算，即通过选择算子将当前种群中的优良模式遗传

到下一代种群中，利用交叉算子进行模式重组，利用变异算子进行模式突变。

通过这些遗传操作，模式逐步向较好的方向进化，最终得到问题的最优解。

遗传算法的主要有以下八方面的应用：

（1）组合优化

（2）函数优化（3）自动控制

（4）生产调度

（5）图像处理

（6）机器学习（7）人工生命

（8）数据挖掘

四、遗传算法的应用

遗传算法的应用举例、透析本质（这个例子简明、但很重要）

已知x为整数，利用遗传算法求解区间［0,

31］上的二次函数y=x2的最大值。

[分析]

原问题可转化为在区间［0,31］中搜索能使y取最大值的点a的问题。

个体：

［0,31］中的任意点x

适应度：

函数值f（x）=x2

解空间：

区间［0,31］

这样,只要能给出个体x的适当染色体编码,该问题就可以用遗传算法来解决。

[解]

（1）

设定种群规模,编码染色体，产生初始种群。

将种群规模设定为4；

用5位二进制数编码染色体；

取下列个体组成初始种群S1

s1=13（01101）,

s2=24（11000）

s3=8（01000）,

s4=19（10011）

（2）定义适应度函数,取适应度函数

f（x）=x^2

（3）计算各代种群中的各个体的适应度,并对其染色体进行遗传操作,

直到适应度最高的个体，即31（11111）出现为止。

首先计算种群S1中各个体：

s1=13（01101）,

s2=24（11000）

s3=8（01000）,

s4=19（10011）

的适应度f（si）,容易求得：

再计算种群S1中各个体的选择概率：

由此可求得

P（s1）=P（13）=0.14

P（s2）=P（24）=0.49

P（s3）=P（8）=0.06

P（s4）=P（19）=0.31

再计算种群S1中各个体的积累概率：

选择-复制

设从区间［0,1］中产生4个随机数如下:

r1=0.450126,

r2=0.110347

r3=0.572496,

r4=0.98503

于是，经复制得群体：

s1’=11000（24）,

s2’=01101（13）

s3’=11000（24）（24被选中俩次）,

s4’=10011（19）

交叉

设交叉率pc=100%，即S1中的全体染色体都参加交叉运算。

设s1’与s2’配对，s3’与s4’配对。

s2’=01101（13）

s3’=11000（24）,

分别交换后两位基因，得新染色体：

s1’’=11001（25）,

s2’’=01100（12）

s3’’=11011（27）,

s4’’=10000（16）

变异

设变异率pm=0.001。

这样，群体S1中共有

5×

4×

0.001=0.02

位基因可以变异。

0.02位显然不足1位，所以本轮遗传操作不做变异。

于是，得到第二代种群S2：

s1=11001（25）,

s2=01100（12）

s3=11011（27）,

s4=10000（16）

第二代种群S2中各染色体的情况：

假设这一轮选择-复制操作中，种群S2中的4个染色体都被选中，则得到群体：

s1’=11001（25）,

s2’=01100（12）

s3’=11011（27）,

s4’=10000（16）

做交叉运算，让s1’与s2’，s3’与s4’分别交换后三位基因，得

s1’’=11100（28）,

s2’’=01001（9）

s3’’=11000（24）,

s4’’=10011（19）

这一轮仍然不会发生变异。

于是，得第三代种群S3：

s1=11100（28）,

s2=01001（9）

s3=11000（24）,

s4=10011（19）

第三代种群S3中各染色体的情况：

设这一轮的选择-复制结果为：

s1’=11100（28）,

s2’=11100（28）

s3’=11000（24）,

s4’=10011（19）

做交叉运算，让s1’与s4’，s2’与s3’

分别交换后两位基因，得

s1’’=11111（31）,

s2’’=11100（28）

s3’’=11000（24）,

s4’’=10000（16）

于是，得第四代种群S4：

s1=11111（31）（出现最优解）,

s2=11100（28）

s4=10000（16）

显然，在这一代种群中已经出现了适应度最高的染色体s1=11111。

于是，遗传操作终止，将染色体（11111）作为最终结果输出。

然后，将染色体“11111”解码为表现型，即得所求的最优解：

展开阅读全文