模糊聚类_精品文档.doc

上传人:b****2 文档编号:964133 上传时间:2022-10-14 格式:DOC 页数:17 大小:1.16MB
下载 相关 举报
模糊聚类_精品文档.doc_第1页
第1页 / 共17页
模糊聚类_精品文档.doc_第2页
第2页 / 共17页
模糊聚类_精品文档.doc_第3页
第3页 / 共17页
模糊聚类_精品文档.doc_第4页
第4页 / 共17页
模糊聚类_精品文档.doc_第5页
第5页 / 共17页
点击查看更多>>
下载资源
资源描述

模糊聚类_精品文档.doc

《模糊聚类_精品文档.doc》由会员分享,可在线阅读,更多相关《模糊聚类_精品文档.doc(17页珍藏版)》请在冰豆网上搜索。

模糊聚类_精品文档.doc

第二节模糊聚类分析方法

在科学技术、经济管理中常常要按一定的标准(相似程度或亲疏关系)进行分类。

例如,根据生物的某些性状可对生物分类,根据土壤的性质可对土壤分类等。

对所研究的事物按一定标准进行分类的数学方法称为聚类分析,它是多元统计“物以类聚”的一种分类方法。

由于科学技术、经济管理中的分类界限往往不分明,因此采用模糊聚类方法通常比较符合实际。

一、模糊聚类分析的一般步骤

1、第一步:

数据标准化[9]

(1)数据矩阵

设论域为被分类对象,每个对象又有个指标表示其性状,即

于是,得到原始数据矩阵为

其中表示第个分类对象的第个指标的原始数据。

(2)数据标准化

在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行比较,通常需要对数据做适当的变换。

但是,即使这样,得到的数据也不一定在区间上。

因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间上。

通常有以下几种变换:

①平移·标准差变换

其中,。

经过变换后,每个变量的均值为0,标准差为1,且消除了量纲的影响。

但是,再用得到的还不一定在区间上。

②平移·极差变换

显然有,而且也消除了量纲的影响。

③对数变换

取对数以缩小变量间的数量级。

2、第二步:

标定(建立模糊相似矩阵)

设论域,,依照传统聚类方法确定相似系数,建立模糊相似矩阵,与的相似程度。

确定的方法主要借用传统聚类的相似系数法、距离法以及其他方法。

具体用什么方法,可根据问题的性质,选取下列公式之一计算。

(1)相似系数法

①夹角余弦法

②最大最小法

③算术平均最小法

④几何平均最小法

以上3种方法中要求,否则也要做适当变换。

⑤数量积法

其中。

⑥相关系数法

其中,。

⑦指数相似系数法

其中,

而。

(2)距离法

①直接距离法

其中为适当选取的参数,使得,表示他们之间的距离。

经常用的距离有

●海明距离

●欧几里得距离

●切比雪夫距离

②倒数距离法

其中为适当选取的参数,使得。

③指数距离法

3、第三步:

聚类(求动态聚类图)

(1)基于模糊等价矩阵聚类方法

①传递闭包法

根据标定所得的模糊矩阵还要将其改造称模糊等价矩阵。

用二次方法求的传递闭包,即=。

再让由大变小,就可形成动态聚类图。

②布尔矩阵法[10]

布尔矩阵法的理论依据是下面的定理:

定理2.2.1设是上的一个相似的布尔矩阵,则具有传递性(当是等价布尔矩阵时)矩阵在任一排列下的矩阵都没有形如的特殊子矩阵。

布尔矩阵法的具体步骤如下:

①求模糊相似矩阵的截矩阵.

②若按定理2.2.1判定为等价的,则由可得在水平上的分类,若判定为不等价,则在某一排列下有上述形式的特殊子矩阵,此时只要将其中特殊子矩阵的0一律改成1直到不再产生上述形式的子矩阵即可。

如此得到的为等价矩阵。

因此,由可得水平上的分类

(2)直接聚类法

所谓直接聚类法,是指在建立模糊相似矩阵之后,不去求传递闭包,也不用布尔矩阵法,而是直接从模糊相似矩阵出发求得聚类图。

其步骤如下:

①取(最大值),对每个作相似类,且

=,

即将满足的与放在一类,构成相似类。

相似类与等价类的不同之处是,不同的相似类可能有公共元素,即可出现

,.

此时只要将有公共元素的相似类合并,即可得水平上的等价分类。

②取为次大值,从中直接找出相似度为的元素对(即),将对应于的等价分类中所在的类与所在的类合并,将所有的这些情况合并后,即得到对应于的等价分类。

③取为第三大值,从中直接找出相似度为的元素对(即),将对应于的等价分类中所在的类与所在的类合并,将所有的这些情况合并后,即得到对应于的等价分类。

④以此类推,直到合并到成为一类为止。

二、最佳阈值的确定

在模糊聚类分析中对于各个不同的,可得到不同的分类,许多实际问题需要选择某个阈值,确定样本的一个具体分类,这就提出了如何确定阈值的问题。

一般有以下两个方法:

①按实际需要,在动态聚类图中,调整的值以得到适当的分类,而不需要事先准确地估计好样本应分成几类。

当然,也可由具有丰富经验的专家结合专业知识确定阈值,从而得出在水平上的等价分类

②用F统计量确定最佳值。

[11]

设论域为样本空间(样本总数为),而每个样本有个特征:

,。

于是得到原始数据矩阵,如下表所示,其中,称为总体样本的中心向量。

指标

12km

设对应于值的分类数为,第类的样本数为,第类的样本记为:

,第类的聚类中心为向量,其中为第个特征的平均值,即

,,

作统计量

其中

为与间的距离,为第类中第个样本与其中心间的距离。

称为统计量,它是遵从自由度为,的分布。

它的分子表征类与类之间的距离,分母表征类内样本间的距离。

因此,值越大,说明类与类之间的距离越大;类与类间的差异越大,分类就越好。

基于模糊聚类分析的多属性决策方法的实际应用

聚类分析是将事物根据一定的特征,并按某种特定要求或规律分类的方法。

由于聚类分析的对象必定是尚未分类的群体,而且现实的分类问题往往带有模糊性,对带有模糊特征的事物进行聚类分析,分类过程中不是仅仅考虑事物之间有无关系,而是考虑事物之间关系的深浅程度,显然用模糊数学的方法处理更为自然,因此称为模糊聚类分析。

第一节雨量站问题

一、问题的提出

某地区设置有11个雨量站,其分布图见图1,10年来各雨量站所测得的年降雨量列入表1中。

现因经费问题,希望撤销几个雨量站,问撤销那些雨量站,而不会太多的减少降雨信息?

图1雨量站分布图

表1各雨量站10年间测得的降雨量

年序号

1

276

324

159

413

292

258

311

303

175

243

320

2

251

287

349

344

310

454

285

451

402

307

470

3

192

433

290

563

479

502

221

220

320

411

232

4

246

232

243

281

267

310

273

315

285

327

352

5

291

311

502

388

330

410

352

267

603

290

292

6

466

158

224

178

164

203

502

320

240

278

350

7

258

327

432

401

361

381

301

413

402

199

421

8

453

365

357

452

384

420

482

228

360

316

252

9

158

271

410

308

283

410

201

179

430

342

185

10

324

406

235

520

442

520

358

343

251

282

371

二、问题的分析

应该撤销那些雨量站,涉及雨量站的分布,地形,地貌,人员,设备等众多因素。

我们仅考虑尽可能地减少降雨信息问题。

一个自然的想法是就10年来各雨量站所获得的降雨信息之间的相似性,对全部雨量站进行分类,撤去“同类”(所获降雨信息十分相似)的雨量站中“多余”的站。

问题求解假设为使问题简化,特作如下假设

①每个观测站具有同等规模及仪器设备;

②每个观测站的经费开支均等;

具有相同的被裁可能性。

分析:

对上述撤销观测站的问题用基于模糊等价矩阵的模糊聚类方法进行分析,原始数据如上。

三、问题的解决

求解步骤:

1、数据的收集

原始数据如表1所示。

2、建立模糊相似矩阵

利用相关系数法,构造模糊相似关系矩阵,其中

其中=,=1,2,…,11。

=,=1,2,…,11。

取,代入公式得=0.839,由于运算量巨大用C语言编程计算出其余数值,得模糊相似关系矩阵,具体程序如下

#include

#include

doubler[11][11];

doublex[11];

voidmain()

{inti,j,k;doublefenzi=0,fenmu1=0,fenmu2=0,fenmu=0;

intyear[10][11]={276,324,159,413, 292 ,258,311,303,175,243,320,

251 ,287,349,344,310,454,285,451,402,307,470,

192 ,433,290,563,479,502,221,220,320,411,232,

246 ,232,243,281,267,310,273,315,285,327,352,

291,311,502,388 ,330,410,352,267,603,290,292,

466 ,158,224,178,164,203,502,320,240,278,350,

258,327,432 ,401,361,381,301,413,402,199,421,

453,365,357 ,452,384,420,482,228,360,316,252,

158 ,271,410,308,283,410,201,179,430,342,185,

324,406,235,520 ,442,520,358,343,251,282,371};

for(i=0;i<11;i++)

{for(k=0;k<10;k++)

{x[i]=x[i]+year[k][i];}

x[i]=x[i]/10;

}

for(i=0;i<11;i++)

{for(j=0;j<11;j++)

{for(k=0;k<10;k++)

{fenzi=fenzi+fabs((year[k][i]-x[i])*(year[k][j]-x[j]));

fenmu1=fenmu1+(year[k][i]-x[i])*(year[k][i]-x[i]);

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 教学研究 > 教学反思汇报

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1