模糊聚类分析181202.docx
《模糊聚类分析181202.docx》由会员分享,可在线阅读,更多相关《模糊聚类分析181202.docx(29页珍藏版)》请在冰豆网上搜索。
模糊聚类分析181202
第三篇评价、决策方法与模型
近年来,围绕着评价与决策方法,各种相关知识不断渗入,使得评价与决策的方法不断丰富,相关研究也不断深入。
综合评价与决策逐渐成为一个多学科边缘交叉、相互渗透、多点支撑的新兴研究领域。
从某种意义上来讲,没有评价就没有决策。
评价是一种认知过程,是科学决策的前提,而决策是评价的最终目的。
目前流行的几种现代综合评价、决策方法包括模糊综合评价、层次分析法、数据包络分析法、决策分析法、人工神经网络评价法、灰色综合评价法、组合评价法等等。
各种评价、决策方法有简有繁,相互区别但又相互联系。
各种评价、决策方法各具特色,对某类具体问题选择评价、决策方法提供了借鉴。
基于篇幅的限制,本篇仅对模糊聚类分析、模糊综合评价、层次分析法、决策分析法介绍其基本原理、模型建立和求解方法,并讨论各方法在经济管理中的应用。
第九章模糊聚类分析
1965年,模糊理论的创始人,美国加利福尼亚大学伯克利分校的计算机和自动控制理论专家Set”的论文,这标志着模糊信息处理的诞生,并于20世纪60年代在各科学会议上,从模糊信息处理观点出发,阐述了他的理论。
这一理论是描述和处理事务的模糊性和系统的不确定性,模拟人所特有的模糊逻辑思维功能,从定性到定量,创造了研究模糊性或不确定性问题的理论方法。
Zadeh教授在随后的研究工作中,准确地阐述了模糊性的含义,制定了刻画模糊性的数学方法。
即模糊集合、隶属度、隶属函数等,迄今已成为了一个较为完整的数学分支。
目前对模糊数学的研究十分活跃,模糊集合理论进一步丰富了经典数学的理论系统,为人们处理模糊信息提供了很多好的方法。
现在,模糊数学的公理化基础已经建立,正接受实践的检验,并进一步得到完善。
自从1976年模糊数学传入我国以来,通过广大模糊数学研究工作者的努力,模糊数学在我国得到了极大的发展,目前水平己居于世界前列。
模糊数学在实际应用中几乎涉及到了国民经济的各个领域及相关部门,模糊数学在医学、气象、环境、农业、能源、军事、经济管理和地质勘探等方面都得到了广泛的应用。
从模糊理论诞生到今天四十年来,模糊理论和技术得到了迅速的发展,在这个领域国内外许多学者做了大量卓有成效的研究工作。
模糊理论与技术的一个突出优点就是能较好地描述和模仿人的思维方式,并能总结和反映人的体会和经验,对复杂事务和系统可进行模糊度量、模糊识别、模糊推理、模糊控制与模糊决策。
尤其是将模糊理论与人工智能在神经网络和专家系统等方面相互结合的研究已深入到计算机技术、多媒体技术、自动控制技术以及信息采集与处理技术等一系列高新技术的开发、研究与利用,为推动决策科学、应用科学、管理科学与社会科学的进步作出了极大的贡献。
这种学术理论体系不断完善的新成果正在迅速地转变为生产力,促进了全人类社会物质文明的不断发展。
第一节关系及分类
客观世界的各种事物之间存在着不同的相互关系。
在数学上使用“关系”作为一种数学模型来描述事物之间的联系,例如,大小关系、次序关系、等价关系、兄弟关系、函数关系等。
普通集合也存在关系。
1.关系的定义
定义9.1.1从到的关系是指论域为笛卡儿乘积(直积)的一个子集,即,称为从到的二元关系。
特别地,当时,称之为上的二元关系。
二元关系统称为关系。
例1设,定义关系,称为“小于”关系。
于是
这表明“小于”关系是笛卡儿乘积的子集。
例2设{周一,周二,周三,周四,周五,周六,周日}和{晴,阴,雨}。
某一周的天气情况是:
周一阴,周二雨,周三晴,周四晴,周五雨,周六雨,周日雨,则形成关系{(周一,阴),(周二,雨),(周三,晴),(周四,晴),(周五,雨),(周六,雨),(周日,雨)},关系是笛卡儿乘积的一个子集。
2.关系的表示法
关系可以分别用表格、图形和矩阵表示,下面以例2为例进行说明。
(1)表格。
见表9-1
表9-1关系的表格表示
周一
周二
周三
周四
周五
周六
周日
晴
0
0
1
1
0
0
0
阴
1
0
0
0
0
0
0
雨
0
1
0
0
1
1
1
(2)图形。
见图9-1,如果,则连一条直线,否则不连。
论域论域
周一晴
周二
周三阴
周四
周五
周六雨
周日
图9-1用连线图表示关系
(3)矩阵。
见图9-2。
对一般情况,设论域为有限。
关系,,。
周一周二周三周四周五周六周日
图9-2关系的矩阵表示
3.特征函数
定义9.1.2设是论域上的集合,记
为集合的特征函数。
特征函数表征了元素对集合的隶属程度。
表示,反之表示。
第二节模糊关系及矩阵
在数学上,概念的外延可以通过“集合”来表达。
然而,日常生活中涉及的众多的概念常有内涵的“模糊(Fuzzy)性”,这必然导致外延的“不清晰性”。
例如,对于高矮之分等。
正是考虑到现实世界中很多事物的分类边界是不分明的,而这种不分明的划分在人们的识别、判断和认知过程中起着重要的作用,为了用数学的方法来处理这种问题,扎德于1965年提出了模糊集合的概念。
他用隶属度函数来刻画出中间过渡的事物对差异双方所具有的倾向性。
可以认为隶属函数是普通集合中特征函数的推广。
将特征函数的值域由二值扩展到区间时,就描述了一个模糊集合。
1.模糊集合隶属函数
定义9.2.1论域上的模糊集合由隶属函数来表征,其中在闭区间上取值,的值反映了中的元素对于的隶属程度。
例1设论域{周一,周二,周三,周四,周五,周六,周日},从周一到周四是好天气,周五到周日都是坏天气。
按普通集合观点,特征函数为
,
其隶属度为(周一)=1,(周二)=1,(周三)=1,(周四)=1;(周五)=0,(周六)=0,(周日)=0。
利用模糊集合概念能较好区分好坏天气,选取之间的数对天气情况进行细分。
这时对于天气的隶属度可以写成(周一)=0.9,(周二)=0.8,(周三)=0.7,(周四)=0.6;(周五)=0.3,(周六)=0.2,(周日)=0.1。
2.模糊关系
定义9.2.2设论域和,称的一个模糊子集为从到的模糊二元关系,记为。
其隶属度函数为映射:
这时隶属度表示与具有关系的程度。
特别地,当时,称为上的模糊关系。
例2论域{100,150,200,250,300,350,400,450,500,550,600,650,700,750,800}(公斤/亩),{高产水稻}。
由于全国各地的自然条件差异和生产水平不同,人们对水稻亩产多少才算高产的理解不一样,亩产量与“高产水稻”之间的关系是模糊关系。
通过对不同地区种植水稻的123个农民的问卷调查,获得表9-2的结果。
表9-2亩产量与“高产水稻”的模糊关系
公斤/亩
100
150
200
250
300
350
400
450
500
550
600
650
700
750
800
频数
1
2
5
10
15
18
25
20
15
3
3
2
2
1
1
累计频数
1
3
8
18
35
51
76
96
111
114
117
119
121
122
123
累计频率
0.01
0.02
0.07
0.15
0.27
0.41
0.62
0.78
0.90
0.93
0.95
0.97
0.98
0.99
1
表9-2中的累计频数就是的一个模糊子集。
将累计频数变换到区间成为累计频率,这时累计频率就是隶属函数。
(500,高产水稻)=0.90表明亩产500公斤与“高产水稻”的相关程度为90%。
定义9.2.3设分别为和上的两个模糊关系。
则与的合成,记为
其中,
则为矩阵与的合成(也称为模糊矩阵乘积或模糊乘积)。
其中“”与“”为逻辑符号,分别表示取大、取小。
定义9.2.4模糊关系的传递闭包定义为:
。
由于
可见,这个性质称为传递性。
集合论中的“关系”抽象地刻画了事物的“精确性”的联系,而“模糊关系”则从更深刻的意义上表现了事物间更广泛的联系。
从某种意义上讲,模糊关系的抽象形式更接近于人的思维。
在经济生活与经济科学中存在大量的模糊关系,而分类也是经济分析与经营管理中常常使用的方法,模糊关系理论是许多应用原理和方法的基础。
3.模糊矩阵
定义9.2.5设,是到的模糊关系,记,记,,,则称为模糊矩阵。
例3设是个工作人员的集合,是项工作的集合。
若用表示能胜任的程度,就可获得到的模糊矩阵。
设(即有4个工作人员),(即有5项工作),则模糊矩阵:
例如第2个人能胜任第4项工作的程度为0.5。
定义9.2.6设论域为有限集合,上的一个模糊关系为,与其对应的模糊矩阵为,若满足:
(1)自反性:
(2)对称性:
(3)传递性:
则称为一个模糊等价矩阵,其关系是模糊等价关系。
若只满足自反性和对称性则为相似关系。
定理9.2.1设是模糊相似矩阵,则存在一个最小自然数,使得传递闭包,对于一切大于的自然数,恒有。
此时,为模糊等价矩阵。
下面介绍一个实用求传递闭包的简捷方法——二次方法。
例4设,求传递闭包。
解:
容易验证,是模糊相似矩阵,用二次方法求其传递闭包。
,
,
故传递闭包。
4.模糊矩阵的-截矩阵
定义9.2.7设为模糊矩阵,对于任意的,称为模糊矩阵的-截矩阵,其中
显然,截矩阵为布尔矩阵。
例5设,则当时的-截矩阵为
。
第三节模糊聚类分析的一般步骤
在科学技术、经济管理中常常需要按一定的标准(相似程度或亲疏程度)进行分类。
例如,根据生物的某些性状可对生物分类,根据土壤的性质可对土壤分类等。
对所研究的事物按一定标准进行分类的数学方法称为聚类分析,它是多元统计“物以类聚”的一种分类方法。
由于科学技术、经济管理中的分类界限往往不分明,因此采用模糊聚类方法通常比较符合实际。
传统的聚类把每个样本严格地划分到某一类。
随着模糊集理论的提出,传统聚类被推广为模糊聚类。
在模糊聚类中,每个样本不再仅属于某一类,而是以一定的隶属度属于每一类。
换句话说,通过模糊聚类分析,可得到样本属于各个类别的不确定性程度,即建立起了样本对于类别的不确定性的描述,这样就更能准确地反映现实世界。
模糊聚类分析步骤可以分为:
数据标准化、建立模糊相似矩阵、聚类。
一、数据标准化
1.数据矩阵
设论域为被分类的对象,每个对象又由个指标表示其性状,即
,
于是,得到原始数据矩阵为
。
2.数据标准化
在实际问题中,不同的数据可能有不同的量纲。
为了使不同量纲的数据也能进行比较,需要对数据进行适当的变换。
根据模糊矩阵的要求将数据压缩到区间。
通常需要做如下几种变换:
(1)平移-标准差变换
,
其中。
经过变换后,每个变量的均值为0,标准差为1,且消除了量纲的影响。
但是这样得到的还不一定在区间上。
(2)平移-极差变换
,
显然有,而且也消除了量纲的影响。
(3)对数变换
,
取对数以缩小变量间的数量级。
二、建立模糊相似矩阵
建立模糊相似矩阵又称为标定,即标出衡量被分类对象间相似程度的统计量。
设论域,,依照传统聚类方法确定相似系数,建立模糊相似矩阵,与的相似程度。
确定的方法主要借用传统聚类分析的相似系数法、距离法以及其他方法。
具体用何种方法,可根据问题的性质,选取下列公式之一计算。
1.相似系数法
(1)数量积法
,
其中。
显然,若中出现负值,也可采用以下方法将压缩到上:
令
,则。
当然也可用上述的平移-极差变换。
(2)夹角余弦法
(3)相关系数法
,
其中。
(4)指数相似系数法
,
其中,。
(5)最大最小法
。
(6)算术平均最小法
。
(7)几何平均最