系统聚类分析方法.docx
《系统聚类分析方法.docx》由会员分享,可在线阅读,更多相关《系统聚类分析方法.docx(25页珍藏版)》请在冰豆网上搜索。
系统聚类分析方法
系统聚类分析方法
聚类分析是研究多要素事物分类问题的数量方法。
基本原理是根据样本自身的属性,用数学方
法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对
样本进行聚类。
常见的聚类分析方法有系统聚类法、动态聚类法和模糊聚类法等。
聚类要素的数据处理1.
表个要素构成。
它们所对应的要素数据可用个聚类的对象,每一个聚类对象都有假设有m
在聚类分析中,常用的聚类要素的数据处理方法有如下几种。
给出。
(点击显示该表)3.4.1
总和标准化①
标准差标准化②.
极大值标准化③
。
11,其余各数值小于经过这种标准化所得的新数据,各要素的极大值为
极差的标准化④
之间。
与1,其余的数值均在1经过这种标准化所得的新数据,各要素的极大值为,极小值为00
距离的计算2.
距离是事物之间差异性的测度,差异性越大,则相似性越小,所以距离是系统聚类分析的依据
和基础。
绝对值距离①.
选择不同的距离,聚类结果会有所差异。
在地理分区和分类研究中,往往采用几种距离进行计
算、对比,选择一种较为合适的距离进行聚类。
.
所示。
3.4.3给出了某地区九个农业区的七项指标,它们经过极差标准化处理后,如表例:
表3.4.2
中的数据,用绝对值距离公式计算可得九个农业区之间的绝对值距离矩阵:
3.4.3对于表
直接聚类法3.
直接聚类法是根据距离矩阵的结构一次并类得到结果。
基本步骤:
▲
把各个分类对象单独视为一类;①
如果其中一个分类对象已归根据距离最小的原则,依次选出一对分类对象,并成新类;③②
于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一
次就可以把全m-1类;每一次归并,都划去该对象所在的列与列序相同的行;④那么,经过
部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。
直接聚类法虽然简便,但在归并过程中是划去行和列的,因而难免有信息损失。
因此,直接★
聚类法并不是最好的系统聚类方法。
(点击打开新窗口,显示该内容)举例说明][
例:
已知九个农业区之间的绝对值距离矩阵,使用直接聚类法做聚类分析。
解:
根据上面的距离矩阵,用直接聚类法聚类分析:
区并为一94区与第第一步,在距离矩阵D中,除去对角线元素以外,d49=d94=0.51为最小者,故将第
列;99行和第类,划去第
区并为一类,75区与第第二步,在余下的元素中,除对角线元素以外,d75=d57=0.83为最小者,故将第
列;7行和第划掉第7
区与第2为最小者,故将第第三步,在第二步之后余下的元素之中,除对角线元素以外,d82=d28=0.88
列;行和第88区并为一类,划去第8
43区与第d43=d34=1.23为最小者,故将第第四步,在第三步之后余下的元素中,除对角线元素以外,
区已归并为一类;、9、列,此时,第34区并为一类,划去第4行和第4
2区与第d12=1.52为最小者,故将第1第五步,在第四步之后余下的元素中,除对角线元素以外,d21=
区已归并为一类;81、2、区并为一类,划去第2行和第2列,此时,第
6区与第为最小者,故将第5第六步,在第五步之后余下的元素中,除对角线元素以外,d65=d56=1.78
区已归并为一类;6、76列,此时,第5、区并为一类,划去第6行和第
3区与第d13=3.10为最小者,故将第1第七步,在第六步之后余下的元素中,除对角线元素以外,d31=
区已归并为一类;9、8、4列,此时,第1、2、3、行和第区并为一类,划去第33
区51d15=5.86,故将第区与第第八步,在第七步之后余下的元素中,除去对角线元素以外,只有d51=
、区均归并为一类;9、、、、、、、、并为一类,划去第5行和第5列,此时,第12345678
(点击展开显示该图)根据上述步骤,可以做出直接聚类谱系图。
.
最短距离聚类法4.
归并GqGp和最短距离聚类法是在原来的m×m距离矩阵的非对角元素中找出,把分类对象
,然后按计算公式Gr为一新类
)阶的距离矩阵;再从新的距离1-计算原来各类与新类之间的距离,这样就得到一个新的(m
归并成新类;再计算各类与新类的距离,这样一直下去,直Gj,把dijGi和矩阵中选出最小者
至各分类对象被归为一类为止。
(点击打开新窗口,显示该例)举例说明][
例:
已知九个农业区之间的绝对值距离矩阵,使用最短距离聚类法做聚类分析。
解:
用最短距离聚类法对某地区的九个农业区进行聚类分析:
区并为一类,9,故首先将第4区与第D第一步,在9×9阶距离矩阵中,非对角元素中最小者是d94=0.51
之间的距离得:
G10G8与G3,G5,G6,G7,,,记为G10,即G10={G4G9}。
分别计算G1,G2
阶距离矩阵:
8×8G10上的一个新的G8G3,,G5,G6,G7,,G1这样就得到,G2
归与G7d57=0.83阶距离矩阵中,非对角元素中最小者为,故将G58×8第二步,在上一步骤中所得到的
之间的距离,与G11G10G8G6G3G2G1。
分别计算G7G5G11=,即并为一类,记为G11{,},,,,,
阶距离矩阵:
7×7可得到一个新的
归并为G8与阶距离矩阵中,非对角元素中最小者为d28=0.88,故将G2第三步,在第二步所得到的7×7
之间的距离,可得到与G12G6,G10,G11G3,即G12={G2,G8}。
分别计算G1,,一类,记为G12
阶距离矩阵:
一个新的6×6
归G11与阶距离矩阵中,非对角元素中最小者为d6,11=1.07,故将G66×6第四步,在第三步中所得的
G13与G12。
计算)}G1,G3,G10,,G6G11G13=并为一类,记为G13,即{G6,}={,(G5G7
阶距离矩阵:
5×5之间的距离,可得到一个新的
G10与,10=1.20,故将G3第五步,在第四步中所得的5×5阶距离矩阵中,非对角线元素中最小者为d3
)式计算3.3.10)}。
再按照公式(G9={G3,(G4,}{G14归并为一类,记为,即G14=G3,G10
阶距离矩阵:
4×4G14之间的距离,可得一个新的G13G1,G12,与
与G12,故将14=1.29,d12阶距离矩阵中,非对角线元素中最小者为4×4第六步,在第五步所得到的.
。
再按照}))(G3,G4,G9G14}={(G2,G8),({G14归并为一类,记为G15,即G15=G12,
阶距离矩阵:
3×3G15之间的距离,可得一个新的G13公式(3.3.10)式计算G1,与
归G15,故将G1与15=1.32第七步,在第六步所得的3×3阶距离矩阵中,非对角线元素中最小者为d1,
。
再按照))}G4(,G1}{G16并为一类,记为,即G16=G1,G15={(,(G2G8),G3,(,G9
阶距离矩阵:
2×2G16之间的距离,可得一个新的G13公式(3.3.10)式计算与
归并为一类。
此时,所有分类对象均被归并为一类。
与G16第八步,将G13
(点击展开显示)综合上述聚类过程,可以作出最短距离聚类谱系图。
最远距离聚类法5.
最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离采用的公式不同。
最远距离聚类法的计算公式:
(点击打开新窗口,显示该例)]举例说明[
系统聚类法计算类之间距离的统一公式6.
。
最短距)3.4.4▲最短距离聚类法具有空间压缩性,而最远距离聚类法具有空间扩张性(图
离为,最远距离为。
=dd=ddap2ABABa1b1
最短距离聚类法和最远距离聚类法关于类之间的距离计算可以用统一的式子表示:
▲
时,就是最远距离聚类法计时,就是最短距离聚类法计算类间距离的公式;当γ=1/2当γ=-1/2
算类间距离的公式。
系统聚类的方法还有:
▲
。
)3.3.4表示了八种不同系统聚类方法计算类间距离的统一表达式(见表.
系统聚类分析实例7.
个省级区域第三产业综合发展水平进行31作为系统聚类分析方法的应用实例,下面对中国大陆
类型划分及差异性程度分析。
聚类指标选择1)
项指标作为对中国第三产业综合发展水平进行聚类分析的基础指标:
选取如下7
,反映经济社会发展的总体状况和一般水平;GDP人均y1——①
人均第三产业增加值,反映人均服务产品占有量或服务密度;②y2——
第二产业增加值比重,反映工业化水平和产业结构现代化程度;y3——③
第三产业增加值比重,反映第三产业的发展程度及其对国民经济的贡献;y4——④
第三产业从业人员比重,反映第三产业对劳动力的吸纳能力;y5——⑤
第三产业固定资产投资比重,反映第三产业的资金投入程度;⑥y6——
城市化水平,反映农村人口转化为城市人口的程度及对服务的需求量。
y7——⑦.
聚类计算2)
7年度的数据)为数据来源,运用上述(19981999以年国家统计局出版的《中国统计年鉴》
进行聚类分析计算,计SPSS10.0表3.4.5)(点击显示该表),借助于统计分析软件包(项指标
算过程如下:
项指标的原始数据进行处理。
7用标准差标准化方法对①
个省(市、区)之间的样本间距离。
31②采用欧氏距离测度
选用组平均法计算类间的距离,并对样本进行归类。
③
(点击在新窗口中显示该图)。
3.4.5经过上述聚类计算步骤,得到的聚类结果见图
一、模糊聚类分析基本原理
聚类分析是根据样本代表性指标在性质上的亲疏程度进行分类。
因此,
我们可以把模糊聚类分析的步骤分解如下:
1.确定样本统计指标与数据标准化
对样本进行分类的效果如何,关键在于要把统计指标选择合理。
也就
是统计指标应该有明确的实际意义,有较强的分辨力和代表性,即要有一
定的普遍意义。
数据标准化就是把各个代表统计指标的数据标准化,以便于分析和比
较,这一步也称为数据正规化。
方法是:
xS式中为原始数据的平均值,为原始数据的标准为原始数据,
为标准化数据。
差,
若要把标准化数据压缩到[0,1]闭区间,可用极值标准化公式:
xmax——原始数据组中的最大者;
xmin——原始数据组中的最小者。
xxmax时,==1当;
xxmin时,=0=。
2.标定距离,建立相似关系矩阵
rij(i=1距离是衡量分类对象间相似程度的统计量,用,2,
nnnrij,…2,1=j…;;为样本的个数)表示。
利用从
而确定相似关系矩阵
标定距离的方法有很多,下面只列举几种常用的计算方法:
⑴欧氏距离
xikxj表示第个样本的第其中,ik表示第个指标的观察值,jk
krij个样本与第ij个样本的第表示第个指标的观察值,个样本之
rij越小,则第个样本之间的性质就间的亲疏程度。
个样本与第ij
越接近。
性质接近的样本就可以划归为一类。
⑵绝对减数法
crij≤1其中≤应适当选取,使得0。
3.进行聚类
在确定了样本之间的距离后,就可以对样本进行归类,归类的方法很
n多,其中用得最广泛的是系统聚类法。
它首先把个样本每个自成一类,
然后每次将具有最小距离的两类合并成一类,合并后又再重新计算类与类
之间的距离,直至所有样品归为一类为止。