地理系统聚类分析模型.docx

资源描述

地理系统聚类分析模型.docx

《地理系统聚类分析模型.docx》由会员分享，可在线阅读，更多相关《地理系统聚类分析模型.docx（9页珍藏版）》请在冰豆网上搜索。

地理系统聚类分析模型.docx

地理系统聚类分析模型

第九章地理系统聚类分析模型

第一节聚类分析的方法及变量模型

聚类分析（ClusterAnalysis）是数理统计中研究“物以类聚”的一种方法。

一、地理系统分类的意义

对地理系统的研究很重要的一个问题就是进行地理分区与分类。

聚类分析法可避免传统分类法的主观性和任意性的特点。

但应特别引起注意的是，对地理数据处理不当，或只要求方法的新颖，有时分类的结果可能与地理实际不符合。

一种科学的分类法，应能正确地反映客观地理事物的内在联系，并能表达出它们之间的相似性和差异性。

聚类分析法的基本特点

二、聚类分析的方法聚类分析的职能是建立一种分类方法，它是将地理样品或变量，按它们在性质上的亲疏程度进行分类。

描述亲疏程度的两个途径

当确定了样品或变量的距离或相似系数后，就要对样品或变量进行分类，分类的方法很多，主要的两种是：

分类方法

分类方法（续）

在进行聚类分析处理时，样品间的相似系数和距离有各种不同的定义，而这些定义与变量的类型关系极大，通常按照它们的特性分类，变量的特性有三种类型：

变量特性的三种类型

１、名义特性（无序多态）

２、顺序特性（有序多态）

它是由一个有序状态序列所确定，指标量度时没有明确的数量关系，只有次序关系，如对某种地理要素的定性评价为“好的、比较好的、一般的、差的”，又如对某一事件的量度估价为“罕见的、偶然的、一般的、大量的”等。

３、数值特性（定量）

它是由测量或计数、统计所得的量，如长度、重量、压力、经济统计数字、人口普查数字、抽样调查数据等。

不同类型的变量在定义距离相似性测度时有很大的差异，这里主要研究具有数值特性的变量的聚类分析问题。

聚类分析的分类

R型聚类分析的作用

选择变量的方法:

在聚合的每类变量中,各选出一个有代表性的变量作为典型变量,为此计算每一个变量与其同类的其它变量的决定系数r2（即相关系数的平方）的均值:

r2=Σri2/（K-1）式中，K为该类的变量个数。

挑选r2值最大的变量xi作为该类的典型变量。

Q型聚类分析优点

第二节系统聚类分析

系统聚类分析（HierachicalClusterAnalysis）是聚类分析中应用最广泛的一种方法，凡是具有数值特征的变量和样品都可以采用系统聚类法。

选择不同的距离和聚类方法可获得满意的数值分类效果。

系统聚类法是把个体逐个地合并成一些子集，直至整个总体都在一个集合之内为止。

系统聚类法的分类步骤如下：

（1）聚类前先对数据进行变换处理（假定在聚类处理之前，已经对变量进行了筛选，选择了那些相关性不很显著的而且贡献大的指标，而剔除了相关性很强的变量）。

（2）聚类分析处理的开始是各样品自成一类（n个样品一共有n类），计算各样品之间的距离，并将距离最近的两个样品并成一类。

（3）选择并计算类与类之间的距离，并将距离最近的两类合并，如果类的个数大于１，则继续并类，直至所有样品归为一类为止。

（4）最后绘制系统聚类谱系图，按不同的分类标准或不同的分类原则，得出不同的分类结果。

一、数据变换处理在聚类分析处理过程中，首先应对原始数据矩阵进行变换处理。

由于在抽取样本对数据进行量度处理时，不同指标（变量）一般都有不同的量纲，并且有不同的数量级单位，为了使不同量纲、不同数量级的数据能放在一起比较，通常需要对数据进行变换处理。

例１、研究世界各国森林、草原资源的分布规律，并抽取22个国家（即22个样品）数据，每个国家有４项指标，以此作聚类分析处理，原始数据见表

表中所列的几个变量：

森林面积、森林覆盖率、林木蓄积量、草原面积都分别有不同的量纲，而且数值的数量级也相差很大，为了在一起进行比较，需进行变换处理。

所谓数据变换，就是将原始数据矩阵中的每个元素，按照某种特定的运算把它变为一个新值，而且数值的变化不依赖于原始数据集合中其它数据的新值。

常用的变换方法

1、中心化变换

中心化是一种标准化处理方法，它是先求出每个变量的样本平均值，再从原始数据中减去该变量的均值，就得到中心化后的数据。

设原始数据矩阵为：

式中：

m为样本数，n为变量数。

设中心化后的数据为xij’则有：

xij’=xij-xjI=1,2,…,mj=1,2,…,n

变换的结果使每列数据之和均为０，而且每列数据的平方和是该列数据方差的（n-1）倍，任何不同两列数据之交叉积是这两列的协方差的（n-1）倍，所以这是一种很方便地计算方差－协方差的变换。

中心化变换数据表

２、规格化变换

规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值，这两者之差称为极差，然后从每一个原始数据中减去该变量的最小值，再除以极差，就得到规格化数据。

原始数据仍见上表，规格化后的数据为xij’则有：

xij’=（xij–min{xij}）/（max{xij}-min{xij}）I=1,2,…,mj=1,2,…,n

经过变换后，将每列的最大数据变为１，最小数据变为０，其余数据取值在０~１之间。

变换后的数据表

３、标准化变换

标准化变换方法主要是对变量的属性进行变换处理，首先对列进行中心化，然后用标准差进行标准化。

xij’=（xij–xj）/SjI=1,2,…,mj=1,2,…,n其中：

xj=（1/n）ΣxijSj=[{（1/（n-1）}Σ（xij–xj）2]1/2

经过变换后，每列数据的平均值为０，方差为１，使用标准差标准化处理后，在抽样样本改变时，它仍然保持相对稳定性。

变换后的数据表

４、对数变换

对数变换可将具有指数特征的数据结构化为线性数据结构。

对数变换数据表

此外，还有极差标准化、平方根变换、立方根变换等。

极差标准化变换和规格化类似，它是把每个变量的样本极差皆化为１，排除量纲的干扰。

立方根变换和平方根变换的主要作用是把非线性的数据结构变为线性数据结构，以适应某些统计方法的需要。

二、相似系数和距离

目前已经设计了大量的相似系数和距离，据统计约有40多种。

但在数值分类中比较常用的却是少数，这里只介绍在聚类分析中常用的相似系数和距离。

1、距离设有数据矩阵为：

xij表示i个样品的第j个指标；第j个指标的均值和标准差为xj和sj；用dij表示i个样品和j个样品之间的距离。

距离dij应满足如下几个条件：

（1）dij≥0（一切i,j）

常用的距离

上述的各种距离是假定变量之间相互独立，即在正交空间中讨论的距离，但在实际问题中，变量之间往往存在着一定的相关性，为克服变量之间的相关性影响，可以采用马氏距离。

（6）马氏距离（

马氏距离虽然可以排除变量之间相关性的干扰，并且不受量纲的影响，但是在聚类分析处理之前，如果用全部数据计算的均值和协方差阵来计算马氏距离，效果不是很好的。

比较合理的办法是用各个类的样本来计算各自的协方差矩阵，同一类样本的马氏距离应当用这一类的协方差矩阵来计算。

而类的形成都要依赖于样品之间的距离，而样品的合理的马氏距离又依赖于类，这样就形成了一个恶性循环。

因此在实际聚类分析处理中，马氏距离也不是理想的距离。

为了克服变量间相关性的影响，我们引入了斜交空间距离。

（7）斜交空间距离

在m维空间中，为使具有相关性的变量的谱系结构不发生变形，采用斜交空间距离，公式为：

除了上述介绍的距离外，样本之间还可以用图论的方法来定义“链距离”，即有n个样本，其中任两个样本xi与xj之间用链联接，在所有链中，最大边长中的最小者称为xi与xj之间的“链距离”。

２、相似系数聚类分析方法不仅用来对样本进行分类，而且需要对变量进行分类，在对变量进行分类时，通常采用相似系数来表示变量之间的亲疏程度。

相似系数定义如下：

设Cij表示变量yi与yj之间的相似系数，则Cij应满足如下关系：

Cij应满足的关系

常用的相似系数

3、距离与相似系数选择原则一般说来，同一批数据采用不同的相似性尺度，会得到不同的分类结果。

产生不同结果的原因，主要是由于不同的指标所衡量的相似程度的物理意义不同，也就是说不同指标代表了不同意义上的相似性。

因此我们在进行数值分类时，应注意相似性尺度的选择，注意遵循下列基本选择原则：

（1）所选择的相似性尺度在实际应用中应有明确的意义，如在地理变量分析中，常用相关系数表示地理意义之间的亲疏程度。

（2）根据原始数据的性质，选择适当的变换方法，不同的变换方法涉及到选用不同的相似系数，如标准化变换处理下，相关相似系数和夹角余弦一致；

又如原始数据在进行聚类分析处理之前已经对变量的相关性作了处理，则通常可采用欧氏距离，而不必选用斜交空间距离。

所选择的距离，还须和选用的聚类方法一致，如聚类方法选用离差平方和法时，距离只能选用欧氏距离。

（３）适当地考虑计算工作量的大小，如对大样本的聚类问题，不适宜选择斜交空间距离，因采用该距离处理时，计算工作量太大。

一般情况下，相关系数比相似系数具有更强的不变性，但相关系数比相似系数有绞强的分辨力。

距离系数与相似系数所得到的结果对比，相似系数的计算数值由大到小单调地减少，故聚类谱系图反映分群明显；而距离系数的数据呈现非单调增加，谱系图显得不如相似系数那样明显分组。

距离的选择是一个比较复杂、带主观性的问题，我们应根据研究对象，作具体分析，在多次进行聚类分析过程中，逐步总结经验，以选择合适的距离。

在初次进行聚类分析处理时，不妨多试探选择几个距离，进行聚类，作对比、分析，以确定合适的距离系数。

三、聚类方法系统聚类方法的基本算法是将n个样品自成一类，先计算（1/2）n（n-1）个相似性测度，并且把具有最小测度的两个样品合并成两个元素的类；

然后按照某种聚类方法计算这个类和其余n-2个样品之间的蹴，这样一直持续下去，并类过程中，每一步所做的并类（样品与样品、样品与类、类与类）都要使测度在系统中保持最小，这样每次减少一类，直至所有样品都归为一类为止。

聚类的基本思想是把样本看成m维（m个指标）空间的点，而把每个变量看成m维空间的坐标轴。

如果我们选择的聚类方法是通过各个类之间所起的界面起作用，但不改变原来空间中的点的位置，这种聚类方法称为空间守恒；

如果我们所选择的聚类方法，使得由于一个类的扩张，空间似乎围绕着这个类扩张，因此当这个类扩张时，相应的距离也扩张，就好象它吸收了其它的点，这一类并类方法称为空间扩张，这种方法凝聚速度快；

还有另一些聚类方法，它由于一个类增长时，相应的距离比空间守恒距离缩短，空间似乎围绕着它收缩，这叫空间收缩。

在系统聚类法中，设第一次并类的两类的距离为D1，第二次合并的距离为D2,……,如果满足D１≤D2≤……,则称并类距离具有单调性。

并类距离有单调性符合系统聚类法的基本思想，但由于选择的聚类方法不同，因而不一定所有的方法都满足单调性的要求。

常用的系统聚类方法（八种）

1、最短距离法

最短距离法的计算步骤

最短距离法是一个单调的，使空间很快收缩的对策，当两类样品合并后，它与其它类的距离是所有距离的最小者，从而缩小了新合并的类与其它样品的距离。

由于最短距离法的空间收缩性很强，使得样品有链接聚合的趋势，这是它的一个缺点，这种方法不适合一般数据的分类处理，除去特殊数据外，不提倡使用这种方法。

最短距离法在数学理论上有许多优点，图论聚类分析中的最小支撑树法与最短距离法思想一致。

２、最长距离法

最长距离法是一个单调的，使空间扩张的对策，该法使两类样品合并，合并后的类与其它类的距离是原来两个类的距离最大者，这样加大了合并后的类与其它类的距离，因此属于空间扩张性质。

３、中间距离法

中间距离法属于空间守恒性质。

但中间距离法并非单调性，表现在聚类谱系中，上一级的聚合指标反而小于下一级聚合的指标，图形将出现逆转，因而谱系树状图很难跟踪，正因为如此，使得这个方法几乎不被人们采用。

４、重心法

对样本分类而言，每一类重心就是属于该类样品的均值。

显然，单个样品的重心就是它本身，两个样品的类的重心就是两点联线的中点。

重心法的并类步骤和以上三种方法完全相同，所不同的是每合并一次类，要重新计算该类的重心，以及各类与新类之间的距离。

重心法是严格遵循空间守恒的。

重心法与中间距离法一样都是非单调性的，该法的谱系树状图很难跟踪，而且该法符号改变频繁，并且计算也较麻烦。

５、类平均法

类平均法是空间守恒，又是单调性质，因而是一种使用广泛、聚类效果较好的方法。

６、可变类平均法

类平均法的距离递推公式中，类与类之间的距离没有反映进去，为此将类平均法与中间距离法进行组合，得到一个组合模型，其递推公式：

可变类平均法具有单调性质。

７、可变法

可变法是在研究统一的组合模型时，从代数角度规定的一种方法。

基于空间扩张性同于可变类平均法，具有单调性。

８、离差平方和法

离差平方和法是单调的、空间扩张的性质，该方法能得到局部最优解。

在实际应用中，离差平方和法的应用比较广泛，分类效果较好，离差平方和法要求样品之间的距离必须为欧氏距离。

四、系统聚类法的统一公式前述的八种聚类方法，并类原则与步骤都完全一样，所不同的是类与类之间的距离有不同的定义，从而得到不同的递推公式。

Wishart首先提出了统一公式，这样就为编制统一的计算程序提供了很大的方便。

系统聚类法统一公式参数表

五、剩余信息的剔除在进行Q模式聚类处理时，变量的选择对于聚类分析的最后结果影响较大，一般说来，变量的选择应遵循两个原则：

变量选择的两个原则

如果所选的变量中，包含一些对聚类没有什么意义，甚至于使聚类结果被歪曲的变量，就应该将其剔除。

这称为“剩余信息剔除”，其方法很多，如有：

１、根据所研究问题的特征和实际工作经验，人为地挑选一些对聚类效果影响显著的主要变量。

２、在进行Q模式聚类之前，先作R模式聚类分析，在相关系数矩阵基础上，进行聚类处理，在聚得的各类变量中，各挑出一个有代表性的变量作为典型变量，这样将这些典型变量作为分类的主要变量。

３、在作Q模式聚类分析之前，先作主成分分析，按照一定的比例关系（如按85%的信息量）选取主成分，在各个主成分中起主要作用的那个变量，分别取为进行聚类分析的主要变量。

４、对于所选择的变量的分辨能力，可以通过判别分析加以检验。

实践证明，选择好最佳变量子集合，剔除其影响分类效果较小的变量，削减其部分彼此相关性较强的变量，将得到比较好的聚类结果。

六、谱系分类的确定经过系统聚类法后，得到聚类树状谱系图，聚类树最外边一层叫树根，其它类都是它的子孙。

但直接子孙只有两个，聚类树或谱系图只反映变量之间或样品之间的亲疏关系，它本身并不分类，需要确定一个临界相似性尺度，用以分割谱系图而得到样本或变量的分类。

到目前为止，我们只是直观地叙述了“类”的概念，并未给出严格的定义，但要对各种不同的类给予一个统一的定义是比较困难的，“类”的概念是一个模糊概念。

根据谱系图进行分类的准则

第三节动态聚类分析

动态聚类法具有工作量小，占用计算机内存单元较少，方法简单的优点，适合于大样本的Q型聚类分析方法。

动态聚类法又称为逐步聚类法，其基本思路是，开始按照一定的方法选取一批凝聚点，然后将样品向最近的凝聚点凝聚，这样由点凝聚成类，得到初始分类。

初始分类不一定合理，然后按照最近距离原则进行修改不合理的分类，直到分类比较合理为止，这样形成一个最终的分类结果，聚类逻辑图如下：

动态聚类法聚类逻辑图

第四节模糊聚类分析

在地理系统研究领域，存在着许多不很严格、模糊的概念，这里所谓模糊性，主要是指客观事物差异的中间过渡的“不分明性”。

如地貌上的坡度有“陡、较陡、较缓和、缓和”等。

精确数学是建立在集合论的基础上，根据集合论的要求，一个对象对应于一个集合，要么属于，要么不属于，两者必居其一，且仅居其一。

这样的集合论无法处理各个领域中的模糊概念，为处理这样一些模糊概念，产生了模糊数学，模糊数学的理论基础是模糊集。

模糊聚类分析是在模糊分类关系基础进行聚类。

聚类分析的基本思想

利用模糊集理论进行聚类分析的具体步骤

第五节应用SPSS进行系统聚类

仅供个人用于学习、研究；不得用于商业用途。

Forpersonaluseonlyinstudyandresearch;notforcommercialuse.

NurfürdenpersönlichenfürStudien,Forschung,zukommerziellenZweckenverwendetwerden.

Pourl'étudeetlarechercheuniquementàdesfinspersonnelles;pasàdesfinscommerciales.

толькодлялюдей,которыеиспользуютсядляобучения,исследованийинедолжныиспользоватьсявкоммерческихцелях.

以下无正文

展开阅读全文