6聚类分析实习.docx

资源描述

6聚类分析实习.docx

《6聚类分析实习.docx》由会员分享，可在线阅读，更多相关《6聚类分析实习.docx（24页珍藏版）》请在冰豆网上搜索。

6聚类分析实习.docx

6聚类分析实习

聚类分析实习

一、实验目的

1）熟悉聚类分析中Q型和R型的区别，掌握SPSS软件中实现聚类分析的过程和参数选择。

2）结合专业背景知识解释聚类结果。

二、实验原理

1．聚类分析是研究“物以类聚”的一种科学有效方法，人们在认识世界的过程中，需要把某些方面相似的东西归成类，以便从中发现规律性，寻找其中共同与不同的特征。

聚类分析的主要思想是：

根据事物本身的特性研究个体的分类，原则是同一类中的个体有较大的相似性，不同类中的个体差异很大。

2．聚类分析的实质是建立一种分类方法，它能将一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类，这里的类就是一个具有相似性的个体的集合，不同类之间具有明显的区别。

3..聚类分析是一种探索性的分析，在分类过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类，因此聚类分析不需要建模。

4.在地质研究领域，由于地质对象的复杂性，单靠定性标志或少量定量标志进行分类，常常不能揭示客观事物内在的本质差别和联系。

很多分类常具有很大的主观性和任意性，分类常常不能反映客观实际，分类方案又经常因人而异，因此，多元统计分析中对客观事物进行分类的聚类方法已在地质研究中取得日益广泛的应用。

5.在具体进行聚类分析时，出于不同的目的和要求，可能选择不同的统计量和聚类方法，因此可出现不同的聚类结果。

三、相似性统计指标

聚类分析可以分为R型和Q型，对m个变量进行分类的方法，称为R型聚类法，常用的统计量称为“相关系数”；对n个样品进行分类的方法称为Q型聚类法，常用的统计量称为“距离”。

怎样衡量样品或者变量之间的相似性大小？

假定有N个样品，每个样品有P变量来描述，可测的一个数组，以矩阵X表示：

比较N个样品间相似性的Q型聚类分析，实际上是矩阵X的N列数据之间相似性对比；同理，p个变量之间的相似性的R型分析，是矩阵X的p行之间的比较。

矩阵X中任意两个样品或两个变量之间的相似性，表现在以下三个基本方面：

①描述两个样品或变量的两列或两行对应元素接近的程度

②两列或两行对应元素成比例的程度

③两列或两行对应元素消长关系的密切程度

因此，用于表示相似性的统计指标通常有距离系数、相似系数及相关系数三种。

（一）距离系数（dik）

常用于Q型聚类分析，每个样品视为p维空间中的一点，dik相当于p维空间中两点之间的距离，既两样品点接近的程度。

聚类时聚类相近的样本属于一个类，聚类远的样本属于不同的类。

常用的方法有：

欧氏距离（Euclidean）：

欧氏距离平方（SquaredEuclidean）：

Chebychev:

max|xi-yi|

Block（绝对距离）:

Σ|xi-yi|

Minkowski：

Customized距离（用户自定义距离）：

类Gp与类Gq之间的距离Dpq:

（d（xi,xj）表示点xi∈Gp和xj∈Gq之间的距离）

最短距离法:

最长距离法:

重心法:

类平均法:

离差平方和法。

dik越小，两样品越相似，即X矩阵中第i列与第k列对应的元素越接近。

用距离系数时，如果变量之间相关性大时，相关性越大，dik越不可靠。

因此，若变量不独立时，进行Q型聚类前可先进行R型因子分析，把变量变为互不相关的新变量（用因子得分去代替原始变量），再求距离系数—主因子距离系数。

（二）相似性系数

常用于Q型聚类分析，是把第i、k样品看成p维空间中的两向量，两个样品之间的相似程度可由其向量间夹角的余弦来表示，公式为：

式中：

i、k＝1，2，…,N（i≠k）为样品号，j＝1，2，…，p为变量号。

（三）相关系数

多用于R型聚类分析以表示研究对象之间的相关性，其公式为：

式中：

t、j＝1，2，…,p（t≠j）为变量号;i＝1，2，…，n为样品号。

r的取值范围是＋1与－1之间，|r|值越大表示两变量之间关系越密；｜r|值越小表示关系越不密切

注意：

在应用上述所有相似性统计指标计算时，由于测定样品的各种特征所用的量纲及各种标志值的变化幅度可能不同。

为了避免过分突出那些绝对值较大的变量在分类中的作用，在进行聚类分析之前，需要对原始数据进行处理，应对数据进行标准化或正规化变化。

四、聚类方法

层次聚类法、K-均值聚类法（快速聚类法）。

（一）层次聚类法：

基本思想是：

先将要归类的n个样品（或者变量）各自看成一类，共有n类；然后按照事先规定好的方法计算分类统计量，即某种距离或某种相似系数，将关系最密切的两类并为一类，其余不变，即得n-1类；又按前面使用的计算新类与其它类的距离或者相似系数，又将关系最密切的两类并成一类，其余不变，即得n-2类；如此进行下去，每次重复都减少一类，直到最后所有样品（或者变量）归为一类为止。

显然，越是后来合并的类，距离就越远。

最后再利用一些相应的指标来确定聚为几类的结果是最为合适的。

（二）快速聚类法（K-均值聚类法）：

类别个数需要在分析前就加以确定，整个分析过程使用迭代的方式进行，首先起步于一个初始的分类，然后通过不断的迭代把数据在不同类别之间移动，直到最后达到一定的标准为止，整个计算过程中不需要存储基本数据或者距离矩阵，因此不会出现多个互相嵌套的聚类结果，而计算速度也要快得多。

快速聚类法先对数据进行初始分类，然后逐步调整，得到最终分类。

计算过程如下：

①首先需要用户指定聚类成多少类（比如k类）

②然后对数据进行初始分类，即确定k个类的初始类中心点。

SPSS会根据样本数据的实际情况，选择k个有代表性的样本作为初始类中心点。

如果用户的经验比较丰富，初始类中心点也可以由用户自行指定，需要指定k组样本数据作为初始类中心点。

③计算所有样本数据点到k个类中心点的欧氏距离，按照距离最短原则，把所有样本分配到各中心点所在的类中，选出一个新的k类，完成一次迭代过程。

④重新确定k个类的中心点。

计算每个类中各个变量的变量值平均数，并以此均值点作为新的类中心点。

重复上面两步计算过程，直到达到指定的迭代次数或终止迭代的判别要求为止。

五、SPSS实现聚类分析过程参数说明

（一）层次聚类分析中的Q型聚类

【例】对一个班10位学生的数学水平进行聚类，数据见下表：

在菜单中选择层次聚类如下图：

在弹出的对话框中作如下选择：

这里选择‘姓名’变量作为标签变量将增强聚类分析结果的可读性。

●点击‘统计量’按钮，见如下对话框：

本例选择如图所示。

‘凝聚状态表’项，将输出层次聚类分析的凝聚状态表。

‘近似性矩阵’项，将显示各样本的距离矩阵。

‘聚类成员’框中：

‘无’：

不显示类成员构成。

‘单解’：

其后的‘聚类数目’中的数值n表示仅显示聚类成n类时，各个类的成员。

‘解的范围’：

指定显示聚类成n1类到n2类时，各个类的成员。

●点击‘绘图’按钮，得到如下对话框：

本例选择如图。

SPSS层次聚类的图形结果有两种方式

输出树形图（Dendrogram）

树形图以树的形式展现聚类分析的每一次合并过程，SPSS首先将各类之间的距离重新转换到0～25之间，然后再近似地表示在图上。

树形图可以粗略地表现聚类的过程。

选中‘系统树形图’项，即可输出树形图。

输出冰柱图（Icicle）

冰柱图通过表格中的“X”符号显示，其样子很像冬天房屋下的冰柱。

SPSS默认输出聚类全过程的冰柱图（所有聚类）。

选择‘指定聚类范围’项，并输入从第几类开始显示（Start:

），到第几类结束显示（Stop），中间几个几类（By:

），则可以指定显示聚类中某一阶段的冰柱图。

如果选择None则不输出冰柱图。

●点击‘方法’按钮，得到如下对话框：

本例选择如图。

‘聚类方法’下拉框中指定的是小类之间的距离计算方法。

SPSS提供了7种方法供用户选择:

1Between-groupslinkage:

类间平均链锁法。

2Within-groupslinkage:

类内平均链锁法。

3Nearestneighbor: