SAS系统和数据分析聚类分析.docx

资源描述

SAS系统和数据分析聚类分析.docx

《SAS系统和数据分析聚类分析.docx》由会员分享，可在线阅读，更多相关《SAS系统和数据分析聚类分析.docx（149页珍藏版）》请在冰豆网上搜索。

SAS系统和数据分析聚类分析.docx

SAS系统和数据分析聚类分析

第三十九课聚类分析

聚类分析是多元统计分析中研究“物以类聚”的一种方法，用于对事物的类别面貌尚不清楚，甚至在事前连总共有几类都不能确定的情况下进行分类的场合。

聚类分析的主要目的是研究事物的分类，而不同于判别分析。

在判别分析中必须事先知道各种判别的类型和数目，并且要有一批来自各判别类型的样本，才能建立判别函数来对未知属性的样本进行判别和归类。

若对一批样品划分的类型和分类的数目事先并不知道，这时对数据的分类就需借助聚类分析方法来解决。

聚类分析把分类对象按一定规则分成组或类，这些组或类不是事先给定的而是根据数据特征而定的。

在一个给定的类里的这些对象在某种意义上倾向于彼此相似，而在不同类里的这些对象倾向于不相似。

关于聚类分析的任何通则必定是含糊的、不明确的，因为在众多的各种不同领域里聚类方法已经得到发展，类和对象间的相似性具有不同定义。

各种聚类分析方法通过用于聚类分析的各种各样的领域反映出来。

因此，尽管聚类方法有很多种，但不管哪一种都不能说得到的分类是准确的。

下面我们介绍聚类分析中常用的一些方法。

一、距离和相似系数

什么是“类”呢？

粗略地说，相似物体的集合称作类；聚类分析的目的就是把相似的东西归类。

其次“相似”是什么含意？

怎样度量“相似”？

我们必须给出度量“相似”的统计指标。

聚类根据实际的需要有两个方向，一是对样品的聚类，一是对变量的聚类。

相应的聚类统计量有两类：

一种统计指标是类与类之间的距离，它是把每一个样品看成高维空间中的一个点，类与类之间用某种原则规定它们的距离，将距离近的点聚合成一类，距离远的点聚合成另一类。

距离一般用于对样品分类。

另一种是相似系数，根据这个统计指标将比较相似的变量归为一类，而把不怎么相似的变量归为另一类，用它可以把变量的亲疏关系直观地表示出来。

1.距离

设有n组样品，每组样品有

p个变量，n组样品数据如表

39.1所示。

表39.1

p个变量的n组样品数据

样品号

变量

x11

x21

xn1

x12

x22

xn2

Xpx1px2pxnp

上海财经大学经济信息管理系IS/SHUFE

Page1of62

第i个与第j

个样品之间的距离用

dij表示，dij一般应满足下面的条件：

dij

当第i个样品与第j

个样品相等；

dij

对一切i，j；

dij

dji

对一切i，j；

dij

dik

dkj对一切对一切

i，j，k。

最常用的距离有欧几里德距离、闵可夫斯基和马氏距离：

（1）欧几里德（Euclid）距离：

dij

xikxjk

（39.1）

（2）闵可夫斯基（Minkowski）距离：

dij

xikxjk

（39.2）

g一般为1或2，如果g=1时也称之为绝对值距离，

g=2时即为欧几里德距离。

（3）马氏（Mathalanobis）距离：

dij（xixj）S1（xixj）

（39.3）

其中，xi为第i个样品的p个元素组成的向量，xj为第j个样品的p个元素组成的向量，

S1为n个样品的p

p的协方差矩阵的逆矩阵。

2.相似系数

聚类分析有时也需要对变量进行聚类。

在对变量进行聚类时，也可以定义变量间的距离，通常使用变量间的相似系数。

常用的相似系数有：

（1）夹角余弦

夹角余弦作为变量间的相似关系，它忽视各变量的绝对长度，着重从形状方面反映它们

之间的关系。

记变量xi与xj的夹角余弦为cij，其中i,j1,2,p，则有：

xikxjk

cij

xik

xjk

（39.4）

上海财经大学经济信息管理系IS/SHUFE

Page2of62

（2）相关系数

变量xi与xj的相关系数为：

（xikxi）（xjk

xj）

rij

（39.5）

xi）2

（xik

（xjk

xj）2

xi表示第i个指标的平均值。

借助于相似系数，可以定义变量之间的距离。

例如，采用非相似测度距离为dij1cij2，或dij1rij2。

另外，还有其他一些定义相似系数的方法。

二、类的特征和类与类之间距离及统计量

我们的目的是聚类，那么什么叫类呢？

由于客观事物的千差万别，在不同的问题中类的含义是不尽相同的。

图39.1表现的是五种不同类型的类。

图39.1各种形式的类

试图给类一个严格的定义，绝非一件简单的事。

下面给出类的几个定义，不同的定义适

用于不同的场合。

用G表示类，假设G中有k个元素，用i、j表示G中第i、j个因素。

定义1

T为一给定的阈值，如果对任意的

i,j

G，有dij

T（dij为i和j的距离），

则称G为一个类。

定义2

T为一给定的阈值，如果对每个i

，有

∑ij

T，则称G为一个类。

k-1j∈G

定义3

T为一给定的阈值，如果对任意一个

iG，一定存在

jG,使得dij

T,则

称G为一个类。

易见，定义1的要求是最高的，凡符合它的类，一定也是后两种定义的类。

此外，凡符

合定义2的类，也一定是定义3的类。

上海财经大学经济信息管理系IS/SHUFE

Page3of62

1.类的特征

现在类G的元素用x1,,xm表示，m为G内的样品数，可以从不同的角度来刻画

特征。

常用的特征有如下三种：

（1）均值xG（或称为G的重心）：

xGxi

mi1

（2）样品协方差阵：

xGxixG

（3）G的直径。

它有多种定义，例如：

xixG

xixGtrAG

maxdij

i,jG

G的

（39.6）

（39.7）

（39.8）

（39.9）

2.类的距离

在聚类分析中，不仅要考虑各个类的特征，而且还要计算类与类之间的距离。

由于类的

形状是多种多样的，因此，类与类之间的距离也有多种计算方法。

令Gp和Gq中分别有p和

q个样品，它们的重心分别记为xp和xq。

下面给出一些常用的类与类之间的距离定义，用

Dp,q表示：

（1）最短距离：

Dp,q

mindjkjGp,kGq

（39.10）

类与类之间距离定义为

Gp和Gq中最邻近的两个样品的距离。

最短距离法有许多理想

的理论性质，但在蒙特卡洛（

MontoCarlo）模拟研究中（Milligan，1980）进行得很不顺利。

它不对类的形状加以限制，

保证了对拉长和不规则类的检测，

例如，图39.1中的（b）、（c）、

（e）（d）形式的类。

但它却牺牲了恢复压缩类的性能，另外，它也趋向于在分开主要类之前去掉分布的尾部（Hartigan，1981）。

上海财经大学经济信息管理系IS/SHUFE

Page4of62

（2）最长距离：

Dp,q

maxdjkjGp,kGq

（39.11）

类与类之间的距离定义为

Gp和Gq中最远的两个样品的距离。

最长距离法严重地倾向

于产生直径粗略相等的类，而且可能被异常值严重地扭曲。

例如，图

39.1中的（a）形式的

类。

最长距离法由Sorensen（1948）提出。

（3）重心法距离：

Dp,qxpxq

xpxq

（39.12）

类与类之间的距离定义为两个重心或均值

xp和xq之间欧氏距离的平方。

重心法在处理

异常值上比其他谱系方法更稳健，但是在其他方面便不如

Ward或类平均距离法的效果好

（Milligan1980）。

重心法由Sokal和Michener（1958）提出。

（4）类平均距离：

Dp,q

dij

（39.13）

pqiGpjGq

类与类之间的距离定义为

Gp和Gq中所有两个样品对之间距离的平均。

类平均距离法

趋向于合并具有较小偏差的类，而且稍微有点倾向于产生相同方差的类。

例如，图

39.1

中

的（a）形式的类。

类平均距离法首先由

Sokal和Michener（1958）提出。

（5）Ward最小方差法或Ward离差平方和距离：

若采用直径（式

39.8）的定义方法，用

Dp、Dq分别表示Gp和Gq的直径，用Dp

q表

示大类Dp

Dq的直径，则：

xpxi

，Dq

xjxqxjxq

（39.14）

iGp

iGq

Dpq

xixxix

（39.15）

iGpGq

其中，x

Gp和Gq之间的距离为两个类对所有

。

用离差平方和法定义

qiGpGq

变量的ANOVA平方和，即：

Dw（p,q）DpqDpDq

（39.16）

可以证明，这种定义是有意义的，并且：

上海财经大学经济信息管理系IS/SHUFE

Page5of62

Dpq

xqxpxq

（39.17）

那么：

p,q

xqxp

（39.18）

如果样品间的距离采用欧氏距离，上式可表示为：

p,q

pqD

p,q

（39.19）

这表明，Dwp,q与重心法的距离（式

39.12）Dp,q只差一个常数pq/（p

q）倍，

这个倍数显然与这两类的样品数

p和q有关。

Ward离差平方和距离法在每次合并

Gp类和Gq类为Gpq类时，总是选择这样两个

Gp类

和Gq类，使它们合并成Gp

q类后的Dwp,q值最小，故也称为

Ward最小方差法。

合并后

增加的最小方差Dwp,q除以合并后总的离差平方和

TSS的比值（即半偏R2）的统计意义

是容易解释的。

Ward最小方差法一般是在多元正态混合型、等球形协方差、等抽样概率假设

下合并类。

所以，Ward方法趋向于合并具有少量观察的类，并倾向于形成具有大约相同数目

观察的类。

例如，图39.1

中的（a）形式的类。

Ward方法对异常值也很敏感（Milligan，1980）。

最小方差法或离差平方和由

Ward（1963）提出。

（6）密度估计法：

密度估计法是一类使用非参数概率密度的聚类方法。

例如，图

39.1中的（b）形式的类。

包括两个步骤：

第一步，使用一种基于密度估计的新的非相似测度

d*来计算样品xi

和xj的

近邻关系；第二步，根据基于

d*方法计算的距离，采用最小距离法进行聚类。

有三种不同的

密度估计法：

①k最近邻估计法

k最近邻估计法（Wong和Lane，1983）使用k最近邻密度估计来计算距离。

令rk（x）为

点x到第k个最近观察的距离。

考虑以点x为中心rk（x）为半径的封闭球，在x点的密度估计

函数f（x）等于球内的观察数目除以球的体积所得比值。

这样，新的非相似测度距离

d*为：

（1/f（xi）1/f（xj））/2

如果

（

）

max（（

）,

（

））

（xi,xj）

否则

（39.20）

k最近邻估计法适用于样品数目较多且密度较高的类。

②均匀核估计法

上海财经大学经济信息管理系IS/SHUFE

Page6of62

均匀核估计使用了均匀核密度估计来计算距离。

考虑以点

x为中心r为半径的封闭球，

在x点的密度估计函数

f（x）等于球内的观察数目除以球的体积的所得比值。

它与k最近邻估

计法的主要区别为半径是一个指定的值，即封闭球大小是一样的（均匀核）

。

这样，新的非相

似测度距离d*为：

（xi,xj）

（1/f（xi）1/f（xj））/2如果d（xi,xj）

（39.21）

否则

③Wong混合法

Wong混合法初始聚类时采用

k最近邻估计法，得到初始分类

Gp、Gq和Gm，也可从输

入数据集得到类的均值

xp、xq和xm，样品数p、q和m。

判断这三个初始分类中某两个初

始分类是近邻的标准为：

（假设判断类Gp和Gq）

d2（xp,xq）

（xp,xm）

d2（xq,xm）

（39.22）

那么，新的非相似测度距离

为：

（Dp

Dq（pq）d2（xp,xq

）/4）v/2

d*（xp,xq）

（p

q）1v/2

如果GP和Gq是近邻

否则

（39.23）

其中，Dp和Dq是初始分类Gp和Gq的直径，计算公式见式（39.14）。

v为观察样品的变

量维数。

Wong混合法适用于大的数据集而不适用于小的数据集。

（7）两阶段密度估计法：

两阶段密度估计法是SAS研究所的W.S.Sarle发展的。

使用密度估计法时，众数类（modal

clusters）经常在尾部所有点聚类之前就已经被合并掉了。

两阶段密度估计法对密度估计法这

一缺点进行了修正，以确保众数类被合并之前，所有点能被分配到众数类中去。

同样，两阶

段密度估计法支持密度估计法的三种形式：

k最近邻估计法、均匀核估计和Wong混合法。

两阶段密度估计法的两阶段是指：

在第一阶段中，互不相交的众数类被生成。

密度估计法中的类合并使用与最短距离算法

相同的合并方法。

但有一个例外，只有在两个类中至少有一个类中的样品个数少于proccluster

过程的选项mode=值时才能合并。

在第一阶段结束时每个样品点属于一个众数类。

在第二阶段中，把第一阶段中形成的众数类再按最短距离法谱系地（某一类能够完全地包含在别的类里，但在类之间不允许其他形式的重迭）合并。

（8）最大似然估计法：

最大似然估计法EML是SAS研究所的W.S.Sarle发展Symans（1981）对不相交的类的

研究，由最大似然公式得到。

类Gp和类Gq合并成类Gm，Gp和Gq两类之间的距离公式为：

上海财经大学经济信息管理系IS/SHUFE

Page7of62

d（x

p,xq）

nvln（1

Dw（p,q）/

Di）

2（mln（m））

pln（p）

qln（q）

（39.24）

其中，

n为观察总数，

v为观察样品的变量维数，

p,q

为公式

（39.16），

为在

谱系的第G层对G个类的直径求和。

最大似然估计法是在三个基本假设：

等球面协方差和不等抽样概率的前提下，使得在谱系的每个水平上似然值最大。

多元正态混合分布、

EML

偏度选项

除了偏向于生成不等大小的类外，与Ward最小方差法很相似。

proccluster过程的penalty=p值可用于调整偏向的程度。

修正公式为对式（39.24）中的2改为p值。

3.类的各种统计量

（1）类Gp的均方根标准差

RMSSTD

/（v（p

1））

（39.25）

其中，

DG为类

Gp的直径，定义见式

（39.8），即类内的离差平方和。

把一个类的离差平

方和定义为直径是非常形象化的，例如，如果一个类的离差平方和等于0，那么类内的所有点都集中在一个点上，所以类的直径为0；如果一个类的离差平方和逐渐变大，那么类内的所有点就越来越分散，包含所有点的一个圆或球就会越来越大，相应地这个圆或球的直径就

越来越大。

v为观察样品的变量维数，

p为类

Gp中的观察数目。

（2）R2统计量

/TSS

（39.26）

其中，

为在谱系的第

G层对

G个类的直径求和，

TSS为所有观察的总离差平方和。

一般来说，

R2统计量用于评价每次合并成

个类时的聚类效果。

当

/TSS值越小（也

即R2统计量越大，越接近

1），表示类内离差平方和

在总离差平方和

TSS中所占的比

例越小，说明了这

G个类越分开，故聚类效果越好。

R2的值总是在

0和

1之间，当

n个样品各自为一类时，

1，说明类被完全分开；

当n个样品最后合并成一类时，

0，说明类被完全混合在一起了，

分不清楚了。

而且

的值总是随着分类个数的减少而变小。

那么如何根据R2的值来确定n个样品应分为几类最合

适呢？

首先，最合适分类的R2的值不能太小，最好能达到0.7以上；其次，不能孤立地看合

并后R2值的大小，应该看R2值的变化。

类的合并总是使R2值变小，如果这种变小是均匀的，

合并是应该的，但当某次合并使R2值减少很多，这次合并就不应该，即我们找到了最合适的

上海财经大学经济信息管理系IS/SHUFE

Page8of62

分类数。

例如，从10类合并到5类时，R2值每次减少大约在0.01到0.02之间，R2值减小

到0.8，从5类合并到4类时，R2值减少了0.3，即R2=0.8－0.3=0.5，这时，我们就可以得出分5类是最合适的。

（3）半偏R2统计量

合并类Gp和类Gq为类Gm时，可以用半偏R2统计量评价这次合并的效果，半偏

（Semipartial）R2计算公式为：

半偏R2

Dw（p,q）/TSS

（39.27）

其中，Dw（p,q）的计算公式见式

（39.16），表示合并类Gp和类Gq为新类Gm后，类内离

差平方和的增量。

显然，半偏

R2值=上次合并后R2值－这次合并后

R2值，例如，以上例的

数据为例，合并到4类时的半偏R2

值=0.3。

故这次合并后的半偏R2

值越大，说明上次合并

后停止合并的效果最好。

（4）伪F统计量

伪F（v（G1）,v（n

（TSS

）/（G1）

（39.28）

G））

Di/（n

G）

其中，G为聚类的个数，n为观察总数，v为观察样品的变量维数。

自由度为v（G1）和

v（nG）

。

在给定显著水平上该伪

（

pseduo

G个聚类的效果。

伪F

）F统计量用于评价分为

值越大越表示这些观察可显著地分为

G个类。

（5）伪t2统计量

伪t2（v,v（pq

2））

展开阅读全文