SAS系统和数据分析聚类分析Word格式文档下载.docx

资源描述

SAS系统和数据分析聚类分析Word格式文档下载.docx

《SAS系统和数据分析聚类分析Word格式文档下载.docx》由会员分享，可在线阅读，更多相关《SAS系统和数据分析聚类分析Word格式文档下载.docx（149页珍藏版）》请在冰豆网上搜索。

SAS系统和数据分析聚类分析Word格式文档下载.docx

当第i个样品与第j

个样品相等；

对一切i，j；

dji

对一切i，j；

dik

dkj对一切对一切

i，j，k。

最常用的距离有欧几里德距离、闵可夫斯基和马氏距离：

（1）欧几里德（Euclid）距离：

xikxjk

（39.1）

（2）闵可夫斯基（Minkowski）距离：

dij

xikxjk

（39.2）

g一般为1或2，如果g=1时也称之为绝对值距离，

g=2时即为欧几里德距离。

（3）马氏（Mathalanobis）距离：

dij（xixj）S1（xixj）

（39.3）

其中，xi为第i个样品的p个元素组成的向量，xj为第j个样品的p个元素组成的向量，

S1为n个样品的p

p的协方差矩阵的逆矩阵。

2.相似系数

聚类分析有时也需要对变量进行聚类。

在对变量进行聚类时，也可以定义变量间的距离，通常使用变量间的相似系数。

常用的相似系数有：

（1）夹角余弦

夹角余弦作为变量间的相似关系，它忽视各变量的绝对长度，着重从形状方面反映它们

之间的关系。

记变量xi与xj的夹角余弦为cij，其中i,j1,2,p，则有：

cij

xik

xjk

（39.4）

Page2of62

（2）相关系数

变量xi与xj的相关系数为：

（xikxi）（xjk

xj）

rij

（39.5）

xi）2

（xik

（xjk

xj）2

xi表示第i个指标的平均值。

借助于相似系数，可以定义变量之间的距离。

例如，采用非相似测度距离为dij1cij2，或dij1rij2。

另外，还有其他一些定义相似系数的方法。

二、类的特征和类与类之间距离及统计量

我们的目的是聚类，那么什么叫类呢？

由于客观事物的千差万别，在不同的问题中类的含义是不尽相同的。

图39.1表现的是五种不同类型的类。

图39.1各种形式的类

试图给类一个严格的定义，绝非一件简单的事。

下面给出类的几个定义，不同的定义适

用于不同的场合。

用G表示类，假设G中有k个元素，用i、j表示G中第i、j个因素。

定义1

T为一给定的阈值，如果对任意的

i,j

G，有dij

T（dij为i和j的距离），

则称G为一个类。

定义2

T为一给定的阈值，如果对每个i

，有

∑ij

T，则称G为一个类。

k-1j∈G

定义3

T为一给定的阈值，如果对任意一个

iG，一定存在

jG,使得dij

T,则

称G为一个类。

易见，定义1的要求是最高的，凡符合它的类，一定也是后两种定义的类。

此外，凡符

合定义2的类，也一定是定义3的类。

Page3of62

1.类的特征

现在类G的元素用x1,,xm表示，m为G内的样品数，可以从不同的角度来刻画

特征。

常用的特征有如下三种：

（1）均值xG（或称为G的重心）：

xGxi

mi1

（2）样品协方差阵：

xGxixG

（3）G的直径。

它有多种定义，例如：

xixG

xixGtrAG

maxdij

i,jG

G的

（39.6）

（39.7）

（39.8）

（39.9）

2.类的距离

在聚类分析中，不仅要考虑各个类的特征，而且还要计算类与类之间的距离。

由于类的

形状是多种多样的，因此，类与类之间的距离也有多种计算方法。

令Gp和Gq中分别有p和

q个样品，它们的重心分别记为xp和xq。

下面给出一些常用的类与类之间的距离定义，用

Dp,q表示：

（1）最短距离：

Dp,q

mindjkjGp,kGq

（39.10）

类与类之间距离定义为

Gp和Gq中最邻近的两个样品的距离。

最短距离法有许多理想

的理论性质，但在蒙特卡洛（

MontoCarlo）模拟研究中（Milligan，1980）进行得很不顺利。

它不对类的形状加以限制，

保证了对拉长和不规则类的检测，

例如，图39.1中的（b）、（c）、

（e）（d）形式的类。

但它却牺牲了恢复压缩类的性能，另外，它也趋向于在分开主要类之前去掉分布的尾部（Hartigan，1981）。

Page4of62

（2）最长距离：

maxdjkjGp,kGq

（39.11）

类与类之间的距离定义为

Gp和Gq中最远的两个样品的距离。

最长距离法严重地倾向

于产生直径粗略相等的类，而且可能被异常值严重地扭曲。

例如，图

39.1中的（a）形式的

类。

最长距离法由Sorensen（1948）提出。

（3）重心法距离：

Dp,qxpxq

xpxq

（39.12）

类与类之间的距离定义为两个重心或均值

xp和xq之间欧氏距离的平方。

重心法在处理

异常值上比其他谱系方法更稳健，但是在其他方面便不如

Ward或类平均距离法的效果好

（Milligan1980）。

重心法由Sokal和Michener（1958）提出。

（4）类平均距离：

（39.13）

pqiGpjGq

Gp和Gq中所有两个样品对之间距离的平均。

类平均距离法

趋向于合并具有较小偏差的类，而且稍微有点倾向于产生相同方差的类。

39.1

中

的（a）形式的类。

类平均距离法首先由

Sokal和Michener（1958）提出。

（5）Ward最小方差法或Ward离差平方和距离：

若采用直径（式

39.8）的定义方法，用

Dp、Dq分别表示Gp和Gq的直径，用Dp

q表

示大类Dp

Dq的直径，则：

xpxi

，Dq

xjxqxjxq

（39.14）

iGp

iGq

Dpq

xixxix

（39.15）

iGpGq

其中，x

Gp和Gq之间的距离为两个类对所有

。

用离差平方和法定义

qiGpGq

变量的ANOVA平方和，即：

Dw（p,q）DpqDpDq

（39.16）

可以证明，这种定义是有意义的，并且：

Page5of62

xqxpxq

（39.17）

那么：

p,q

xqxp

（39.18）

如果样品间的距离采用欧氏距离，上式可表示为：

pqD

（39.19）

这表明，Dwp,q与重心法的距离（式

39.12）Dp,q只差一个常数pq/（p

q）倍，

这个倍数显然与这两类的样品数

p和q有关。

Ward离差平方和距离法在每次合并

Gp类和Gq类为Gpq类时，总是选择这样两个

Gp类

和Gq类，使它们合并成Gp

q类后的Dwp,q值最小，故也称为

Ward最小方差法。

合并后

增加的最小方差Dwp,q除以合并后总的离差平方和

TSS的比值（即半偏R2）的统计意义

是容易解释的。

Ward最小方差法一般是在多元正态混合型、等球形协方差、等抽样概率假设

下合并类。

所以，Ward方法趋向于合并具有少量观察的类，并倾向于形成具有大约相同数目

观察的类。

例如，图39.1

中的（a）形式的类。

Ward方法对异常值也很敏感（Milligan，1980）。

最小方差法或离差平方和由

Ward（1963）提出。

（6）密度估计法：

密度估计法是一类使用非参数概率密度的聚类方法。

39.1中的（b）形式的类。

包括两个步骤：

第一步，使用一种基于密度估计的新的非相似测度

d*来计算样品xi

和xj的

近邻关系；

第二步，根据基于

d*方法计算的距离，采用最小距离法进行聚类。

有三种不同的

密度估计法：

①k最近邻估计法

k最近邻估计法（Wong和Lane，1983）使用k最近邻密度估计来计算距离。

令rk（x）为

点x到第k个最近观察的距离。

考虑以点x为中心rk（x）为半径的封闭球，在x点的密度估计

函数f（x）等于球内的观察数目除以球的体积所得比值。

这样，新的非相似测度距离

d*为：

（1/f（xi）1/f（xj））/2

如果

（

）

max（（

）,

））

（xi,xj）

否则

（39.20）

k最近邻估计法适用于样品数目较多且密度较高的类。

②均匀核估计法

Page6of62

均匀核估计使用了均匀核密度估计来计算距离。

考虑以点

x为中心r为半径的封闭球，

在x点的密度估计函数

f（x）等于球内的观察数目除以球的体积的所得比值。

它与k最近邻估

计法的主要区别为半径是一个指定的值，即封闭球大小是一样的（均匀核）

这样，新的非相

似测度距离d*为：

（1/f（xi）1/f（xj））/2如果d（xi,xj）

（39.21）

③Wong混合法

Wong混合法初始聚类时采用

k最近邻估计法，得到初始分类

Gp、Gq和Gm，也可从输

入数据集得到类的均值

xp、xq和xm，样品数p、q和m。

判断这三个初始分类中某两个初

始分类是近邻的标准为：

（假设判断类Gp和Gq）

d2（xp,xq）

（xp,xm）

d2（xq,xm）

（39.22）

那么，新的非相似测度距离

为：

（Dp

Dq（pq）d2（xp,xq

）/4）v/2

d*（xp,xq）

（p

q）1v/2

如果GP和Gq是近邻

（39.23）

其中，Dp和Dq是初始分类Gp和Gq的直径，计算公式见式（39.14）。

v为观察样品的变

量维数。

Wong混合法适用于大的数据集而不适用于小的数据集。

（7）两阶段密度估计法：

两阶段密度估计法是SAS研究所的W.S.Sarle发展的。

使用密度估计法时，众数类（modal

clusters）经常在尾部所有点聚类之前就已经被合并掉了。

两阶段密度估计法对密度估计法这

一缺点进行了修正，以确保众数类被合并之前，所有点能被分配到众数类中去。

同样，两阶

段密度估计法支持密度估计法的三种形式：

k最近邻估计法、均匀核估计和Wong混合法。

两阶段密度估计法的两阶段是指：

在第一阶段中，互不相交的众数类被生成。

密度估计法中的类合并使用与最短距离算法

相同的合并方法。

但有一个例外，只有在两个类中至少有一个类中的样品个数少于proccluster

过程的选项mode=值时才能合并。

在第一阶段结束时每个样品点属于一个众数类。

在第二阶段中，把第一阶段中形成的众数类再按最短距离法谱系地（某一类能够完全地包含在别的类里，但在类之间不允许其他形式的重迭）合并。

（8）最大似然估计法：

最大似然估计法EML是SAS研究所的W.S.Sarle发展Symans（1981）对不相交的类的

研究，由最大似然公式得到。

类Gp和类Gq合并成类Gm，Gp和Gq两类之间的距离公式为：

Page7of62

d（x

p,xq）

nvln（1

Dw（p,q）/

Di）

2（mln（m））

pln（p）

qln（q）

（39.24）

其中，

n为观察总数，

v为观察样品的变量维数，

为公式

（39.16），

为在

谱系的第G层对G个类的直径求和。

最大似然估计法是在三个基本假设：

等球面协方差和不等抽样概率的前提下，使得在谱系的每个水平上似然值最大。

多元正态混合分布、

EML

偏度选项

除了偏向于生成不等大小的类外，与Ward最小方差法很相似。

proccluster过程的penalty=p值可用于调整偏向的程度。

修正公式为对式（39.24）中的2改为p值。

3.类的各种统计量

（1）类Gp的均方根标准差

RMSSTD

/（v（p

1））

（39.25）

DG为类

Gp的直径，定义见式

（39.8），即类内的离差平方和。

把一个类的离差平

方和定义为直径是非常形象化的，例如，如果一个类的离差平方和等于0，那么类内的所有点都集中在一个点上，所以类的直径为0；

如果一个类的离差平方和逐渐变大，那么类内的所有点就越来越分散，包含所有点的一个圆或球就会越来越大，相应地这个圆或球的直径就

越来越大。

p为类

Gp中的观察数目。

（2）R2统计量

/TSS

（39.26）

为在谱系的第

G层对

G个类的直径求和，

TSS为所有观察的总离差平方和。

一般来说，

R2统计量用于评价每次合并成

个类时的聚类效果。

当

/TSS值越小（也

即R2统计量越大，越接近

1），表示类内离差平方和

在总离差平方和

TSS中所占的比

例越小，说明了这

G个类越分开，故聚类效果越好。

R2的值总是在

0和

1之间，当

n个样品各自为一类时，

1，说明类被完全分开；

当n个样品最后合并成一类时，

0，说明类被完全混合在一起了，

分不清楚了。

而且

的值总是随着分类个数的减少而变小。

那么如何根据R2的值来确定n个样品应分为几类最合

适呢？

首先，最合适分类的R2的值不能太小，最好能达到0.7以上；

其次，不能孤立地看合

并后R2值的大小，应该看R2值的变化。

类的合并总是使R2值变小，如果这种变小是均匀的，

合并是应该的，但当某次合并使R2值减少很多，这次合并就不应该，即我们找到了最合适的

Page8of62

分类数。

例如，从10类合并到5类时，R2值每次减少大约在0.01到0.02之间，R2值减小

到0.8，从5类合并到4类时，R2值减少了0.3，即R2=0.8－0.3=0.5，这时，我们就可以得出分5类是最合适的。

（3）半偏R2统计量

合并类Gp和类Gq为类Gm时，可以用半偏R2统计量评价这次合并的效果，半偏

（Semipartial）R2计算公式为：

半偏R2

Dw（p,q）/TSS

（39.27）

其中，Dw（p,q）的计算公式见式

（39.16），表示合并类Gp和类Gq为新类Gm后，类内离

差平方和的增量。

显然，半偏

R2值=上次合并后R2值－这次合并后

R2值，例如，以上例的

数据为例，合并到4类时的半偏R2

值=0.3。

故这次合并后的半偏R2

值越大，说明上次合并

后停止合并的效果最好。

（4）伪F统计量

伪F（v（G1）,v（n

（TSS

）/（G1）

（39.28）

G））

Di/（n

G）

其中，G为聚类的个数，n为观察总数，v为观察样品的变量维数。

自由度为v（G1）和

v（nG）

在给定显著水平上该伪

pseduo

G个聚类的效果。

伪F

）F统计量用于评价分为

值越大越表示这些观察可显著地分为

G个类。

（5）伪t2统计量

伪t2（v,v（pq

2））

展开阅读全文