SAS系统和数据分析聚类分析Word格式文档下载.docx
《SAS系统和数据分析聚类分析Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《SAS系统和数据分析聚类分析Word格式文档下载.docx(149页珍藏版)》请在冰豆网上搜索。
当第i个样品与第j
个样品相等;
对一切i,j;
dji
对一切i,j;
dik
dkj对一切对一切
i,j,k。
最常用的距离有欧几里德距离、闵可夫斯基和马氏距离:
(1)欧几里德(Euclid)距离:
p
xikxjk
(39.1)
k
(2)闵可夫斯基(Minkowski)距离:
g
dij
xikxjk
(39.2)
g一般为1或2,如果g=1时也称之为绝对值距离,
g=2时即为欧几里德距离。
(3)马氏(Mathalanobis)距离:
dij(xixj)S1(xixj)
(39.3)
其中,xi为第i个样品的p个元素组成的向量,xj为第j个样品的p个元素组成的向量,
S1为n个样品的p
p的协方差矩阵的逆矩阵。
2.相似系数
聚类分析有时也需要对变量进行聚类。
在对变量进行聚类时,也可以定义变量间的距离,通常使用变量间的相似系数。
常用的相似系数有:
(1)夹角余弦
夹角余弦作为变量间的相似关系,它忽视各变量的绝对长度,着重从形状方面反映它们
之间的关系。
记变量xi与xj的夹角余弦为cij,其中i,j1,2,p,则有:
k1
cij
xik
xjk
(39.4)
Page2of62
(2)相关系数
变量xi与xj的相关系数为:
(xikxi)(xjk
xj)
rij
(39.5)
xi)2
(xik
(xjk
xj)2
xi表示第i个指标的平均值。
借助于相似系数,可以定义变量之间的距离。
例如,采用非相似测度距离为dij1cij2,或dij1rij2。
另外,还有其他一些定义相似系数的方法。
二、类的特征和类与类之间距离及统计量
我们的目的是聚类,那么什么叫类呢?
由于客观事物的千差万别,在不同的问题中类的含义是不尽相同的。
图39.1表现的是五种不同类型的类。
图39.1各种形式的类
试图给类一个严格的定义,绝非一件简单的事。
下面给出类的几个定义,不同的定义适
用于不同的场合。
用G表示类,假设G中有k个元素,用i、j表示G中第i、j个因素。
定义1
T为一给定的阈值,如果对任意的
i,j
G,有dij
T(dij为i和j的距离),
则称G为一个类。
定义2
T为一给定的阈值,如果对每个i
G
,有
∑ij
T,则称G为一个类。
k-1j∈G
d
定义3
T为一给定的阈值,如果对任意一个
iG,一定存在
jG,使得dij
T,则
称G为一个类。
易见,定义1的要求是最高的,凡符合它的类,一定也是后两种定义的类。
此外,凡符
合定义2的类,也一定是定义3的类。
Page3of62
1.类的特征
现在类G的元素用x1,,xm表示,m为G内的样品数,可以从不同的角度来刻画
特征。
常用的特征有如下三种:
(1)均值xG(或称为G的重心):
1m
xGxi
mi1
(2)样品协方差阵:
m
AG
xi
xGxixG
i1
SG
m1
(3)G的直径。
它有多种定义,例如:
DG
xixG
xixGtrAG
DG
maxdij
i,jG
G的
(39.6)
(39.7)
(39.8)
(39.9)
2.类的距离
在聚类分析中,不仅要考虑各个类的特征,而且还要计算类与类之间的距离。
由于类的
形状是多种多样的,因此,类与类之间的距离也有多种计算方法。
令Gp和Gq中分别有p和
q个样品,它们的重心分别记为xp和xq。
下面给出一些常用的类与类之间的距离定义,用
Dp,q表示:
(1)最短距离:
Dp,q
mindjkjGp,kGq
(39.10)
类与类之间距离定义为
Gp和Gq中最邻近的两个样品的距离。
最短距离法有许多理想
的理论性质,但在蒙特卡洛(
MontoCarlo)模拟研究中(Milligan,1980)进行得很不顺利。
它不对类的形状加以限制,
保证了对拉长和不规则类的检测,
例如,图39.1中的(b)、(c)、
(e)(d)形式的类。
但它却牺牲了恢复压缩类的性能,另外,它也趋向于在分开主要类之前去掉分布的尾部(Hartigan,1981)。
Page4of62
(2)最长距离:
maxdjkjGp,kGq
(39.11)
类与类之间的距离定义为
Gp和Gq中最远的两个样品的距离。
最长距离法严重地倾向
于产生直径粗略相等的类,而且可能被异常值严重地扭曲。
例如,图
39.1中的(a)形式的
类。
最长距离法由Sorensen(1948)提出。
(3)重心法距离:
Dp,qxpxq
xpxq
(39.12)
类与类之间的距离定义为两个重心或均值
xp和xq之间欧氏距离的平方。
重心法在处理
异常值上比其他谱系方法更稳健,但是在其他方面便不如
Ward或类平均距离法的效果好
(Milligan1980)。
重心法由Sokal和Michener(1958)提出。
(4)类平均距离:
(39.13)
pqiGpjGq
Gp和Gq中所有两个样品对之间距离的平均。
类平均距离法
趋向于合并具有较小偏差的类,而且稍微有点倾向于产生相同方差的类。
39.1
中
的(a)形式的类。
类平均距离法首先由
Sokal和Michener(1958)提出。
(5)Ward最小方差法或Ward离差平方和距离:
若采用直径(式
39.8)的定义方法,用
Dp、Dq分别表示Gp和Gq的直径,用Dp
q表
示大类Dp
Dq的直径,则:
Dp
xpxi
xp
,Dq
xjxqxjxq
(39.14)
iGp
iGq
Dpq
xixxix
(39.15)
iGpGq
其中,x
Gp和Gq之间的距离为两个类对所有
。
用离差平方和法定义
qiGpGq
变量的ANOVA平方和,即:
Dw(p,q)DpqDpDq
(39.16)
可以证明,这种定义是有意义的,并且:
Page5of62
Dq
pq
xqxpxq
(39.17)
xp
q
那么:
Dw
p,q
xqxp
xq
(39.18)
如果样品间的距离采用欧氏距离,上式可表示为:
pqD
(39.19)
这表明,Dwp,q与重心法的距离(式
39.12)Dp,q只差一个常数pq/(p
q)倍,
这个倍数显然与这两类的样品数
p和q有关。
Ward离差平方和距离法在每次合并
Gp类和Gq类为Gpq类时,总是选择这样两个
Gp类
和Gq类,使它们合并成Gp
q类后的Dwp,q值最小,故也称为
Ward最小方差法。
合并后
增加的最小方差Dwp,q除以合并后总的离差平方和
TSS的比值(即半偏R2)的统计意义
是容易解释的。
Ward最小方差法一般是在多元正态混合型、等球形协方差、等抽样概率假设
下合并类。
所以,Ward方法趋向于合并具有少量观察的类,并倾向于形成具有大约相同数目
观察的类。
例如,图39.1
中的(a)形式的类。
Ward方法对异常值也很敏感(Milligan,1980)。
最小方差法或离差平方和由
Ward(1963)提出。
(6)密度估计法:
密度估计法是一类使用非参数概率密度的聚类方法。
39.1中的(b)形式的类。
包括两个步骤:
第一步,使用一种基于密度估计的新的非相似测度
d*来计算样品xi
和xj的
近邻关系;
第二步,根据基于
d*方法计算的距离,采用最小距离法进行聚类。
有三种不同的
密度估计法:
①k最近邻估计法
k最近邻估计法(Wong和Lane,1983)使用k最近邻密度估计来计算距离。
令rk(x)为
点x到第k个最近观察的距离。
考虑以点x为中心rk(x)为半径的封闭球,在x点的密度估计
函数f(x)等于球内的观察数目除以球的体积所得比值。
这样,新的非相似测度距离
d*为:
d*
(1/f(xi)1/f(xj))/2
如果
(
xj
)
max((
),
rk
))
(xi,xj)
否则
(39.20)
k最近邻估计法适用于样品数目较多且密度较高的类。
②均匀核估计法
Page6of62
均匀核估计使用了均匀核密度估计来计算距离。
考虑以点
x为中心r为半径的封闭球,
在x点的密度估计函数
f(x)等于球内的观察数目除以球的体积的所得比值。
它与k最近邻估
计法的主要区别为半径是一个指定的值,即封闭球大小是一样的(均匀核)
这样,新的非相
似测度距离d*为:
*
(1/f(xi)1/f(xj))/2如果d(xi,xj)
r
(39.21)
③Wong混合法
Wong混合法初始聚类时采用
k最近邻估计法,得到初始分类
Gp、Gq和Gm,也可从输
入数据集得到类的均值
xp、xq和xm,样品数p、q和m。
判断这三个初始分类中某两个初
始分类是近邻的标准为:
(假设判断类Gp和Gq)
d2(xp,xq)
d2
(xp,xm)
d2(xq,xm)
(39.22)
那么,新的非相似测度距离
d*
为:
(Dp
Dq(pq)d2(xp,xq
)/4)v/2
d*(xp,xq)
(p
q)1v/2
如果GP和Gq是近邻
(39.23)
其中,Dp和Dq是初始分类Gp和Gq的直径,计算公式见式(39.14)。
v为观察样品的变
量维数。
Wong混合法适用于大的数据集而不适用于小的数据集。
(7)两阶段密度估计法:
两阶段密度估计法是SAS研究所的W.S.Sarle发展的。
使用密度估计法时,众数类(modal
clusters)经常在尾部所有点聚类之前就已经被合并掉了。
两阶段密度估计法对密度估计法这
一缺点进行了修正,以确保众数类被合并之前,所有点能被分配到众数类中去。
同样,两阶
段密度估计法支持密度估计法的三种形式:
k最近邻估计法、均匀核估计和Wong混合法。
两阶段密度估计法的两阶段是指:
在第一阶段中,互不相交的众数类被生成。
密度估计法中的类合并使用与最短距离算法
相同的合并方法。
但有一个例外,只有在两个类中至少有一个类中的样品个数少于proccluster
过程的选项mode=值时才能合并。
在第一阶段结束时每个样品点属于一个众数类。
在第二阶段中,把第一阶段中形成的众数类再按最短距离法谱系地(某一类能够完全地包含在别的类里,但在类之间不允许其他形式的重迭)合并。
(8)最大似然估计法:
最大似然估计法EML是SAS研究所的W.S.Sarle发展Symans(1981)对不相交的类的
研究,由最大似然公式得到。
类Gp和类Gq合并成类Gm,Gp和Gq两类之间的距离公式为:
Page7of62
d(x
p,xq)
nvln(1
Dw(p,q)/
Di)
2(mln(m))
pln(p)
qln(q)
(39.24)
其中,
n为观察总数,
v为观察样品的变量维数,
Dw
为公式
(39.16),
Di
为在
谱系的第G层对G个类的直径求和。
最大似然估计法是在三个基本假设:
等球面协方差和不等抽样概率的前提下,使得在谱系的每个水平上似然值最大。
多元正态混合分布、
EML
偏度选项
除了偏向于生成不等大小的类外,与Ward最小方差法很相似。
proccluster过程的penalty=p值可用于调整偏向的程度。
修正公式为对式(39.24)中的2改为p值。
3.类的各种统计量
(1)类Gp的均方根标准差
RMSSTD
/(v(p
1))
(39.25)
DG为类
Gp的直径,定义见式
(39.8),即类内的离差平方和。
把一个类的离差平
方和定义为直径是非常形象化的,例如,如果一个类的离差平方和等于0,那么类内的所有点都集中在一个点上,所以类的直径为0;
如果一个类的离差平方和逐渐变大,那么类内的所有点就越来越分散,包含所有点的一个圆或球就会越来越大,相应地这个圆或球的直径就
越来越大。
p为类
Gp中的观察数目。
(2)R2统计量
R2
/TSS
(39.26)
为在谱系的第
G层对
G个类的直径求和,
TSS为所有观察的总离差平方和。
一般来说,
R2统计量用于评价每次合并成
个类时的聚类效果。
当
/TSS值越小(也
即R2统计量越大,越接近
1),表示类内离差平方和
在总离差平方和
TSS中所占的比
例越小,说明了这
G个类越分开,故聚类效果越好。
R2的值总是在
0和
1之间,当
n个样品各自为一类时,
1,说明类被完全分开;
当n个样品最后合并成一类时,
R2
0,说明类被完全混合在一起了,
分不清楚了。
而且
的值总是随着分类个数的减少而变小。
那么如何根据R2的值来确定n个样品应分为几类最合
适呢?
首先,最合适分类的R2的值不能太小,最好能达到0.7以上;
其次,不能孤立地看合
并后R2值的大小,应该看R2值的变化。
类的合并总是使R2值变小,如果这种变小是均匀的,
合并是应该的,但当某次合并使R2值减少很多,这次合并就不应该,即我们找到了最合适的
Page8of62
分类数。
例如,从10类合并到5类时,R2值每次减少大约在0.01到0.02之间,R2值减小
到0.8,从5类合并到4类时,R2值减少了0.3,即R2=0.8-0.3=0.5,这时,我们就可以得出分5类是最合适的。
(3)半偏R2统计量
合并类Gp和类Gq为类Gm时,可以用半偏R2统计量评价这次合并的效果,半偏
(Semipartial)R2计算公式为:
半偏R2
Dw(p,q)/TSS
(39.27)
其中,Dw(p,q)的计算公式见式
(39.16),表示合并类Gp和类Gq为新类Gm后,类内离
差平方和的增量。
显然,半偏
R2值=上次合并后R2值-这次合并后
R2值,例如,以上例的
数据为例,合并到4类时的半偏R2
值=0.3。
故这次合并后的半偏R2
值越大,说明上次合并
后停止合并的效果最好。
(4)伪F统计量
伪F(v(G1),v(n
(TSS
)/(G1)
(39.28)
G))
Di/(n
G)
其中,G为聚类的个数,n为观察总数,v为观察样品的变量维数。
自由度为v(G1)和
v(nG)
在给定显著水平上该伪
pseduo
G个聚类的效果。
伪F
)F统计量用于评价分为
值越大越表示这些观察可显著地分为
G个类。
(5)伪t2统计量
伪t2(v,v(pq
2))
Dm
Dq