SAS系统和数据分析聚类分析.docx
《SAS系统和数据分析聚类分析.docx》由会员分享,可在线阅读,更多相关《SAS系统和数据分析聚类分析.docx(149页珍藏版)》请在冰豆网上搜索。
SAS系统和数据分析聚类分析
第三十九课聚类分析
聚类分析是多元统计分析中研究“物以类聚”的一种方法,用于对事物的类别面貌尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。
聚类分析的主要目的是研究事物的分类,而不同于判别分析。
在判别分析中必须事先知道各种判别的类型和数目,并且要有一批来自各判别类型的样本,才能建立判别函数来对未知属性的样本进行判别和归类。
若对一批样品划分的类型和分类的数目事先并不知道,这时对数据的分类就需借助聚类分析方法来解决。
聚类分析把分类对象按一定规则分成组或类,这些组或类不是事先给定的而是根据数据特征而定的。
在一个给定的类里的这些对象在某种意义上倾向于彼此相似,而在不同类里的这些对象倾向于不相似。
关于聚类分析的任何通则必定是含糊的、不明确的,因为在众多的各种不同领域里聚类方法已经得到发展,类和对象间的相似性具有不同定义。
各种聚类分析方法通过用于聚类分析的各种各样的领域反映出来。
因此,尽管聚类方法有很多种,但不管哪一种都不能说得到的分类是准确的。
下面我们介绍聚类分析中常用的一些方法。
一、距离和相似系数
什么是“类”呢?
粗略地说,相似物体的集合称作类;聚类分析的目的就是把相似的东西归类。
其次“相似”是什么含意?
怎样度量“相似”?
我们必须给出度量“相似”的统计指标。
聚类根据实际的需要有两个方向,一是对样品的聚类,一是对变量的聚类。
相应的聚类统计量有两类:
一种统计指标是类与类之间的距离,它是把每一个样品看成高维空间中的一个点,类与类之间用某种原则规定它们的距离,将距离近的点聚合成一类,距离远的点聚合成另一类。
距离一般用于对样品分类。
另一种是相似系数,根据这个统计指标将比较相似的变量归为一类,而把不怎么相似的变量归为另一类,用它可以把变量的亲疏关系直观地表示出来。
1.距离
设有n组样品,每组样品有
p个变量,n组样品数据如表
39.1所示。
表39.1
p个变量的n组样品数据
样品号
1
2
n
变量
X1
x11
x21
xn1
X2
x12
x22
xn2
Xpx1px2pxnp
上海财经大学经济信息管理系IS/SHUFE
Page1of62
第i个与第j
个样品之间的距离用
dij表示,dij一般应满足下面的条件:
dij
0
当第i个样品与第j
个样品相等;
dij
0
对一切i,j;
dij
dji
对一切i,j;
dij
dik
dkj对一切对一切
i,j,k。
最常用的距离有欧几里德距离、闵可夫斯基和马氏距离:
(1)欧几里德(Euclid)距离:
p
1
2
2
dij
xikxjk
(39.1)
k
1
(2)闵可夫斯基(Minkowski)距离:
p
1
g
g
dij
xikxjk
(39.2)
k
1
g一般为1或2,如果g=1时也称之为绝对值距离,
g=2时即为欧几里德距离。
(3)马氏(Mathalanobis)距离:
dij(xixj)S1(xixj)
(39.3)
其中,xi为第i个样品的p个元素组成的向量,xj为第j个样品的p个元素组成的向量,
S1为n个样品的p
p的协方差矩阵的逆矩阵。
2.相似系数
聚类分析有时也需要对变量进行聚类。
在对变量进行聚类时,也可以定义变量间的距离,通常使用变量间的相似系数。
常用的相似系数有:
(1)夹角余弦
夹角余弦作为变量间的相似关系,它忽视各变量的绝对长度,着重从形状方面反映它们
之间的关系。
记变量xi与xj的夹角余弦为cij,其中i,j1,2,p,则有:
n
xikxjk
k1
cij
n
n
2
2
xik
xjk
k1
k1
2
(39.4)
1
上海财经大学经济信息管理系IS/SHUFE
Page2of62
(2)相关系数
变量xi与xj的相关系数为:
n
(xikxi)(xjk
xj)
k1
rij
1
(39.5)
n
n
xi)2
2
(xik
(xjk
xj)2
k1
k
1
xi表示第i个指标的平均值。
借助于相似系数,可以定义变量之间的距离。
例如,采用非相似测度距离为dij1cij2,或dij1rij2。
另外,还有其他一些定义相似系数的方法。
二、类的特征和类与类之间距离及统计量
我们的目的是聚类,那么什么叫类呢?
由于客观事物的千差万别,在不同的问题中类的含义是不尽相同的。
图39.1表现的是五种不同类型的类。
图39.1各种形式的类
试图给类一个严格的定义,绝非一件简单的事。
下面给出类的几个定义,不同的定义适
用于不同的场合。
用G表示类,假设G中有k个元素,用i、j表示G中第i、j个因素。
定义1
T为一给定的阈值,如果对任意的
i,j
G,有dij
T(dij为i和j的距离),
则称G为一个类。
定义2
T为一给定的阈值,如果对每个i
G
,有
1
∑ij
T,则称G为一个类。
k-1j∈G
d
定义3
T为一给定的阈值,如果对任意一个
iG,一定存在
jG,使得dij
T,则
称G为一个类。
易见,定义1的要求是最高的,凡符合它的类,一定也是后两种定义的类。
此外,凡符
合定义2的类,也一定是定义3的类。
上海财经大学经济信息管理系IS/SHUFE
Page3of62
1.类的特征
现在类G的元素用x1,,xm表示,m为G内的样品数,可以从不同的角度来刻画
特征。
常用的特征有如下三种:
(1)均值xG(或称为G的重心):
1m
xGxi
mi1
(2)样品协方差阵:
m
AG
xi
xGxixG
i1
SG
1
AG
m1
(3)G的直径。
它有多种定义,例如:
m
DG
xixG
xixGtrAG
i1
DG
maxdij
i,jG
G的
(39.6)
(39.7)
(39.8)
(39.9)
2.类的距离
在聚类分析中,不仅要考虑各个类的特征,而且还要计算类与类之间的距离。
由于类的
形状是多种多样的,因此,类与类之间的距离也有多种计算方法。
令Gp和Gq中分别有p和
q个样品,它们的重心分别记为xp和xq。
下面给出一些常用的类与类之间的距离定义,用
Dp,q表示:
(1)最短距离:
Dp,q
mindjkjGp,kGq
(39.10)
类与类之间距离定义为
Gp和Gq中最邻近的两个样品的距离。
最短距离法有许多理想
的理论性质,但在蒙特卡洛(
MontoCarlo)模拟研究中(Milligan,1980)进行得很不顺利。
它不对类的形状加以限制,
保证了对拉长和不规则类的检测,
例如,图39.1中的(b)、(c)、
(e)(d)形式的类。
但它却牺牲了恢复压缩类的性能,另外,它也趋向于在分开主要类之前去掉分布的尾部(Hartigan,1981)。
上海财经大学经济信息管理系IS/SHUFE
Page4of62
(2)最长距离:
Dp,q
maxdjkjGp,kGq
(39.11)
类与类之间的距离定义为
Gp和Gq中最远的两个样品的距离。
最长距离法严重地倾向
于产生直径粗略相等的类,而且可能被异常值严重地扭曲。
例如,图
39.1中的(a)形式的
类。
最长距离法由Sorensen(1948)提出。
(3)重心法距离:
Dp,qxpxq
xpxq
(39.12)
类与类之间的距离定义为两个重心或均值
xp和xq之间欧氏距离的平方。
重心法在处理
异常值上比其他谱系方法更稳健,但是在其他方面便不如
Ward或类平均距离法的效果好
(Milligan1980)。
重心法由Sokal和Michener(1958)提出。
(4)类平均距离:
Dp,q
1
dij
(39.13)
pqiGpjGq
类与类之间的距离定义为
Gp和Gq中所有两个样品对之间距离的平均。
类平均距离法
趋向于合并具有较小偏差的类,而且稍微有点倾向于产生相同方差的类。
例如,图
39.1
中
的(a)形式的类。
类平均距离法首先由
Sokal和Michener(1958)提出。
(5)Ward最小方差法或Ward离差平方和距离:
若采用直径(式
39.8)的定义方法,用
Dp、Dq分别表示Gp和Gq的直径,用Dp
q表
示大类Dp
Dq的直径,则:
Dp
xi
xpxi
xp
,Dq
xjxqxjxq
(39.14)
iGp
iGq
Dpq
xixxix
(39.15)
iGpGq
其中,x
1
Gp和Gq之间的距离为两个类对所有
xi
。
用离差平方和法定义
p
qiGpGq
变量的ANOVA平方和,即:
Dw(p,q)DpqDpDq
(39.16)
可以证明,这种定义是有意义的,并且:
上海财经大学经济信息管理系IS/SHUFE
Page5of62
Dpq
Dp
Dq
pq
xqxpxq
(39.17)
xp
p
q
那么:
Dw
p,q
pq
xqxp
xq
(39.18)
xp
p
q
如果样品间的距离采用欧氏距离,上式可表示为:
Dw
p,q
pqD
p,q
(39.19)
p
q
这表明,Dwp,q与重心法的距离(式
39.12)Dp,q只差一个常数pq/(p
q)倍,
这个倍数显然与这两类的样品数
p和q有关。
Ward离差平方和距离法在每次合并
Gp类和Gq类为Gpq类时,总是选择这样两个
Gp类
和Gq类,使它们合并成Gp
q类后的Dwp,q值最小,故也称为
Ward最小方差法。
合并后
增加的最小方差Dwp,q除以合并后总的离差平方和
TSS的比值(即半偏R2)的统计意义
是容易解释的。
Ward最小方差法一般是在多元正态混合型、等球形协方差、等抽样概率假设
下合并类。
所以,Ward方法趋向于合并具有少量观察的类,并倾向于形成具有大约相同数目
观察的类。
例如,图39.1
中的(a)形式的类。
Ward方法对异常值也很敏感(Milligan,1980)。
最小方差法或离差平方和由
Ward(1963)提出。
(6)密度估计法:
密度估计法是一类使用非参数概率密度的聚类方法。
例如,图
39.1中的(b)形式的类。
包括两个步骤:
第一步,使用一种基于密度估计的新的非相似测度
d*来计算样品xi
和xj的
近邻关系;第二步,根据基于
d*方法计算的距离,采用最小距离法进行聚类。
有三种不同的
密度估计法:
①k最近邻估计法
k最近邻估计法(Wong和Lane,1983)使用k最近邻密度估计来计算距离。
令rk(x)为
点x到第k个最近观察的距离。
考虑以点x为中心rk(x)为半径的封闭球,在x点的密度估计
函数f(x)等于球内的观察数目除以球的体积所得比值。
这样,新的非相似测度距离
d*为:
d*
(1/f(xi)1/f(xj))/2
如果
(
xj
)
max((
xi
),
rk
(
xj
))
(xi,xj)
否则
d
xi
rk
(39.20)
k最近邻估计法适用于样品数目较多且密度较高的类。
②均匀核估计法
上海财经大学经济信息管理系IS/SHUFE
Page6of62
均匀核估计使用了均匀核密度估计来计算距离。
考虑以点
x为中心r为半径的封闭球,
在x点的密度估计函数
f(x)等于球内的观察数目除以球的体积的所得比值。
它与k最近邻估
计法的主要区别为半径是一个指定的值,即封闭球大小是一样的(均匀核)
。
这样,新的非相
似测度距离d*为:
*
(xi,xj)
(1/f(xi)1/f(xj))/2如果d(xi,xj)
r
(39.21)
d
否则
③Wong混合法
Wong混合法初始聚类时采用
k最近邻估计法,得到初始分类
Gp、Gq和Gm,也可从输
入数据集得到类的均值
xp、xq和xm,样品数p、q和m。
判断这三个初始分类中某两个初
始分类是近邻的标准为:
(假设判断类Gp和Gq)
d2(xp,xq)
d2
(xp,xm)
d2(xq,xm)
(39.22)
那么,新的非相似测度距离
d*
为:
(Dp
Dq(pq)d2(xp,xq
)/4)v/2
d*(xp,xq)
(p
q)1v/2
如果GP和Gq是近邻
否则
(39.23)
其中,Dp和Dq是初始分类Gp和Gq的直径,计算公式见式(39.14)。
v为观察样品的变
量维数。
Wong混合法适用于大的数据集而不适用于小的数据集。
(7)两阶段密度估计法:
两阶段密度估计法是SAS研究所的W.S.Sarle发展的。
使用密度估计法时,众数类(modal
clusters)经常在尾部所有点聚类之前就已经被合并掉了。
两阶段密度估计法对密度估计法这
一缺点进行了修正,以确保众数类被合并之前,所有点能被分配到众数类中去。
同样,两阶
段密度估计法支持密度估计法的三种形式:
k最近邻估计法、均匀核估计和Wong混合法。
两阶段密度估计法的两阶段是指:
在第一阶段中,互不相交的众数类被生成。
密度估计法中的类合并使用与最短距离算法
相同的合并方法。
但有一个例外,只有在两个类中至少有一个类中的样品个数少于proccluster
过程的选项mode=值时才能合并。
在第一阶段结束时每个样品点属于一个众数类。
在第二阶段中,把第一阶段中形成的众数类再按最短距离法谱系地(某一类能够完全地包含在别的类里,但在类之间不允许其他形式的重迭)合并。
(8)最大似然估计法:
最大似然估计法EML是SAS研究所的W.S.Sarle发展Symans(1981)对不相交的类的
研究,由最大似然公式得到。
类Gp和类Gq合并成类Gm,Gp和Gq两类之间的距离公式为:
上海财经大学经济信息管理系IS/SHUFE
Page7of62
d(x
p,xq)
nvln(1
Dw(p,q)/
Di)
2(mln(m))
pln(p)
qln(q)
(39.24)
其中,
n为观察总数,
v为观察样品的变量维数,
Dw
p,q
为公式
(39.16),
Di
为在
谱系的第G层对G个类的直径求和。
最大似然估计法是在三个基本假设:
等球面协方差和不等抽样概率的前提下,使得在谱系的每个水平上似然值最大。
多元正态混合分布、
EML
偏度选项
除了偏向于生成不等大小的类外,与Ward最小方差法很相似。
proccluster过程的penalty=p值可用于调整偏向的程度。
修正公式为对式(39.24)中的2改为p值。
3.类的各种统计量
(1)类Gp的均方根标准差
RMSSTD
DG
/(v(p
1))
(39.25)
其中,
DG为类
Gp的直径,定义见式
(39.8),即类内的离差平方和。
把一个类的离差平
方和定义为直径是非常形象化的,例如,如果一个类的离差平方和等于0,那么类内的所有点都集中在一个点上,所以类的直径为0;如果一个类的离差平方和逐渐变大,那么类内的所有点就越来越分散,包含所有点的一个圆或球就会越来越大,相应地这个圆或球的直径就
越来越大。
v为观察样品的变量维数,
p为类
Gp中的观察数目。
(2)R2统计量
R2
1
Di
/TSS
(39.26)
其中,
Di
为在谱系的第
G层对
G个类的直径求和,
TSS为所有观察的总离差平方和。
一般来说,
R2统计量用于评价每次合并成
G
个类时的聚类效果。
当
Di
/TSS值越小(也
即R2统计量越大,越接近
1),表示类内离差平方和
Di
在总离差平方和
TSS中所占的比
例越小,说明了这
G个类越分开,故聚类效果越好。
R2的值总是在
0和
1之间,当
n个样品各自为一类时,
R2
1,说明类被完全分开;
当n个样品最后合并成一类时,
R2
0,说明类被完全混合在一起了,
分不清楚了。
而且
R2
的值总是随着分类个数的减少而变小。
那么如何根据R2的值来确定n个样品应分为几类最合
适呢?
首先,最合适分类的R2的值不能太小,最好能达到0.7以上;其次,不能孤立地看合
并后R2值的大小,应该看R2值的变化。
类的合并总是使R2值变小,如果这种变小是均匀的,
合并是应该的,但当某次合并使R2值减少很多,这次合并就不应该,即我们找到了最合适的
上海财经大学经济信息管理系IS/SHUFE
Page8of62
分类数。
例如,从10类合并到5类时,R2值每次减少大约在0.01到0.02之间,R2值减小
到0.8,从5类合并到4类时,R2值减少了0.3,即R2=0.8-0.3=0.5,这时,我们就可以得出分5类是最合适的。
(3)半偏R2统计量
合并类Gp和类Gq为类Gm时,可以用半偏R2统计量评价这次合并的效果,半偏
(Semipartial)R2计算公式为:
半偏R2
Dw(p,q)/TSS
(39.27)
其中,Dw(p,q)的计算公式见式
(39.16),表示合并类Gp和类Gq为新类Gm后,类内离
差平方和的增量。
显然,半偏
R2值=上次合并后R2值-这次合并后
R2值,例如,以上例的
数据为例,合并到4类时的半偏R2
值=0.3。
故这次合并后的半偏R2
值越大,说明上次合并
后停止合并的效果最好。
(4)伪F统计量
伪F(v(G1),v(n
(TSS
Di
)/(G1)
(39.28)
G))
Di/(n
G)
其中,G为聚类的个数,n为观察总数,v为观察样品的变量维数。
自由度为v(G1)和
v(nG)
。
在给定显著水平上该伪
(
pseduo
G个聚类的效果。
伪F
)F统计量用于评价分为
值越大越表示这些观察可显著地分为
G个类。
(5)伪t2统计量
伪t2(v,v(pq
2))
Dm
Dp
Dq