SAS系统和数据分析聚类分析.docx

上传人:b****6 文档编号:5669824 上传时间:2022-12-31 格式:DOCX 页数:149 大小:93.45KB
下载 相关 举报
SAS系统和数据分析聚类分析.docx_第1页
第1页 / 共149页
SAS系统和数据分析聚类分析.docx_第2页
第2页 / 共149页
SAS系统和数据分析聚类分析.docx_第3页
第3页 / 共149页
SAS系统和数据分析聚类分析.docx_第4页
第4页 / 共149页
SAS系统和数据分析聚类分析.docx_第5页
第5页 / 共149页
点击查看更多>>
下载资源
资源描述

SAS系统和数据分析聚类分析.docx

《SAS系统和数据分析聚类分析.docx》由会员分享,可在线阅读,更多相关《SAS系统和数据分析聚类分析.docx(149页珍藏版)》请在冰豆网上搜索。

SAS系统和数据分析聚类分析.docx

SAS系统和数据分析聚类分析

 

第三十九课聚类分析

 

聚类分析是多元统计分析中研究“物以类聚”的一种方法,用于对事物的类别面貌尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。

聚类分析的主要目的是研究事物的分类,而不同于判别分析。

在判别分析中必须事先知道各种判别的类型和数目,并且要有一批来自各判别类型的样本,才能建立判别函数来对未知属性的样本进行判别和归类。

若对一批样品划分的类型和分类的数目事先并不知道,这时对数据的分类就需借助聚类分析方法来解决。

聚类分析把分类对象按一定规则分成组或类,这些组或类不是事先给定的而是根据数据特征而定的。

在一个给定的类里的这些对象在某种意义上倾向于彼此相似,而在不同类里的这些对象倾向于不相似。

关于聚类分析的任何通则必定是含糊的、不明确的,因为在众多的各种不同领域里聚类方法已经得到发展,类和对象间的相似性具有不同定义。

各种聚类分析方法通过用于聚类分析的各种各样的领域反映出来。

因此,尽管聚类方法有很多种,但不管哪一种都不能说得到的分类是准确的。

下面我们介绍聚类分析中常用的一些方法。

 

一、距离和相似系数

 

什么是“类”呢?

粗略地说,相似物体的集合称作类;聚类分析的目的就是把相似的东西归类。

其次“相似”是什么含意?

怎样度量“相似”?

我们必须给出度量“相似”的统计指标。

聚类根据实际的需要有两个方向,一是对样品的聚类,一是对变量的聚类。

相应的聚类统计量有两类:

一种统计指标是类与类之间的距离,它是把每一个样品看成高维空间中的一个点,类与类之间用某种原则规定它们的距离,将距离近的点聚合成一类,距离远的点聚合成另一类。

距离一般用于对样品分类。

另一种是相似系数,根据这个统计指标将比较相似的变量归为一类,而把不怎么相似的变量归为另一类,用它可以把变量的亲疏关系直观地表示出来。

 

1.距离

设有n组样品,每组样品有

p个变量,n组样品数据如表

39.1所示。

表39.1

p个变量的n组样品数据

样品号

1

2

n

变量

X1

x11

x21

xn1

X2

x12

x22

xn2

 

Xpx1px2pxnp

 

上海财经大学经济信息管理系IS/SHUFE

Page1of62

 

第i个与第j

个样品之间的距离用

dij表示,dij一般应满足下面的条件:

dij

0

当第i个样品与第j

个样品相等;

dij

0

对一切i,j;

dij

dji

对一切i,j;

dij

dik

dkj对一切对一切

i,j,k。

最常用的距离有欧几里德距离、闵可夫斯基和马氏距离:

(1)欧几里德(Euclid)距离:

p

1

2

2

dij

xikxjk

(39.1)

k

1

(2)闵可夫斯基(Minkowski)距离:

p

1

g

g

dij

xikxjk

(39.2)

k

1

g一般为1或2,如果g=1时也称之为绝对值距离,

g=2时即为欧几里德距离。

(3)马氏(Mathalanobis)距离:

 

dij(xixj)S1(xixj)

(39.3)

其中,xi为第i个样品的p个元素组成的向量,xj为第j个样品的p个元素组成的向量,

S1为n个样品的p

p的协方差矩阵的逆矩阵。

 

2.相似系数

聚类分析有时也需要对变量进行聚类。

在对变量进行聚类时,也可以定义变量间的距离,通常使用变量间的相似系数。

常用的相似系数有:

(1)夹角余弦

夹角余弦作为变量间的相似关系,它忽视各变量的绝对长度,着重从形状方面反映它们

之间的关系。

记变量xi与xj的夹角余弦为cij,其中i,j1,2,p,则有:

 

n

xikxjk

k1

cij

n

n

2

2

xik

xjk

k1

k1

 

2

(39.4)

1

上海财经大学经济信息管理系IS/SHUFE

Page2of62

 

(2)相关系数

 

变量xi与xj的相关系数为:

n

(xikxi)(xjk

xj)

k1

rij

1

(39.5)

n

n

xi)2

2

(xik

(xjk

xj)2

k1

k

1

xi表示第i个指标的平均值。

 

借助于相似系数,可以定义变量之间的距离。

例如,采用非相似测度距离为dij1cij2,或dij1rij2。

另外,还有其他一些定义相似系数的方法。

 

二、类的特征和类与类之间距离及统计量

 

我们的目的是聚类,那么什么叫类呢?

由于客观事物的千差万别,在不同的问题中类的含义是不尽相同的。

图39.1表现的是五种不同类型的类。

 

图39.1各种形式的类

 

试图给类一个严格的定义,绝非一件简单的事。

下面给出类的几个定义,不同的定义适

用于不同的场合。

用G表示类,假设G中有k个元素,用i、j表示G中第i、j个因素。

 

定义1

T为一给定的阈值,如果对任意的

i,j

G,有dij

T(dij为i和j的距离),

则称G为一个类。

定义2

T为一给定的阈值,如果对每个i

G

,有

1

∑ij

T,则称G为一个类。

k-1j∈G

d

定义3

T为一给定的阈值,如果对任意一个

iG,一定存在

jG,使得dij

T,则

称G为一个类。

易见,定义1的要求是最高的,凡符合它的类,一定也是后两种定义的类。

此外,凡符

合定义2的类,也一定是定义3的类。

 

上海财经大学经济信息管理系IS/SHUFE

Page3of62

 

1.类的特征

 

现在类G的元素用x1,,xm表示,m为G内的样品数,可以从不同的角度来刻画

特征。

常用的特征有如下三种:

(1)均值xG(或称为G的重心):

 

1m

xGxi

mi1

 

(2)样品协方差阵:

 

m

AG

xi

xGxixG

i1

SG

1

AG

m1

(3)G的直径。

它有多种定义,例如:

 

m

DG

xixG

xixGtrAG

i1

DG

maxdij

i,jG

 

G的

 

(39.6)

 

(39.7)

 

(39.8)

 

(39.9)

 

2.类的距离

在聚类分析中,不仅要考虑各个类的特征,而且还要计算类与类之间的距离。

由于类的

形状是多种多样的,因此,类与类之间的距离也有多种计算方法。

令Gp和Gq中分别有p和

 

q个样品,它们的重心分别记为xp和xq。

下面给出一些常用的类与类之间的距离定义,用

 

Dp,q表示:

 

(1)最短距离:

 

Dp,q

mindjkjGp,kGq

(39.10)

类与类之间距离定义为

Gp和Gq中最邻近的两个样品的距离。

最短距离法有许多理想

的理论性质,但在蒙特卡洛(

MontoCarlo)模拟研究中(Milligan,1980)进行得很不顺利。

它不对类的形状加以限制,

保证了对拉长和不规则类的检测,

例如,图39.1中的(b)、(c)、

(e)(d)形式的类。

但它却牺牲了恢复压缩类的性能,另外,它也趋向于在分开主要类之前去掉分布的尾部(Hartigan,1981)。

 

上海财经大学经济信息管理系IS/SHUFE

Page4of62

 

(2)最长距离:

 

Dp,q

maxdjkjGp,kGq

(39.11)

类与类之间的距离定义为

Gp和Gq中最远的两个样品的距离。

最长距离法严重地倾向

于产生直径粗略相等的类,而且可能被异常值严重地扭曲。

例如,图

39.1中的(a)形式的

类。

最长距离法由Sorensen(1948)提出。

(3)重心法距离:

 

Dp,qxpxq

xpxq

(39.12)

类与类之间的距离定义为两个重心或均值

xp和xq之间欧氏距离的平方。

重心法在处理

异常值上比其他谱系方法更稳健,但是在其他方面便不如

Ward或类平均距离法的效果好

(Milligan1980)。

重心法由Sokal和Michener(1958)提出。

(4)类平均距离:

 

Dp,q

1

dij

(39.13)

pqiGpjGq

类与类之间的距离定义为

Gp和Gq中所有两个样品对之间距离的平均。

类平均距离法

趋向于合并具有较小偏差的类,而且稍微有点倾向于产生相同方差的类。

例如,图

39.1

的(a)形式的类。

类平均距离法首先由

Sokal和Michener(1958)提出。

(5)Ward最小方差法或Ward离差平方和距离:

若采用直径(式

39.8)的定义方法,用

Dp、Dq分别表示Gp和Gq的直径,用Dp

q表

示大类Dp

Dq的直径,则:

Dp

xi

xpxi

xp

,Dq

xjxqxjxq

(39.14)

iGp

iGq

 

Dpq

xixxix

(39.15)

iGpGq

其中,x

1

Gp和Gq之间的距离为两个类对所有

xi

用离差平方和法定义

p

qiGpGq

变量的ANOVA平方和,即:

Dw(p,q)DpqDpDq

(39.16)

可以证明,这种定义是有意义的,并且:

 

上海财经大学经济信息管理系IS/SHUFE

Page5of62

 

Dpq

Dp

Dq

pq

xqxpxq

(39.17)

xp

p

q

那么:

Dw

p,q

pq

xqxp

xq

(39.18)

xp

p

q

如果样品间的距离采用欧氏距离,上式可表示为:

Dw

p,q

pqD

p,q

(39.19)

p

q

这表明,Dwp,q与重心法的距离(式

39.12)Dp,q只差一个常数pq/(p

q)倍,

这个倍数显然与这两类的样品数

p和q有关。

Ward离差平方和距离法在每次合并

Gp类和Gq类为Gpq类时,总是选择这样两个

Gp类

和Gq类,使它们合并成Gp

q类后的Dwp,q值最小,故也称为

Ward最小方差法。

合并后

增加的最小方差Dwp,q除以合并后总的离差平方和

TSS的比值(即半偏R2)的统计意义

是容易解释的。

Ward最小方差法一般是在多元正态混合型、等球形协方差、等抽样概率假设

下合并类。

所以,Ward方法趋向于合并具有少量观察的类,并倾向于形成具有大约相同数目

观察的类。

例如,图39.1

中的(a)形式的类。

Ward方法对异常值也很敏感(Milligan,1980)。

最小方差法或离差平方和由

Ward(1963)提出。

(6)密度估计法:

密度估计法是一类使用非参数概率密度的聚类方法。

例如,图

39.1中的(b)形式的类。

包括两个步骤:

第一步,使用一种基于密度估计的新的非相似测度

d*来计算样品xi

和xj的

近邻关系;第二步,根据基于

d*方法计算的距离,采用最小距离法进行聚类。

有三种不同的

密度估计法:

①k最近邻估计法

k最近邻估计法(Wong和Lane,1983)使用k最近邻密度估计来计算距离。

令rk(x)为

 

点x到第k个最近观察的距离。

考虑以点x为中心rk(x)为半径的封闭球,在x点的密度估计

 

函数f(x)等于球内的观察数目除以球的体积所得比值。

这样,新的非相似测度距离

d*为:

d*

(1/f(xi)1/f(xj))/2

如果

xj

max((

xi

),

rk

xj

))

(xi,xj)

否则

d

xi

rk

(39.20)

k最近邻估计法适用于样品数目较多且密度较高的类。

②均匀核估计法

 

上海财经大学经济信息管理系IS/SHUFE

Page6of62

 

均匀核估计使用了均匀核密度估计来计算距离。

考虑以点

x为中心r为半径的封闭球,

在x点的密度估计函数

f(x)等于球内的观察数目除以球的体积的所得比值。

它与k最近邻估

计法的主要区别为半径是一个指定的值,即封闭球大小是一样的(均匀核)

这样,新的非相

似测度距离d*为:

*

(xi,xj)

(1/f(xi)1/f(xj))/2如果d(xi,xj)

r

(39.21)

d

否则

③Wong混合法

Wong混合法初始聚类时采用

k最近邻估计法,得到初始分类

Gp、Gq和Gm,也可从输

入数据集得到类的均值

xp、xq和xm,样品数p、q和m。

判断这三个初始分类中某两个初

始分类是近邻的标准为:

(假设判断类Gp和Gq)

d2(xp,xq)

d2

(xp,xm)

d2(xq,xm)

(39.22)

那么,新的非相似测度距离

d*

为:

(Dp

Dq(pq)d2(xp,xq

)/4)v/2

d*(xp,xq)

(p

q)1v/2

如果GP和Gq是近邻

否则

(39.23)

 

其中,Dp和Dq是初始分类Gp和Gq的直径,计算公式见式(39.14)。

v为观察样品的变

量维数。

Wong混合法适用于大的数据集而不适用于小的数据集。

(7)两阶段密度估计法:

两阶段密度估计法是SAS研究所的W.S.Sarle发展的。

使用密度估计法时,众数类(modal

clusters)经常在尾部所有点聚类之前就已经被合并掉了。

两阶段密度估计法对密度估计法这

一缺点进行了修正,以确保众数类被合并之前,所有点能被分配到众数类中去。

同样,两阶

段密度估计法支持密度估计法的三种形式:

k最近邻估计法、均匀核估计和Wong混合法。

两阶段密度估计法的两阶段是指:

在第一阶段中,互不相交的众数类被生成。

密度估计法中的类合并使用与最短距离算法

相同的合并方法。

但有一个例外,只有在两个类中至少有一个类中的样品个数少于proccluster

过程的选项mode=值时才能合并。

在第一阶段结束时每个样品点属于一个众数类。

在第二阶段中,把第一阶段中形成的众数类再按最短距离法谱系地(某一类能够完全地包含在别的类里,但在类之间不允许其他形式的重迭)合并。

(8)最大似然估计法:

最大似然估计法EML是SAS研究所的W.S.Sarle发展Symans(1981)对不相交的类的

研究,由最大似然公式得到。

类Gp和类Gq合并成类Gm,Gp和Gq两类之间的距离公式为:

 

上海财经大学经济信息管理系IS/SHUFE

Page7of62

 

d(x

 

p,xq)

 

nvln(1

 

Dw(p,q)/

 

Di)

 

2(mln(m))

 

pln(p)

 

qln(q)

 

(39.24)

 

其中,

n为观察总数,

v为观察样品的变量维数,

Dw

p,q

 

为公式

 

(39.16),

Di

 

为在

谱系的第G层对G个类的直径求和。

最大似然估计法是在三个基本假设:

等球面协方差和不等抽样概率的前提下,使得在谱系的每个水平上似然值最大。

多元正态混合分布、

EML

偏度选项

除了偏向于生成不等大小的类外,与Ward最小方差法很相似。

proccluster过程的penalty=p值可用于调整偏向的程度。

修正公式为对式(39.24)中的2改为p值。

3.类的各种统计量

(1)类Gp的均方根标准差

 

RMSSTD

 

DG

 

/(v(p

 

1))

 

(39.25)

 

其中,

DG为类

Gp的直径,定义见式

(39.8),即类内的离差平方和。

把一个类的离差平

方和定义为直径是非常形象化的,例如,如果一个类的离差平方和等于0,那么类内的所有点都集中在一个点上,所以类的直径为0;如果一个类的离差平方和逐渐变大,那么类内的所有点就越来越分散,包含所有点的一个圆或球就会越来越大,相应地这个圆或球的直径就

越来越大。

v为观察样品的变量维数,

p为类

Gp中的观察数目。

 

(2)R2统计量

 

R2

 

1

 

Di

 

/TSS

 

(39.26)

 

其中,

Di

 

为在谱系的第

G层对

G个类的直径求和,

TSS为所有观察的总离差平方和。

 

一般来说,

R2统计量用于评价每次合并成

G

 

个类时的聚类效果。

Di

/TSS值越小(也

即R2统计量越大,越接近

 

1),表示类内离差平方和

Di

 

在总离差平方和

TSS中所占的比

例越小,说明了这

G个类越分开,故聚类效果越好。

R2的值总是在

0和

1之间,当

n个样品各自为一类时,

R2

1,说明类被完全分开;

当n个样品最后合并成一类时,

R2

0,说明类被完全混合在一起了,

 

分不清楚了。

而且

R2

的值总是随着分类个数的减少而变小。

那么如何根据R2的值来确定n个样品应分为几类最合

 

适呢?

首先,最合适分类的R2的值不能太小,最好能达到0.7以上;其次,不能孤立地看合

 

并后R2值的大小,应该看R2值的变化。

类的合并总是使R2值变小,如果这种变小是均匀的,

 

合并是应该的,但当某次合并使R2值减少很多,这次合并就不应该,即我们找到了最合适的

上海财经大学经济信息管理系IS/SHUFE

Page8of62

 

分类数。

例如,从10类合并到5类时,R2值每次减少大约在0.01到0.02之间,R2值减小

 

到0.8,从5类合并到4类时,R2值减少了0.3,即R2=0.8-0.3=0.5,这时,我们就可以得出分5类是最合适的。

(3)半偏R2统计量

 

合并类Gp和类Gq为类Gm时,可以用半偏R2统计量评价这次合并的效果,半偏

(Semipartial)R2计算公式为:

 

半偏R2

Dw(p,q)/TSS

(39.27)

其中,Dw(p,q)的计算公式见式

(39.16),表示合并类Gp和类Gq为新类Gm后,类内离

差平方和的增量。

显然,半偏

R2值=上次合并后R2值-这次合并后

R2值,例如,以上例的

数据为例,合并到4类时的半偏R2

值=0.3。

故这次合并后的半偏R2

值越大,说明上次合并

后停止合并的效果最好。

(4)伪F统计量

伪F(v(G1),v(n

(TSS

Di

)/(G1)

(39.28)

G))

Di/(n

G)

其中,G为聚类的个数,n为观察总数,v为观察样品的变量维数。

自由度为v(G1)和

v(nG)

在给定显著水平上该伪

pseduo

G个聚类的效果。

伪F

)F统计量用于评价分为

值越大越表示这些观察可显著地分为

G个类。

(5)伪t2统计量

伪t2(v,v(pq

2))

Dm

Dp

Dq

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 面试

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1