0实验5 聚类分析.docx

资源描述

0实验5 聚类分析.docx

《0实验5 聚类分析.docx》由会员分享，可在线阅读，更多相关《0实验5 聚类分析.docx（10页珍藏版）》请在冰豆网上搜索。

0实验5 聚类分析.docx

0实验5聚类分析

实训5聚类分析

实验目的：

学习利用SPSS进行聚类分析

实验内容：

聚类分析的意义；层次聚类的原理；欧氏距离的计算；组间平均链锁距离；树形图的读解。

（一）聚类分析

1.聚类分析的意义

聚类分析是统计学研究“物以类聚”问题的多元统计方法。

聚类分析在统计分析的应用领域已得到了极为广泛的应用。

“物以类聚”问题在经济社会研究中十分常见。

例如，市场营销中的市场细分和可户细分问题。

大型商厦收集到了客户人口特征、消费行为和喜好方面的数据，并希望对这些客户进行特征分析。

可从客户分类入手，根据客户的年龄、职业、收入、消费金额、喜好等方面进行单变量或多变量的客户分组。

这种分组是极为常见的客户细分方式，但存在的不足是客户群划分带有明显的主观色彩，需要丰富的行业经验才能够比较合理和理想的客户+细分，否则得到的分组可能无法充分反映和展现客户的特点，主要表现在，同一客户细分段的客户在某些特征方面并不相似，而不同客户细分段中的客户在某些特征方面却又很相似。

因此，这种客户细分并没有真正起到划分客户群的作用。

为解决该问题，会希望从数据本身出发，充分利用数据进行客户的客观分组，使诸多特征有相似性的客户能被分在同一组内，而不相似的客户分到另一些组中。

这时便可采用聚类分析的方法。

再例如，学校里有些同学经常在一起，关系比较密切，而他们与另一些同学却很少来往，关系比较疏远。

究其原因可能会发现，经常在一起的同学的家庭情况、性格、学习成绩、课余爱好等方面有许多共同之处，而关系较疏远的同学在这些方面有较大的差异性。

为了研究家庭情况、性格、学习成绩、课余爱好等是否会成为划分学生小群体的主要决定因素，可以从这些方面的数据入手，对数据进行客观分组，然后比较所得的分组是否与实际吻合。

对同学的客观分组可采用聚类分析方法。

聚类分析正是一种建立分类的多元统计分析方法，它能够将一批样本（或变量）数据根据其诸多特征，按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类，产生多个分类结果。

类内部的个体在特征上具有相似性，不同类间个体特征的差异性较大。

2.聚类分析中“亲疏程度”的度量方法

聚类分析中，个体之间的“亲疏程度”是极为重要的，它将直接影响最终的聚类结果。

对“亲疏程度”的测度一般有两个角度：

第一，个体间的相似程度；第二，个体间的差异程度。

衡量个体间的相似程度通常采用简单相关系数。

个体间差异程度通常采用通过某种距离来测度，这里将对此做重点讨论。

为定义个体间的距离应先将每个样本数据看成k维空间上的一个点。

计算出点与点之间的某种距离，点与点之间的距离越小，意味着它们越“亲密”，越有可能聚成一类。

点与点之间的距离越大，意味着它们越“疏远”，越有可能分别属于不同的类。

定距型变量个体间距离的计算方式

如果所涉及的k个变量都是定距型变量，那么个体间距离的定义通常有欧氏距离、平方欧氏距离、切比雪夫距离、Block距离、明考斯基距离等，而我们主要掌握欧氏距离和平方欧氏距离的计算。

欧氏距离

两个体（x，y）间欧氏距离是两个体k个变量值之差的平方和的平方根，数学定义为：

表1商厦的客户评分数据

编号

购物环境

服务质量

A商厦

B商厦

C商厦

D商厦

E商厦

例，A商厦与B商厦间的欧氏距离是

平方欧氏距离

两个体（x，y）间的平方欧氏距离是两个体k个变量值之差的平方和，其数学定义为：

3.聚类分析的几点说明

（1）所选择的变量应符合聚类的要求

聚类分析是在所选变量的基础上对样本数据进行分类，因此分类结果是各个变量综合计算的结果。

在选择参与聚类分析的变量时，应注意所选变量是否符合聚类的要求。

例如，如果希望依照学校的科研情况对高校进行分类，那么可以选择参加科研的人数、年投入经费、立项课题数、支出经费、科研成果费、获奖数等变量，而不选择诸如在校学生人数、校园面积、年用水量等变量。

因为它们不符合聚类的要求，分类的结果也就无法真实反映科研分类的情况。

（2）各变量的变量值不应有数量级上的差异

聚类分析是以各种距离来度量个体间的“亲疏”程度的。

数量级对距离产生较大的影响，并影响最终的聚类结果。

表2高校科研的三个样本数据

学校

参加科研人数

投入经费

立项课题数

410

4380000

336

1730000

490

220000

如果分别以“元”和“万元”为计量单位计算两两个体间的欧氏距离，结果如下：

表3三个高校科研的两两距离距阵

样本的欧氏距离

元

万元

（1，2）

265000

81.623

（1，3）

218000

193.7000

（2，3）

47000

254.897

由上表可知，以“元”为计量单位时，样本2和3的距离最小，关系最“亲近”其次是（1，3）和（1，2），这里投入经费起了决定性作用；当以“万元”为计量单位时，样本1和样本2的距离最近，这里参加科研人数起了决定性作用。

由此可见，变量的数量级对距离有较大影响，进而影响最终的聚类结果。

为解决上述问题，聚类分析之前应首先消除数量级对聚类的影响。

消除数量级方法有很多，其中标准化处理是最常见的。

（3）各变量不应有较强的线性相关关系

4.层次聚类

4.1定义

层次聚类又称系统聚类，简单地讲就是指聚类过程是按照一定层次进行的。

层次聚类有两种类型，分别是Q型聚类和R型聚类；层次聚类的聚类方式又分两种，分别是凝聚方式聚类和分解方式聚类。

R型聚类

R型聚类就是对变量进行聚类，它使具有相似性的变量聚集在一起，差异性大的变量分离开来，可在相似变量中选择少数具有代表性的变量参与其他分析，实现减少变量个数，达到变量降维的目的。

Q型聚类

Q型聚类是对样本进行聚类，它使具有相似性特征的样本聚集在一起，使差异性大的样本分离开来。

凝聚方式聚类

凝聚方式聚类的过程是，首先，每个个体自成一类；然后，按照某种方法度量所有个体间的亲疏程度，并将其中最“亲密”的个体聚成一小类，形成n-1个类，接下来，再次度量剩余个体和小类间的亲疏程度，并将当前最亲密的个体或小类再聚成一类；重复上述过程，不断将所有个体和小类聚集成越来越大的类，直到所有个体聚到一起，形成一个大类为止。

可见，在凝聚式聚类过程中，随着聚类的进行，类内的“亲密”程度在逐渐降低。

对n个个体通过n-1步可凝聚成一大类。

分解方式聚类

首先，所有个体都属一大类；然后，按照某种方法度量所有个体间的亲疏程度，将大类中彼此间最“疏远”的个体分离出去，接下来，再次度量类中剩余个体间的亲疏程度，并将类中最“疏远”的个体再次分离出去；重复上述过程，不断进行类分解，直到所有个体自成一类为止。

SPSS中的层次聚类分析采用的是凝聚方式。

4.2个体与小类、小类与小类间“亲疏程度”的度量方法

常见的有最近邻居距离、最远邻居距离、组间平均链锁距离、组内平均链锁距离、重心距离等。

常用的是最近邻居距离和组内平均链锁距离。

（1）最近邻居距离：

个体与小类间的最近距离是该个体与小类中每个个体距离的最小值。

下表是五座商厦两两个体间欧氏距离的矩阵。

表4五座商厦两两个体间欧氏距离的矩阵

EuclideanDistance

1.A商厦

2.B商厦

3.C商厦

4.D商厦

5.E商厦

1.A商厦

8.602

17.804

26.907

30.414

2.B商厦

8.062

25.456

34.655

38.210

3.C商厦

17.804

25.456

9.220

12.860

4.D商厦

26.907

34.655

9.220

3.606

5.E商厦

30.414

38.210

12.860

3.606

由上表可知，D商厦和E商厦的距离最小（3.606），在层次聚类中将首先聚到一起形成一个小类。

于是，A、B、C商厦与该小类（D、E）的最近邻居距离依次为26.907、34,655和9.22。

（2）组间平均链锁距离

个体与小类间的组间平均链锁距离是该个体与小类中每个个体距离的平均值。

如表4，A、B、C商厦与（D、E）小类的组间平均链锁距离依次为（26.907+30.414）÷2,（34.655+38.21）÷2,（9.22+12.86）÷2。

可见，组间平均链锁法利用了个体与小类的所有距离的信息，克服了最近邻居距离中距离易受极端值影响的弱点。

4.3基本操作

（a）层次聚类的（HierarchicalCluster过程）

（1）选择菜单AnalyzeClassifyHierarchicalCluster

（2）把参与层次聚类分析的变量选到Variables框中。

（3）把一个字符型变量作为标记变量选到LabelCasesby框中，它将大大增强聚类分析结果的可读性。

（4）在Cluster框中选择聚类类型。

其中Cases表示进行Q型聚类，Variables表示进行R型聚类。

（5）在Display框中选择输出内容。

其中Statistics表示输出聚类分析的相关统计量；Plots表示输出聚类分析的相关图形。

（6）Method按钮指定距离的计算方法。

Measure框中给出的是不同变量类型下的个体距离的计算方式。

其中Interval框中的方法适用于连续型定距变量，这也是我们学科需要掌握的。

ClusterMethod框中给出的是计算个体与小类、小类与小类间距离的方法，通常选择组间平均链锁距离（Between-groupsLinkage）。

（7）如果参与聚类分析的变量存在数量级上的差异，应在TransformValues框中的Standardize选项中选择消除数量级差的方法。

并指定处理是针对变量的还是针对样本的。

Byvariable表示针对变量，适于Q型聚类分析；Bycase表示针对样本，适于R型聚类分析。

消除数量的方法包括：

●None表示不进行任何处理

●Zscores表示计算Z分数。

它将各变量值减去均值后除以标准差。

标准化后的变量值平均值为0，标准差为1。

●Range-1～1：

表示将各变量值除以全距，处理以后的变量值的范围在-1～+1之间。

该方法适于变量值中有负值的变量。

●Range0to1，表示各变量值减去最小值后除以全距。

●Maximummagnitudeof1：

表示将各变量值除以最大值。

处理以后的变量值的最大值为1。

●Meanof1：

表示将各变量值除以均值。

●Standarddeviationof1：

表示将各变量值除以标准差。

（8）Statistics按钮指定输出哪些统计量。

Agglomerationschedule表示输出聚类分析的凝聚状态表；Proximitymatrix表示输出个体间的距离矩阵；ClusterMembership框中，None表示不输出样本属类，SingleSolution表示指定输出当分成n类时各样本所属类，是单一解。

Rangeofsolution表示指定输出当分成m至n类时各样本所属类，是多个解。

（9）单击Plots按钮指定输出哪种聚类图。

Dendrogram选项表示输出聚类分析图；在Icicle框中指定输出冰桂图。

以“表1商厦的客户评分数据”为例进行讲解：

表5五座商厦两两个体间欧氏距离的矩阵ProximityMatrix

SquaredEuclideanDistance

Case

A商厦

B商厦

C商厦

D商厦

E商厦

A商厦

65.000

317.000

724.000

925.000

B商厦

65.000

648.000

1201.000

1460.000

C商厦

317.000

648.000

85.000

164.000

D商厦

724.000

1201.000

85.000

13.000

E商厦

925.000

1460.000

164.000

13.000

Thisisadissimilaritymatrix

表6层次聚类分析中的凝聚状态表AgglomerationSchedule

ClusterCombined

Coefficients

StageClusterFirstAppears

NextStage

Stage

Cluster1

Cluster2

Cluster1

Cluster2

13.000

65.000

124.500

879.167

上表，第一列表示聚类分析的第几步；第二、第三列表示本步聚类中哪两个样本或小类聚成一类；第四列是个体距离或小类距离；第五、第六列表示本不聚类中参与聚类的是个体还是小类，0表示样本，非0表示由第n步聚类生成的小类参与本步聚类；第七列表示本步骤的结果将在以下第几步中用到。

表7层次聚类分析中的类成员ClusterMembership

Case

3Clusters

2Clusters

A商厦

B商厦

C商厦

D商厦

E商厦

******HIERARCHICALCLUSTERANALYSIS******

DendrogramusingAverageLinkage（BetweenGroups）

RescaledDistanceClusterCombine

CASE0510152025

LabelNum+---------+---------+---------+---------+---------+

D商厦4

E商厦5

C商厦3

A商厦1

B商厦2

图1层次聚类分析的树形图

（二）快速聚类法（K-MeansCluster过程）

实验内容：

为研究儿童生长发育的分期，调查1253名1月至7岁儿童的身高（cm）、体重（kg）、胸围（cm）和坐高（cm）资料。

资料作如下整理：

先把1月至7岁划成19个月份段，分月份算出各指标的平均值，将第1月的各指标平均值与出生时的各指标平均值比较，求出月平均增长率（%），然后第2月起的各月份指标平均值均与前一月比较，亦求出月平均增长率（%），结果见下表。

欲将儿童生长发育分为四期，故指定聚类的类别数为4，请通过聚类分析确定四个儿童生长发育期的起止区间。

月份

月平均增长率（%）

身高

体重

胸围

坐高

11.03

5.47

3.58

2.01

2.13

2.06

1.63

1.17

1.03

0.69

0.77

0.59

0.65

0.51

0.73

0.53

0.36

0.52

0.34

50.30

19.30

9.85

4.17

5.65

1.74

2.04

1.60

2.34

1.33

1.41

1.25

1.19

0.93

1.13

0.82

0.52

1.03

0.49

11.81

5.20

3.14

1.47

1.04

0.17

1.04

0.89

0.53

0.48

0.52

0.30

0.49

0.16

0.35

0.16

0.19

0.30

0.18

11.27

7.18

2.11

1.58

2.11

1.57

1.46

0.76

0.89

0.58

0.42

0.14

0.38

0.25

0.55

0.34

0.21

0.55

0.16

实验步骤：

1．建立数据文件。

定义变量名：

月份的变量名为month；身高、体重、胸围和坐高的变量名分别为x1、x2、x3和x4，输入原始数据。

2．选择菜单“Analyze→Classify→K-MeansCluster”，弹出“K-MeansClusterAnalysis”对话框。

从对话框左侧的变量列表中选x1、x2、x3、x4，使之进入Variables框；在NumberofClusters处输入需要聚合的组数4；在聚类方法选择“Iterateandclassify”，如下图。

3．单击“Save”按钮，弹出“K-MeansCluster:

SaveNewVariables”对话框，选择“Clustermembership”项，在原始数据库中逐一显示分类结果。

5．单击“Options”按钮，弹出“K-MeansCluster:

Options”对话框，在“Statistics”栏中选择“ANOVAtable”项，对聚类结果进行方差分析。

6．单击“OK”按钮，得到输出结果。

展开阅读全文