0实验5 聚类分析.docx-资源下载

0实验5 聚类分析.docx

1、0实验5 聚类分析实训5 聚类分析实验目的：学习利用SPSS进行聚类分析实验内容：聚类分析的意义；层次聚类的原理；欧氏距离的计算；组间平均链锁距离；树形图的读解。（一）聚类分析1.聚类分析的意义聚类分析是统计学研究“物以类聚”问题的多元统计方法。聚类分析在统计分析的应用领域已得到了极为广泛的应用。“物以类聚”问题在经济社会研究中十分常见。例如，市场营销中的市场细分和可户细分问题。大型商厦收集到了客户人口特征、消费行为和喜好方面的数据，并希望对这些客户进行特征分析。可从客户分类入手，根据客户的年龄、职业、收入、消费金额、喜好等方面进行单变量或多变量的客户分组。这种分组是极为常见的客户细分方式

2、，但存在的不足是客户群划分带有明显的主观色彩，需要丰富的行业经验才能够比较合理和理想的客户+细分，否则得到的分组可能无法充分反映和展现客户的特点，主要表现在，同一客户细分段的客户在某些特征方面并不相似，而不同客户细分段中的客户在某些特征方面却又很相似。因此，这种客户细分并没有真正起到划分客户群的作用。为解决该问题，会希望从数据本身出发，充分利用数据进行客户的客观分组，使诸多特征有相似性的客户能被分在同一组内，而不相似的客户分到另一些组中。这时便可采用聚类分析的方法。再例如，学校里有些同学经常在一起，关系比较密切，而他们与另一些同学却很少来往，关系比较疏远。究其原因可能会发现，经常在一起的同学

3、的家庭情况、性格、学习成绩、课余爱好等方面有许多共同之处，而关系较疏远的同学在这些方面有较大的差异性。为了研究家庭情况、性格、学习成绩、课余爱好等是否会成为划分学生小群体的主要决定因素，可以从这些方面的数据入手，对数据进行客观分组，然后比较所得的分组是否与实际吻合。对同学的客观分组可采用聚类分析方法。聚类分析正是一种建立分类的多元统计分析方法，它能够将一批样本（或变量）数据根据其诸多特征，按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类，产生多个分类结果。类内部的个体在特征上具有相似性，不同类间个体特征的差异性较大。2.聚类分析中“亲疏程度”的度量方法聚类分析中，个体之间的“亲疏程度”

4、是极为重要的，它将直接影响最终的聚类结果。对“亲疏程度”的测度一般有两个角度：第一，个体间的相似程度；第二，个体间的差异程度。衡量个体间的相似程度通常采用简单相关系数。个体间差异程度通常采用通过某种距离来测度，这里将对此做重点讨论。为定义个体间的距离应先将每个样本数据看成k维空间上的一个点。计算出点与点之间的某种距离，点与点之间的距离越小，意味着它们越“亲密”，越有可能聚成一类。点与点之间的距离越大，意味着它们越“疏远”，越有可能分别属于不同的类。定距型变量个体间距离的计算方式如果所涉及的k个变量都是定距型变量，那么个体间距离的定义通常有欧氏距离、平方欧氏距离、切比雪夫距离、Block距离、明

5、考斯基距离等，而我们主要掌握欧氏距离和平方欧氏距离的计算。欧氏距离两个体（x，y）间欧氏距离是两个体k个变量值之差的平方和的平方根，数学定义为：表1商厦的客户评分数据编号购物环境服务质量A商厦7368B商厦6664C商厦8482D商厦9188E商厦9490例，A商厦与B商厦间的欧氏距离是平方欧氏距离两个体（x，y）间的平方欧氏距离是两个体k个变量值之差的平方和，其数学定义为：3.聚类分析的几点说明（1）所选择的变量应符合聚类的要求聚类分析是在所选变量的基础上对样本数据进行分类，因此分类结果是各个变量综合计算的结果。在选择参与聚类分析的变量时，应注意所选变量是否符合聚类的要求。例如，如果希望

6、依照学校的科研情况对高校进行分类，那么可以选择参加科研的人数、年投入经费、立项课题数、支出经费、科研成果费、获奖数等变量，而不选择诸如在校学生人数、校园面积、年用水量等变量。因为它们不符合聚类的要求，分类的结果也就无法真实反映科研分类的情况。（2）各变量的变量值不应有数量级上的差异聚类分析是以各种距离来度量个体间的“亲疏”程度的。数量级对距离产生较大的影响，并影响最终的聚类结果。表2 高校科研的三个样本数据学校参加科研人数投入经费立项课题数1410438000019233617300002134902200008如果分别以“元”和“万元”为计量单位计算两两个体间的欧氏距离，结果如下：表3

7、三个高校科研的两两距离距阵样本的欧氏距离元万元（1，2）26500081.623（1，3）218000193.7000（2，3）47000254.897由上表可知，以“元”为计量单位时，样本2和3的距离最小，关系最“亲近”其次是（1，3）和（1，2），这里投入经费起了决定性作用；当以“万元”为计量单位时，样本1和样本2的距离最近，这里参加科研人数起了决定性作用。由此可见，变量的数量级对距离有较大影响，进而影响最终的聚类结果。为解决上述问题，聚类分析之前应首先消除数量级对聚类的影响。消除数量级方法有很多，其中标准化处理是最常见的。（3）各变量不应有较强的线性相关关系4.层次聚类4.1定义层次聚类

8、又称系统聚类，简单地讲就是指聚类过程是按照一定层次进行的。层次聚类有两种类型，分别是Q型聚类和R型聚类；层次聚类的聚类方式又分两种，分别是凝聚方式聚类和分解方式聚类。R型聚类 R型聚类就是对变量进行聚类，它使具有相似性的变量聚集在一起，差异性大的变量分离开来，可在相似变量中选择少数具有代表性的变量参与其他分析，实现减少变量个数，达到变量降维的目的。Q型聚类Q型聚类是对样本进行聚类，它使具有相似性特征的样本聚集在一起，使差异性大的样本分离开来。凝聚方式聚类凝聚方式聚类的过程是，首先，每个个体自成一类；然后，按照某种方法度量所有个体间的亲疏程度，并将其中最“亲密”的个体聚成一小类，形成n-1个类

9、，接下来，再次度量剩余个体和小类间的亲疏程度，并将当前最亲密的个体或小类再聚成一类；重复上述过程，不断将所有个体和小类聚集成越来越大的类，直到所有个体聚到一起，形成一个大类为止。可见，在凝聚式聚类过程中，随着聚类的进行，类内的“亲密”程度在逐渐降低。对n个个体通过n-1步可凝聚成一大类。分解方式聚类首先，所有个体都属一大类；然后，按照某种方法度量所有个体间的亲疏程度，将大类中彼此间最“疏远”的个体分离出去，接下来，再次度量类中剩余个体间的亲疏程度，并将类中最“疏远”的个体再次分离出去；重复上述过程，不断进行类分解，直到所有个体自成一类为止。SPSS中的层次聚类分析采用的是凝聚方式。4.2 个

10、体与小类、小类与小类间“亲疏程度”的度量方法常见的有最近邻居距离、最远邻居距离、组间平均链锁距离、组内平均链锁距离、重心距离等。常用的是最近邻居距离和组内平均链锁距离。 (1)最近邻居距离：个体与小类间的最近距离是该个体与小类中每个个体距离的最小值。下表是五座商厦两两个体间欧氏距离的矩阵。表4 五座商厦两两个体间欧氏距离的矩阵Euclidean Distance1.A商厦2.B商厦3.C商厦4.D商厦5.E商厦1.A商厦08.60217.80426.90730.4142.B商厦8.062025.45634.65538.2103.C商厦17.80425.45609.22012.8604.D商

11、厦26.90734.6559.22003.6065.E商厦30.41438.21012.8603.6060由上表可知，D商厦和E商厦的距离最小（3.606），在层次聚类中将首先聚到一起形成一个小类。于是，A、B、C商厦与该小类（D、E）的最近邻居距离依次为26.907、34,655 和9.22。(2) 组间平均链锁距离个体与小类间的组间平均链锁距离是该个体与小类中每个个体距离的平均值。如表4，A、B、C商厦与（D、E）小类的组间平均链锁距离依次为（26.907+30.414）2,(34.655+38.21)2,(9.22+12.86)2。可见，组间平均链锁法利用了个体与小类的所有距离的信息，克

12、服了最近邻居距离中距离易受极端值影响的弱点。4.3基本操作（a）层次聚类的（Hierarchical Cluster过程）（1）选择菜单Analyze Classify Hierarchical Cluster(2)把参与层次聚类分析的变量选到Variables框中。（3）把一个字符型变量作为标记变量选到Label Cases by 框中，它将大大增强聚类分析结果的可读性。（4）在Cluster 框中选择聚类类型。其中Cases 表示进行Q型聚类，Variables 表示进行R型聚类。（5）在Display 框中选择输出内容。其中Statistics 表示输出聚类分析的相关统计量；Plots

13、表示输出聚类分析的相关图形。（6）Method 按钮指定距离的计算方法。Measure框中给出的是不同变量类型下的个体距离的计算方式。其中Interval 框中的方法适用于连续型定距变量，这也是我们学科需要掌握的。Cluster Method 框中给出的是计算个体与小类、小类与小类间距离的方法，通常选择组间平均链锁距离（Between-groups Linkage）。（7）如果参与聚类分析的变量存在数量级上的差异，应在Transform Values 框中的Standardize 选项中选择消除数量级差的方法。并指定处理是针对变量的还是针对样本的。By variable 表示针对变量，适于Q型

14、聚类分析；By case 表示针对样本，适于R型聚类分析。消除数量的方法包括： None 表示不进行任何处理 Z scores 表示计算Z分数。它将各变量值减去均值后除以标准差。标准化后的变量值平均值为0，标准差为1。 Range -11：表示将各变量值除以全距，处理以后的变量值的范围在-1+1之间。该方法适于变量值中有负值的变量。 Range 0 to 1，表示各变量值减去最小值后除以全距。 Maximum magnitude of 1：表示将各变量值除以最大值。处理以后的变量值的最大值为1。 Mean of 1：表示将各变量值除以均值。 Standard deviation of 1：表示

15、将各变量值除以标准差。（8）Statistics 按钮指定输出哪些统计量。Agglomeration schedule 表示输出聚类分析的凝聚状态表；Proximity matrix 表示输出个体间的距离矩阵；Cluster Membership 框中，None 表示不输出样本属类，Single Solution 表示指定输出当分成n类时各样本所属类，是单一解。Range of solution 表示指定输出当分成m至n类时各样本所属类，是多个解。（9）单击Plots 按钮指定输出哪种聚类图。Dendrogram选项表示输出聚类分析图；在Icicle框中指定输出冰桂图。以“表1商厦的客户评分数

16、据”为例进行讲解：表5 五座商厦两两个体间欧氏距离的矩阵 Proximity Matrix Squared Euclidean Distance Case1:A商厦2:B商厦3:C商厦4:D商厦5:E商厦 1:A商厦 65.000317.000724.000925.000 2:B商厦65.000 648.0001201.0001460.000 3:C商厦317.000648.000 85.000164.000 4:D商厦724.0001201.00085.000 13.000 5:E商厦925.0001460.000164.00013.000 This is a dissimilarity m

17、atrix表6 层次聚类分析中的凝聚状态表 Agglomeration Schedule Cluster CombinedCoefficientsStage Cluster First Appears Next Stage StageCluster 1Cluster 2 Cluster 1Cluster 2 14513.000003 21265.000004 334124.500014 413879.167230 上表，第一列表示聚类分析的第几步；第二、第三列表示本步聚类中哪两个样本或小类聚成一类；第四列是个体距离或小类距离；第五、第六列表示本不聚类中参与聚类的是个体还是小类，0表示样本，非0

18、表示由第n步聚类生成的小类参与本步聚类；第七列表示本步骤的结果将在以下第几步中用到。表7 层次聚类分析中的类成员 Cluster MembershipCase3 Clusters2 Clusters 1:A商厦11 2:B商厦11 3:C商厦22 4:D商厦32 5:E商厦32 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combin

19、e C A S E 0 5 10 15 20 25 Label Num +-+-+-+-+-+ D商厦 4 E商厦 5 C商厦 3 A商厦 1 B商厦 2 图1 层次聚类分析的树形图（二）快速聚类法（K-Means Cluster过程）实验内容：为研究儿童生长发育的分期，调查1253名1月至7岁儿童的身高（cm）、体重（kg）、胸围（cm）和坐高（cm）资料。资料作如下整理：先把1月至7岁划成19个月份段，分月份算出各指标的平均值，将第1月的各指标平均值与出生时的各指标平均值比较，求出月平均增长率（%），然后第2月起的各月份指标平均值均与前一月比较，亦求出月平均增长率（%），结果见下表。欲

20、将儿童生长发育分为四期，故指定聚类的类别数为4，请通过聚类分析确定四个儿童生长发育期的起止区间。月份月平均增长率（%）身高体重胸围坐高1234681012151824303642485460667211.035.473.582.012.132.061.631.171.030.690.770.590.650.510.730.530.360.520.3450.3019.309.854.175.651.742.041.602.341.331.411.251.190.931.130.820.521.030.4911.815.203.141.471.040.171.040.890.530.480.520

21、.300.490.160.350.160.190.300.1811.277.182.111.582.111.571.460.760.890.580.420.140.380.250.550.340.210.550.16实验步骤： 1建立数据文件。定义变量名：月份的变量名为month；身高、体重、胸围和坐高的变量名分别为x1、x2、x3和x4，输入原始数据。2选择菜单“AnalyzeClassifyK-Means Cluster” ，弹出“K-Means Cluster Analysis”对话框。从对话框左侧的变量列表中选x1、x2、x3、x4，使之进入Variables框；在Number of Clusters处输入需要聚合的组数4；在聚类方法选择“Iterate and classify” ，如下图。 3单击“Save”按钮，弹出“K-Means Cluster: Save New Variables”对话框，选择“Cluster membership”项，在原始数据库中逐一显示分类结果。 5单击“Options”按钮，弹出“K-Means Cluster: Options”对话框，在“Statistics”栏中选择“ANOVA table” 项，对聚类结果进行方差分析。6单击“OK”按钮，得到输出结果。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？