SPSS数据的聚类分析.ppt

资源描述

SPSS数据的聚类分析.ppt

《SPSS数据的聚类分析.ppt》由会员分享，可在线阅读，更多相关《SPSS数据的聚类分析.ppt（56页珍藏版）》请在冰豆网上搜索。

SPSS数据的聚类分析.ppt

zf,1zf,聚类分析（ClusterAnalysis）,知识要点：

1、什么是聚类分析？

2、理解聚类分析的基本思想3、聚类分析的相似性度量4、系统聚类法（HierarchicalCluster）和快速聚类（k-means）的基本思想5、结合SPSS软件进行案例分析6、聚类分析的应用,zf,2zf,例1：

谁经常光顾商店，谁买什么东西，买多少？

按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类这样商店可以.识别顾客购买模式（如喜欢一大早来买酸奶和鲜肉，习惯周末时一次性大采购）刻画不同的客户群的特征（如用性别、年龄等变量来刻画）,聚类分析的应用：

无处不在,为什么这样分类？

有何好处？

因为每一个类别里面的人消费方式都不一样，需要针对不同的人群，制定不同的关系管理方式，以提高客户对公司商业活动的参与率。

挖掘有价值的客户，并制定相应的促销策略：

对经常购买酸奶的客户；对累计消费达到12个月的老客户。

针对潜在客户派发广告，比在大街上乱发传单命中率更高，成本更低！

zf,3zf,例2：

谁是银行信用卡的黄金客户？

利用储蓄额、刷卡消费金额、诚信度等变量对客户分类，找出“黄金客户”！

这样银行可以制定更吸引的服务，留住客户！

比如：

一定额度和期限的免息透资服务！

百盛的贵宾打折卡！

在他或她生日的时候送上一个小蛋糕！

zf,4zf,如何实现聚类？

-聚类分析的基本思想和方法,1、什么是聚类分析？

聚类分析：

是根据“物以类聚”的道理，对样品或指标进行分类，使得同一类中的对象之间的相似性比与其他类的对象的相似性更强的一种多元统计分析方法。

聚类分析的目的：

把相似的研究对象归成类；即：

使类内对象的相似性最大化和类间对象的差异性最大化。

问题的关键：

如何刻画研究对象（样品或指标）间的相似性？

有哪些方法可以实现研究对象的分类呢？

zf,5zf,系统聚类（又称为层次聚类Hierarchicalcluster）：

凝聚式系统聚类、分解式系统聚类非系统聚类（又称为非层次聚类non-hierarchicalcluster）：

如K均值法（快速聚类法）,2、聚类分析的方法,zf,6zf,凝聚式,分解式,以系统聚类法为例,zf,7zf,二、相似性度量,1、相似性的度量指标：

相似系数：

性质越接近的变量或样品，它们的相似系数越接近于1或-1，而彼此无关的变量或样品它们的相似系数则越接近于0，相似的为一类，不相似的为不同类；距离：

变量或样本间的距离越近，说明其相似性越高，应归为一类；距离越远则说明相似性越弱，应归为不同的类。

样本分类（Q型聚类）常以距离刻画相似性指标分类（R型聚类）常以相似系数刻画相似性,zf,8zf,常用距离：

1）明考夫斯基距离（Minkowskidistance）明氏距离有三种特殊形式：

1a）绝对距离（Block距离）:

当g=1时,zf,9zf,1b）欧氏距离（Euclideandistance）:

当g=2时1c）切比雪夫距离:

当时,zf,10zf,例：

横轴代表重量（单位：

kg）,纵轴代表长度（单位：

cm）。

有四个点A,B,C,D,见图。

明氏距离及其特殊形式的缺陷,zf,11zf,zf,12zf,以上几种距离主要有以下两个缺点：

距离的值受到各指标的量纲的影响，具有一定的人为性。

距离的定义没有考虑各个变量之间的相关性和重要性。

如何克服以上的缺点？

zf,13zf,标准化处理：

当各变量的单位不同或测量值范围相差很大时，不应直接采用明氏距离，而应先对各变量的数据作标准化处理，然后用标准化后的数据计算距离。

常用的标准化处理：

其中：

为第j个变量的样本均值；为第j个变量的样本方差。

改进距离的定义，运用马氏距离。

zf,14zf,2）马氏距离,克服量纲的影响,克服指标间相关性的影响,缺点：

协方差矩阵难以确定,zf,15zf,1、最短距离（NearestNeighbor）,类Gp与类Gq之间的距离Dpq：

其中，d（xi,xj）表示点xiGp和xjGq之间的距离,以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离。

三、类和类之间的距离度量,zf,16zf,例1：

为了研究辽宁省5省区某年城镇居民生活消费的分布规律，根据调查资料做类型划分,zf,17zf,G1=辽宁，G2=浙江，G3=河南，G4=甘肃，G5=青海采用欧氏距离得到的距离矩阵：

1234510211.670D1=313.8024.630413.1224.062.200512.8023.543.512.210,河南与甘肃的距离最近，先将二者（3和4）合为一类G6=G3，G4,zf,18zf,d61=d（3,4）1=mind13,d14=13.12d62=d（3,4）2=mind23,d24=24.06d65=d（3,4）5=mind35,d45=2.21612560D2=113.120224.0611.67052.2112.8023.540d71=d（3,4,5）1=mind13,d14,d15=12.80d72=d（3,4,5）2=mind23,d24,d25=23.54712D3=70112.800223.5411.670,河南、甘肃与青海并为一新类G7=G6，G5=G3，G4，G6,G8=G1,G2,zf,19zf,d78=mind71,d72=12.8078D4=70812.80河南3甘肃4青海5辽宁1浙江2,zf,20zf,2、最长距离（FurthestNeighbor）,以当前某个样本与已经形成的小类中的各样本距离中的最大值作为当前样本与该小类之间的距离。

zf,21zf,（3）组间平均连接（Between-groupLinkage）,为所有样本对间的平均距离。

利用了所有样本对距离的信息,zf,22zf,（4）组内平均连接（Within-groupLinkage）,对所有样本对的距离求平均值，包括小类之间的样本对、小类内的样本对.,zf,23zf,（5）重心法（Centroidmethod）:

类均值点的距离,zf,24zf,（6）离差平方和法（Wardsmethod）,2，4,1，5,6，5,zf,25zf,红绿（2，4，6，5）8.75离差平方和增加8.752.56.25黄绿（6，5，1，5）14.75离差平方和增加14.758.56.25黄红（2，4，1，5）10100故按该方法的连接，黄红首先连接。

先将n个样本各成一类，然后每次缩小一类，每缩小一类离差平方和就要增大，选择使离差平方和S增加最小的两类合并，直至所有样本归为一类为止。

zf,26zf,四、系统聚类法,系统聚类法是一种其聚类过程可以用所谓的谱系结构或树形结构来描绘的方法。

事先不用确定分多少类SPSS系统聚类法：

凝聚式系统聚类法1、所有的研究对象各自算作一类，将最“靠近”的首先聚类2、再将这个类和其它类中最“靠近”的结合，直至所有的对象都合并为一类为止SPSS处理：

分析（Analyze）分类（Classify）系统聚类（HierarchicalCluster）,zf,27zf,案例分析,某年度31个省市自治区小康指数的聚类分析（见数据：

聚类分析（小康指数）.SAV）,zf,28zf,SPSS操作：

1、AnalyzeClassifyHierarchicalCluster2、把聚类的依据变量X1（综合指数）、X2（社会结构）、X3（经济与技术发展）、X4（人口素质）、X5（生活质量）、X5（法制与治安）等选入Variables对话框3、把dq（省市）变量选入Labelcaseby样本标注对话框4、在Cluster选Cases，表示是对31个省市自治区（样本）进行聚类,zf,29zf,点击统计量（Statistics）按钮出现对话框：

选入聚类的依据变量X1（综合指数）、X2（社会结构）、X3（经济与技术发展）、X4（人口素质）、X5（生活质量）、X5（法制与治安）等,对样本进行标注,对样本进行聚类,zf,30zf,Statistics对话框：

分类信息表（Clustermembership）：

无（None）表示不列示分类信息表；单一方案（Singlesolution）指定分为某一类的分类信息表；方案范围（Rangeofsolution）指定分为某一类的分类信息表。

也称凝聚状态表,相似性矩阵表,分类信息表,若要显示分为3类的情况，则在此填入3,若要显示分为3、4、5类的情况，则在From后填3在through后填5,zf,31zf,点击绘制（Plots）按钮出现以下对话框：

树形结构图,冰柱图,列示所有分类的冰柱图,列示指定某几类分类结果的冰柱图,不列示冰柱图,冰柱图列示方向,zf,32zf,点击方法（Method）按钮出现以下对话框：

选择类与类之间距离的度量方式；系统默认为组间平均法,选择相似性的度量指标，系统默认为平方欧氏距离,数据标准化处理方式选择；系统默认为不进行标准化处理,zf,33zf,点击保存（Save）按钮出现以下对话框：

该对话框选择是否将某分类信息以新变量的形式保存对数据文件中,系统默认状态：

不保存,保存指定分为某一类的分类结果；若要保存分为3类的情况，则在此填入3。

系统将产生一个新变量，将所有样本分到3类中某一类的结果列示到数据文件。

保存指定分为某几类的分类结果；若要保存分为35类的情况，则在From处填3，在through处填5；系统将产生3个新变量，将所有样本分3、4、5类结果列示到数据文件。

zf,34zf,输出结果及分析,样本描述：

有效样本（Valid）、缺失样本（Missing）、总样本（Total）,相似性矩阵表：

即31个省份之间的距离矩阵表,zf,35zf,凝聚状态表,聚类进行到第几步,这两列表示的是哪个样本（或类）与哪个样本（或类）,聚类系数，即该步中实现聚类的两样本（或类）之间的距离,最后这列显示的是：

该步聚类结果会在后面第几步用到,这两列显示的是：

该步聚类是样本的聚类还是样本与类的聚类或者是类与类的聚类；若为0表示的是样本，若为非0则表示的是类，即第几步聚成的类,zf,36zf,分类信息表,该表是在Statistics对话框选择Singlesolution指定分类为3出现的分为3类的分类信息表,该表可看出：

北京、上海、天津为一类；浙江、广东、江苏等为一类；黑龙江、吉林、湖北等为一类。

zf,37zf,纵向冰柱图,该列表示分类个数,这些列表示的是样本；即31个省份。

在省份与省份之间若有连接，则两省份同属一类，否则，两省份划到不同的类中去了。

zf,38zf,在SPSS对话框中选择：

AnalyzeReportsCasesummaries,每一类各自的情况如何？

哪些属于小康水平高的地区？

哪些属于小康水平低或中等的地区呢？

省市（dq）综合指数（X1）社会结构（X2）经济与技术发展（X3）人口素质（X4）生活质量（X5）法制与治安（X6）AverageLinkage（clu3-1）,综合指数（X1）社会结构（X2）经济与技术发展（X3）人口素质（X4）生活质量（X5）法制与治安（X6）,AverageLinkage（clu3-1）,zf,39zf,点击Statistics按钮出现对话框：

选择均值（Mean）、中位数（Median）、最小值（Minimum）、最大值（Maximum）等统计量,点击Continue按钮，再点击上页对话框中的OK;即出现以下结果：

zf,40zf,每类总体及样本在综合指数、社会结构等6个小康指数上的描述统计,从3类的描述统计可看出：

处于第一类的北京、上海、天津等属于小康水平较高的地区；处于第2类的浙江、广东、江苏等为小康水平中等的地区；处于第3类的黑龙江、吉林、湖北等为小康水平较低的地区。

zf,41zf,参见数据：

聚类分析（商厦评分）.sav,案例分析：

商厦评价的聚类分析,zf,42zf,

（二）聚类个数的确定,碎石图：

展开阅读全文