聚类解析总结实验报告总结Word文档格式.docx-资源下载

聚类解析总结实验报告总结Word文档格式.docx

1、子商务方面，聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面，通过对客户的浏览行为、浏览网站、客户的年龄等，对客户进行分析，找出不同客户的共同特征，通过共同特征对客户进行分类，可以帮助电子商户更好的了解他们的客户，并向客户提供更合适的服务。在保险行业上，根据产、寿险进行分类，不同类别的公司进行分类，对保险投资比例进行分类管理，从而提高保险投资的效率。 3.2 实验的方法与原理聚类分析是研究“物以类聚”的一种科学有效的方法。做聚类分析时，出于不同的目的和要求，可以选择不同的统计量和聚类方法。聚类分析方法中最常用的一种是系统聚类法，其基本思想是：先将待聚类

2、的 n 个样品（或者变量）各自看成一类，共有 n 类；然后按照选定的方法计算每两类之间的聚类统计量，即某种距离（或者相似系数），将关系最为密切的两类合为一类，其余不变，即得到 n-1 类；再按照前面的计算方法计算新类与其他类之间的距离（或相似系数），再将关系最为密切的两并一，其余不，即得到 n-2 ；如此下去，每次重复都减少一，直到最后所有的品（或者量）都一止。系聚分析有两种型： Q型本聚和 R型量聚。里我运用的是 Q型聚。 Q型聚是本行聚，它使具有相似特征的本聚集在一起，使差异性大的本分离开来。本中，分采用最距离法和离

3、差平方和法本行分。方法一：用最距离本行分个体与小的最距离是个体与小每个个体距离的最大在聚分析前，首先把数据行准化 xij xij x j i 1,2, ,n, j 1,2, , n ， R j 后的数据，每个量本均 0，准差 1，而且准化后的数据与量的量无关。采用系聚的方法，用最距离法算欧氏距离 m 2 d ij xit xjt i , j , n ，其中 xit 表示第 i 个品的第 t 个指的， x jt i 1 表示第 j 个品的第 t 个指的， dij 第 i 个品与第 j 个品

4、之的欧式距离。若 dij 越小，那么第 i 与 j 两个品之的性就越接近。最距离法求与之的距离， G p 和 Gq 合并 Gr 后，按照最距离算新 Gr 与 Gk 其他的距离，其推公式 Drk max dij Gr G p ,Gq = max , D pk , Dqk k p, q i Gr , j Gk i G p , j Gk i Gq , j Gk 方法二：用离差平方和法（ WARD）品行分离差平方和法是 Ward（ 1936）提出的，也称 Ward 法。它基于方差分析思想，如果分得正确，同品之的离差平方和当小，不同品之的离差平方和

5、当大。假定已将 n 个品分 k ， G1 , G2 , ? Gk ， n t 表示 Gt 的品个数， X （t）表示（t ）表示 Gt 中第 i 个品（ i=1, ? nt ）， Gt 中品的离差平方和 Gt 的重心， X（i） nt （t） X ， Wt =X（ i） X（i） X i 1 其中向量， Wt 一数（ t=1,2, ,k ）。（ i） k 个的离差平方和 k n t W = Wt = . X（ i） X X（i ） t=1 当 k 固定时，要选择使 W 达到极小的分类。 Ward法的基本思想是，先将 n 个样品各自成一类，此时 W =0；然后每次将

6、其中某两类合并为一类，因每缩小一类离差平方和就要增加，每次选择使 W 增加最小的两类进行合并，直至所有样品合并为一类为止。 Ward法把某两类合并后增加的离差平方和看成为类间的平方距离，即令 Dpq2 =Wr Wp Wq 表示类 G p 和 Gq 的平方距离，其中 Gp ,Gq ， Wr ， Wp ， Wq 分别为， G p ， Gq 类中样品的离差平方和。利用 Wr 的定义，可得 nr X（r）t） X （r） Wr = t 1 n p nq （p）（r）（q） =X i ） X i （其中 X r np X p nq X q . 经整理可得 D pq2 npnq X p

7、X q X p 当样品间距离采用欧氏距离时，上式可表为 np nq d pq2 ，其中 d pq2 表示 Gp ,Gq 的重心 X p 与 X q 的平方距离： dpq2 d 2 X p , X q 这表明此时 Word 法定义的类间距离与重心法只相差一个常数倍。当 Gp 和 Gq 合并为 Gr 后， Gr 与其他类 Gk 的距离有如下递推公式 D nk np rk pk pq qk nr nk 上述两种方法都是将性质接近的样品划为一类。聚类分析依据的基本原则是直接比较样本中各事物之间的性质，将性质相近的归为一类，而将性质相差比较大的分在不同类。也就

8、是说，同类事物之间性质差异小，类与类之间的性质相差比较大。系统聚类分析是聚类分析中应用的最广泛的一种方法。首先将 n 个样品每个自成一类，然后每次将具有最小距离的两类合并成一类，合并后重新计算类与类之间的距离，这个过程一直持续到所有样品归为一类为止。分类结果可以画成一张直观的聚类谱系图。应用系统聚类法进行聚类分析的步骤如下：确定待分类的样品的指标收集数据对数据进行变换处理使各个样品自成一类，即 n 个样品一共有 n 类计算各类之间的距离，得到一个距离对称矩阵，将距离最近的两个类并成一类并类后，如果类的个数大于 1，那么重新计算各类之间的距离，继续并类，直至所有样

9、品归为一类为止最后绘制系统聚类谱系图，按不同的分类标准或不同的分类原则，得出不同的分类结果。四、实验数据与实验结果我们根据 2010年山东统计年鉴的数据，运用 SPSS软件进行分析，得到如下实验数据与结果： 1，原始数据表 1-1 山东省 17 城市生产总值原始数据地区 X1 X2 X3 X4 X5 X6 X7 X8 济南市 214.9 青岛市 274.8 淄博市 105.7 枣庄市 66.0 东营市 5 67.4 烟台市 175.8 潍坊市 183.2 济宁市 130.3 泰安市 77.3 威海市 81.8 日照市 50.9 莱芜市 363118 725138 451164 2

10、1.3 临沂市 161.9 德州市 82.8 聊城市 87.9 滨州市 72.2 菏泽市 108.8 （来源： 2010年山东统计年鉴） X1- 规模以上国有控股工业总产值（单位：万元） X2- 规模以上非公有工业总产值（单位：万元） X3- 规模以上外商和港澳台投资工业总产值（单位：万元） X4- 规模以上高新技术产业总产值（单位：万元） X5- 农林牧渔业总产值（单位：万元） X6- 建筑业总产值（单位：万元） X7- 邮电业务总量（单位：亿元） X8- 社会消费品零售总额（单位：万元） 2， SPSS软件处理结果我们首先对原始数据进行标准化，距离法）和

11、Ward s Method（离差平方和然后采用系统聚类分析法的 Furthest Neighbor（）分别对标准化的数据进行处理，下面对软件输出结最长果进行详细介绍。【1】，用层次聚类分析中最长距离法的 SPSS结果（1），表 1-2 山东省 17个城市生产总值层次聚类分析中的凝聚状态表 Agglomeration Schedule Cluster Combined Stage Cluster First Appears Stage Cluster 1 Cluster 2 Coefficients Next Stage 14 15 .318 0 3 4 11 .521 17 .

12、814 16 1.235 6 12 2.533 9 3.222 8 7 13 3.570 10 4.715 4.977 6.421 8.250 9.948 15.216 21.504 37.386 84.514 （2），表 1-3 山东省 17 个城市生产总值层次聚类分析中分为五类的类成员 Cluster Membership Case 5 Clusters 1:济南市 2:青岛市 3:淄博市 4:枣庄市 5:东营市 6:烟台市 7:潍坊市 8:济宁市 9:泰安市 10: 威海市 11: 日照市 12: 莱芜市 13: 临沂市 14: 德州

13、市 15: 聊城市 16: 滨州市 17: 菏泽市分为五类时， 1号样本济南市为一类， 2号样本青岛市、 6号样本烟台市为一类， 3号样本淄博市、 5号样本东营市为一类， 7号样本潍坊市、 8号样本济宁市、 13号样本临沂市为一类，其他 4号样本枣庄市、 9号样本泰安市、 10号样本威海市、 11号样本日照市、 12号样本莱芜市、14号样本德州市、 15号样本聊城市、 16号样本滨州市、 17号样本菏泽市 13个城市为一类。（3），表 1-4 山东省 17个城市生产总值层次聚类分析树形图 Rescaled Distance Cluster Combine C A S E 0

14、5 10 15 20 25 Label Num +-+-+-+-+-+ 德州市 14 聊城市 15 菏泽市 17 滨市 16 泰安市威海市 10 枣庄日照市 11 莱芜市 12 淄博东营青岛烟台济宁临沂市 13 潍坊济南市 1 表 1-4 ：树形图以躺倒树的形式展示了聚类分析中的每一次合并的情况。 SPSS自动将各类间的距离映射到 025之间，并将凝聚过程近似的表示在图上。树形图仅是粗劣的展现聚类分析的过程，鉴于样本量较大且小类间的距离相差较小，在图上较难分辨凝聚的每步过程。【2】，用层次聚类分析中离差平方和法的 SPS

15、S结果（1），表 2-1 山东省 17个城市生产总值层次聚类分析中的凝聚状态表 .281 .642 1.145 1.697 2.640 3.668 4.752 5.867 6.983 8.224 9.659 11.532 13.827 16.341 20.330 28.232 （2），表 2-2 山东省 17 个城市生产总值层次聚类分析中分为五类的类成员分为五类时， 1号样本济南市为一类， 2号样本青岛市、 6号样本烟台市为一类， 3号样本淄博市、 5号样本东营市、 9号样本泰安市为一类， 7号样本潍坊市、 8号样本济宁市、 13号样本临沂市为一类，其他 4号样本枣庄市、 10号样本威海市

16、、 11号样本日照市、 12号样本莱芜市、14号样本德州市、 15号样本聊城市、 16号样本滨州市、 17号样本菏泽市 13个城市为一类。（3），表 2-3 山东省 17个城市生产总值层次聚类分析树形图南表 2-3 ：注：在两种分类依据下，结果大部分一致，只是在泰安市的归类上出现了分歧，考虑到 Ward 方法的普遍应用性，我们采用后者。 3，通过以上的分类表可以清楚的看到 , 层次聚类分析结果，将 17个城市样本分为 5类。 1） 1 号样本济南市，是山东省的省会，是山东政治、文化、经济、金融、教育中心，是“全国城市综合实力 50 强”。济南是一个具有悠久历史的城市，所以济南的国有企业林立众多，像中国石化集团济南炼油厂、中国石油集团济柴动力总厂、中国重型汽车集团、中国轻骑集团、山东鲁能（集团）有限公司、山水集团（山东水泥厂）、济南钢铁集团总公司、济南铁路集团，这使得济南的国有企业（大部分是重工企

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？