1、 子商务方面, 聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面, 通过对客 户的浏览行为、浏览网站、客户的年龄等,对客户进行分析,找出不同客户的共同特征,通 过共同特征对客户进行分类, 可以帮助电子商户更好的了解他们的客户, 并向客户提供更合 适的服务。在保险行业上,根据产、寿险进行分类,不同类别的公司进行分类,对保险投资 比例进行分类管理,从而提高保险投资的效率。 3.2 实验的方法与原理 聚类分析是研究“物以类聚”的一种科学有效的方法。 做聚类分析时, 出于不同的目的 和要求,可以选择不同的统计量和聚类方法。 聚类分析方法中最常用的一种是系统聚类法, 其基本思想是: 先将待聚类
2、的 n 个样品(或 者变量)各自看成一类, 共有 n 类;然后按照选定的方法计算每两类之间的聚类统计量,即 某种距离(或者相似系数),将关系最为密切的两类合为一类,其余不变,即得到 n-1 类; 再按照前面的计算方法计算新类与其他类之间的距离 (或相似系数) ,再将关系最为密切的 两 并 一 ,其余不 ,即得到 n-2 ;如此下去,每次重复都减少一 ,直到最后所有 的 品(或者 量)都 一 止。系 聚 分析有两种 型: Q型 本聚 和 R型 量聚 。 里我 运用的是 Q型聚 。 Q型聚 是 本 行聚 ,它使具有相似特征的 本聚集在一起,使差异性大的 本分离开来。 本 中,分 采用最 距离法和离
3、差平方和法 本 行分 。 方法一:用最 距离 本 行分 个体与小 的最 距离是 个体与小 每个个体距离的最大 在聚 分析前,首先把数据 行 准化 xij xij x j i 1,2, ,n, j 1,2, , n , R j 后的数据,每个 量 本均 0, 准差 1,而且 准化 后的数据 与 量 的 量 无 关 。 采 用 系 聚 的 方 法 , 用 最 距 离 法 算 欧 氏 距 离 m 2 d ij xit xjt i , j , n ,其中 xit 表示第 i 个 品的第 t 个指 的 , x jt i 1 表示第 j 个 品的第 t 个指 的 , dij 第 i 个 品与第 j 个 品
4、之 的欧式距离。 若 dij 越小,那么第 i 与 j 两个 品之 的性 就越接近。 最 距离法求 与 之 的距离, G p 和 Gq 合并 Gr 后,按照最 距离 算新 Gr 与 Gk 其他 的 距离,其 推公式 Drk max dij Gr G p ,Gq = max , D pk , Dqk k p, q i Gr , j Gk i G p , j Gk i Gq , j Gk 方法二:用离差平方和法( WARD) 品 行分 离差平方和法是 Ward( 1936)提出的,也称 Ward 法。它基于方差分析思想,如果 分得正确, 同 品之 的离差平方和 当 小, 不同 品之 的离差平方和
5、当 大。 假定已将 n 个 品分 k , G1 , G2 , ? Gk , n t 表示 Gt 的 品个数, X (t) 表 示 (t ) 表示 Gt 中第 i 个 品( i=1, ? nt ), Gt 中 品的离差平方和 Gt 的重心, X(i) nt (t) X , Wt =X( i) X(i) X i 1 其中 向量, Wt 一数 ( t=1,2, ,k )。 ( i) k 个 的 离差平方和 k n t W = Wt = . X( i) X X(i ) t=1 当 k 固定时,要选择使 W 达到极小的分类。 Ward法的基本思想是,先将 n 个样品各自成一类,此时 W =0;然后每次将
6、其中某两类 合并为一类, 因每缩小一类离差平方和就要增加, 每次选择使 W 增加最小的两类进行合并, 直至所有样品合并为一类为止。 Ward法把某两类合并后增加的离差平方和看成为类间的平方距离,即令 Dpq2 =Wr Wp Wq 表示类 G p 和 Gq 的平方距离,其中 Gp ,Gq , Wr , Wp , Wq 分别为 , G p , Gq 类 中样品的离差平方和。利用 Wr 的定义,可得 nr X(r)t) X (r) Wr = t 1 n p nq (p) (r) (q) =X i ) X i ( 其中 X r np X p nq X q . 经整理可得 D pq2 npnq X p
7、X q X p 当样品间距离采用欧氏距离时,上式可表为 np nq d pq2 , 其中 d pq2 表示 Gp ,Gq 的重心 X p 与 X q 的平方距离: dpq2 d 2 X p , X q 这表明此时 Word 法定义的类间距离与重心法只相差一个常数倍。 当 Gp 和 Gq 合 并 为 Gr 后 , Gr 与 其 他 类 Gk 的 距 离 有 如 下 递 推 公 式 D nk np rk pk pq qk nr nk 上述两种方法都是将性质接近的样品划为一类。 聚类分析依据的基本原则是直接比较样 本中各事物之间的性质, 将性质相近的归为一类, 而将性质相差比较大的分在不同类。 也就
8、 是说,同类事物之间性质差异小,类与类之间的性质相差比较大。 系统聚类分析是聚类分析中应用的最广泛的一种方法。首先将 n 个样品每个自成一类, 然后每次将具有最小距离的两类合并成一类, 合并后重新计算类与类之间的距离, 这个过程 一直持续到所有样品归为一类为止。 分类结果可以画成一张直观的聚类谱系图。 应用系统聚 类法进行聚类分析的步骤如下: 确定待分类的样品的指标 收集数据 对数据进行变换处理 使各个样品自成一类,即 n 个样品一共有 n 类 计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两个类并成一类 并类后,如果类的个数大于 1,那么重新计算各类之间的距离,继续并类,直至所有样
9、品归为一类为止 最后绘制系统聚类谱系图, 按不同的分类标准或不同的分类原则, 得出不同的分类结果。 四、实验数据与实验结果 我们根据 2010年山东统计年鉴的数据,运用 SPSS软件进行分析,得到如下实验数据与结果: 1,原始数据 表 1-1 山东省 17 城市生产总值原始数据 地区 X1 X2 X3 X4 X5 X6 X7 X8 济南市 214.9 青岛市 274.8 淄博市 105.7 枣庄市 66.0 东营市 5 67.4 烟台市 175.8 潍坊市 183.2 济宁市 130.3 泰安市 77.3 威海市 81.8 日照市 50.9 莱芜市 363118 725138 451164 2
10、1.3 临沂市 161.9 德州市 82.8 聊城市 87.9 滨州市 72.2 菏泽市 108.8 ( 来源: 2010年山东统计年鉴 ) X1- 规模以上国有控股工业总产值 (单位: 万元) X2- 规模以上非公有工业总产值(单位: 万元) X3- 规模以上外商和港澳台投资工业总产值(单位: 万元) X4- 规模以上高新技 术产业总产值 (单位:万元) X5- 农林牧渔业总产值 (单位:万元) X6- 建筑业总产值 (单 位:万元) X7- 邮电业务总量(单位:亿元) X8- 社会消费品零售总额 ( 单位:万元 ) 2, SPSS软件处理结果 我们首先对原始数据进行标准化,距离法 ) 和
11、Ward s Method( 离差平方和 然后采用系统聚类分析法的 Furthest Neighbor( ) 分别对标准化的数据进行处理,下面对软件输出结 最长 果进行详细介绍。 【1】,用层次聚类分析中最长距离法的 SPSS结果 (1),表 1-2 山东省 17个城市生产总值层次聚类分析中的凝聚状态表 Agglomeration Schedule Cluster Combined Stage Cluster First Appears Stage Cluster 1 Cluster 2 Coefficients Next Stage 14 15 .318 0 3 4 11 .521 17 .
12、814 16 1.235 6 12 2.533 9 3.222 8 7 13 3.570 10 4.715 4.977 6.421 8.250 9.948 15.216 21.504 37.386 84.514 (2),表 1-3 山东省 17 个城市生产总值层次聚类分析中分为五类的类成员 Cluster Membership Case 5 Clusters 1:济 南 市 2:青 岛 市 3:淄 博 市 4:枣 庄 市 5:东 营 市 6:烟 台 市 7:潍 坊 市 8:济 宁 市 9:泰 安 市 10: 威 海 市 11: 日 照 市 12: 莱 芜 市 13: 临 沂 市 14: 德 州
13、 市 15: 聊 城 市 16: 滨 州 市 17: 菏 泽 市 分为五类时, 1号样本济南市为一类, 2号样本青岛市、 6号样本烟台市为一类, 3号样本淄博市、 5号样本东营市为一类, 7号样本潍坊市、 8号样本济宁市、 13号样本临沂市为一类,其他 4号样本枣庄市、 9号样本泰安市、 10号样本威海市、 11号样本日照市、 12号样本莱芜市、14号样本德州市、 15号样本聊城市、 16号样本滨州市、 17号样本菏泽市 13个城市为一类。 (3),表 1-4 山东省 17个城市生产总值层次聚类分析树形图 Rescaled Distance Cluster Combine C A S E 0
14、5 10 15 20 25 Label Num +-+-+-+-+-+ 德 州 市 14 聊 城 市 15 菏 泽 市 17 滨 市 16 泰 安 市 威 海 市 10 枣 庄 日 照 市 11 莱 芜 市 12 淄 博 东 营 青 岛 烟 台 济 宁 临 沂 市 13 潍 坊 济 南 市 1 表 1-4 :树形图以躺倒树的形式展示了聚类分析中的每一次合并的情况。 SPSS自动将各类间的距离映射到 025之间,并将凝聚过程近似的表示在图上。 树形图仅是粗劣的展现聚类分析 的过程,鉴于样本量较大且小类间的距离相差较小,在图上较难分辨凝聚的每步过程。 【2】,用层次聚类分析中离差平方和法的 SPS
15、S结果 (1),表 2-1 山东省 17个城市生产总值层次聚类分析中的凝聚状态表 .281 .642 1.145 1.697 2.640 3.668 4.752 5.867 6.983 8.224 9.659 11.532 13.827 16.341 20.330 28.232 (2),表 2-2 山东省 17 个城市生产总值层次聚类分析中分为五类的类成员 分为五类时, 1号样本济南市为一类, 2号样本青岛市、 6号样本烟台市为一类, 3号样本淄博市、 5号样本东营市、 9号样本泰安市为一类, 7号样本潍坊市、 8号样本济宁市、 13号样本临沂市为一类,其他 4号样本枣庄市、 10号样本威海市
16、、 11号样本日照市、 12号样本莱芜市、14号样本德州市、 15号样本聊城市、 16号样本滨州市、 17号样本菏泽市 13个城市为一类。 (3),表 2-3 山东省 17个城市生产总值层次聚类分析树形图 南 表 2-3 : 注:在两种分类依据下,结果大部分一致,只是在泰安市的归类上出现了分歧,考虑到 Ward 方法的普遍应用性,我们采用后者。 3,通过以上的分类表可以清楚的看到 , 层次聚类分析结果,将 17个城市样本分为 5类。 1) 1 号样本济南市,是山东省的省会,是山东政治、文化、经济、金融、教育中心,是“全国城市综合实力 50 强”。济南是一个具有悠久历史的城市,所以济南的国有企业林立 众多, 像中国石化集团济南炼油厂、 中国石油集团济柴动力总厂、 中国重型汽车集团、 中国 轻骑集团、山东鲁能(集团)有限公司 、山水集团(山东水泥厂)、济南钢铁集团总公司、 济南铁路集团, 这使得济南的国有企业(大部分是重工企
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1