ImageVerifierCode 换一换
格式:DOCX , 页数:37 ,大小:28.40KB ,
资源ID:18151539      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/18151539.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(聚类解析总结实验报告总结Word文档格式.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

聚类解析总结实验报告总结Word文档格式.docx

1、 子商务方面, 聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面, 通过对客 户的浏览行为、浏览网站、客户的年龄等,对客户进行分析,找出不同客户的共同特征,通 过共同特征对客户进行分类, 可以帮助电子商户更好的了解他们的客户, 并向客户提供更合 适的服务。在保险行业上,根据产、寿险进行分类,不同类别的公司进行分类,对保险投资 比例进行分类管理,从而提高保险投资的效率。 3.2 实验的方法与原理 聚类分析是研究“物以类聚”的一种科学有效的方法。 做聚类分析时, 出于不同的目的 和要求,可以选择不同的统计量和聚类方法。 聚类分析方法中最常用的一种是系统聚类法, 其基本思想是: 先将待聚类

2、的 n 个样品(或 者变量)各自看成一类, 共有 n 类;然后按照选定的方法计算每两类之间的聚类统计量,即 某种距离(或者相似系数),将关系最为密切的两类合为一类,其余不变,即得到 n-1 类; 再按照前面的计算方法计算新类与其他类之间的距离 (或相似系数) ,再将关系最为密切的 两 并 一 ,其余不 ,即得到 n-2 ;如此下去,每次重复都减少一 ,直到最后所有 的 品(或者 量)都 一 止。系 聚 分析有两种 型: Q型 本聚 和 R型 量聚 。 里我 运用的是 Q型聚 。 Q型聚 是 本 行聚 ,它使具有相似特征的 本聚集在一起,使差异性大的 本分离开来。 本 中,分 采用最 距离法和离

3、差平方和法 本 行分 。 方法一:用最 距离 本 行分 个体与小 的最 距离是 个体与小 每个个体距离的最大 在聚 分析前,首先把数据 行 准化 xij xij x j i 1,2, ,n, j 1,2, , n , R j 后的数据,每个 量 本均 0, 准差 1,而且 准化 后的数据 与 量 的 量 无 关 。 采 用 系 聚 的 方 法 , 用 最 距 离 法 算 欧 氏 距 离 m 2 d ij xit xjt i , j , n ,其中 xit 表示第 i 个 品的第 t 个指 的 , x jt i 1 表示第 j 个 品的第 t 个指 的 , dij 第 i 个 品与第 j 个 品

4、之 的欧式距离。 若 dij 越小,那么第 i 与 j 两个 品之 的性 就越接近。 最 距离法求 与 之 的距离, G p 和 Gq 合并 Gr 后,按照最 距离 算新 Gr 与 Gk 其他 的 距离,其 推公式 Drk max dij Gr G p ,Gq = max , D pk , Dqk k p, q i Gr , j Gk i G p , j Gk i Gq , j Gk 方法二:用离差平方和法( WARD) 品 行分 离差平方和法是 Ward( 1936)提出的,也称 Ward 法。它基于方差分析思想,如果 分得正确, 同 品之 的离差平方和 当 小, 不同 品之 的离差平方和

5、当 大。 假定已将 n 个 品分 k , G1 , G2 , ? Gk , n t 表示 Gt 的 品个数, X (t) 表 示 (t ) 表示 Gt 中第 i 个 品( i=1, ? nt ), Gt 中 品的离差平方和 Gt 的重心, X(i) nt (t) X , Wt =X( i) X(i) X i 1 其中 向量, Wt 一数 ( t=1,2, ,k )。 ( i) k 个 的 离差平方和 k n t W = Wt = . X( i) X X(i ) t=1 当 k 固定时,要选择使 W 达到极小的分类。 Ward法的基本思想是,先将 n 个样品各自成一类,此时 W =0;然后每次将

6、其中某两类 合并为一类, 因每缩小一类离差平方和就要增加, 每次选择使 W 增加最小的两类进行合并, 直至所有样品合并为一类为止。 Ward法把某两类合并后增加的离差平方和看成为类间的平方距离,即令 Dpq2 =Wr Wp Wq 表示类 G p 和 Gq 的平方距离,其中 Gp ,Gq , Wr , Wp , Wq 分别为 , G p , Gq 类 中样品的离差平方和。利用 Wr 的定义,可得 nr X(r)t) X (r) Wr = t 1 n p nq (p) (r) (q) =X i ) X i ( 其中 X r np X p nq X q . 经整理可得 D pq2 npnq X p

7、X q X p 当样品间距离采用欧氏距离时,上式可表为 np nq d pq2 , 其中 d pq2 表示 Gp ,Gq 的重心 X p 与 X q 的平方距离: dpq2 d 2 X p , X q 这表明此时 Word 法定义的类间距离与重心法只相差一个常数倍。 当 Gp 和 Gq 合 并 为 Gr 后 , Gr 与 其 他 类 Gk 的 距 离 有 如 下 递 推 公 式 D nk np rk pk pq qk nr nk 上述两种方法都是将性质接近的样品划为一类。 聚类分析依据的基本原则是直接比较样 本中各事物之间的性质, 将性质相近的归为一类, 而将性质相差比较大的分在不同类。 也就

8、 是说,同类事物之间性质差异小,类与类之间的性质相差比较大。 系统聚类分析是聚类分析中应用的最广泛的一种方法。首先将 n 个样品每个自成一类, 然后每次将具有最小距离的两类合并成一类, 合并后重新计算类与类之间的距离, 这个过程 一直持续到所有样品归为一类为止。 分类结果可以画成一张直观的聚类谱系图。 应用系统聚 类法进行聚类分析的步骤如下: 确定待分类的样品的指标 收集数据 对数据进行变换处理 使各个样品自成一类,即 n 个样品一共有 n 类 计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两个类并成一类 并类后,如果类的个数大于 1,那么重新计算各类之间的距离,继续并类,直至所有样

9、品归为一类为止 最后绘制系统聚类谱系图, 按不同的分类标准或不同的分类原则, 得出不同的分类结果。 四、实验数据与实验结果 我们根据 2010年山东统计年鉴的数据,运用 SPSS软件进行分析,得到如下实验数据与结果: 1,原始数据 表 1-1 山东省 17 城市生产总值原始数据 地区 X1 X2 X3 X4 X5 X6 X7 X8 济南市 214.9 青岛市 274.8 淄博市 105.7 枣庄市 66.0 东营市 5 67.4 烟台市 175.8 潍坊市 183.2 济宁市 130.3 泰安市 77.3 威海市 81.8 日照市 50.9 莱芜市 363118 725138 451164 2

10、1.3 临沂市 161.9 德州市 82.8 聊城市 87.9 滨州市 72.2 菏泽市 108.8 ( 来源: 2010年山东统计年鉴 ) X1- 规模以上国有控股工业总产值 (单位: 万元) X2- 规模以上非公有工业总产值(单位: 万元) X3- 规模以上外商和港澳台投资工业总产值(单位: 万元) X4- 规模以上高新技 术产业总产值 (单位:万元) X5- 农林牧渔业总产值 (单位:万元) X6- 建筑业总产值 (单 位:万元) X7- 邮电业务总量(单位:亿元) X8- 社会消费品零售总额 ( 单位:万元 ) 2, SPSS软件处理结果 我们首先对原始数据进行标准化,距离法 ) 和

11、Ward s Method( 离差平方和 然后采用系统聚类分析法的 Furthest Neighbor( ) 分别对标准化的数据进行处理,下面对软件输出结 最长 果进行详细介绍。 【1】,用层次聚类分析中最长距离法的 SPSS结果 (1),表 1-2 山东省 17个城市生产总值层次聚类分析中的凝聚状态表 Agglomeration Schedule Cluster Combined Stage Cluster First Appears Stage Cluster 1 Cluster 2 Coefficients Next Stage 14 15 .318 0 3 4 11 .521 17 .

12、814 16 1.235 6 12 2.533 9 3.222 8 7 13 3.570 10 4.715 4.977 6.421 8.250 9.948 15.216 21.504 37.386 84.514 (2),表 1-3 山东省 17 个城市生产总值层次聚类分析中分为五类的类成员 Cluster Membership Case 5 Clusters 1:济 南 市 2:青 岛 市 3:淄 博 市 4:枣 庄 市 5:东 营 市 6:烟 台 市 7:潍 坊 市 8:济 宁 市 9:泰 安 市 10: 威 海 市 11: 日 照 市 12: 莱 芜 市 13: 临 沂 市 14: 德 州

13、 市 15: 聊 城 市 16: 滨 州 市 17: 菏 泽 市 分为五类时, 1号样本济南市为一类, 2号样本青岛市、 6号样本烟台市为一类, 3号样本淄博市、 5号样本东营市为一类, 7号样本潍坊市、 8号样本济宁市、 13号样本临沂市为一类,其他 4号样本枣庄市、 9号样本泰安市、 10号样本威海市、 11号样本日照市、 12号样本莱芜市、14号样本德州市、 15号样本聊城市、 16号样本滨州市、 17号样本菏泽市 13个城市为一类。 (3),表 1-4 山东省 17个城市生产总值层次聚类分析树形图 Rescaled Distance Cluster Combine C A S E 0

14、5 10 15 20 25 Label Num +-+-+-+-+-+ 德 州 市 14 聊 城 市 15 菏 泽 市 17 滨 市 16 泰 安 市 威 海 市 10 枣 庄 日 照 市 11 莱 芜 市 12 淄 博 东 营 青 岛 烟 台 济 宁 临 沂 市 13 潍 坊 济 南 市 1 表 1-4 :树形图以躺倒树的形式展示了聚类分析中的每一次合并的情况。 SPSS自动将各类间的距离映射到 025之间,并将凝聚过程近似的表示在图上。 树形图仅是粗劣的展现聚类分析 的过程,鉴于样本量较大且小类间的距离相差较小,在图上较难分辨凝聚的每步过程。 【2】,用层次聚类分析中离差平方和法的 SPS

15、S结果 (1),表 2-1 山东省 17个城市生产总值层次聚类分析中的凝聚状态表 .281 .642 1.145 1.697 2.640 3.668 4.752 5.867 6.983 8.224 9.659 11.532 13.827 16.341 20.330 28.232 (2),表 2-2 山东省 17 个城市生产总值层次聚类分析中分为五类的类成员 分为五类时, 1号样本济南市为一类, 2号样本青岛市、 6号样本烟台市为一类, 3号样本淄博市、 5号样本东营市、 9号样本泰安市为一类, 7号样本潍坊市、 8号样本济宁市、 13号样本临沂市为一类,其他 4号样本枣庄市、 10号样本威海市

16、、 11号样本日照市、 12号样本莱芜市、14号样本德州市、 15号样本聊城市、 16号样本滨州市、 17号样本菏泽市 13个城市为一类。 (3),表 2-3 山东省 17个城市生产总值层次聚类分析树形图 南 表 2-3 : 注:在两种分类依据下,结果大部分一致,只是在泰安市的归类上出现了分歧,考虑到 Ward 方法的普遍应用性,我们采用后者。 3,通过以上的分类表可以清楚的看到 , 层次聚类分析结果,将 17个城市样本分为 5类。 1) 1 号样本济南市,是山东省的省会,是山东政治、文化、经济、金融、教育中心,是“全国城市综合实力 50 强”。济南是一个具有悠久历史的城市,所以济南的国有企业林立 众多, 像中国石化集团济南炼油厂、 中国石油集团济柴动力总厂、 中国重型汽车集团、 中国 轻骑集团、山东鲁能(集团)有限公司 、山水集团(山东水泥厂)、济南钢铁集团总公司、 济南铁路集团, 这使得济南的国有企业(大部分是重工企

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1