ImageVerifierCode 换一换
格式:DOCX , 页数:37 ,大小:28.40KB ,
资源ID:5180007      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/5180007.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(聚类解析总结实验报告总结.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

聚类解析总结实验报告总结.docx

1、聚类解析总结实验报告总结聚类解析总结实验报告总结应用多元统计分析 课 程 实 验 报 告 实验名称:用聚类分析的方法研究山东省 17 个市的产业类型 的差异化 学生班级: 统计 0901 学生姓名: 贾绪顺 杜春霖 陈维民 张鹏 指导老师: _张艳丽 _ 完成日期: 2011.12.12 一, 实验内容 根据聚类分析的原理,使用系统聚类分析的 COMplete linkage (最长距离法 )和 WARD(离 差平方和法 ) ,运用 SPSS软件对 2009年山东省 17个城市生产总值的数据进行 Q型聚类,将 17 个城市分为 5类,发现不同城市产业类型的差异化,并解释造成这种差异的原因 二,

2、 实验目的 希望通过实验研究山东省 17 个市的生产总值的差异化, 并分析造成这种差异化的原因,可以更深刻的掌握聚类分析的原理; 进一步熟悉聚类分析问题的提出、 解决问题的思路、 方法和技能; 达到能综合运用所学基本理论和专业知识;锻炼收集、 整理、 运用资料的能力的 目的;希望能会调用 SPSS软件聚类分析有关过程命令,并且可以对数据处理结果进行正确判断分析,作出综合评价。 三, 实验方法背景与原理 3.1 方法背景 聚类分析又称群分析, 是多元统计分析中研究样本或指标的一种主要的分类方法, 在古老的分类学中, 人们主要靠经验和专业知识, 很少利用数学方法。 随着生产技术和科学的发 展,分类

3、越来越细, 以致有时仅凭经验和专业知识还不能进行确切分类, 于是数学这个有用的工具逐渐被引进到分类学中, 形成了数值分类学。 近些年来, 数理统计的多元分析方法有 了迅速的发展, 多元分析的技术自然被引用到分类学中, 于是从数值分类学中逐渐的分离出聚类分析这个新的分支。 结合了更为强大的数学工具的聚类分析方法已经越来越多应用到经 济分析和社会工作分析中。 在经济领域中, 主要是根据影响国家、 地区及至单个企业的经济效益、 发展水平的各项指标进行聚类分析, 然后很据分析结果进行综合评价, 以便得出科学 的结论。 聚类分析源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的 应用领

4、域, 很多聚类技术都得到了发展, 这些技术方法被用作描述数据, 衡量不同数据源间 的相似性, 以及把数据源分类到不同的簇中。 聚类分析的主要应用,在商业方面, 最常见的 就是客户群的细分问题, 可以从客户人口特征、 消费行为和喜好方面的数据, 对客户进行特 征分析,充分利用数据进行客户的客观分组, 使诸多特征有相似性的客户能被分在同一组内, 而不相似的客户能被区分到另一些组中。 在生物方面, 聚类分析可以用来对动植物进行分类, 对基因进行分类等, 从而获取对动植物种群固有结构的认识, 对物种进行很好的分类。 在电 子商务方面, 聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面, 通过

5、对客 户的浏览行为、浏览网站、客户的年龄等,对客户进行分析,找出不同客户的共同特征,通 过共同特征对客户进行分类, 可以帮助电子商户更好的了解他们的客户, 并向客户提供更合 适的服务。在保险行业上,根据产、寿险进行分类,不同类别的公司进行分类,对保险投资 比例进行分类管理,从而提高保险投资的效率。 3.2 实验的方法与原理 聚类分析是研究“物以类聚”的一种科学有效的方法。 做聚类分析时, 出于不同的目的 和要求,可以选择不同的统计量和聚类方法。 聚类分析方法中最常用的一种是系统聚类法, 其基本思想是: 先将待聚类的 n 个样品(或 者变量)各自看成一类, 共有 n 类;然后按照选定的方法计算每

6、两类之间的聚类统计量,即 某种距离(或者相似系数),将关系最为密切的两类合为一类,其余不变,即得到 n-1 类; 再按照前面的计算方法计算新类与其他类之间的距离 (或相似系数) ,再将关系最为密切的 两 并 一 ,其余不 ,即得到 n-2 ;如此下去,每次重复都减少一 ,直到最后所有 的 品(或者 量)都 一 止。系 聚 分析有两种 型: Q型 本聚 和 R型 量聚 。 里我 运用的是 Q型聚 。 Q型聚 是 本 行聚 ,它使具有相似特征的 本聚集在一起,使差异性大的 本分离开来。 本 中,分 采用最 距离法和离差平方和法 本 行分 。 方法一:用最 距离 本 行分 个体与小 的最 距离是 个

7、体与小 每个个体距离的最大 在聚 分析前,首先把数据 行 准化 xij xij x j i 1,2, ,n, j 1,2, , n , R j 后的数据,每个 量 本均 0, 准差 1,而且 准化 后的数据 xij 与 量 的 量 无 关 。 采 用 系 聚 的 方 法 , 用 最 距 离 法 算 欧 氏 距 离 m 2 d ij xit xjt i , j 1,2, , n ,其中 xit 表示第 i 个 品的第 t 个指 的 , x jt i 1 表示第 j 个 品的第 t 个指 的 , dij 第 i 个 品与第 j 个 品之 的欧式距离。 若 dij 越小,那么第 i 与 j 两个 品

8、之 的性 就越接近。 最 距离法求 与 之 的距离, G p 和 Gq 合并 Gr 后,按照最 距离 算新 Gr 与 Gk 其他 的 距离,其 推公式 Drk max dij Gr G p ,Gq = max max dij , max dij = max D pk , Dqk k p, q i Gr , j Gk i G p , j Gk i Gq , j Gk 方法二:用离差平方和法( WARD) 品 行分 离差平方和法是 Ward( 1936)提出的,也称 Ward 法。它基于方差分析思想,如果 分得正确, 同 品之 的离差平方和 当 小, 不同 品之 的离差平方和 当 大。 假定已将

9、n 个 品分 k , G1 , G2 , ? , Gk , n t 表示 Gt 的 品个数, X (t) 表 示 (t ) 表示 Gt 中第 i 个 品( i=1, ? , nt ), Gt 中 品的离差平方和 Gt 的重心, X(i) nt (t) (t) (t) (t) X , Wt =X( i) X(i) X i 1 其中 X (t ) , X (t) 向量, Wt 一数 ( t=1,2, ? ,k )。 ( i) m k 个 的 离差平方和 k k n t (t) (t) (t) (t) W = Wt = X . X( i) X X(i ) t=1 t=1 i 1 当 k 固定时,要选

10、择使 W 达到极小的分类。 Ward法的基本思想是,先将 n 个样品各自成一类,此时 W =0;然后每次将其中某两类 合并为一类, 因每缩小一类离差平方和就要增加, 每次选择使 W 增加最小的两类进行合并, 直至所有样品合并为一类为止。 Ward法把某两类合并后增加的离差平方和看成为类间的平方距离,即令 Dpq2 =Wr Wp Wq 表示类 G p 和 Gq 的平方距离,其中 Gr Gp ,Gq , Wr , Wp , Wq 分别为 Gr , G p , Gq 类 中样品的离差平方和。利用 Wr 的定义,可得 nr X((r)t) X (r) X((r)t) X (r) Wr = t 1 n

11、p nq (p) (r) (p) (r) (q) (r) (q) (r) , =X i ) X X i ) X X i ) X X i ) X ( ( ( ( i 1 i 1 其中 X r 1 np X p nq X q . 经整理可得 nr D pq2 npnq X p X q X p X q . nr 当样品间距离采用欧氏距离时,上式可表为 D pq2 np nq d pq2 , nr 其中 d pq2 表示 Gp ,Gq 的重心 X p 与 X q 的平方距离: dpq2 d 2 X p , X q . 这表明此时 Word 法定义的类间距离与重心法只相差一个常数倍。 当 Gp 和 Gq

12、 合 并 为 Gr 后 , Gr 与 其 他 类 Gk 的 距 离 有 如 下 递 推 公 式 D 2 nk np D 2 nk nq D 2 nk D 2 rk pk pq nr nk nr nk qk nr nk 上述两种方法都是将性质接近的样品划为一类。 聚类分析依据的基本原则是直接比较样 本中各事物之间的性质, 将性质相近的归为一类, 而将性质相差比较大的分在不同类。 也就 是说,同类事物之间性质差异小,类与类之间的性质相差比较大。 系统聚类分析是聚类分析中应用的最广泛的一种方法。首先将 n 个样品每个自成一类, 然后每次将具有最小距离的两类合并成一类, 合并后重新计算类与类之间的距离

13、, 这个过程 一直持续到所有样品归为一类为止。 分类结果可以画成一张直观的聚类谱系图。 应用系统聚 类法进行聚类分析的步骤如下: 确定待分类的样品的指标 收集数据 对数据进行变换处理 使各个样品自成一类,即 n 个样品一共有 n 类 计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两个类并成一类 并类后,如果类的个数大于 1,那么重新计算各类之间的距离,继续并类,直至所有样 品归为一类为止 最后绘制系统聚类谱系图, 按不同的分类标准或不同的分类原则, 得出不同的分类结果。 四、实验数据与实验结果 我们根据 2010年山东统计年鉴的数据,运用 SPSS软件进行分析,得到如下实验数据与结果:

14、 1,原始数据 表 1-1 山东省 17 城市生产总值原始数据 地区 X1 X2 X3 X4 X5 X6 X7 X8 济南市 214.9 青岛市 274.8 淄博市 105.7 枣庄市 66.0 东营市 5 67.4 烟台市 175.8 潍坊市 183.2 济宁市 130.3 泰安市 77.3 威海市 81.8 日照市 50.9 莱芜市 363118 725138 451164 21.3 临沂市 161.9 德州市 82.8 聊城市 87.9 滨州市 72.2 菏泽市 108.8 ( 来源: 2010年山东统计年鉴 ) X1- 规模以上国有控股工业总产值 (单位: 万元) X2- 规模以上非公

15、有工业总产值(单位: 万元) X3- 规模以上外商和港澳台投资工业总产值(单位: 万元) X4- 规模以上高新技 术产业总产值 (单位:万元) X5- 农林牧渔业总产值 (单位:万元) X6- 建筑业总产值 (单 位:万元) X7- 邮电业务总量(单位:亿元) X8- 社会消费品零售总额 ( 单位:万元 ) 2, SPSS软件处理结果 我们首先对原始数据进行标准化,距离法 ) 和 Ward s Method( 离差平方和 然后采用系统聚类分析法的 Furthest Neighbor( ) 分别对标准化的数据进行处理,下面对软件输出结 最长 果进行详细介绍。 【1】,用层次聚类分析中最长距离法的

16、 SPSS结果 (1),表 1-2 山东省 17个城市生产总值层次聚类分析中的凝聚状态表 Agglomeration Schedule Cluster Combined Stage Cluster First Appears Stage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage 1 14 15 .318 0 0 3 2 4 11 .521 0 0 5 3 14 17 .814 1 0 4 4 14 16 1.235 3 0 6 5 4 12 2.533 2 0 12 6 9 14 3.222 0 4 8 7

17、8 13 3.570 0 0 10 8 9 10 4.715 6 0 12 9 3 5 4.977 0 0 14 10 7 8 6.421 0 7 13 11 2 6 8.250 0 0 15 12 4 9 9.948 5 8 14 13 1 7 15.216 0 10 15 14 3 4 21.504 9 12 16 15 1 2 37.386 13 11 16 16 1 3 84.514 15 14 0 (2),表 1-3 山东省 17 个城市生产总值层次聚类分析中分为五类的类成员 Cluster Membership Case 5 Clusters 1:济 南 市 1 2:青 岛 市 2

18、 3:淄 博 市 3 4:枣 庄 市 4 5:东 营 市 3 6:烟 台 市 2 7:潍 坊 市 5 8:济 宁 市 5 9:泰 安 市 4 10: 威 海 市 4 11: 日 照 市 4 12: 莱 芜 市 4 13: 临 沂 市 5 14: 德 州 市 4 15: 聊 城 市 4 16: 滨 州 市 4 17: 菏 泽 市 4 分为五类时, 1号样本济南市为一类, 2号样本青岛市、 6号样本烟台市为一类, 3号样本淄博市、 5号样本东营市为一类, 7号样本潍坊市、 8号样本济宁市、 13号样本临沂市为一类,其他 4号样本枣庄市、 9号样本泰安市、 10号样本威海市、 11号样本日照市、 1

19、2号样本莱芜市、14号样本德州市、 15号样本聊城市、 16号样本滨州市、 17号样本菏泽市 13个城市为一类。 (3),表 1-4 山东省 17个城市生产总值层次聚类分析树形图 Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +-+-+-+-+-+ 德 州 市 14 聊 城 市 15 菏 泽 市 17 滨 州 市 16 泰 安 市 9 威 海 市 10 枣 庄 市 4 日 照 市 11 莱 芜 市 12 淄 博 市 3 东 营 市 5 青 岛 市 2 烟 台 市 6 济 宁 市 8 临 沂 市 13 潍

20、坊 市 7 济 南 市 1 表 1-4 :树形图以躺倒树的形式展示了聚类分析中的每一次合并的情况。 SPSS自动将各类间的距离映射到 025之间,并将凝聚过程近似的表示在图上。 树形图仅是粗劣的展现聚类分析 的过程,鉴于样本量较大且小类间的距离相差较小,在图上较难分辨凝聚的每步过程。 【2】,用层次聚类分析中离差平方和法的 SPSS结果 (1),表 2-1 山东省 17个城市生产总值层次聚类分析中的凝聚状态表 Agglomeration Schedule Cluster Combined Stage Cluster First Appears Stage Cluster 1 Cluster 2

21、 Coefficients Cluster 1 Cluster 2 Next Stage 1 14 15 .281 0 0 3 2 4 11 .642 0 0 4 3 14 17 1.145 1 0 9 4 4 16 1.697 2 0 7 5 8 13 2.640 0 0 10 6 9 10 3.668 0 0 9 7 4 12 4.752 4 0 12 8 3 5 5.867 0 0 14 9 9 14 6.983 6 3 12 10 7 8 8.224 0 5 13 11 2 6 9.659 0 0 15 12 4 9 11.532 7 9 14 13 1 7 13.827 0 10 1

22、5 14 3 4 16.341 8 12 16 15 1 2 20.330 13 11 16 16 1 3 28.232 15 14 0 (2),表 2-2 山东省 17 个城市生产总值层次聚类分析中分为五类的类成员 Cluster Membership Case 5 Clusters 1:济 南 市 1 2:青 岛 市 2 3:淄 博 市 3 4:枣 庄 市 4 5:东 营 市 3 6:烟 台 市 2 7:潍 坊 市 5 8:济 宁 市 5 9:泰 安 市 3 10: 威 海 市 4 11: 日 照 市 4 12: 莱 芜 市 4 13: 临 沂 市 5 14: 德 州 市 4 15: 聊

23、城 市 4 16: 滨 州 市 4 17: 菏 泽 市 4 分为五类时, 1号样本济南市为一类, 2号样本青岛市、 6号样本烟台市为一类, 3号样本淄博市、 5号样本东营市、 9号样本泰安市为一类, 7号样本潍坊市、 8号样本济宁市、 13号样本临沂市为一类,其他 4号样本枣庄市、 10号样本威海市、 11号样本日照市、 12号样本莱芜市、14号样本德州市、 15号样本聊城市、 16号样本滨州市、 17号样本菏泽市 13个城市为一类。 (3),表 2-3 山东省 17个城市生产总值层次聚类分析树形图 Rescaled Distance Cluster Combine C A S E 0 5 1

24、0 15 20 25 Label Num +-+-+-+-+-+ 德 州 市 11 聊 城 市 12 菏 泽 市 14 威 海 市 8 枣 庄 市 7 日 照 市 9 滨 州 市 13 莱 芜 市 10 东 营 市 5 泰 安 市 6 淄 博 市 4 青 岛 市 2 烟 台 市 3 济 宁 市 16 临 沂 市 17 潍 坊 市 15 济 南 市 1 表 2-3 :树形图以躺倒树的形式展示了聚类分析中的每一次合并的情况。 SPSS自动将各类间的距离映射到 025之间,并将凝聚过程近似的表示在图上。 树形图仅是粗劣的展现聚类分析 的过程,鉴于样本量较大且小类间的距离相差较小,在图上较难分辨凝聚的

25、每步过程。 注:在两种分类依据下,结果大部分一致,只是在泰安市的归类上出现了分歧,考虑到 Ward 方法的普遍应用性,我们采用后者。 3,通过以上的分类表可以清楚的看到 , 层次聚类分析结果,将 17个城市样本分为 5类。 1) 1 号样本济南市,是山东省的省会,是山东政治、文化、经济、金融、教育中心,是“全国城市综合实力 50 强”。济南是一个具有悠久历史的城市,所以济南的国有企业林立 众多, 像中国石化集团济南炼油厂、 中国石油集团济柴动力总厂、 中国重型汽车集团、 中国 轻骑集团、山东鲁能(集团)有限公司 、山水集团(山东水泥厂)、济南钢铁集团总公司、 济南铁路集团, 这使得济南的国有企业(大部分是重工企

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1