ImageVerifierCode 换一换
格式:DOCX , 页数:25 ,大小:1.94MB ,
资源ID:3251407      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/3251407.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(高级统计学作业聚类分析.docx)为本站会员(b****3)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

高级统计学作业聚类分析.docx

1、高级统计学作业聚类分析全国各地区消费价格增长水平的聚类分析摘要:针对我国各省(直辖)市的2009年度消费价格增长水平数据,选取9个经济指标进行系统聚类分析,得到我国3类不同的地区消费价格增长水平类型。聚类结果为制订有针对性的地区消费市场战略提供依据。关键词:SPSS;聚类分析;消费水平。1.引言由于传统的经济发展起点不同,加上地域、资源、技术和政策等条件的差异,各个地区的经济发展水平高低不齐,导致各地区的工资水平和消费价格增长水平的不同。因此,对各地区消费价格增长水平进行分类、比较和研究,总结出有助于市场调节和商业发展的对策,有针对性地制订地区经济发展战略,对促进国民经济协调发展有重要意义。聚

2、类分析和判别分析是是进行以上分析的两个重要的方法。1.1聚类分析1定义:聚类分析又称群分析、点群分析。根据研究对象特征对研究对象进行分类的一种多元分析技术,把性质相近的个体归为一类,使得同一类中的个体都具有高度的同质性,不同类之间的个体具有高度的异质性。聚类分析的基本思想:我们所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系),于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量作为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些相似程度较大的样品(或指标)又聚合为另一类;关系密切的聚合到一个小的分类单位,关系疏远

3、的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕。1.1.1 系统聚类法系统聚类法的基本原理:首先将一定数量的样本或指标各自看成一类,然后根据样本(或指标)的亲疏程度,将亲疏程度最高的两类进行合并,然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。重复这一过程,直到将所有的样本(或指标)合并为一类。系统聚类分为Q型聚类和R型聚类两种:Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数、降低变量

4、维度的目的。在本例中进行的是Q型聚类。类与类之间距离的计算方法主要有以下几种:(1) 最短距离法(Nearest Neighbor),是指两类之间每个个体距离的最小值;(2) 最长距离法(Farthest Neighbor),是指两类之间每个个体距离的最大值;(3) 组间联接法(Between-groups Linkage),是指两类之间个体之间距离的平均值;(4) 组内联接(Within-groups Linkage),是指把两类所有个体之间的距离都考虑在内;(5) 重心距离法(Centroid clustering),是指两个类中心点之间的距离;(6) 离差平方和法(Ward法),同类样品

5、的离差平方和应当较小,类与类之间的离差平方和应当较大。1.1.2 K-均值法(快速聚类法)K-均值法(又称快速聚类法),是由MacQueen于1967年提出的,它将数据看成K维空间上的点,以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率。但是,K-均值法只能产生指定类数的聚类结果,而类数的确定离不开实践经验的积累。快速聚类分析的基本思想是:首先按照一定方法选取一批凝聚点(聚心),再让样本向最近的凝聚点凝聚,形成初始分类,然后再按最近距离原则修改不合理的分类,直到合理为止。因此,在快速聚类中,应首先要求用户自行给出需要聚成多少类,最终也只能输出关于它的唯一解。快速聚类

6、是一个反复迭代的分类过程,在聚类过程中,样本所属的类会不断调整,直到最终达到稳定为止。1.1.3 数据来源本文针对我国各省(直辖)市的2009年度消费价格分类指数数据2,考虑到数据的可得性和来源的权威性,选取9个消费指标进行系统聚类分析并假定上年相应价格指数为100,得到我国3类不同的地区消费价格增长水平类型。聚类结果将为制订有针对性的地区经济发展战略提供依据。表-1数据来源于中国统计摘要-2010,利用社会经济统计软件SPSS19.0建立数据库并对数据进行分析处理。表-1:国内 31个省、直辖市、自治区的9项消费价格指标数据地区居民消费价格指数食品烟酒及用品衣着家庭设备用品及服务医疗保健和个

7、人用品交通和通信娱乐教育文化居住北 京98.5102.4102.298.4100.399.995.997.689.8天 津99.0101.2104.797.399.7102.696.396.194.9河 北99.3101.0101.996.499.8101.597.097.898.4山 西99.6101.8101.996.999.5101.197.899.297.4内蒙古99.7101.3100.899.799.3101.097.298.798.0辽 宁100.0102.8101.193.8100.7101.897.598.499.0吉 林100.1101.0101.199.2102.1101

8、.297.699.399.0黑龙江100.2101.2101.096.899.3102.499.099.4101.0上 海99.6102.1100.899.3101.599.497.598.096.6江 苏99.6100.9101.799.0101.3100.796.799.997.5浙 江98.5100.7100.598.299.8102.496.098.492.7安 徽99.1100.8101.297.199.0101.297.9100.394.0福 建98.299.0102.196.3100.3101.396.998.394.8江 西99.3100.1100.499.0101.3101.

9、197.3100.396.5山 东100.0101.3102.497.2100.1101.398.1100.898.8河 南99.4101.3101.799.7100.4101.997.8101.293.9湖 北99.6100.5101.499.1100.2101.498.498.997.7湖 南99.6100.3100.2100.0100.5100.298.2101.196.9广 东97.798.5102.797.399.3100.997.498.093.5广 西97.998.5100.897.898.6100.597.999.892.0海 南99.399.9100.998.6101.910

10、4.398.199.694.0重 庆98.4100.0101.694.797.299.498.298.595.9四 川100.8102.0101.898.1100.8101.199.3101.299.7贵 州98.798.5100.995.699.6100.998.2100.298.4云 南100.4101.6100.198.1100.3101.597.498.8101.9西 藏101.4103.9101.9101.699.3101.497.099.1100.0陕 西100.5102.3101.599.399.6101.699.498.899.2甘 肃101.3103.5102.699.810

11、1.4101.497.5100.3101.0青 海102.6103.0101.4107.0101.5102.599.3100.4104.4宁 夏100.7101.6102.199.2100.9101.798.4100.0101.7新 疆100.7102.1101.598.6101.9101.999.099.999.9其中,北京、河北、山东、贵州、重庆五省、直辖市、自治区不参与聚类分析,将作为待判别样本进行判别分析后的分组归类,以检验聚类结果。2聚类分析2.1系统聚类分析法2.1.1系统聚类分析法步骤将国内26个省、直辖市、自治区的9项消费价格指标数据输入SPSS,做聚类分析,具体步骤为:(1)

12、在数据编辑窗口的主菜单中选择“分析(A)”“分类(F)”“系统聚类(H)”(如图-1所示)。图-1(2)弹出“系统聚类分析”对话框,将“地区”变量选入“标注个案(C)”中,将其他变量选入“变量框”中,如图-2所示。在“分群”单选框中选中“个案”,表示进行的是Q型聚类。在“输出”复选框中选中“统计量”和“图”,表示要输出的结果包含以上两项。图-2(3)单击“统计量(S)”按钮,在“系统聚类分析:统计量”对话框中选择“合并进程表”、“相似性矩阵”,如图-3所示,表示输出结果将包括这两项内容。图-3(4)单击“绘制(T)”按钮,在“系统聚类分析:图”对话框中选择“树状图”、“冰柱”,如图-4所示,表

13、示输出的结果将包括谱系聚类图(树状)以及冰柱图(垂直)。图-4(5)单击“方法(M)”按钮,弹出“系统聚类分析:方法”对话框,如下图-5所示。图-5“聚类方法(M)”选项条中可选项包括如图-6所示的几种方法,本例中选择“组间联接”:图-6“度量标准-区间(N)”选项条中可选项包括如图-7所示的几种度量方法,本例中选择“平方Euclidean距离”:图-7“转换值-标准化(S)”选项条中可选项包括如图-8所示的几种将原始数据标准化的方法,本例中选择“全局从0到1”:图-82.1.2系统聚类法结果表-2 案例处理摘要a案例有效缺失合计N百分比N百分比N百分比26100.0%0.0%26100.0%

14、a. 平方 Euclidean 距离 已使用表-2中分别为有效个案、缺失个案和个案总数的个数和百分数。脚注显示聚类时采用的聚类方法为Between-groups linkage平均联结(组之间)。表-3表-3显示的是用平方Euclidean距离计算的近似矩阵表,其实质是一个不相似矩阵,其中的数值表示各个样本之间的相似系数,数值越大,表示两样本距离越大。表-4 聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 21812.156007223.15800832526.16400641116.16600155622.176001661925.1950312758.20301138

15、214.209201191013.275001110420.288001711210.3658916121923.377602013515.37970141457.45413018151117.48640191626.511115171724.5491610181825.64917142019911.6600152320219.68218122121221.86920022222181.1052102423191.2350192424121.357232225251242.0622400表-4所列各项的意义如下:“阶”指聚类步骤号;“群集组合”指在某步中合并的个案;“系数”指距离或相似系数;“

16、首次出现阶群集”指新生成聚类;“下一阶”指对应步骤生成的新类将在第几步与其它个案或新类合并。图-9 冰状图图-9是反映样本聚类情况的图,如果按照设定的类数,在那类数的行上从左到右就可以找到各类所包含的样本。图-10 聚类分析树状图(组间联接)图-10清晰地表示了聚类的全过程。根据聚类分析的原理:聚类是一个将数据划分为若干簇或类的过程,并使得同一簇内的数据对象具有较高的相似度,而不同簇中的数据对象具有较低的相似度。相似度则由基于数据对象描述属性的取值来确定,通常就是各对象之间的距离。从图中可以看出在起初各步中,难以看出有哪些聚类形成,但在最后一步,聚类合并时距离明显加大,线条很长,所以聚类终止。

17、其他聚类方法种聚类方法(组内联接法、最近邻元素法、最远邻元素法、质心聚类法、中位数聚类法、Ward法)生成的树状聚类图如图-11至图-16所示。图-11 聚类分析树状图(组内联接)图-12 聚类分析树状图(最近邻元素)图-13 聚类分析树状图(最远邻元素)图-14 聚类分析树状图(质心聚类法)图-15 聚类分析树状图(中位数聚类法)图-16 聚类分析树状图(Ward法)通过对以上7中方法的比较,我们可以看出,将这26个地区的消费水平指数分成3类是比较合适的,具体分类可参看表-5:表-5 不同聚类方法结果的对比聚类方法第一类第二类第三类聚类结果组间联接法天津、安徽、浙江、福建、河南、广东、江西、

18、海南青海其他组内联接法天津福建、浙江、广东、广西其他最近邻元素法天津青海其他最远邻元素法天津、浙江、福建、广东、广西、海南四川、甘肃、青海、宁夏、新疆其他质心聚类法天津青海其他中位数聚类法天津青海其他Ward法天津、浙江、福建、广东、广西四川、甘肃、青海、宁夏、新疆其他2.2 K-均值分析法(快速聚类法)2.2.1 K-均值聚类法步骤(1)在数据编辑窗口的主菜单中选择“分析(A)”“分类(F)”“K-均值聚类(K)”(如图-17所示)。图-17(2)弹出“K均值聚类分析”对话框,将“地区”变量选入“个案标记依据(B)”中,将其他变量选入“变量框(V)”中,如图-18所示。在“方法”单选框中选中

19、“迭代与分类”,在“聚类数”中填上“3”,表示聚类结果将分成3类。图-18(3)单击“迭代(I)”按钮,弹出“K均值聚类分析:迭代”对话框,在“最大迭代次数(M)”中填上“10”(默认值),如图-19所示,表示设定的最大迭代次数为10。图-19(4)单击“选项(O)”按钮,在“K均值聚类分析:选项”对话框中选择“初始聚类中心”、“每个个案的聚类信息”,如图-20所示,表示输出结果将包括这两项内容。图-20(6)单击“保存(S)”按钮,在“K均值聚类分析:保存”对话框中选择“聚类成员(C)”、“与聚类中心的距离(D)”,如图-21所示,表示输出结果将包括这两项内容,并保存在“变量视图”以及“数据

20、视图”中,如图-22、图-23所示。其中变量QCL-1表示的是案例的类别号,表示该个案是属于哪一类;QCL-2表示案例与其类别中心之间的距离。图-21图-22图-232.2.2 K-均值聚类法结果分析输出结果中,表-6表示的是初始聚类的中心,也就是质点。表-6 初始聚类中心聚类123居民消费价格指数99.0102.6100.7食品101.2103.0101.6烟酒及用品104.7101.4102.1衣着97.3107.099.2家庭设备用品及服务99.7101.5100.9医疗保健和个人用品102.6102.5101.7交通和通信96.399.398.4娱乐教育文化96.1100.4100.0

21、居住94.9104.4101.7表-7表示的是迭代历史记录。表-7 迭代历史记录a迭代聚类中心内的更改12314.604.0003.0472.000.000.000a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 2。初始中心间的最小距离为 8.727。表-8表示的是最终聚类中心,可以看出,第1类的消费价格增长最低,第2类居中,第3类最高。表-8 最终聚类中心聚类123居民消费价格指数98.6102.6100.2食品100.0103.0101.7烟酒及用品101.8101.4101.3衣着97.8107.098.7家庭设备用品及服务99.91

22、01.5100.6医疗保健和个人用品101.9102.5101.2交通和通信97.399.398.0娱乐教育文化99.0100.499.5居住93.7104.499.0表-9表示的是最终聚类中心间的距离,可以看出,第2类与第3类之间的距离要比第2类与第1类之间的距离小。表-9 最终聚类中心间的距离聚类123115.2625.991215.26210.53935.99110.539表-10表示的是每个聚类中的案例数,可以看出,第1类有8个样本,第2类中有1个样本,第3类有17个样本。表-10 每个聚类中的案例数聚类18.00021.000317.000有效26.000缺失.000表-11是聚类表

23、,表示的是每个个案的分类情况:第3列“聚类”表示的是该案例属于哪一类,第4列“距离”表示该案例与其所属类别重心之间的距离。表-11 聚类成员案例号地区聚类距离1天 津14.6042山 西32.7813内蒙古32.3604辽 宁35.1745吉 林31.8116黑龙江33.4617上 海33.6738江 苏32.4599浙 江12.39710安 徽12.28411福 建12.39312江 西33.48113河 南13.39914湖 北32.09715湖 南33.65916广 东12.52817广 西13.37818海 南13.60919四 川32.52220云 南33.33821西 藏34.35

24、322陕 西32.14423甘 肃33.60724青 海2.00025宁 夏33.04726新 疆32.176分析上表可知,若采用“K-均值聚类法(快速聚类法)”,第1类包括天津、浙江、安徽、福建、河南、广东、广西、海南,第2类包括青海,剩下的其他样本属于第3类。第1类的消费价格增长最低,第2类居中,第3类最高。3.聚类结果分析比较系统聚类法和K-均值聚类法(快速聚类法)的输出结果,可以看出,其聚类结果大致相同。比较合理的聚类方法是将所有样本分成3类,第1类包括天津、浙江、安徽、福建、河南、广东、广西、海南,第2类包括青海,剩下的其他样本属于第3类。第1类的消费价格增长最低,第2类居中,第3类最高。参考资料1 何晓群.多元统计分析.北京:中国人民大学出版社,20122 中国统计摘要-2010学院 高级统计学聚类分析学 号:专 业:学生姓名:任课教师: 2012年7月

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1