ImageVerifierCode 换一换
格式:DOCX , 页数:20 ,大小:173.42KB ,
资源ID:24694362      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/24694362.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(多元统计课程设计.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

多元统计课程设计.docx

1、多元统计课程设计多元统计分析课程设计题 目: 聚类分析在研究全国29个省 市科研与发展状况中的应用 学 院: 理学院 班 级: 数学14-2 学 生 姓 名: 何恺 学 生 学 号: 2014028304 指 导 教 师: 李文宇 2016年 12 月17日课程设计任务书姓名何恺班级数学14-2学号2014028304设计题目聚类分析在研究全国29个省市科研与发展状况中的应用理论要点均值:标准差:极差:设计目标根据聚类分析的原理和方法,对全国29个省市的科研与发展状况进行分析,用SPSS软件求解,并对结果进行分析。研究方法步骤(1)分析问题(2)收集数据(3)运用SPSS软件进行分类(4)分析

2、结果预期结果成功地运用两种方法对全国29个省市的科研与发展状况进行分析。计划与进度的安排课程安排一周,分4次完成:第一次(1-2天):学习系统聚类法和K均值聚类法的相关知识第二次(3-4天):分析问题,上网收集数据第三次 (5-6天) :运用SPSS软件解决问题,进行分类第四次(7天) :写课程设计说明书摘要聚类分析在应用多元统计分析中是一个很重要的部分,是根据研究对象的特征按照一定标准对研究对象进行分类的一种分析方法,它使组内的数据对象具有最高的相似度,而组间具有较大的差异。聚类分析可以在没有先验分类的情况下通过观察对数据进行分类,在科学研究和实际的生产实践中都具有广泛的应用。SPSS的分类

3、过程可以使用户方便地实现聚类分析。通过对聚类分析的学习,可以将实际问题转化为应用多元统计分析的具体问题,运用聚类分析的知识,利用SPSS实现对问题的分类和解读,达到分类的真实效果。本文运用了系统聚类和K均值聚类的方法,将我国各省市的科研与发展状况进行聚类分类,且在分类中充分考虑了各指标之间的关系,使分类达到了很好的效果。通过SPSS对取得的数据进行分析,可以将各省市的状况分为4类,进而对给省市的科研与发展情况有了更好的了解。关键词:系统聚类 聚类分析 SPSS1基本原理1.1系统聚类法开始将 n个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算

4、新类与其它类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。一般常用的有八种系统聚类方法,即最短距离法、最长距离法、中间距离法、中心法、类平均法、可变类平均法、可变法、利差平方和法。所有这些聚类方法的区别在于类与类之间距离的计算方法不同。1.根据聚类图确定分类个数的原则准则A:各类重心之间的距离必须很大;准则B:确定的类中,各类所包含的元素都不要太多;准则C:类的个数必须符合使用目的;准则D:若采用几种不同的聚类方法处理,则在各自的聚类图中应发现相同的类。2.确定分类个数的方法 (1)由适当的阈值T确定类的个数:阈值T是根据实际情况认为给定的,用阈值T五分割聚类图,对

5、样品(或变量)分类。(2)根据数据点的散布图变化趋势确定类的个数:如果考察的变量只有两个,则可通过数据点在平面上做散布图,在曲线拐弯处确定类的个数;如果考察的变量有三个,可以绘制三维散布图并通过旋转三维坐标轴由数据点在曲线拐弯处的分布来确定应分为几类。当考察的变量在三个以上时,个已有这些变量给出两个或三个综合变量后再绘制数据点在综合变量上的散布图,从而直观的确定分类个数。 3.最短距离法类和之间的距离为两类最近样品的距离,即设类和合并成一个新的类记为,则任一类与的距离是:=最短距离法聚类的步骤如下: (1)定义样品之间的距离,计算样品两两距离,得一距离矩阵,开始样品每个各成一类,显然这时。(2

6、)找出的非对角线最小元素,设为,则将和合并成一个新类,记为,即=。(3)给出计算新类与其他类的距离公式:,将中p,q行及p,q列用上面公式并成一个新列,新行新列对应,所得到的距离阵记为。(4)对重复上述对的2.3两步的;如此下去,直到所有的元素并成一类为止。4.类平均法 它定义两类之间的距离平方为这两类元素两两之间距离平方的平均,即,设聚类到某一步将和合并,则任一类与的距离为:1.2 K均值聚类法 从数据集中选取K个点作为初始聚类中心,将样本分为K类,然后计算各个样本到聚类中的距离,把样本归到离它最近的那个聚类中心所在的类。计算新形成的每一个聚类的数据对象的平均值来得到新的聚类中心,如果相邻两

7、次的聚类中心没有任何变化,说明样本调整结束,聚类准则函数已经收敛。特点是在每次迭代中都要考察每个样本的分类是否正确。若不正确,就要调整,在全部样本调整完后,再修改聚类中心,进入下一次迭代。如果在一次迭代算法中,所有的样本被正确分类,则不会有调整,聚类中心也不会有任何变化。2问题描述下表是2014年我国29个省研究与实验发展经费、财政收入、GDP总量、教育经费的数据,试使用系统聚类法对这些地区进行聚类分析。表2 全国29个省的各项数据地区研究与实验发展经费(亿元)财政收入(亿元)GDP总量(亿元)教育经费(亿元)北京1268.84723.921330.80505.78天津464.72667156

8、72.97225.28河北313.12648.529421.20543.7山西152.21642.212759.44341.34内蒙古122.11963.517769.50351.37辽宁435.22125.628826.58464.99吉林130.71229.313803.81270.18黑龙江161.31165.215039.40302.69上海862.05519.523580.94435.75江苏1652.88028.5965088.32877.82浙江907.9481040153.50639.27安徽393.6245420848.80437.84福建355.02544.0824055.

9、78378.99江西153.12165.515708.60311.04山东1304.15529.359426.60773.66河南400.03009.634939.38674.56湖北510.9358927367.04373.51湖南367.92513.127048.50443.55广东1605.49364.7667792.241033.7海南111.910103500.72107.74重庆16.9215514265.40280.66四川201.93329.128536.70661.86贵州449.31503.359251.01307.03云南55.51808.1412814.59442.58

10、西藏85.9124920.8063.35陕西2.42059.8717689.94370.44甘肃366.8743.96835.27258.97青海76.92672301.12107.74宁夏14.3373.72752.1281.973 系统聚类分析3.1实际操作(1)在SPSS将数据导入数据视图(2)点击SPSS选择分析、描述统计,将变量全部标准化(3)点击SPSS选择分析、分类、系统聚类;选中系统聚类分析主页面,将地区选入标注个案,将变量研究与实验发展经费至教育经费移入变量框中。单击定义组。因为本案例是对样本进行聚类,所以在分群中勾选个案,在输出选项组中勾选统计量复选框和图复选框。(4)点击

11、绘制按钮,选中树状图和冰柱栏中的无,点击继续按钮(5)点击保存按钮,在聚类成员框中选中方案范围按钮,最小聚类数设为2,最大聚类书设为5,继续(6)统计量和方法都选择系统默认值(7)点击确认,运行系统聚类过程3.2结果分析对数据进行聚类分析,结果如下表所示:(1)案例处理汇总表表3-2 案例处理汇总表案例有效缺失总计N百分比N百分比N百分比29100.00.029100.0a. 平方 Euclidean 距离 已使用 b. 平均联结(组之间) 案例处理汇总表中汇总了有效数据29个,占百分之百,缺失数据0个,占百分之零。总计数量29个,占百分比百分之百。(2)聚类过程的结果 下表是对每一阶段聚类结

12、果的反映,第四列表示聚合系数,第二列第三列表示聚合的类,例如,第一个阶段是把相似程度较大的第五个样品和第二十六个样品聚为一类,此时有28类,第二个阶段是把相似程度较大的第四个样品和第二十四个样品聚为一类,此时有27类,以此类推。表3-3聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 2152630308.7250014242450178.034001132829219368.7430094214357221.0850014536648101.02800867211083046.0890010717181284383.143001283221448756.593501292

13、0281483891.831031310781566450.720601111473040447.40021019123173834328.94087231320254264323.250902214254487249.083411915195866499.82000201623276421680.06400221710199123078.970002418121310297788.4090020192411273351.8521411252011211400937.08215182321111630687695.329002722202335415825.936131626231339519

14、127.05420122524101561643526.6851702825121.289E8231926261203.073E8252227271115.393E8262128281102.279E927240(3) 树状聚类图图3-4 树状聚类图由上图可以由分类个数得到分类情况:第一类:北京、天津、河北、山西、内蒙古、辽宁、吉林、黑龙江、上海、安徽、福建、江西、湖北、湖南、重庆、四川、云南、陕西第二类:江苏、山东、广东第三类:浙江、河南第四类:海南、贵州、甘肃、青海、西藏、宁夏4 K均值聚类分析4.1操作步骤(1)在菜单中依次单击分析,分类,K-均值聚类,打开K-均值聚类对话框。将地区选入

15、个案标记依据,将研究与实验发展经费、财政收入、GDP总量、教育经费选入变量,聚类数,本例中设为4,方法选项组中采用默认的迭代与分类选项。(2)输出结果设置:单击保存按钮,打开K-Means群集:保存新变量对话框,勾选聚类成员和与聚类中心的距离复选框,单击继续。(3)选择统计量指标:单击选项按钮,打开K均值聚类分析:选项对话框,勾选初始聚类中心、ANOVA表和每个个案的聚类信息,输出方差分析表和相应的个案信息。缺失值处理方式使用系统默认选项。(4)单击确定按钮,执行操作,输出结果。4.2结果分析(1)初始类中心表4-2 初始聚类中心聚类1234研究与实验发展经费(亿元)2.41605.4907.

16、985.9教育经费(亿元)370.441033.70639.2763.35财政收入(亿元)2059.879364.764810.00124.00GDP总量(亿元)17689.9467792.2440153.50920.80 上表为初始聚类中心表,从上表中可以看出聚类数为4,所以表中给出了4个初始类中心点。因为是初始聚类中心,在后面的迭代过程中类中心会发生调整。(2)迭代历史记录 下表为迭代历史记录表,显示了聚类分析所经历的迭代过程,从中可以看出,聚类分析过程经历了3次迭代,前两次的变化较大,最后一次聚类中心内的更改没有变化,所以表示迭代完成。初始中心间的最小距离为16883.510表4-3 迭

17、代历史记录迭代聚类中心内的更改123412224.7454075.9235489.4303386.42121805.500.0003307.304.0003693.947.000650.719.0004.000.000.000.000a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 4。初始中心间的最小距离为 16883.510。(3)聚类成员 下表为聚类成员表,第三列为该地区所在的类别数,第四列为该案例距离类中心的距离。把地区分为4类时:第一类:北京、天津、山西、内蒙古、吉林、黑龙江、上海、安徽、福建、江西、重庆、云南、陕西第二类:江苏、山

18、东、广东第三类:河北、辽宁、浙江、河南、湖北、湖南、四川第四类:海南、贵州、西藏、甘肃、青海、宁夏表4-4聚类成员案例号地区聚类距离1北京 14688.8592天津 11684.2623河北 31565.2484山西 14651.5235内蒙古 1695.6236辽宁 32311.5347吉林 13747.1258黑龙江 12644.2629上海 16973.75710江苏 21067.76011浙江 39414.57412安徽 13516.70113福建 16722.48814江西 11662.24115山东 25136.48216河南 34045.13417湖北 33564.15618湖南

19、 33904.31419广东 24075.92320海南 4836.39521重庆 13100.12822四川 32385.06023贵州 45069.11724云南 14575.65825西藏 43386.42126陕西 1627.83027甘肃 42584.72628青海 42003.56029宁夏 41548.008(4)最终聚类中心表4-5最终聚类中心聚类1234研究与实验发展经费(亿元)318.31520.8448.1184.2教育经费(亿元)358.00895.06543.06154.47财政收入(亿元)2469.017640.883146.41670.33GDP总量(亿元)173

20、33.8464102.3930898.994260.17 该表为最终聚类中心表,由此表,再对比上面得出的初始聚类中心表就可以看出最终聚类中心和初始聚类中心相比发生了很大的变化。说明聚类过程中初始类中心坐标进行了调整。(5)最终聚类中心间的距离表4-6 最终聚类中心间的距离聚类1234147072.06313583.92613199.074247072.06333525.22260266.194313583.92633525.22226757.766413199.07460266.19426757.766 该表为最终聚类中心间的距离表。例如第1类和第2类中心点坐标之间的距离为47072.063,

21、第2类和第3类中心点坐标之间的距离为33525.222。以此类推。(6)方差分析表表4-7 方差分析表聚类误差FSig.均方df均方df研究与实验发展经费(亿元)1362859.918386958.7042515.672.000教育经费(亿元)418548.972310027.4502541.740.000财政收入(亿元)33259707.46231322286.5162525.153.000GDP总量(亿元)2.676E9316556330.51425161.620.000F 检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因

22、此无法将其解释为是对聚类均值相等这一假设的检验。 该表是方差分析表,F值只能作为描述使用,不能根据该值判断各类均值是否有显著性差异,从方差分析表可以看出有三个变量:研究与实验发展经费、教育经费、财政收入,对分类现象显著。(7)每个聚类的案列数目表4-8聚类中的案例数聚类113.00023.00037.00046.000有效29.000缺失.000 每个聚类中的案例数表,由表便可看出,类别1中的案例数为13个,类别2中的案例数为3个,类别3中的案例数为7个,类别4中的案例数为6。有效个案数为29个。(8)K均值矩阵把地区分为4类第一类:北京、天津、山西、内蒙古、吉林、黑龙江、上海、安徽、福建、江

23、西、重庆、云南、陕西第二类:江苏、山东、广东第三类:河北、辽宁、浙江、河南、湖北、湖南、四川第四类:海南、贵州、西藏、甘肃、青海、宁夏5 两种方法结果比较系统聚类K均值聚类第一类北京、天津、河北、山西、内蒙古、辽宁、吉林、黑龙江、上海、安徽、福建、江西、湖北、湖南、重庆、四川、云南、陕西北京、天津、山西、内蒙古、吉林、黑龙江、上海、安徽、福建、江西、重庆、云南、陕西第二类江苏、山东、广东江苏、山东、广东第三类浙江、河南河北、辽宁、浙江、河南、湖北、湖南、四川第四类海南、贵州、西藏、甘肃、青海、宁夏海南、贵州、西藏、甘肃、青海、宁夏 上面我已经分别用了系统聚类法和K均值法对我国29个省进行了分类

24、,结果如上表所示。可以看出两种方法结果有些许不同,说明这个分类比较合理。系统聚类法要计算出不同样品或变量的距离,计算量较大,较麻烦,而K均值法得到的结果比较明了简洁。系统聚类对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数结果。通过这两种方法,我们可以发现对比两种方法更利于结果分析,找到更合理的分类。所以,在对案例进行分析时,选择几种算法进行反复检验,对于结果的分析是有好处的。K均值法与系统聚类法相同之处都是以距离的远近进行聚类。K均值法与系统聚类法的不同之处是系统聚类是对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数结果。需要计算出不同样品或变量的距离,还要在聚类的每

25、一步都要及时“类间距离”,计算量比较大。而K均值法得到的结果比较简单易懂。6 心得体会通过这次课程设计,我知道聚类分析的多种方法。聚类分析在解决实际问题中有很重要的意义,有些实际问题解决起来很麻烦,但通过聚类分析以及SPSS软件的结合应用,就能很清楚的得到解决,给我们带来了很大的方便。我也更加熟悉了SPSS这个数字软件的作用,并能很好的运用到实际中去。相信这对我今后的学习会有很大的帮助。 7 参考文献1 任雪松,于秀林.多元统计分析第二版.中国统计出版社2 张红坡,张海峰.SPSS统计分析实用宝典.清华大学出版社课程设计评阅书课程设计报告评语:(评阅意见主要对设计任务的合理性、规范性和正确性以及设计报告书的完整性、规范性和通顺性等方面作出评价) 报告成绩: 答辩记录与评语: 答辩成绩: 课程设计总成绩: 教师签名: 年 月 日

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1