ImageVerifierCode 换一换
格式:DOCX , 页数:11 ,大小:222.58KB ,
资源ID:5146248      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/5146248.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(优选精文聚类分析.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

优选精文聚类分析.docx

1、优选精文聚类分析合肥学院20152016第二学期多元统计分析课程论文论文题目 聚类分析 姓名 陈毅 学号 1307021036 专业 数学与应用数学(1)成绩 2015.5聚类分析摘要:本论文为了研究南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为几类最合适。用南部海洋1970-1985年20个站点的平均每年每月的表面空气温度数据中,所有数据两两数据间距离的平均作为类间距离,使用聚类分析中的最长距离法,运用SAS软件,从而得出相应的数据,分析数据即确定了南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为几类最合适。关键词:聚类分

2、析最长距离法SAS软件分类一、聚类分析理论1、数据的变换方法(1)中心变换变换称为中心化变换。它是一种标准化处理方法,变换后数据的均值为0,而协方差阵不变,即协差阵为,其中。中心化变换是一种方便地计算样本协差阵的变换。(2)标准化变换变换称为标准化变换,变换后的数据,每个变量的样本均值为0,标准差为1,而且标准化变换后的数据与变量的量纲无关。(3)对数变换变换称为对数变换,它可将具有指数特征的数据结构化为线性数据结构此外,还有平方根变换,立方根变换等。它们的主要作用是把非线性数据结构变为线性数据结构。称变换(4)极差标准化变换称变换称为极差标准化变换,变换后的数据,每个变量的样本均值为0,极差

3、为1,且,在以后的分析计算中可以减少误差的产生;同时变换后的数据也是无量纲的量。5.极差正规化变换称变换为极差正规化变换。变换后的数据;极差也为1,同时变换后的数据也是无量纲的量。2、距离的定义1.闵科夫斯基(Minkowski)距离称为闵科夫斯基距离。(1)绝对值距离:在上式中,当q=1时的一阶闵科夫斯基距离为称它为绝对值距离。(2)欧氏距离:取,就可以得到二阶闵科夫斯基距离为称它为欧氏距离。3、系统聚类法的思想(1)定义样品间的距离(或相似系数)和类与类之间的距离;(2)将n个样品各自自成一类,这时类间的距离与样品间的距离是等价的;(3)然后将距离最近的两类合并,并计算新类与其他的类间距离

4、,再按最小距离准则并类。这样每次缩小一类,直到所有的样品都成一类为止。这个并类过程可以用谱系聚类图形像地表达出来4、系统聚类的步骤(1)数据变换:可以使用上节介绍的方法对数据进行变换。数据变换目的是为了便于比较、计算上的方便或改变数据的结构。选择试题样品间距离的定义(如欧氏距离)及度量类间距离的定义。(2)计算n个样品两两间的距离,得样品间的距离矩阵。(3)一开始n样品各自构成一类,类的个数个类:,此时类间距离就是样品间的距离(即)然后对步骤执行并类过程(4)和(5).(4)每次合并类间距离最小的两类为一新类,此时类的总个数k减少到1类,即。(5)计算新类与其他类的距离,得到新的距离矩阵,若合

5、并后类的总个数k仍大于1,重复(4)和(5)步,直到类的总个数为1为止。(6)画谱系聚类图。(7)决定分类的个数及各类的成员。二、问题提出与分析现有南部海洋1970-1985年20个站点的平均每年每月的表面空气温度数据,请用聚类分析研究南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为几类最合适。数据资料如下表所示:观测站点一月二月三月四月五月六月七月八月九月十月十一月十二月坎贝尔岛9.59.79.18.07.14.95.95.84.86.57.59.1Leeuwin19.920.019.017.515.814.913.912.812.914.115.017.5

6、开普敦19.620.816.118.913.911.811.111.512.015.917.420.9查塔姆岛13.314.813.612.010.99.47.58.99.610.212.312.8克罗泽10.611.28.66.64.73.93.12.92.63.74.86.0戈夫岛14.014.012.712.810.99.39.19.29.210.112.314.5格瑞特威肯4.95.74.92.8-0.4-0.8-2.50.11.52.03.93.2复活节岛23.023.322.821.721.518.919.218.017.919.621.220.5胡安费尔南德兹17.517.316

7、.515.414.913.412.811.612.514.216.917.3凯尔盖朗8.59.37.26.63.41.32.02.62.53.45.27.1maatsuRker15.116.415.113.411.19.39.18.18.810.110.913.7麦夸里岛8.18.07.36.05.64.44.54.52.54.34.97.0玛丽恩岛7.68.35.88.34.64.03.73.23.14.55.36.0新阿姆斯特丹岛17.417.415.815.913.512.511.011.311.211.112.915.7皮特克恩岛22.522.923.021.621.420.419.4

8、17.918.719.821.621.7蓬塔阿雷纳斯8.68.37.65.72.30.80.52.83.86.87.58.0拉乌尔22.421.922.020.719.018.816.117.217.218.219.120.2白菜23.524.724.123.321.419.018.417.918.920.120.921.7拉罗汤加岛25.825.826.226.324.523.423.022.023.123.724.425.6斯坦利8.28.27.65.93.02.51.63.14.65.76.87.2https:/legacR.bas.ac.uk/met/READER/temperatur

9、e.html该问题是聚类分析问题,实际中通常要解决以下问题:(1)会对实际问题进行聚类分析;(2)掌握SAS输出结果用于判别实际问题的数据分为几类最合适。在本问题中,即用于判别南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为几类最合适。三、模型建立程序:datajlfR;inputgroups$R1-R12;cards;坎贝尔岛 9.5 9.7 9.1 8.0 7.1 4.9 5.9 5.8 4.8 6.5 7.5 9.1Leeuwin 19.9 20.0 19.0 17.5 15.8 14.9 13.9 12.8 12.9 14.1 15.0 17.5开普敦

10、 19.6 20.8 16.1 18.9 13.9 11.8 11.1 11.5 12.0 15.9 17.4 20.9查塔姆岛 13.3 14.8 13.6 12.0 10.9 9.4 7.5 8.9 9.6 10.2 12.3 12.8克罗泽 10.6 11.2 8.6 6.6 4.7 3.9 3.1 2.9 2.6 3.7 4.8 6.0戈夫岛 14.0 14.0 12.7 12.8 10.9 9.3 9.1 9.2 9.2 10.1 12.3 14.5格瑞特威肯 4.9 5.7 4.9 2.8 -0.4 -0.8 -2.5 0.1 1.5 2.0 3.9 3.2复活节岛 23.0 23

11、.3 22.8 21.7 21.5 18.9 19.2 18.0 17.9 19.6 21.2 20.5胡安费尔南德兹 17.5 17.3 16.5 15.4 14.9 13.4 12.8 11.6 12.5 14.2 16.9 17.3凯尔盖朗 8.5 9.3 7.2 6.6 3.4 1.3 2.0 2.6 2.5 3.4 5.2 7.1maatsuRker15.1 16.4 15.1 13.4 11.1 9.3 9.1 8.1 8.8 10.1 10.9 13.7麦夸里岛 8.1 8.0 7.3 6.0 5.6 4.4 4.5 4.5 2.5 4.3 4.9 7.0玛丽恩岛 7.6 8.3

12、 5.8 8.3 4.6 4.0 3.7 3.2 3.1 4.5 5.3 6.0新阿姆斯特丹岛 17.4 17.4 15.8 15.9 13.5 12.5 11.0 11.3 11.2 11.1 12.9 15.7皮特克恩岛 22.5 22.9 23.0 21.6 21.4 20.4 19.4 17.9 18.7 19.8 21.6 21.7蓬塔阿雷纳斯 8.6 8.3 7.6 5.7 2.3 0.8 0.5 2.8 3.8 6.8 7.5 8.0拉乌尔 22.4 21.9 22.0 20.7 19.0 18.8 16.1 17.2 17.2 18.2 19.1 20.2白菜 23.5 24.

13、7 24.1 23.3 21.4 19.0 18.4 17.9 18.9 20.1 20.9 21.7拉罗汤加岛 25.8 25.8 26.2 26.3 24.5 23.4 23.0 22.0 23.1 23.7 24.4 25.6斯坦利 8.2 8.2 7.6 5.9 3.0 2.5 1.6 3.1 4.6 5.7 6.8 7.2;procclusterdata=jlfRmethod=compseudocccouttree=BjlfR;varR1-R12;idgroups;proctreedata=BjlfRhorizontalgraphics;title数据不变换、使用最长距离法的谱系聚类

14、图;run;输出结果一:输出结果二:输出结果三:结果分析:输出结果一为12个聚类变量的协方差阵的特征值等信息。从输出结果二可以看出:准则支持分为二类和三类;伪F统计量支持分为三类;伪t方统计量支持分为二类和三类。综合分析,认为用最长距离法20个站点分为三类较合适。从输出结果三可以看出分为三类的结果:坎贝尔岛,克罗泽,凯尔盖朗,麦夸里岛,玛丽恩岛,蓬塔阿雷纳斯,斯坦利,格瑞特威肯Leeuwin,胡安费尔南德兹,开普敦,查塔姆岛,戈夫岛,maatsuRker,新阿姆斯特丹岛复活节岛,皮特克恩岛,白菜,拉乌尔,拉罗汤加岛四、总结通过南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据进行聚类分析,我得到了南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为三类最合适这一结论。详细地说,即从以上分析可以看出,的准则支持分为二类和三类;伪F统计量支持分为三类;伪t统计量支持分为二类和三类。综合分析,认为用最长距离法20个站点分为三类较合适。分为三类的结果为:坎贝尔岛,克罗泽,凯尔盖朗,麦夸里岛,玛丽恩岛,蓬塔阿雷纳斯,斯坦利,格瑞特威肯Leeuwin,胡安费尔南德兹,开普敦,查塔姆岛,戈夫岛,maatsuRker,新阿姆斯特丹岛复活节岛,皮特克恩岛,白菜,拉乌尔,拉罗汤加岛

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1