1、它们的主要作用是把非线性数据结构变为线性数据结构。称变换(4)极差标准化变换称为极差标准化变换,变换后的数据,每个变量的样本均值为0,极差为1,且 ,在以后的分析计算中可以减少误差的产生;同时变换后的数据也是无量纲的量。5.极差正规化变换为极差正规化变换。变换后的数据 ;极差也为1,同时变换后的数据也是无量纲的量。2、距离的定义1.闵科夫斯基(Minkowski)距离称为闵科夫斯基距离。(1)绝对值距离:在上式中,当q=1时的一阶闵科夫斯基距离为称它为绝对值距离。(2)欧氏距离:取 ,就可以得到二阶闵科夫斯基距离为称它为欧氏距离。3、系统聚类法的思想(1)定义样品间的距离(或相似系数)和类与类
2、之间的距离;(2)将n个样品各自自成一类,这时类间的距离与样品间的距离是等价的;(3)然后将距离最近的两类合并,并计算新类与其他的类间距离,再按最小距离准则并类。这样每次缩小一类,直到所有的样品都成一类为止。这个并类过程可以用谱系聚类图形像地表达出来4、系统聚类的步骤(1)数据变换:可以使用上节介绍的方法对数据进行变换。数据变换目的是为了便于比较、计算上的方便或改变数据的结构。选择试题样品间距离的定义(如欧氏距离)及度量类间距离的定义。(2)计算n个样品两两间的距离,得样品间的距离矩阵(3)一开始n样品各自构成一类,类的个数 个类: ,此时类间距离就是样品间的距离(即 )然后对步骤 执行并类过
3、程(4)和(5).(4)每次合并类间距离最小的两类为一新类,此时类的总个数k减少到1类,即(5)计算新类与其他类的距离,得到新的距离矩阵,若合并后类的总个数k仍大于1,重复(4)和(5)步,直到类的总个数为1为止。(6)画谱系聚类图。(7)决定分类的个数及各类的成员。二、问题提出与分析现有南部海洋1970-1985年20个站点的平均每年每月的表面空气温度数据,请用聚类分析研究南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为几类最合适。数据资料如下表所示:观测站点一月二月三月四月五月六月七月八月九月十月十一月十二月坎贝尔岛9.59.79.18.07.14.95.
4、95.84.86.57.5Leeuwin19.920.019.017.515.814.913.912.812.914.115.0开普敦19.620.816.118.911.811.111.512.015.917.420.9查塔姆岛13.314.813.610.99.48.99.610.212.3克罗泽10.611.28.66.64.73.93.12.92.63.76.0戈夫岛14.012.79.39.210.114.5格瑞特威肯5.72.8-0.4-0.8-2.50.11.52.03.2复活节岛23.023.322.821.721.519.218.017.921.220.5胡安费尔南德兹17.
5、316.515.413.411.612.514.216.9凯尔盖朗8.57.23.41.32.55.2maatsuyker15.116.48.18.813.7麦夸里岛7.35.64.44.54.37.0玛丽恩岛7.68.34.64.05.3新阿姆斯特丹岛13.511.011.315.7皮特克恩岛22.522.921.621.420.419.418.719.8蓬塔阿雷纳斯2.30.80.53.86.8拉乌尔22.421.922.020.718.817.218.219.120.2白菜23.524.724.118.420.1拉罗汤加岛25.826.226.324.523.423.123.724.42
6、5.6斯坦利8.23.01.6https:/legacy.bas.ac.uk/met/READER/temperature.html该问题是聚类分析问题,实际中通常要解决以下问题:(1)会对实际问题进行聚类分析;(2)掌握SAS输出结果用于判别实际问题的数据分为几类最合适。在本问题中,即用于判别南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为几类最合适。三、模型建立程序:data jlfx;input groups $ x1-x12;cards;坎贝尔岛 9.5 9.7 9.1 8.0 7.1 4.9 5.9 5.8 4.8 6.5 7.5 9.1Leeuwi
7、n 19.9 20.0 19.0 17.5 15.8 14.9 13.9 12.8 12.9 14.1 15.0 17.5开普敦 19.6 20.8 16.1 18.9 13.9 11.8 11.1 11.5 12.0 15.9 17.4 20.9查塔姆岛 13.3 14.8 13.6 12.0 10.9 9.4 7.5 8.9 9.6 10.2 12.3 12.8克罗泽 10.6 11.2 8.6 6.6 4.7 3.9 3.1 2.9 2.6 3.7 4.8 6.0戈夫岛 14.0 14.0 12.7 12.8 10.9 9.3 9.1 9.2 9.2 10.1 12.3 14.5格瑞特威
8、肯 4.9 5.7 4.9 2.8 -0.4 -0.8 -2.5 0.1 1.5 2.0 3.9 3.2复活节岛 23.0 23.3 22.8 21.7 21.5 18.9 19.2 18.0 17.9 19.6 21.2 20.5胡安费尔南德兹 17.5 17.3 16.5 15.4 14.9 13.4 12.8 11.6 12.5 14.2 16.9 17.3凯尔盖朗 8.5 9.3 7.2 6.6 3.4 1.3 2.0 2.6 2.5 3.4 5.2 7.1maatsuyker 15.1 16.4 15.1 13.4 11.1 9.3 9.1 8.1 8.8 10.1 10.9 13.
9、7麦夸里岛 8.1 8.0 7.3 6.0 5.6 4.4 4.5 4.5 2.5 4.3 4.9 7.0玛丽恩岛 7.6 8.3 5.8 8.3 4.6 4.0 3.7 3.2 3.1 4.5 5.3 6.0新阿姆斯特丹岛 17.4 17.4 15.8 15.9 13.5 12.5 11.0 11.3 11.2 11.1 12.9 15.7皮特克恩岛 22.5 22.9 23.0 21.6 21.4 20.4 19.4 17.9 18.7 19.8 21.6 21.7蓬塔阿雷纳斯 8.6 8.3 7.6 5.7 2.3 0.8 0.5 2.8 3.8 6.8 7.5 8.0拉乌尔 22.4
10、21.9 22.0 20.7 19.0 18.8 16.1 17.2 17.2 18.2 19.1 20.2白菜 23.5 24.7 24.1 23.3 21.4 19.0 18.4 17.9 18.9 20.1 20.9 21.7拉罗汤加岛 25.8 25.8 26.2 26.3 24.5 23.4 23.0 22.0 23.1 23.7 24.4 25.6斯坦利 8.2 8.2 7.6 5.9 3.0 2.5 1.6 3.1 4.6 5.7 6.8 7.2;proc cluster data=jlfx method=com pseudoccc outtree=Bjlfx;var x1-x1
11、2;id groups;proc tree data=Bjlfx horizontal graphics;title数据不变换、使用最长距离法的谱系聚类图run;输出结果一:输出结果二:输出结果三:结果分析:输出结果一为12个聚类变量的协方差阵的特征值等信息。从输出结果二可以看出: 准则支持分为二类和三类;伪F统计量支持分为三类 ;伪t方统计量支持分为二类和三类。综合分析,认为用最长距离法20个站点分为三类较合适。从输出结果三可以看出分为三类的结果: 坎贝尔岛, 克罗泽, 凯尔盖朗, 麦夸里岛, 玛丽恩岛, 蓬塔阿雷纳斯, 斯坦利, 格瑞特威肯 Leeuwin, 胡安费尔南德兹, 开普敦, 查塔姆岛, 戈夫岛, maatsuyker, 新阿姆斯特丹岛 复活节岛, 皮特克恩岛, 白菜, 拉乌尔, 拉罗汤加岛 四、总结通过南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据进行聚类分析,我得到了南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为三类最合适这一结论。详细地说,即从以上分析可以看出,的准则支持分为二类和三类;伪F统计量支持分为三类;伪t统计量支持分为二类和三类。 综合分析,认为用最长距离法20个站点分为三类较合适。 分为三类的结果为:
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1