关于数理统计中系统聚类法的讨论概要.docx-资源下载

关于数理统计中系统聚类法的讨论概要.docx

1、关于数理统计中系统聚类法的讨论概要286中国卫生统计2005年10月第22卷第5期关于数理统计中系统聚类法的讨论*重庆医科大学数学教研室(400016张世强提要目的研究聚类分析中系统聚类法的某些聚类过程对聚类结果产生的干扰, 寻找消除该干扰的聚类过程。方法利用图论和模糊数学中的最大树聚类法为标准, 对不同的聚类过程进行分析, 找出系统聚类法中某些聚类过程给聚类结果带来的严重影响的原因。结果给出能消除系统聚类法中某些聚类过程给聚类结果带来严重影响的统一的(指标或样品聚类过程。结论统一的(指标或样品聚类过程消除了系统聚类法中某些聚类过程给聚类结果带来的严重影响; 不但保留了系统聚类

2、法中聚类过程的优点, 而且还能挖掘出隐藏在原始数据中的有用信息。关键词数理统计聚类分析系统聚类最大树聚类法在使用系统聚类法进行聚类的过程中, 不少文献均给出了多个聚类过程, 导致出不同的聚类结果。对于应选哪一个结果作为最优的结果或最符合实际情况的结果, 不同文献给出了不同的解释。本文以图论和模糊数学中的最大树法为标准, 分析了系统聚类法中的各种聚类过程, 发现无论是对指标聚类(R 型聚类 , 还是对样品聚类(Q 型聚类 , 均只有一种聚类过程不对原始信息产生干扰, 而其余聚类过程均会增加干扰信息或丢失原始信息。进一步将关于样品聚类和关于指标聚类的系统聚类过程统一起来, 解决了聚类结果不

3、确定问题, 使聚类过程简单明了。统一的聚类过程对于增强理解问题的实际背景, 找出实际问题中隐藏的客观规律具有较重要的指导意义。聚类分析原理聚类分析(cluster analysis 这一多元统计方法根据实际需要可分为两种:对样品集合进行聚类和对指标集合进行聚类。其关键是找出能反映样品集合或指标集合之间亲疏关系的一种(或多种聚类统计量, 然后依据其中最佳的一种聚类统计量的数值, 用聚类法把样品集合或指标集合分成若干类。1 相似矩阵的构造设对n 个样品观察了m 个指标, 其原始数据如表1。表1 原始数据样品A 1A 2 A n指标X 1X 11X 21 X n 1X 2X 12X 22 X n

4、2X m X 1m X 2m X nm161R =r 21 r m 11 r m 2 如对样品聚类(Q 型聚类 , 构造的相似矩阵为:Q =q 21 q n 12 聚类过程以对指标聚类(R 型聚类为例, 其聚类过程为:(1 取 =1, 把每个指标各作一类, m 个指标共有m 类。(2 取 =max r ij , 将具有相同的指标归并为一新类, 如N =x t , x s 。(3 构造新的m -1阶矩阵。在新的m -1阶矩阵中, 新类(如N =x t , x s 与其余类如x w (w t, w s 的聚类统计量的计算方法有最大法r nw =max r tw , r sw 最小法r nw =

5、min r t w , r sw 加权法r nw = r tw + r sw(4 取 =max r ij , 将具有相同的指标归并为又一新类。(5 构造新的m -2阶矩阵。在新的m -2阶矩阵中, 该新类与其余类的聚类统计量的计算方法同步骤(3 。仿此继续进行聚类, 直到所有指标均归为一类。根据选取的聚类统计量的不同计算方法, 可把聚类过程分为:最大统计量法聚类过程;最小统计量法聚类过程;0 q n 2 根据表1中的原始数据, 利用不同的聚类统计量, 可分别构造出不同类型的相似矩阵。如对指标聚类(R 型聚类 , 构造的相似矩阵为:*重庆医科大学科技基金资助(XB200221Chinese J

6、ournal of H ealth S tatistics, Oct 2005, Vol. 22, No. 5287加权统计量法聚类过程。其中加权统计量法聚类过程因和的不同选取将变化多端, 如选 = =1/2即为常用的平均统计量法聚类过程。指标聚类过程的分析1 最大统计量法聚类过程该聚类过程与图论中的最大树聚类法及模糊数学中的最大树聚类法一致, 不会增加干扰信息或丢失原始信息。例如:对于3个指标的集合x s , x t , x w , 若构造的相关系数表为表2。表2 3个指标x s , x t , x w 的原始相关系数x sx s x t x w1 00 90 71 00 81 0x t

7、x w利用3个指标x s , x t , x w 的原始相关系数表2构造的树为:x s 0 9 x t 0 8 x w ;利用3个指标x s , x t , x w 按最小统计量法合并后的相关系数表4构造的树为:x s , x w 0 8 x t ;利用r sw =0 7恢复的树为:x s 0 7 x w 0 8 x t (或x w 0 7 x s 0 8 x t ;恢复的树将x s 与x w 的统计量降低为0 7。恢复的树与利用3个指标x s , x t , x w 的原始相关系数表2构造的树不完全符合, 即增加了干扰信息或丢失了原始信息。3 加权统计量法聚类过程该聚类过程与最小统计量法聚类

8、过程相同, 亦会增加干扰信息或丢失原始信息。对于上面3个指标x s , x t , x w 的原始相关系数表2, 最大统计量(最大相关系数为r st =0 9, 加权统计公式r nw = r tw + r sw 中的参数和选取 = =1/2。按加权统计量法聚类过程, 3个指标x s , x t , x w 的原始相关系数表2可合并为表5。表5 3个指标x s , x t , x w 按加权统计量法合并后的相关系数(x s , x t (x s , x t x w1 000 751 00x w对于上面3个指标x s , x t , x w :最大统计量(最大相关系数为r st =0 9。

9、按最大统计量法聚类过程, 3个指标x s , x t , x w 的原始相关系数表2可合并为表3:表3 3个指标x s , x t , x w 按最大统计量法合并后的相关系数(x s , x t (x s , x t x w1 00 81 0x w利用3个指标x s , x t , x w 的原始相关系数表2构造的树为:x s 0 9 x t 0 8 x w ;利用3个指标x s , x t , x w 按最大统计量法合并后的相关系数表3构造的树为:x s , x t 0 8 x w ;利用r st =0 9恢复的树为:x s 0 9 x t 0 8 x w (或x t 0 9 x s 0 8

10、 x w ;恢复的树与利用3个指标x s , x t , x w 的原始相关系数表2构造的树完全符合。2 最小统计量法聚类过程该聚类过程会增加干扰信息或丢失原始信息。对于上面的3个指标x s , x t , x w 的原始相关系数表2, 最小统计量(最小相关系数为r sw =0 7。按最小统计量法聚类过程, 3个指标x s , x t , x w 的原始相关系数表2可合并为表4。表4 3个指标x s , x t , x w 按最小统计量法合并后的相关系数(x s , x w (x s , x w 1 0 x t利用3个指标x s , x t , x w 的原始相关系数表2构造的树为:x s

11、0 9 x t 0 8 x w ;利用3个指标x s , x t , x w 按加权统计量法聚类过程合并后的相关系数表5构造的树为:x s , x t 0 75 x w ;利用r st =0 9恢复的树为:x s 0 9 x t 0 75 x w (或x t 0 9 x s 0 75 x w ;恢复的树将x t 与x w (或x s 与x w 的统计量降低为0 75。与利用3个指标x s , x t , x w 的原始相关系数表2构造的树不完全符合, 即增加了干扰信息或丢失了原始信息。样品聚类过程的分析根据以上分析, 对于样品聚类(Q 型聚类 , 则应该使用最小统计量法进行聚类, 才能避免增加

12、干扰信息或丢失原始信息。但若令R =I -Q 后, 亦可使用最大统计量法进行聚类。实例分析17288中国卫生统计2005年10月第22卷第5期指标:体重、肩宽、骨盆宽、小腿长、胸围、大腿围、上臂围和身高, 用聚类分析法进行分类 3 。表6是8个形态指标间的相关系数。表6 8个形态指标间的相关系数体重体重肩宽骨盆宽小腿长胸围大腿围上臂围身高1 00000 62680 47110 53330 82230 74030 60170 6833肩宽 1 00000 59220 33770 58030 31610 23370 5044骨盆宽小腿长胸围大腿围上臂围身高1 00000 21210

13、32670 19060 01420 49941 00000 35050 00000 04200 81601 00000 64130 71010 41501 00000 64250 26771 00000 00461 00001 按最大统计量法聚类过程进行聚类该聚类过程与图论中的最大树聚类法及模糊数学中的模糊最大树聚类法一致, 其聚类图如图1 。为一类。图2 聚类图(加权统计量法, 选 = =1/2与聚类图1比较, 聚类图2的聚类过程将骨盆宽图1 聚类图(按最大统计量法根据聚类图1, 当取 =0 7时, 可以将17岁男生的8个形态指标划分为4类。其中体重、胸围、大腿围和上臂围为一类; 小腿长和身

14、高为一类; 肩宽、骨盆宽各自为一类。当取 =0 68时, 可以将17岁男生的8个形态指标划分为3类。其中体重、胸围、大腿围、上臂围、小腿长和身高为一类; 肩宽、骨盆宽各自为一类。当取 =0 62时, 可以将17岁男生的8个形态指标划分为2类。其中体重、胸围、大腿围、上臂围、小腿长、身高和肩宽为一类; 骨盆宽自成为一类。说明骨盆宽是一个较特殊的指标。2 按加权统计量法聚类过程进行聚类选 = =1/2, 此时加权统计量法聚类过程即为常用的平均统计量法聚类过程。其聚类图如图2。根据聚类图2, 当取 =0 65时, 可以将17岁男生的8个形态指标划分为4类。其中体重、胸围、大腿围和上臂围为一类; 小

15、腿长和身高为一类; 肩宽、骨盆宽各自为一类。此时和聚类图1的划分相同。当取 =0 59时, 可以将17岁男生的8个形态指标划分为3类。其中体重、胸围、大腿围和上臂围为一类; 小腿长和身高为一类; 肩宽和骨盆宽为一类。和聚类图1的划分开始出现不同。当取 =0 38时, 可以将17岁男生的8个形态指标划分为2类。其中体重、胸围、大 ; 这个较特殊的指标的信息丢失了。根据解剖学的知识, 骨盆宽确实是个与其他指标相关度不大的指标。从表2中的相关系数的数值亦可看出这一点。例2 牙槽弓的形态特征需用22个指标才能全面描述, 现测量了609副牙槽弓的形态指标值。表7是22个指标间的相关系数。表中各相异指标间

16、的相关系数取两位小数, 然后乘以100 1, 3 。试用系统聚类法将牙槽弓形态特征的22个指标进行聚类。 1 按最大统计量法聚类过程进行聚类该聚类过程与图论中的最大树聚类法及模糊数学中的模糊最大树聚类法一致, 其聚类结果亦相同。根据表7数据绘制聚类图, 当取适当的数值时, 可以将牙槽弓形态特征的22个指标划分为3类。类:(12, 13, 15, 16, 17, 18, 19, 20 ; 类:(1, 2, 3, 4, 5, 11, 21 ; 类:(6, 7, 8, 9, 10, 14, 22 。根据解剖学知识, 第类指标(12, 13, 15, 16, 17, 18, 19, 20 表明上下

17、牙槽弓大部分的长度与深度; 第类指标(1, 2, 3, 4, 5, 11, 21 主要反映上牙槽弓的宽度; 第类指标(6, 7, 8, 9, 10, 14, 22 主要反映下牙槽弓的宽度。从临床角度看, 此聚类结果是合理的。2 按最小统计量法聚类过程进行聚类该聚类结果与图论中的最大树聚类法及模糊数学中的模糊最大树聚类法的聚类结果不一致。Chinese Journal of H ealth S tatistics, Oct 2005, Vol. 22, No. 5289表7 22种指标间的相关系数01010*182*38363323444640284241535240399036021*03

18、04050607080910111213141516171819202122189*4539134044214141626346455634184*4205313718373754564343413112632343940001521122726374032352422180*2421683931282435364189184*23484035302846433671188*303936313051483352184*3937303153523141109182305242425264142212414633292827141620236926187*765053532312159648284

19、56594320150*2731801915756797843441605882834333179625548261546249231693934140351371根据表7数据绘制聚类图, 当取适当的数值时, 可以将牙槽弓形态特征的22个指标划分为4类。类:(1, 2, 12, 13, 15, 16, 17, 18, 19, 20, 21 ; 类:(6, 14, 22 ; 类:(11 ;类:(3, 4, 5, 7, 8, 9, 10 。比较最大统计量法聚类结果和最小统计量法聚类结果, 显然前者的聚类结果比后者的聚类结果更清晰些。不少文献亦发现了最大统计量法聚类结果与最小统计量法聚类结果之间的

20、差异, 但未意识到是某些聚类过程添加或丢失信息造成了聚类结果的不同 1, 3 。故提出的建议是:在实践中可采用几种不同的定义, 得出几种不同的结果, 然后根据实际情况选择一种合适的方案。这样一来, 就带有非常明显的主观因素。如例1, 一般会选择聚类图2, 因为该聚类图将原始数据较清晰地分成了3类 2 。但该聚类过程将骨盆宽这个较特殊的指标的信息丢失了, 从解剖学角度看, 将男生的肩宽和骨盆宽指标合为一类不太恰当。结论通过上面的分析, 可知在所讨论的三种统计量法中, 对于指标聚类(R 型聚类 , 只有最大统计量法不会增加干扰信息或丢失原始信息。而对于样品聚类(Q 型聚类 , 令R =I -Q

21、后, 其聚类过程类似于指标聚类(R 型聚类。于是在系统聚类法中, 可将对样品集合进行聚类和对指标集合进行聚类的过程统一起来, 均采用最大统计量法进行聚类。这样不但消除了系统聚类法中某些聚类过程给聚类结果带来的严重影响,1保留了系统聚类法中聚类过程的优点, 解决了聚类结果不确定的问题, 而且对于增强理解问题的实际背景, 挖掘出隐藏在原始数据中的有用信息和找出实际问题中隐藏的客观规律具有比较重要的意义。Study of the System Cluster in Mathematical Statistics Zhang Shiqiang , Dep ar tment of M athemati

22、cs , Chongqing Medicine Uni -ver sity (400016 , ChongqingAbstract Objective T o study the disturbance created by somecluster procedures w ith i n the sys tem cl uster method i n cluster analys i s and find clus ter procedure removi ng the disturbance. Methods T o use the M aximum tree cluster method

23、 i n the graph th eory an d the Fuzzy mathemat -ics to find th e serious disturbance created by some cluster procedures w ithi n the system cluster m ethod. Results Giving only cluster procedure remov -ing the di sturbance w i thin the system cluster method. C onclusion The only cl uster procedure c

24、an remove the serious disturbance created by other cluster procedures w ithi n the system clus ter method. It can not only remai n the advantage of cluster procedures w i thin the system cluster method but a-l so can m i ne useful information h i dden in the original data.Key words M athematical sta

25、tistics, Cluster analysis, Sys -tem cluster, M ax imum tree cluster参考文献1 郭祖超主编. 医用数理统计方法. 北京:人民卫生出版社. 第3版, 1998, 515-524.2 蒋知俭主编. 医学统计学. 北京:人民卫生出版社, 1997, 300-305. 3 史秉璋, 杨琦. 医用多元分析. 北京:人民卫生出版社, 1990, 166-185. 4 曹素华主编. 实用医学多因素统计方法. 上海:上海医科大学出版社, 1998, 151-160.5 金丕焕主编. 应用统计方法. 上海:上海医科大学出版社, 1993, 290-293.6 倪宗瓒主编. 医学统计学. 北京:人民卫生出版社, 1990, 223-226.7 张世强. 非线性生物模型回归参数计算的一个新方法及应用. 重庆医科大学学报, 2003, 28(6 :754-757.8 张世强. 曲线回归的拟合优度指标的探讨. 中国卫生统计, 2002, 19(1 :9-11.9 张世强主编. 医学高等数学. 北京:科学出版社, 2001, 325-334.

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？