对数据进行聚类分析实验报告.docx-资源下载

对数据进行聚类分析实验报告.docx

1、对数据进行聚类分析实验报告对数据进行聚类分析实验报告对数据进行聚类分析实验报告徐远东任争刚权荣一、基本要求用 FAMALE.T_T、MALE.T_T 和/或 test2.t_t 的数据作为本次实验使用的样本集，利用 C 均值和分级聚类方法对样本集进行聚类分析，对结果进行分析，从而加深对所学内容的理解和感性认识。二、实验要求1、把 FAMALE.T_T 和 MALE.T_T 两个文件合并成一个，同时采用身高和体重数据作为特征，设类别数为 2，利用 C 均值聚类方法对数据进行聚类，并将聚类结果表示在二维平面上。尝试不同初始值对此数据集是否会造成不同的结果。2、对 1 中的数据利用 C

2、均值聚类方法分别进行两类、三类、四类、五类聚类，画出聚类指标与类别数之间的关系曲线，探讨是否可以确定出合理的类别数目。3、对 1 中的数据利用分级聚类方法进行聚类，分析聚类结果，体会分级聚类方法。4、利用 test2.t_t 数据或者把 test2.t_t 的数据与上述 1 中的数据合并在一起，重复上述实验，考察结果是否有变化，对观察到的现象进行分析，写出体会三、实验步骤及流程图根据以上实验要求，本次试验我们将分为两组：一、首先对 FEMALE 与 MALE 中数据组成的样本按照上面要求用 C 均值法进行聚类分析，然后对 FEMALE、MALE、test2 中数据组成的样本集用 C 均值

3、法进行聚类分析，比较二者结果。二、将上述两个样本用分即聚类方法进行聚类，观察聚类结果。并将两种聚类结果进行比较。一、（1）、C 均值算法思想C均值算法首先取定C个类别和选取C个初始聚类中心，按最小距离原则将各模式分配到C类中的某一类，之后不断地计算类心和调整各模式的类别，最终使各模式到其判属类别中心的距离平方之和最小（2）、实验步骤第一步：确定类别数 C，并选择 C 个初始聚类中心。本次试验，我们分别将 C 的值取为 2 和 3。用的是凭经验选择代表点的方法。比如：在样本数为 N 时，分为两类时，取第一个点和第 1 2 / N INT 个点作为代表点；分为三类时，取第一、 1 3 / N

4、INT 、 1 3 / 2 N INT 个点作为代表点；第二步：将待聚类的样本集中的样本逐个按最小距离规则分划给 C 个类中的某一类。第三步：计算重新聚类后的个各类心，即各类的均值向量。第四步：如果重新得到的类别的类心与上一次迭代的类心相等，则结束迭代，否则转至第二步。第五步：迭代结束时，换不同的初始值进行试验，将实验结果进行比较（3）、实验流程图（4）、本次试验我们用的聚类指标是误差平方和聚类准则 J e 设iN 是第 i 聚类iC 的样本数目，iz是这些样本的均值，则把iC 中得各样本 y 与均值iz 间的误差平方和对所有类相加后为： ci C yi eim y J12 当 C 取不同

5、的值时各自算出它们的eJ，进行比较。二、利用分级聚类方法进行聚类 1、分级聚类法思想：首先把全部样本作为一类看做一类，然后根据一定的目标函数进行分解。2、步骤第一步：开始时，将全部样本当做一类，第二类即为空集。第二步：将第一类中的第一个样本放入第二类，计算两类样本均值 1 _ , 2 _ ，并确定两类别中样本数目 N1，N2 以及目标函数 ) 2 1 ( ) 2 1 (2 1_ _ _ _NN NE 第三步：将第一类中剩下的所有样本依次放入第二类中，按照上面运算得出 E值，并比较 E 值大小，选择是 E 值最大的样本，将其归入第二类。并记录此时的E 为 E（2）第三步：将新的两类按照上面的方

6、法继续划分，直到第 i 次迭代的 E（i）E（i-1）或者到达规定的迭代次数。3、实验流程图四、实验结果I I 、1、用 FAMALE.T_T 和 MALE.T_T 中的数据组合起来作为样本集：C=2 时（1）、取第一个和第五十一个样本作为初始聚类中心，得出的实验结果图如下：得到结果是：星号表示的类别中样本总数为61，点表示的类别中样本总数为39 。两个聚类中心分别为:z1 =（163.5738，53.1541），z2 =（175.8974，68.2692）（2）、取第二十五个和七十五个样本作为初始聚类中心时得到的实验结果如下：最终得到的两个聚类中心分别为: z1 =（163.5738，5

7、3.1541），z2 =（175.8974，68.2692）结果可发现取不同的初始聚类中心时两次实验结果相同。它们的eJ= 5.9707e+003 但是，经过后面的实验我们发现，随着 C 变大，选取不同的初值对聚类结果有较大影响，当 C=2 时影响很小，几乎可以不计。因为当分为两类时,样本的类别特征很明显，所以此时选取不同的初值对聚类结果没有影响，而随着 C 的增加，初值选择对聚类结果影响将会逐渐变大。下面是将男女样本所代表的点分别画到图上可得下图：其中点表示的是女生样本，圆圈表示的是男生样本。其中，男生的样本均值为（173.920_，65.5020）女生的样本均值为（162.8400 ，5

8、2.5960）通过比较两幅图，可以发现，当去 C=2 时，对数据进行聚类分析得到的聚类结果基本类似于男女生分类，他们的样本均值相差不大，不过还是有一定差别。差别出现在一些身高低于 1.70 米的男生处。C=3 时得到的聚类结果图如下：最终的三个聚类中心：z1 =（168.8158，57.0105）z2 =（159.2333，49.9333）z3 =（176.4375，70.0156）eJ= 3.9251e+003 从图中可以看出，当划分为三类时，其结果可以看做按照身高与体重的比将样本进行聚类，身高体重比大，较大，小的分别为一类。C=4 时：得到的分来结果如下：得到的四个聚类中心为：z1 =（1

9、64.7727，53.3545），z2 =（157.4286，49.2381）z3 =（176.4375，70.0156），z4 =（170.4400，58.2640）eJ=3.4318e+003 C=5 时得到的聚类结果如下：最终的五个聚类中心分别为：z1 =（170.3462，58.1423），z2 =（158.1579，47.3684）， z3 =（163.3913，54.4652）z4 =（176.0741，67.7593）z5 =（178.4000，82.20_0）eJ= 2.6352e+003 C=6 时得到的聚类结果如下：最终的 6 个聚类中心分别为：z1 =（166.9259，

10、54.5889），z2 =（183.3333，66.6667）z3 =（158.3462，49.8462）z4 =（178.0000，80.6667）z5 =（171.4737，60.8158）z6 =（175.6842，68.1842）eJ=2.5607e+003 1、画出 C 值与eJ之间的关系曲线如下：由图可以看出，在 C=5 之后，eJ的减小变得缓慢，所以讲此样本集聚为五类最合理 2、把 test2.t_t 的数据与上述 1 中的数据合并在一起，重复上述实验，实验结果如下：（1）、取第二十五个和第二百零一个个样本作为初始聚类中心，得出的实验结果图其中， z1 =（165.0479，5

11、3.6491），z2 =（176.4506，69.9378）eJ= 3.2952e+004 分为一类时的为 7.1410e+004 取第一百个和第三百个样本作为初始聚类中心时得出结果与前面相同。（2）、C=3z1 =（174.5561，64.5024）z2 =（163.3438，51.8742）z3 =（178.8657 ，80.4776）eJ =2.0594e+004 （3）、C=4 时：eJ=1.6346e+004 z1 =（175.4783，65.7908），z2 =（159.8548 ，48.3145）z3 =（179.3684，81.7368），z4 =（167.5567，56.64

12、85）（4）C=5 时：eJ=1.3575e+004 z1 =（170.0510，57.5020），z2 =（175.3836 ，65.9452）z3 =（160.5732，50.0512），z4 =（179.6667，91.3889）z5 =（178.6429,75.7589) （5）、C=6 时其中，eJ=1.3018e+004 z1 =（170.6296，55.1241）z2 =（177.2955，68.0057）z3 =（160.8427，50.6596）z4 =（172.6381，62.9143）z5 =（181.5952，89.1905），z6 =（176.8488，76.8837

13、）画出 C 值与eJ之间的关系曲线如下与图可知，在 C=5 之后，eJ的变化缓慢，所以认为此时仍是将样本集分为五类最合适（4）、将两种样本即进行聚类后的样本中心进行比较，如下表：样本C 以 FEMALE 和 MALE 中得数据作为样本以FEMALE和MALE以及test2中的数据作为样本 2 z1 =（163.5738，53.1541）z2 =（175.8974，68.2692）z1 =（165.0479，53.6491）， z2 =（176.4506，69.9378）3 z1 =（168.8158，57.0105）z2 =（159.2333，49.9333）z3 =（176.4375，7

14、0.0156）z1 =（174.5561，64.5024）z2 =（163.3438，51.8742）z3 =（178.8657 ，80.4776）4 z1 =（164.7727，53.3545）z2 =（157.4286，49.2381）z3 =（176.4375，70.0156）z4 =（170.4400，58.2640）z1 =（175.4783，65.7908）， z2 =（159.8548 ，48.3145）z3 =（179.3684，81.7368）， z4 =（167.5567，56.6485）5 z1 =（170.3462，58.1423）z2 =（158.1579，47.36

15、84）z3 =（163.3913，54.4652）z4 =（176.0741，67.7593）z5 =（178.4000，82.20_0）z1 =（170.0510，57.5020）， z2 =（175.3836 ，65.9452）z3 =（160.5732，50.0512）， z4 =（179.6667，91.3889）z5 =（178.6429,75.7589) 6 z1 =（166.9259，54.5889）， z2 =（183.3333，66.6667）z3 =（158.3462，49.8462）z4 =（178.0000，80.6667）z5 =（171.4737，60.8158）z

16、6 =（175.6842，68.1842）z1 =（170.6296，55.1241）z2 =（177.2955，68.0057）z3 =（160.8427，50.6596）z4 =（172.6381，62.9143）z5 =（181.5952，89.1905）， z6 =（176.8488，76.8837）从上表可以纵向比较可以看出，C 越大，即聚类数目越多，聚类之间差别越小，他们的聚类中心也越接近。横向比较用 FEMALE,MALE 中数据作为样本和用FEMALE,MALE，test2 中数据作为样本时，由于引入了新的样本，可以发现后者的聚类中心比前者都稍大。但是它们的分布类似，变化不大。

17、II、将两个样本分别用分级聚类方法进行聚类，得出结果，并与 C 均值聚类法进行比较：1、对 FEMALE 与 MALE 中数据组成的样本集进行聚类：由图可见，分即聚类法将样本分为两类，它们的聚类中心分别为 _1 =（163.4667， 53.0400）_2 =（175.7500，68.0625）将它与 C=2 时的 C 均值聚类结果进行比较，分别比较它们的结果图以及聚类中心，下面是它们的聚类中心比较：聚类方法C 均值聚类分即聚类聚类中心 z1 =（163.5738，53.1541）z2 =（175.8974，68.2692）_1 =（163.4667，53.0400）_2 =（175.7

18、500，68.0625）比较发现它们的聚类结果很相似。2、对由 MALE、MALE、test2 中数据组成的样本集进行分级类：由图可见，分即聚类法将样本分为两类，它们的聚类中心分别为 _1 =（164.9819，53.6229），_2 =（176.4487，69.8868）将它与 C=2 时的 C 均值聚类结果进行比较，分别比较它们的结果图以及聚类中心，下面是它们的聚类中心比较：聚类方法C 均值聚类分即聚类聚类中心 z1 =（165.0479，53.6491），z2 =（176.4506，69.9378）_1 =（164.9819，53.6229），_2 =（176.4487，69.8868）比较发现它们的聚类结果也很类似分析：比较发现利用分即聚类方法与利用 C 均值聚类法时 C 取 2 时的聚类结果极其相似，但是，从误差平方和角度考虑，利用 C 均值聚类时 C=2 并不是最好的聚类结果，C=5 时，才是最好的分类，由此可见，从误差平方和角度考虑，C均值聚类法比分即聚类法更优。五、心得体会通过本次试验，我们队 C 均值聚类法以及分即聚类法都有了较好的理解，并且在用 MATLAB 编程方面都有了很大进步。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？