对数据进行聚类分析实验报告.docx

资源描述

对数据进行聚类分析实验报告.docx

《对数据进行聚类分析实验报告.docx》由会员分享，可在线阅读，更多相关《对数据进行聚类分析实验报告.docx（8页珍藏版）》请在冰豆网上搜索。

对数据进行聚类分析实验报告.docx

对数据进行聚类分析实验报告

对数据进行聚类分析实验报告徐远东

任争刚

权荣一、基本要求用FAMALE.T_T、MALE.T_T和/或test2.t_t的数据作为本次实验使用的样本集，利用C均值和分级聚类方法对样本集进行聚类分析，对结果进行分析，从而加深对所学内容的理解和感性认识。

二、

实验要求

1、把FAMALE.T_T和MALE.T_T两个文件合并成一个，同时采用身高和体重数据作为特征，设类别数为2，利用C均值聚类方法对数据进行聚类，并将聚类结果表示在二维平面上。

尝试不同初始值对此数据集是否会造成不同的结果。

2、对1中的数据利用C均值聚类方法分别进行两类、三类、四类、五类聚类，画出聚类指标与类别数之间的关系曲线，探讨是否可以确定出合理的类别数目。

3、对1中的数据利用分级聚类方法进行聚类，分析聚类结果，体会分级聚类方法。

。

4、利用test2.t_t数据或者把test2.t_t的数据与上述1中的数据合并在一起，重复上述实验，考察结果是否有变化，对观察到的现象进行分析，写出体会三、

实验步骤及流程图

根据以上实验要求，本次试验我们将分为两组：

一、首先对FEMALE与MALE中数据组成的样本按照上面要求用C均值法进行聚类分析，然后对FEMALE、MALE、test2中数据组成的样本集用C均值法进行聚类分析，比较二者结果。

二、将上述两个样本用分即聚类方法进行聚类，观察聚类结果。

并将两种聚类结果进行比较。

一、

（1）、C均值算法思想

C均值算法首先取定C个类别和选取C个初始聚类中心，按最小距离原则将各模式分配到C类中的某一类，之后不断地计算类心和调整各模式的类别，最终使各模式到其判属类别中心的距离平方之和最小

（2）、实验步骤第一步：

确定类别数C，并选择C个初始聚类中心。

本次试验，我们分别将C的值取为2和3。

用的是凭经验选择代表点的方法。

比如：

在样本数为N时，分为两类时，取第一个点和第12/NINT个点作为代表点；分为三类时，取第一、

13/NINT、13/2NINT个点作为代表点；第二步：

将待聚类的样本集中的样本逐个按最小距离规则分划给C个类中的某一类。

第三步：

计算重新聚类后的个各类心，即各类的均值向量。

第四步：

如果重新得到的类别的类心与上一次迭代的类心相等，则结束迭代，否则转至第二步。

第五步：

迭代结束时，换不同的初始值进行试验，将实验结果进行比较（3）、实验流程图

（4）、本次试验我们用的聚类指标是误差平方和聚类准则Je设iN是第i聚类iC的样本数目，iz是这些样本的均值，则把iC中得各样本y与均值iz间的误差平方和对所有类相加后为：

ciCyieimyJ12当C取不同的值时各自算出它们的eJ，进行比较。

二、利用分级聚类方法进行聚类1、分级聚类法思想：

首先把全部样本作为一类看做一类，然后根据一定的目标

函数进行分解。

2、步骤第一步：

开始时，将全部样本当做一类，第二类即为空集。

第二步：

将第一类中的第一个样本放入第二类，计算两类样本均值1_,2_，并确定两类别中样本数目N1，N2以及目标函数）21（）"21（21____NNNE

第三步：

将第一类中剩下的所有样本依次放入第二类中，按照上面运算得出E值，并比较E值大小，选择是E值最大的样本，将其归入第二类。

并记录此时的E为E

（2）

第三步：

将新的两类按照上面的方法继续划分，直到第i次迭代的E（i）

3、实验流程图

四、

实验结果

II、1、用FAMALE.T_T和MALE.T_T中的数据组合起来作为样本集：

C=2时

（1）、取第一个和第五十一个样本作为初始聚类中心，得出的实验结果图如下：

得到结果是：

星号表示的类别中样本总数为61，点表示的类别中样本总数为39。

两个聚类中心分别为:

z1=（163.5738，53.1541），z2=（175.8974，68.2692）

（2）、取第二十五个和七十五个样本作为初始聚类中心时得到的实验结果如下：

最终得到的两个聚类中心分别为:

z1=（163.5738，53.1541），z2=（175.8974，68.2692）

结果可发现取不同的初始聚类中心时两次实验结果相同。

它们的eJ=5.9707e+003但是，经过后面的实验我们发现，随着C变大，选取不同的初值对聚类结果有较大影响，当C=2时影响很小，几乎可以不计。

因为当分为两类时,样本的类别特征很明显，所以此时选取不同的初值对聚类结果没有影响，而随着C的增加，初值选择对聚类结果影响将会逐渐变大。

下面是将男女样本所代表的点分别画到图上可得下图：

其中点表示的是女生样本，圆圈表示的是男生样本。

其中，男生的样本均值为（173.920__

，65.5020）女生的样本均值为（162.8400，52.5960）

通过比较两幅图，可以发现，当去C=2时，对数据进行聚类分析得到的聚类结果基本类似于男女生分类，他们的样本均值相差不大，不过还是有一定差别。

差别出现在一些身高低于1.70米的男生处。

C=3时得到的聚类结果图如下：

最终的三个聚类中心：

z1=（168.8158，57.0105）

z2=（159.2333，49.9333）z3=（176.4375，70.0156）

eJ=3.9251e+003从图中可以看出，当划分为三类时，其结果可以看做按照身高与体重的比将样本进行聚类，身高体重比大，较大，小的分别为一类。

C=4时：

得到的分来结果如下：

得到的四个聚类中心为：

z1=（164.7727，53.3545），z2=（157.4286，49.2381）

z3=（176.4375，70.0156），z4=（170.4400，58.2640）

eJ=3.4318e+003C=5时得到的聚类结果如下：

最终的五个聚类中心分别为：

z1=（170.3462，58.1423），z2=（158.1579，47.3684），z3=（163.3913，54.4652）z4=（176.0741，67.7593）

z5=（178.4000，82.20__0）

eJ=2.6352e+003C=6时得到的聚类结果如下：

最终的6个聚类中心分别为：

z1=（166.9259，54.5889），z2=（183.3333，66.6667）

z3=（158.3462，49.8462）z4=（178.0000，80.6667）

z5=（171.4737，60.8158）z6=（175.6842，68.1842）

eJ=

2.5607e+0031、画出C值与eJ之间的关系曲线如下：

由图可以看出，在C=5之后，eJ的减小变得缓慢，所以讲此样本集聚为五类最合理2、把test2.t_t的数据与上述1中的数据合并在一起，重复上述实验，实验结果如下：

（1）、取第二十五个和第二百零一个个样本作为初始聚类中心，得出的实验结果图

其中，z1=（165.0479，53.6491），z2=（176.4506，69.9378）

eJ=3.2952e+004分为一类时的为7.1410e+004取第一百个和第三百个样本作为初始聚类中心时得出结果与前面相同。

（2）、C=3

z1=（174.5561，64.5024）z2=（163.3438，51.8742）

z3=（178.8657，80.4776）

eJ=2.0594e+004（3）、C=4时：

eJ=1.6346e+004z1=（175.4783，65.7908），z2=（159.8548，48.3145）

z3=（179.3684，81.7368），z4=（167.5567，56.6485）

（4）C=5时：

eJ=1.3575e+004z1=（170.0510，57.5020），z2=（175.3836，65.9452）

z3=（160.5732，50.0512），z4=（179.6667，91.3889）

z5=（178.6429,75.7589）（5）、C=6时

其中，eJ=

1.3018e+004z1=（170.6296，55.1241）z2=（177.2955，68.0057）

z3=（160.8427，50.6596）z4=（172.6381，62.9143）

z5=（181.5952，89.1905），z6=（176.8488，76.8837）

画出C值与eJ之间的关系曲线如下

与图可知，在C=5之后，eJ的变化缓慢，所以认为此时仍是将样本集分为五类最合适（4）、将两种样本即进行聚类后的样本中心进行比较，如下表：

样本

C以FEMALE和MALE中得数据作为样本以FEMALE和MALE以及test2中的数据作为样本2z1=（163.5738，53.1541）

z2=（175.8974，68.2692）

z1=（165.0479，53.6491），z2=（176.4506，69.9378）

3z1=（168.8158，57.0105）

z2=（159.2333，49.9333）

z3=（176.4375，70.0156）

z1=（174.5561，64.5024）

z2=（163.3438，51.8742）

z3=（178.8657，80.4776）

4z1=（164.7727，53.3545）

z2=（157.4286，49.2381）

z3=（176.4375，70.0156）

z4=（170.4400，58.2640）

z1=（175.4783，65.7908），z2=（159.8548，48.3145）

z3=（179.3684，81.7368），z4=（167.5567，56.6485）

5z1=（170.3462，58.1423）

z2=（158.1579，47.3684）

z3=（163.3913，54.4652）

z4=（176.0741，67.7593）

z5=（178.4000，82.20__0）

z1=（170.0510，57.5020），z2=（175.3836，65.9452）

z3=（160.5732，50.0512），z4=（179.6667，91.3889）

z5=（178.6429,75.7589）6z1=（166.9259，54.5889），z2=（183.3333，66.6667）

z3=（158.3462，49.8462）

z4=（178.0000，80.6667）

z5=（171.4737，60.8158）

z6=（175.6842，68.1842）

z1=（170.6296，55.1241）

z2=（177.2955，68.0057）

z3=（160.8427，50.6596）

z4=（172.6381，62.9143）

z5=（181.5952，89.1905），z6=（176.8488，76.8837）

从上表可以纵向比较可以看出，C越大，即聚类数目越多，聚类之间差别越小，他们的聚类中心也越接近。

横向比较用FEMALE,MALE中数据作为样本和用FEMALE,MALE，test2中数据作为样本时，由于引入了新的样本，可以发现后者的聚类中心比前者都稍大。

但是它们的分布类似，变化不大。

II、将两个样本分别用分级聚类方法进行聚类，得出结果，并与C均值聚类法进行比较：

1、对FEMALE与MALE中数据组成的样本集进行聚类：

由图可见，分即聚类法将样本分为两类，它们的聚类中心分别为_1=（163.4667，53.0400）_2=（175.7500，68.0625）

将它与C=2时的C均值聚类结果进行比较，分别比较它们的结果图以及聚类中心，下面是它们的聚类中心比较：

聚类方法

C均值聚类分即聚类聚类中心z1=（163.5738，53.1541）

z2=（175.8974，68.2692）

_1=（163.4667，53.0400）

_2=（175.7500，68.0625）

比较发现它们的聚类结果很相似。

2、对由MALE、MALE、test2中数据组成的样本集进行分级类：

由图可见，分即聚类法将样本分为两类，它们的聚类中心分别为_1=（164.9819，53.6229），_2=（176.4487，69.8868）

将它与C=2时的C均值聚类结果进行比较，分别比较它们的结果图以及聚类中心，下面是它们的聚类中心比较：

聚类方法

C均值聚类分即聚类聚类中心z1=（165.0479，53.6491），z2=（176.4506，69.9378）

_1=（164.9819，53.6229），_2=（176.4487，69.8868）

比较发现它们的聚类结果也很类似分析：

比较发现利用分即聚类方法与利用C均值聚类法时C取2时的聚类结果极其相似，但是，从误差平方和角度考虑，利用C均值聚类时C=2并不是最好的聚类结果，C=5时，才是最好的分类，由此可见，从误差平方和角度考虑，C均值聚类法比分即聚类法更优。

五、

心得体会通过本次试验，我们队C均值聚类法以及分即聚类法都有了较好的理解，并且在用MATLAB编程方面都有了很大进步。

展开阅读全文