对数据进行聚类分析实验报告.docx
《对数据进行聚类分析实验报告.docx》由会员分享,可在线阅读,更多相关《对数据进行聚类分析实验报告.docx(22页珍藏版)》请在冰豆网上搜索。
对数据进行聚类分析实验报告
对数据进行聚类分析实验报告
徐远东任争刚权荣
一、大体要求
用、和/或的数据作为本次实验利用的样本集,利用C均值和分级聚类方式对样本集进行聚类分析,对结果进行分析,从而加深对所学内容的明白得和感性熟悉。
二、实验要求
1、把和两个文件归并成一个,同时采纳身高和体重数据作为特点,设类别数为2,利用C均值聚类方式对数据进行聚类,并将聚类结果表示在二维平面上。
尝试不同初始值对此数据集是不是会造成不同的结果。
2、对1中的数据利用C均值聚类方式别离进行两类、三类、四类、五类聚类,画出聚类指标与类别数之间的关系曲线,探讨是不是能够确信出合理的类别数量。
3、对1中的数据利用分级聚类方式进行聚类,分析聚类结果,体会分级聚类方式。
。
4、利用数据或把的数据与上述1中的数据归并在一路,重复上述实验,考察结果是不是有转变,对观看到的现象进行分析,写出体会
三、实验步骤及流程图
依照以上实验要求,本次实验咱们将分为两组:
一、第一对FEMALE与MALE中数据组成的样本依照上面要求用C均值法进行聚类分析,然后对FEMALE、MALE、test2中数据组成的样本集用C均值法进行聚类分析,比较二者结果。
二、将上述两个样本用分即聚类方式进行聚类,观看聚类结果。
并将两种聚类结果进行比较。
一、
(1)、C均值算法思想
C均值算法第一取定C个类别和选取C个初始聚类中心,按最小距离原那么将各模式分派到C类中的某一类,以后不断地计算类心和调整各模式的类别,最终使各模式到其判属类别中心的距离平方之和最小
(2)、实验步骤
第一步:
确信类别数C,并选择C个初始聚类中心。
本次实验,咱们别离将C的值取为2和3。
用的是凭体会选择代表点的方式。
比如:
在样本数为N时,分为两类时,取第一个点和第
个点作为代表点;分为三类时,取第一、
、
个点作为代表点;
第二步:
将待聚类的样本集中的样本逐个按最小距离规那么分划给C个类中的某一类。
第三步:
计算从头聚类后的个各类心,即各类的均值向量。
第四步:
若是从头取得的类别的类心与上一次迭代的类心相等,那么终止迭代,不然转至第二步。
第五步:
迭代终止时,换不同的初始值进行实验,将实验结果进行比较
(3)、实验流程图
(4)、本次实验咱们用的聚类指标是误差平方和聚类准那么Je
设
是第
聚类
的样本数量,
是这些样本的均值,那么把
中得各样本
与均值
间的误差平方和对所有类相加后为:
当C取不同的值时各自算出它们的
,进行比较。
二、利用分级聚类方式进行聚类
一、分级聚类法思想:
第一把全数样本作为一类看做一类,然后依照必然的目标函数进行分解。
二、步骤
第一步:
开始时,将全数样本当做一类,第二类即为空集。
第二步:
将第一类中的第一个样本放入第二类,计算两类样本均值
,并确信两类别中样本数量N1,N2和目标函数
第三步:
将第一类中剩下的所有样本依次放入第二类中,依照上面运算得出E值,并比较E值大小,选择是E值最大的样本,将其归入第二类。
并记录现在的E为E
(2)
第三步:
将新的两类依照上面的方式继续划分,直到第i次迭代的E(i)3、实验流程图
四、实验结果
、一、用和中的数据组合起来作为样本集:
C=2时
(1)、取第一个和第五十一个样本作为初始聚类中心,得出的实验结果图如下:
取得结果是:
星号表示的类别中样本总数为61,点表示的类别中样本总数为39。
两个聚类中心别离为:
z1=(,),z2=(,)
(2)、取第二十五个和七十五个样本作为初始聚类中心时取得的实验结果如下:
最终取得的两个聚类中心别离为:
z1=(,),z2=(,)
结果可发觉取不同的初始聚类中心时两次实验结果相同。
它们的
=+003
可是,通事后面的实验咱们发觉,随着C变大,选取不同的初值对聚类结果有较大阻碍,当C=2时阻碍很小,几乎能够不计。
因为当分为两类时,样本的类别特点很明显,因此现在选取不同的初值对聚类结果没有阻碍,而随着C的增加,初值选择对聚类结果影响将会逐渐变大。
下面是将男女样本所代表的点别离画到图上可得以下图:
其中点表示的是女生样本,圆圈表示的是男生样本。
其中,男生的样本均值为(,)女生的样本均值为(,)
通过比较两幅图,能够发觉,当去C=2时,对数据进行聚类分析取得的聚类结果大体类似于男女生分类,他们的样本均值相差不大,只是仍是有必然不同。
不同出此刻一些身高低于米的男生处。
C=3时取得的聚类结果图如下:
最终的三个聚类中心:
z1=(,)
z2=(,)z3=(,)
=+003
从图中能够看出,当划分为三类时,其结果能够看做依照身高与体重的比将样本进行聚类,身高体重比大,较大,小的别离为一类。
C=4时:
取得的分来结果如下:
取得的四个聚类中心为:
z1=(,),z2=(,)
z3=(,),z4=(,)
=+003
C=5时取得的聚类结果如下:
最终的五个聚类中心别离为:
z1=(,),z2=(,),
z3=(,)z4=(,)
z5=(,)
=+003
C=6时取得的聚类结果如下:
最终的6个聚类中心别离为:
z1=(,),z2=(,)
z3=(,)z4=(,)
z5=(,)z6=(,)
=+003
1、画出C值与
之间的关系曲线如下:
由图能够看出,在C=5之后,
的减小变得缓慢,因此讲此样本集聚为五类最合理
2、把的数据与上述1中的数据归并在一路,重复上述实验,实验结果如下:
(1)、取第二十五个和第二百零一个个样本作为初始聚类中心,得出的实验结果图
其中,z1=(,),z2=(,)
=+004
分为一类时的为+004
取第一百个和第三百个样本作为初始聚类中心时得出结果与前面相同。
(2)、C=3
z1=(,)z2=(,)
z3=(,)
=+004
(3)、C=4时:
=+004
z1=(,),z2=(,)
z3=(,),z4=(,)
(4)C=5时:
=+004
z1=(,),z2=(,)
z3=(,),z4=(,)
z5=(,
(5)、C=6时
其中,
=+004
z1=(,)z2=(,)
z3=(,)z4=(,)
z5=(,),z6=(,)
画出C值与
之间的关系曲线如下
与图可知,在C=5以后,
的转变缓慢,因此以为现在仍是将样本集分为五类最适合
(4)、将两种样本即进行聚类后的样本中心进行比较,如下表:
样本
C
以FEMALE和MALE中得数据作为样本
以FEMALE和MALE以及test2中的数据作为样本
2
z1=(,)
z2=(,)
z1=(,),
z2=(,)
3
z1=(,)
z2=(,)
z3=(,)
z1=(,)
z2=(,)
z3=(,)
4
z1=(,)
z2=(,)
z3=(,)
z4=(,)
z1=(,),
z2=(,)
z3=(,),
z4=(,)
5
z1=(,)
z2=(,)
z3=(,)
z4=(,)
z5=(,)
z1=(,),
z2=(,)
z3=(,),
z4=(,)
z5=(,
6
z1=(,),
z2=(,)
z3=(,)
z4=(,)
z5=(,)
z6=(,)
z1=(,)
z2=(,)
z3=(,)
z4=(,)
z5=(,),
z6=(,)
从上表能够纵向比较能够看出,C越大,即聚类数量越多,聚类之间不同越小,他们的聚类中心也越接近。
横向比较用FEMALE,MALE中数据作为样本和用FEMALE,MALE,test2中数据作为样本时,由于引入了新的样本,能够发觉后者的聚类中心比前者都稍大。
可是它们的散布类似,转变不大。
、将两个样本别离用分级聚类方式进行聚类,得出结果,并与C均值聚类法进行比较:
1、对FEMALE与MALE中数据组成的样本集进行聚类:
由图可见,分即聚类法将样本分为两类,它们的聚类中心别离为
x1=(,)x2=(,)
将它与C=2时的C均值聚类结果进行比较,别离比较它们的结果图和聚类中心,下面是它们的聚类中心比较:
聚类方法
C均值聚类
分即聚类
聚类中心
z1=(,)
z2=(,)
x1=(,)
x2=(,)
比较发觉它们的聚类结果很相似。
二、对由MALE、MALE、test2中数据组成的样本集进行分级类:
由图可见,分即聚类法将样本分为两类,它们的聚类中心别离为
x1=(,),x2=(,)
将它与C=2时的C均值聚类结果进行比较,别离比较它们的结果图和聚类中心,下面是它们的聚类中心比较:
聚类方法
C均值聚类
分即聚类
聚类中心
z1=(,),z2=(,)
x1=(,),x2=(,)
比较发觉它们的聚类结果也很类似
分析:
比较发觉利用分即聚类方式与利用C均值聚类法时C取2时的聚类结果极为相似,可是,从误差平方和角度考虑,利用C均值聚类时C=2并非是最好的聚类结果,C=5时,才是最好的分类,由此可见,从误差平方和角度考虑,C均值聚类法比分即聚类法更优。
五、心得体会
通过本次实验,咱们队C均值聚类法和分即聚类法都有了较好的明白得,而且在用MATLAB编程方面都有了专门大进步。