数据挖掘报告.docx
《数据挖掘报告.docx》由会员分享,可在线阅读,更多相关《数据挖掘报告.docx(25页珍藏版)》请在冰豆网上搜索。
数据挖掘报告
《Ecoli》数据挖掘报告
——王昱博2010212674
选用数据集EcoliDataSet进行数据挖掘,讨论大肠杆菌的细胞定位问题。
该数据集由大阪大学分子与生物细胞研究所创建和维护。
数据介绍:
属性信息:
1。
序列名称:
加入了瑞士prot数据库数量。
2。
mcg:
麦吉奥赫的信号序列识别方法。
3。
gvh:
冯·海涅的信号序列识别方法。
4。
lip:
冯·海涅的信号肽酶II共识序列得分。
二进制属性。
5。
chg:
预测脂蛋白电荷的N-末端存在。
二进制属性。
6。
aac:
判别分析的外膜和周质蛋白的氨基酸含量的影响得分。
7。
alm1:
ALOM跨膜区域预测程序得分。
8。
alm2:
不含公认的裂解信号区序列后ALOM程序的得分。
类分布:
cp(细胞质)143
im(无信号序列的内膜)77
pp(原生质)52
imU(内膜,uncleavable的信号序列)35
om(外膜)20
omL(脂蛋白外膜)5
imL(脂蛋白内膜)2
imS(内膜切除的信号序列)2
聚类分析也叫分类分析(classificationanalysis)或数值分类(numericaltaxonomy)
是用数学的方法来研究和处理给定对象的分类,即对同类型对象抽象出其共性,从而形成类。
一.首先进行ESX无指导聚类:
原始数据特征一览表:
SequenceName
mcg
gvh
lip
chg
aac
alm1
alm2
CLASS
R
R
R
R
R
R
R
R
C
I
I
I
I
I
I
I
I
I
类相似性统计表:
CLASSRESEMBLANCESTATISTICS
Class1
Class2
Class3
Domain
Res.Score:
0.667
0.764
0.653
0.60
No.ofInst.
241
9
86
336
ClusterQuality:
0.10
0.26
0.08
从上表可以看到:
第一类共包括241个实例,相似性得分为0.667;第二类包括9个实例,相似性得分为0.764;第三个类包括86个实例,相似性得分0.653。
总相似得分为0.6。
子类的类相似性得分都比域相似性得分高,但每个类的类质量值并不是很理想。
二.Matlab进行系统聚类:
系统聚类的步骤一般是首先根据一批数据或指标找出能度量这些数据或指标之间相似程度的统计量;然后以统计量作为划分类型的依据,把一些相似程度大的变量(或样品)首先聚合为一类,而把另一些相似程度较小的变量(或样品)聚合为另一类,直到所有的变量(或样品)都聚合完毕,最后根据各类之间的亲疏关系,逐步画成一张完整的分类系统图,又称谱系图。
其相似程度由距离或者相似系数定义。
进行类别合并的准则是使得类间差异最大,而类内差异最小。
7种常用距离:
欧式距离:
标准化欧式距离:
马氏距离:
布洛克距离:
明可夫斯基:
余弦距离:
相似距离:
5种方法:
重心法,最短距离法,最长距离法,中间距离法,平方和递增法
发现用中间距离法创建的系统聚类树,效果最好
Matlab聚类分析方法评价:
优点:
直观,结论形式简明
缺点:
在样本量较大时,要获得聚类结论有一定困难。
由于相似系数是根据实验对象的反映来建立反映实验对象内在联系的指标,而实践中有时尽管从实验对象反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,所以还要根据专业知识来辨别聚类结果
课程评价与建议:
我觉得数据挖掘是一门很实用,很受同学们喜欢的课程,这门课不仅要求掌握相关理论知识,更注重实际操作能力,也就是软件技能。
老师有意培养我们的这种技能,每两周就组织一次小组交流活动,我认为很好,虽然做作业的过程是痛苦的,但是软件技能提高了,是我们感到欣慰的。
另外,由于同学们能力有限,有些软件操作问题不好解决,我建议老师一个学期提供两次去机房学习和交流的机会,这样可以方便大家使用某些自己电脑不能使用的软件,并且可以得到老师及时的指导。
附录:
Matlab程序和结果
y13=pdist(x);%欧氏距离
y23=pdist(x,'seuclid');%标准化的欧氏距离
y33=pdist(x,'mahal');%马氏距离
y43=pdist(x,'cityblock');%布洛克距离
y53=pdist(x,'minkowski');%明科夫斯基距离
y63=pdist(x,'minkowski',0.5);%参数为p的明科夫斯基距离
y73=pdist(x,'cosine');%余弦距离
y83=pdist(x,'correlation');%相似距离
z13=linkage(y13,'centroid');%根据重心(也是中心)距离创建系统聚类树
z23=linkage(y23,'centroid');
z33=linkage(y33,'centroid');
z43=linkage(y43,'centroid');
z53=linkage(y53,'centroid');
z63=linkage(y63,'centroid');
z73=linkage(y73,'centroid');
z83=linkage(y83,'centroid');
a13=cophenet(z13,y13);
a23=cophenet(z23,y23);
a33=cophenet(z33,y33);
a43=cophenet(z43,y43);
a53=cophenet(z53,y53);
a63=cophenet(z63,y63);
a73=cophenet(z73,y73);
a83=cophenet(z83,y83);
%获得中心(重心)距离的各种相似度
y15=pdist(x);%欧氏距离
y25=pdist(x,'seuclid');%标准化的欧氏距离
y35=pdist(x,'mahal');%马氏距离
y45=pdist(x,'cityblock');%布洛克距离
y55=pdist(x,'minkowski');%明科夫斯基距离
y65=pdist(x,'minkowski',0.5);%参数为p的明科夫斯基距离
y75=pdist(x,'cosine');%余弦距离
y85=pdist(x,'correlation');%相似距离
z15=linkage(y15);%根据最短距离法创建系统聚类树
z25=linkage(y25);
z35=linkage(y35);
z45=linkage(y45);
z55=linkage(y55);
z65=linkage(y65);
z75=linkage(y75);
z85=linkage(y85);
a15=cophenet(z15,y15);
a25=cophenet(z25,y25);
a35=cophenet(z35,y35);
a45=cophenet(z45,y45);
a55=cophenet(z55,y55);
a65=cophenet(z65,y65);
a75=cophenet(z75,y75);
a85=cophenet(z85,y85);
%获得最短距离法的最大相似度
y14=pdist(x);
y24=pdist(x,'seuclid');
y34=pdist(x,'mahal');
y44=pdist(x,'cityblock');
y54=pdist(x,'minkowski');
y64=pdist(x,'minkowski',0.5);
y74=pdist(x,'cosine');
y84=pdist(x,'correlation');
z14=linkage(y14,'ward');%根据离差平方和(平方和递增)法创建系统聚类树
z24=linkage(y24,'ward');
z34=linkage(y34,'ward');
z44=linkage(y44,'ward');
z54=linkage(y54,'ward');
z64=linkage(y64,'ward');
z74=linkage(y74,'ward');
z84=linkage(y84,'ward');
a14=cophenet(z14,y14);
a24=cophenet(z24,y24);
a34=cophenet(z34,y34);
a44=cophenet(z44,y44);
a54=cophenet(z54,y54);
a64=cophenet(z64,y64);
a74=cophenet(z74,y74);
a84=cophenet(z84,y84);
%获得离差平方和的各种相似度
y12=pdist(x);
y22=pdist(x,'seuclid');
y32=pdist(x,'mahal');
y42=pdist(x,'cityblock');
y52=pdist(x,'minkowski');
y62=pdist(x,'minkowski',0.5);
y72=pdist(x,'cosine');
y82=pdist(x,'correlation');
z12=linkage(y12,'average');%根据中间距离创建系统聚类树
z22=linkage(y22,'average');
z32=linkage(y32,'average');
z42=linkage(y42,'average');
z52=linkage(y52,'average');
z62=linkage(y62,'average');
z72=linkage(y72,'average');
z82=linkage(y82,'average');
a12=cophenet(z12,y12);
a22=cophenet(z22,y22);
a32=cophenet(z32,y32);
a42=cophenet(z42,y42);
a52=cophenet(z52,y52);
a62=cophenet(z62,y62);
a72=cophenet(z72,y72);
a82=cophenet(z82,y82);
%获得平均距离的各种相似度
y11=pdist(x);
y21=pdist(x,'seuclid');
y31=pdist(x,'mahal');
y41=pdist(x,'cityblock');
y51=pdist(x,'minkowski');
y61=pdist(x,'minkowski',0.5);
y71=pdist(x,'cosine');
y81=pdist(x,'correlation');
z11=linkage(y11,'complete');%根据最长距离创建系统聚类树
z21=linkage(y21,'complete');
z31=linkage(y31,'complete');
z41=linkage(y41,'complete');
z51=linkage(y51,'complete');
z61=linkage(y61,'complete');
z71=linkage(y71,'complete');
z81=linkage(y81,'complete');
a11=cophenet(z11,y11);
a21=cophenet(z21,y21);
a31=cophenet(z31,y31);
a41=cophenet(z41,y41);
a51=cophenet(z51,y51);
a61=cophenet(z61,y61);
a71=cophenet(z71,y71);
a81=cophenet(z81,y81);
%获得最长距离法的最大相似度
a=[a11,a21,a31,a41,a51,a61,a71,a81
a12,a22,a32,a42,a52,a62,a72,a82
a13,a23,a33,a43,a53,a63,a73,a83
a14,a24,a34,a44,a54,a64,a74,a84
a15,a25,a35,a45,a55,a65,a75,a85];
at=a';
ma=max(max(a));
fori=1:
8
forj=1:
5
if(at(i,j)==ma)
j
i
end
end
end
%获得各种分类法距离法下的最大相似度
结果如下:
j=
2
i=
2
b22=cluster(z12,3)%根据最大相似度原则聚类
h22=dendrogram(z12)%冰柱图
n=length(b22);%下面程序是对分类个数进行统计
a1=0;
a2=0;
a3=0;
fori=1:
n
ifb22(i)==1
a1=a1+1;
elseifb22(i)==2
a2=a2+1;
elseifb22(i)==3
a3=a3+1;
end
end
a1
a2
a3
b22=
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
h22=
158.0101
160.0028
161.0028
162.0028
163.0028
164.0028
165.0028
166.0028
167.0028
168.0028
169.0028
170.0028
171.0028
172.0028
173.0028
174.0028
175.0028
176.0028
177.0028
178.0028
179.0028
180.0028
181.0028
182.0028
183.0028
184.0028
185.0028
186.0028
187.0028
a1=
222
a2=
62
a3=
52