数据挖掘报告.docx

上传人:b****4 文档编号:12203211 上传时间:2023-04-17 格式:DOCX 页数:25 大小:74.64KB
下载 相关 举报
数据挖掘报告.docx_第1页
第1页 / 共25页
数据挖掘报告.docx_第2页
第2页 / 共25页
数据挖掘报告.docx_第3页
第3页 / 共25页
数据挖掘报告.docx_第4页
第4页 / 共25页
数据挖掘报告.docx_第5页
第5页 / 共25页
点击查看更多>>
下载资源
资源描述

数据挖掘报告.docx

《数据挖掘报告.docx》由会员分享,可在线阅读,更多相关《数据挖掘报告.docx(25页珍藏版)》请在冰豆网上搜索。

数据挖掘报告.docx

数据挖掘报告

《Ecoli》数据挖掘报告

——王昱博2010212674

选用数据集EcoliDataSet进行数据挖掘,讨论大肠杆菌的细胞定位问题。

该数据集由大阪大学分子与生物细胞研究所创建和维护。

数据介绍:

属性信息:

1。

序列名称:

加入了瑞士prot数据库数量。

2。

mcg:

麦吉奥赫的信号序列识别方法。

3。

gvh:

冯·海涅的信号序列识别方法。

4。

lip:

冯·海涅的信号肽酶II共识序列得分。

二进制属性。

5。

chg:

预测脂蛋白电荷的N-末端存在。

二进制属性。

6。

aac:

判别分析的外膜和周质蛋白的氨基酸含量的影响得分。

7。

alm1:

ALOM跨膜区域预测程序得分。

8。

alm2:

不含公认的裂解信号区序列后ALOM程序的得分。

类分布:

cp(细胞质)143

im(无信号序列的内膜)77

pp(原生质)52

imU(内膜,uncleavable的信号序列)35

om(外膜)20

omL(脂蛋白外膜)5

imL(脂蛋白内膜)2

imS(内膜切除的信号序列)2

聚类分析也叫分类分析(classificationanalysis)或数值分类(numericaltaxonomy)

是用数学的方法来研究和处理给定对象的分类,即对同类型对象抽象出其共性,从而形成类。

一.首先进行ESX无指导聚类:

原始数据特征一览表:

SequenceName

mcg

gvh

lip

chg

aac

alm1

alm2

CLASS

R

R

R

R

R

R

R

R

C

I

I

I

I

I

I

I

I

I

类相似性统计表:

CLASSRESEMBLANCESTATISTICS

Class1

Class2

Class3

Domain

Res.Score:

0.667

0.764

0.653

0.60

No.ofInst.

241

9

86

336

ClusterQuality:

0.10

0.26

0.08

从上表可以看到:

第一类共包括241个实例,相似性得分为0.667;第二类包括9个实例,相似性得分为0.764;第三个类包括86个实例,相似性得分0.653。

总相似得分为0.6。

子类的类相似性得分都比域相似性得分高,但每个类的类质量值并不是很理想。

二.Matlab进行系统聚类:

系统聚类的步骤一般是首先根据一批数据或指标找出能度量这些数据或指标之间相似程度的统计量;然后以统计量作为划分类型的依据,把一些相似程度大的变量(或样品)首先聚合为一类,而把另一些相似程度较小的变量(或样品)聚合为另一类,直到所有的变量(或样品)都聚合完毕,最后根据各类之间的亲疏关系,逐步画成一张完整的分类系统图,又称谱系图。

其相似程度由距离或者相似系数定义。

进行类别合并的准则是使得类间差异最大,而类内差异最小。

7种常用距离:

欧式距离:

标准化欧式距离:

马氏距离:

布洛克距离:

明可夫斯基:

余弦距离:

相似距离:

5种方法:

重心法,最短距离法,最长距离法,中间距离法,平方和递增法

发现用中间距离法创建的系统聚类树,效果最好

Matlab聚类分析方法评价:

优点:

直观,结论形式简明

缺点:

在样本量较大时,要获得聚类结论有一定困难。

由于相似系数是根据实验对象的反映来建立反映实验对象内在联系的指标,而实践中有时尽管从实验对象反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,所以还要根据专业知识来辨别聚类结果

课程评价与建议:

我觉得数据挖掘是一门很实用,很受同学们喜欢的课程,这门课不仅要求掌握相关理论知识,更注重实际操作能力,也就是软件技能。

老师有意培养我们的这种技能,每两周就组织一次小组交流活动,我认为很好,虽然做作业的过程是痛苦的,但是软件技能提高了,是我们感到欣慰的。

另外,由于同学们能力有限,有些软件操作问题不好解决,我建议老师一个学期提供两次去机房学习和交流的机会,这样可以方便大家使用某些自己电脑不能使用的软件,并且可以得到老师及时的指导。

附录:

Matlab程序和结果

y13=pdist(x);%欧氏距离

y23=pdist(x,'seuclid');%标准化的欧氏距离

y33=pdist(x,'mahal');%马氏距离

y43=pdist(x,'cityblock');%布洛克距离

y53=pdist(x,'minkowski');%明科夫斯基距离

y63=pdist(x,'minkowski',0.5);%参数为p的明科夫斯基距离

y73=pdist(x,'cosine');%余弦距离

y83=pdist(x,'correlation');%相似距离

z13=linkage(y13,'centroid');%根据重心(也是中心)距离创建系统聚类树

z23=linkage(y23,'centroid');

z33=linkage(y33,'centroid');

z43=linkage(y43,'centroid');

z53=linkage(y53,'centroid');

z63=linkage(y63,'centroid');

z73=linkage(y73,'centroid');

z83=linkage(y83,'centroid');

a13=cophenet(z13,y13);

a23=cophenet(z23,y23);

a33=cophenet(z33,y33);

a43=cophenet(z43,y43);

a53=cophenet(z53,y53);

a63=cophenet(z63,y63);

a73=cophenet(z73,y73);

a83=cophenet(z83,y83);

%获得中心(重心)距离的各种相似度

y15=pdist(x);%欧氏距离

y25=pdist(x,'seuclid');%标准化的欧氏距离

y35=pdist(x,'mahal');%马氏距离

y45=pdist(x,'cityblock');%布洛克距离

y55=pdist(x,'minkowski');%明科夫斯基距离

y65=pdist(x,'minkowski',0.5);%参数为p的明科夫斯基距离

y75=pdist(x,'cosine');%余弦距离

y85=pdist(x,'correlation');%相似距离

z15=linkage(y15);%根据最短距离法创建系统聚类树

z25=linkage(y25);

z35=linkage(y35);

z45=linkage(y45);

z55=linkage(y55);

z65=linkage(y65);

z75=linkage(y75);

z85=linkage(y85);

a15=cophenet(z15,y15);

a25=cophenet(z25,y25);

a35=cophenet(z35,y35);

a45=cophenet(z45,y45);

a55=cophenet(z55,y55);

a65=cophenet(z65,y65);

a75=cophenet(z75,y75);

a85=cophenet(z85,y85);

%获得最短距离法的最大相似度

y14=pdist(x);

y24=pdist(x,'seuclid');

y34=pdist(x,'mahal');

y44=pdist(x,'cityblock');

y54=pdist(x,'minkowski');

y64=pdist(x,'minkowski',0.5);

y74=pdist(x,'cosine');

y84=pdist(x,'correlation');

z14=linkage(y14,'ward');%根据离差平方和(平方和递增)法创建系统聚类树

z24=linkage(y24,'ward');

z34=linkage(y34,'ward');

z44=linkage(y44,'ward');

z54=linkage(y54,'ward');

z64=linkage(y64,'ward');

z74=linkage(y74,'ward');

z84=linkage(y84,'ward');

a14=cophenet(z14,y14);

a24=cophenet(z24,y24);

a34=cophenet(z34,y34);

a44=cophenet(z44,y44);

a54=cophenet(z54,y54);

a64=cophenet(z64,y64);

a74=cophenet(z74,y74);

a84=cophenet(z84,y84);

%获得离差平方和的各种相似度

y12=pdist(x);

y22=pdist(x,'seuclid');

y32=pdist(x,'mahal');

y42=pdist(x,'cityblock');

y52=pdist(x,'minkowski');

y62=pdist(x,'minkowski',0.5);

y72=pdist(x,'cosine');

y82=pdist(x,'correlation');

z12=linkage(y12,'average');%根据中间距离创建系统聚类树

z22=linkage(y22,'average');

z32=linkage(y32,'average');

z42=linkage(y42,'average');

z52=linkage(y52,'average');

z62=linkage(y62,'average');

z72=linkage(y72,'average');

z82=linkage(y82,'average');

a12=cophenet(z12,y12);

a22=cophenet(z22,y22);

a32=cophenet(z32,y32);

a42=cophenet(z42,y42);

a52=cophenet(z52,y52);

a62=cophenet(z62,y62);

a72=cophenet(z72,y72);

a82=cophenet(z82,y82);

%获得平均距离的各种相似度

y11=pdist(x);

y21=pdist(x,'seuclid');

y31=pdist(x,'mahal');

y41=pdist(x,'cityblock');

y51=pdist(x,'minkowski');

y61=pdist(x,'minkowski',0.5);

y71=pdist(x,'cosine');

y81=pdist(x,'correlation');

z11=linkage(y11,'complete');%根据最长距离创建系统聚类树

z21=linkage(y21,'complete');

z31=linkage(y31,'complete');

z41=linkage(y41,'complete');

z51=linkage(y51,'complete');

z61=linkage(y61,'complete');

z71=linkage(y71,'complete');

z81=linkage(y81,'complete');

a11=cophenet(z11,y11);

a21=cophenet(z21,y21);

a31=cophenet(z31,y31);

a41=cophenet(z41,y41);

a51=cophenet(z51,y51);

a61=cophenet(z61,y61);

a71=cophenet(z71,y71);

a81=cophenet(z81,y81);

%获得最长距离法的最大相似度

a=[a11,a21,a31,a41,a51,a61,a71,a81

a12,a22,a32,a42,a52,a62,a72,a82

a13,a23,a33,a43,a53,a63,a73,a83

a14,a24,a34,a44,a54,a64,a74,a84

a15,a25,a35,a45,a55,a65,a75,a85];

at=a';

ma=max(max(a));

fori=1:

8

forj=1:

5

if(at(i,j)==ma)

j

i

end

end

end

%获得各种分类法距离法下的最大相似度

结果如下:

j=

2

i=

2

b22=cluster(z12,3)%根据最大相似度原则聚类

h22=dendrogram(z12)%冰柱图

n=length(b22);%下面程序是对分类个数进行统计

a1=0;

a2=0;

a3=0;

fori=1:

n

ifb22(i)==1

a1=a1+1;

elseifb22(i)==2

a2=a2+1;

elseifb22(i)==3

a3=a3+1;

end

end

a1

a2

a3

b22=

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

h22=

158.0101

160.0028

161.0028

162.0028

163.0028

164.0028

165.0028

166.0028

167.0028

168.0028

169.0028

170.0028

171.0028

172.0028

173.0028

174.0028

175.0028

176.0028

177.0028

178.0028

179.0028

180.0028

181.0028

182.0028

183.0028

184.0028

185.0028

186.0028

187.0028

a1=

222

a2=

62

a3=

52

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 动物植物

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1