数据挖掘实验报告Weka的数据聚类分析Word文件下载.docx

上传人:b****4 文档编号:17112348 上传时间:2022-11-28 格式:DOCX 页数:8 大小:79.98KB
下载 相关 举报
数据挖掘实验报告Weka的数据聚类分析Word文件下载.docx_第1页
第1页 / 共8页
数据挖掘实验报告Weka的数据聚类分析Word文件下载.docx_第2页
第2页 / 共8页
数据挖掘实验报告Weka的数据聚类分析Word文件下载.docx_第3页
第3页 / 共8页
数据挖掘实验报告Weka的数据聚类分析Word文件下载.docx_第4页
第4页 / 共8页
数据挖掘实验报告Weka的数据聚类分析Word文件下载.docx_第5页
第5页 / 共8页
点击查看更多>>
下载资源
资源描述

数据挖掘实验报告Weka的数据聚类分析Word文件下载.docx

《数据挖掘实验报告Weka的数据聚类分析Word文件下载.docx》由会员分享,可在线阅读,更多相关《数据挖掘实验报告Weka的数据聚类分析Word文件下载.docx(8页珍藏版)》请在冰豆网上搜索。

数据挖掘实验报告Weka的数据聚类分析Word文件下载.docx

数据挖掘

实验日期:

指导教师及职称:

实验成绩:

开课时间:

2013—2014学年一学期

 

甘肃政法学院实验管理中心印制

实验题目

Weka的数据聚类分析

小组合作

姓名

班级

学号

一、实验目的

1、了解和熟悉K均值聚类的步骤

2、利用Weka中提供的simpleKmeans方法对数据文件进行聚类分析,更深刻的理解k均值算法,并通过对实验结果进行观察分析,找出实验中所存在的问题。

二.实验环境

Win7环境下的Eclipse

三、实验内容

在WEKA中实现K均值的算法,观察实验结果并进行分析。

四、实验过程与分析

一、实验过程

1、添加数据文件

打开Weka的Explore,使用Openfile点击打开本次实验所要使用的raff格式数据文件“auto93.raff”

2、选择算法类型

点击Cluster中的Choose,选择本次实验所要使用的算法类型“SimpleKMeans”

3、得出实验结果

选中“ClusterMode”的“Usetrainingset”,点击“Start”按钮,观察右边“Clustereroutput”给出的聚类结果如下:

===Runinformation===

Scheme:

weka.clusterers.SimpleKMeans-N2-S10

Relation:

auto93.names

Instances:

93

Attributes:

23

Manufacturer

Type

City_MPG

Highway_MPG

Air_Bags_standard

Drive_train_type

Number_of_cylinders

Engine_size

Horsepower

RPM

Engine_revolutions_per_mile

Manual_transmission_available

Fuel_tank_capacity

Passenger_capacity

Length

Wheelbase

Width

U-turn_space

Rear_seat_room

Luggage_capacity

Weight

Domestic

class

Testmode:

evaluateontrainingdata

===Modelandevaluationontrainingset===

kMeans

======

Numberofiterations:

5

Withinclustersumofsquarederrors:

282.17934341063733

Clustercentroids:

Cluster0

Mean/Mode:

ChevroletMidsize19.073226.3171115.90243.522173.85374965.85371964.2683018.60495.561193.7805108.609872.341541.634129.020215.51783517.561123.4512

StdDevs:

N/AN/A2.39163.0368N/AN/A1.2610.901550.3232581.2098370.73N/A2.49031.073511.12325.24352.96321.94622.7722.4527358.6609N/A10.2372

Cluster1

FordSmall24.961531.2692014.23011.9942120.15385528.84622622.3077115.13464.7115174.8654100.269267.038536.846226.89112.60692722.3077016.4019

N/AN/A6.07465.7467N/AN/A0.73010.504740.8149484.7019377.1753N/A3.02040.84811.25995.57352.49682.3382.77532.3975492.4971N/A7.9863

ClusteredInstances

041(44%)

52(56%)

4、修改Seed值

5、得出修改Seed值后的实验结果

weka.clusterers.SimpleKMeans-N2-S8

6

152(56%)

6、对上述实验结果进行分析

7、显示散点图

我们在左下方“Resultlist”列出的结果上右击,点“Visualizeclusterassignments”。

弹出的窗口给出了各实例的散点图。

最上方的两个框是选择横坐标和纵坐标,第二行的”color”是散点图着色的依据,默认是根据不同的簇“Cluster”给实例标上不同的颜色。

二、实验分析

本次实验采用的数据文件是“1993 

New 

Car 

Data”。

通过观察本次实验的实验结果观察,我们可以知道:

1、Numberofiterations:

5,意味着本次实验把这93条实例聚成了5类,即K=5

2、Withinclustersumofsquarederrors:

这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离越小。

如果把“seed”参数改一下,得到的这个数值就可能会不一样。

我们应该多尝试几个“seed”,并采纳这个数值最小的那个结果。

3、Clustercentroids:

”之后列出了各个簇中心的位置。

对于数值型的属性,簇中心就是它的均值(Mean),如cluster0的数值型变量Manufacturer的均值19.0732;

分类型的就是它的众数(Mode),如cluster0的分类型变量Drive_train_type的众数为1,也就是说这个属性上取值为众数值1(有1个孩子)的实例最多。

对于数值型的属性,还给出了它在各个簇里的标准差(StdDevs)。

最后的“ClusteredInstances”是各个簇中实例的数目及百分比。

五、实验总结

通过本次试验,使我对如何在Weka中进行聚类分析有了更深刻的了解,对Weka中进行聚类分析的simpleKmeans算法也有了进一步的理解,但是实验中所遇到的,有关如何以最快的速度找出最好的聚类方案的相关问题,我还理解和运用的不是非常熟悉。

在今后的学习中我将通过查阅文献和咨询老师、同学,对此加以熟悉和改进。

THANKS!

!

致力为企业和个人提供合同协议,策划案计划书,学习课件等等

打造全网一站式需求

欢迎您的下载,资料仅供参考

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 经管营销 > 财务管理

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1