数据挖掘实验报告Weka的数据聚类分析Word文件下载.docx
《数据挖掘实验报告Weka的数据聚类分析Word文件下载.docx》由会员分享,可在线阅读,更多相关《数据挖掘实验报告Weka的数据聚类分析Word文件下载.docx(8页珍藏版)》请在冰豆网上搜索。
数据挖掘
实验日期:
指导教师及职称:
实验成绩:
开课时间:
2013—2014学年一学期
甘肃政法学院实验管理中心印制
实验题目
Weka的数据聚类分析
小组合作
姓名
班级
学号
一、实验目的
1、了解和熟悉K均值聚类的步骤
2、利用Weka中提供的simpleKmeans方法对数据文件进行聚类分析,更深刻的理解k均值算法,并通过对实验结果进行观察分析,找出实验中所存在的问题。
二.实验环境
Win7环境下的Eclipse
三、实验内容
在WEKA中实现K均值的算法,观察实验结果并进行分析。
四、实验过程与分析
一、实验过程
1、添加数据文件
打开Weka的Explore,使用Openfile点击打开本次实验所要使用的raff格式数据文件“auto93.raff”
2、选择算法类型
点击Cluster中的Choose,选择本次实验所要使用的算法类型“SimpleKMeans”
3、得出实验结果
选中“ClusterMode”的“Usetrainingset”,点击“Start”按钮,观察右边“Clustereroutput”给出的聚类结果如下:
===Runinformation===
Scheme:
weka.clusterers.SimpleKMeans-N2-S10
Relation:
auto93.names
Instances:
93
Attributes:
23
Manufacturer
Type
City_MPG
Highway_MPG
Air_Bags_standard
Drive_train_type
Number_of_cylinders
Engine_size
Horsepower
RPM
Engine_revolutions_per_mile
Manual_transmission_available
Fuel_tank_capacity
Passenger_capacity
Length
Wheelbase
Width
U-turn_space
Rear_seat_room
Luggage_capacity
Weight
Domestic
class
Testmode:
evaluateontrainingdata
===Modelandevaluationontrainingset===
kMeans
======
Numberofiterations:
5
Withinclustersumofsquarederrors:
282.17934341063733
Clustercentroids:
Cluster0
Mean/Mode:
ChevroletMidsize19.073226.3171115.90243.522173.85374965.85371964.2683018.60495.561193.7805108.609872.341541.634129.020215.51783517.561123.4512
StdDevs:
N/AN/A2.39163.0368N/AN/A1.2610.901550.3232581.2098370.73N/A2.49031.073511.12325.24352.96321.94622.7722.4527358.6609N/A10.2372
Cluster1
FordSmall24.961531.2692014.23011.9942120.15385528.84622622.3077115.13464.7115174.8654100.269267.038536.846226.89112.60692722.3077016.4019
N/AN/A6.07465.7467N/AN/A0.73010.504740.8149484.7019377.1753N/A3.02040.84811.25995.57352.49682.3382.77532.3975492.4971N/A7.9863
ClusteredInstances
041(44%)
52(56%)
4、修改Seed值
5、得出修改Seed值后的实验结果
weka.clusterers.SimpleKMeans-N2-S8
6
152(56%)
6、对上述实验结果进行分析
7、显示散点图
我们在左下方“Resultlist”列出的结果上右击,点“Visualizeclusterassignments”。
弹出的窗口给出了各实例的散点图。
最上方的两个框是选择横坐标和纵坐标,第二行的”color”是散点图着色的依据,默认是根据不同的簇“Cluster”给实例标上不同的颜色。
二、实验分析
本次实验采用的数据文件是“1993
New
Car
Data”。
通过观察本次实验的实验结果观察,我们可以知道:
1、Numberofiterations:
5,意味着本次实验把这93条实例聚成了5类,即K=5
2、Withinclustersumofsquarederrors:
这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离越小。
如果把“seed”参数改一下,得到的这个数值就可能会不一样。
我们应该多尝试几个“seed”,并采纳这个数值最小的那个结果。
3、Clustercentroids:
”之后列出了各个簇中心的位置。
对于数值型的属性,簇中心就是它的均值(Mean),如cluster0的数值型变量Manufacturer的均值19.0732;
分类型的就是它的众数(Mode),如cluster0的分类型变量Drive_train_type的众数为1,也就是说这个属性上取值为众数值1(有1个孩子)的实例最多。
对于数值型的属性,还给出了它在各个簇里的标准差(StdDevs)。
最后的“ClusteredInstances”是各个簇中实例的数目及百分比。
五、实验总结
通过本次试验,使我对如何在Weka中进行聚类分析有了更深刻的了解,对Weka中进行聚类分析的simpleKmeans算法也有了进一步的理解,但是实验中所遇到的,有关如何以最快的速度找出最好的聚类方案的相关问题,我还理解和运用的不是非常熟悉。
在今后的学习中我将通过查阅文献和咨询老师、同学,对此加以熟悉和改进。
THANKS!
!
致力为企业和个人提供合同协议,策划案计划书,学习课件等等
打造全网一站式需求
欢迎您的下载,资料仅供参考