数据挖掘weka数据分类实验报告Word下载.docx

上传人:b****6 文档编号:20886737 上传时间:2023-01-26 格式:DOCX 页数:17 大小:424.87KB
下载 相关 举报
数据挖掘weka数据分类实验报告Word下载.docx_第1页
第1页 / 共17页
数据挖掘weka数据分类实验报告Word下载.docx_第2页
第2页 / 共17页
数据挖掘weka数据分类实验报告Word下载.docx_第3页
第3页 / 共17页
数据挖掘weka数据分类实验报告Word下载.docx_第4页
第4页 / 共17页
数据挖掘weka数据分类实验报告Word下载.docx_第5页
第5页 / 共17页
点击查看更多>>
下载资源
资源描述

数据挖掘weka数据分类实验报告Word下载.docx

《数据挖掘weka数据分类实验报告Word下载.docx》由会员分享,可在线阅读,更多相关《数据挖掘weka数据分类实验报告Word下载.docx(17页珍藏版)》请在冰豆网上搜索。

数据挖掘weka数据分类实验报告Word下载.docx

实验采用Weka平台,数据使用Weka安装目录下data文件夹下的默认数据集iris.arff。

Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。

Weka使用Java写成的,并且限制在GNU通用公共证书的条件下发布。

它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。

Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。

三、数据预处理

Weka平台支持ARFF格式和CSV格式的数据。

由于本次使用平台自带的ARFF格式数据,所以不存在格式转换的过程。

实验所用的ARFF所示1格式数据集如图

图1ARFF格式数据集(iris.arff)

对于iris数据集,它包含了150个实例(每个分类包含50个实例),共有sepallength、sepalwidth、petal

length、petalwidth和class五种属性。

期中前四种属性为数值类型,class属性为分类属性,表示实例所对应的的类别。

该数据集中的全部实例共可分为三类:

IrisSetosa、IrisVersicolour和IrisVirginica。

实验数据集中所有的数据都是实验所需的,因此不存在属性筛选的问题。

若所采用的数据集中存在大量的与实验无关的属性,则需要使用weka平台的Filter(过滤器)实现属性的筛选。

实验所需的训练集和测试集均为iris.arff。

四、实验过程及结果

C4.5LibSVM、应用iris数据集,分别采用决策树分类器和朴素贝叶斯分类器进行测试和找出评价,分别在训练数据上训练出分类模型,

并对三个模型进行全面各个模型最优的参数值,得到一个最好的分类模型以及该模型评价比较,最后使用这些参数以及训所有设置的最优参数。

练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。

分类、LibSVM1要使分类器,Weka平台内部没有集成libSVM并导入到libsvm.jar用该分类器,需要下载中。

Weka,””打开数据集“iris.arff用“Explorer到切换功能面板并在Explorer中将择选”按钮““Classify”。

点Choosefunctions(weka.classifiers.functions.LibSV“分类算法。

,选择LibSVMM)”择中选Test在Options面板,即十折交叉验Cross-Validatioinfolds=10”按钮:

证。

然后点击“start使用LibSVM分类算法训练数据集得出的结果

0.0

R–0.0G–3D–2K–0S参数:

–.

–N0.5–M40.0–C1.0–E0.0010–P

0.1

 

结果分析

使用该参数指定LibSV训练数据集,得到确率96.6667,其15个实例中14个被正确分类,5个被错误分类。

根据混淆矩阵,被错误分类实例的为:

2个b类实例被错误分类到c;

3个c类实例被错误分类到b。

该算法P=0.967,R=0.967,ROC面积为0.975。

将模型应用于测试集:

使用LibSVM分类算法测试数据集得出的结果

分类误差:

结果分析,只有两个实例被错误分类准确率98.66670.99面积R=0.98ROP=0.98,

C4.5决策树分类器2、

依然使用十折交叉验证,训练集和测试集相同使C4.决策树分类算法训练数据集得出的结果

-C0.25-M2

参数:

结果分析:

决策树分类器训练数据C4.5使用该参数指定的.

144个实例中的,其中150集,96%得到准确率为根据混淆矩阵,个被错误分类。

个被正确分类,6类实例被错误分类b2个被错误分类实例的为:

类实例被错误分类c,类例被错误分类该算P=0.9R=0.9RO面积0.96

将模型应用于测试集:

使C4.分类算法测试数据集得出的结

结果分析P=0.9个实例被错误分类98准确率0.993RO面积R=0.98

、朴素贝叶斯分类器使用朴素贝叶斯分类算法训练数据集得出的

参数:

无.

结果分析得到准确使用朴素贝叶斯分类器训练数据集个被1415个实例中95.3333,其个被错误分类。

根据混淆矩阵,被确分类类实例被错误分类误分类实例的为类实例被错误分类。

该算P=0.95R=0.95RO面积0.99

使用朴素贝叶斯分类算法测试数据集得出的结果

分类误差

结果分析:

,P=0.966准确率为个实例被错误分类。

96%,有0.995面积为,ROCR=0.96

三种分类算法比较:

4、

LibSVMC4.决策朴素贝叶

96%

98%

98.6667%

训练混淆矩阵

校验

混淆矩阵

标0.1483

准0.09430.108

误差

比较结果分析:

LibSVM算法相比C4.5决策树算法、朴素贝叶斯算法具有更好的分类性能。

五、实验总结

通过本次实验,我对Weka平台有了比较完整平台进行数据Weka和深入的认识,掌握了使用.

挖掘的方法,包括数据预处理、分类、聚类、关联分析等。

通过实验,对数据挖掘本身也有了比较直观的认识。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 小学教育 > 语文

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1