《数据挖掘实训》weka实验报告.docx

资源描述

《数据挖掘实训》weka实验报告.docx

《《数据挖掘实训》weka实验报告.docx》由会员分享，可在线阅读，更多相关《《数据挖掘实训》weka实验报告.docx（9页珍藏版）》请在冰豆网上搜索。

《数据挖掘实训》weka实验报告.docx

《数据挖掘实训》weka实验报告

《数据挖掘实训》课程

论文（报告、案例分析）

院系信息学院

专业统计

班级10级统计3班

学生姓名李健

学号2010210453

任课教师刘洪伟

2013年01月17日

课程论文评分表

各项

满分

评分标准

学生

得分

评分标准一

有明确的研究背景和意义

评分标准二

数据准确、有时效性，必须是最新的数据

评分标准三

方法得当，有实证分析

评分标准四

条理性和逻辑性强，内容阐述清晰、结论明确

评分标准五

论文按规定的格式撰写，文章中引用的内容需用脚注注明来源

评分标准六

特别

提醒

文章出现大段抄袭或者两人之间内容雷同达到80%以上，均不能及格。

论文按规定的时间上交，每推迟一天，扣减2分

总分

评阅人签字

《数据挖掘实训》课程论文

选题要求：

根据公开发表统计数据，请结合数据挖掘理论与方法，撰写一篇与数据挖掘领域相关的论文。

写作要求：

（1）数据准确、有时效性，必须是最新的数据。

（2）文章必须有相应的统计方法，这些统计方法包括以前专业课中学到的任何统计方法，如参数估计、假设检验、相关与回归、多元统计等等。

（3）论文的内容必须是原创，有可靠的分析依据和明确的结论。

（4）论文按照规定的格式化撰写；

（5）字数不少于2000字。

数据挖掘（WEKA软件）实验报告

统计学专业学生李健学号2010210453

关键词：

数据挖掘；游玩；因素；WEKA

本次实验指在熟练的运用软件weka进行数据处理，其中包括数据准备，关联规则等同时了解weka的基本用法。

一、软件介绍

1简介

数据挖掘、机器学习这些字眼，在一些人看来，是门槛很高的东西。

诚然，如果做算法实现甚至算法优化，确实需要很多背景知识。

但事实是，绝大多数数据挖掘工程师，不需要去做算法层面的东西。

他们的精力，集中在特征提取，算法选择和参数调优上。

那么，一个可以方便地提供这些功能的工具，便是十分必要的了。

而weka，便是数据挖掘工具中的佼佼者。

WEKA的全名是怀卡托智能分析环境（WaikatoEnvironmentforKnowledgeAnalysis），是由新西兰怀卡托（Waikato）大学开发的机器学习软件，纯Java技术实现的开源软件，遵循于GNUGeneralPublicLicense，跨平台运行，集合了大量能承担数据挖掘任务的机器学习算法，分类器实现了常用ZeroR算法、Id3算法、J4．8算法等40多个算法，聚类器实现了EM算法、SimpleKMeans算法和Cobweb算法3种算法，能对数据进行预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。

2oo5年8月，在第11届ACMSIGKDD国际会议上，怀卡托大学的WEKA小组荣获了数据挖掘和知识探索领域的最高服务奖，WEKA系统得到了广泛的认可，被誉为数据挖掘和机器学习历史上的里程碑，是现今最完备的数据挖掘工具之一。

WEKA使用的是一种叫做arff（Attribute—RelationFileFormat）的数据文件结构。

这种arff文件是普通的ASCII文本文件，内部结构很简单，主要是测试算法使用的轻量级的数据文件结构。

arff文件可以自己建立，也可通过JDBC从Oracle和Mysql等流行数据库中获得。

整个arf文件可以分为两个部分。

第一部分给出了头信息（Headinformation），包括关系声明（RelationDeclaration）和属性声明（AttributeDeclarations）。

第二部分给出了数据信息（Datainformation），即数据集中给出的数据。

关系声明的定义格式为：

@relation；属性声明的定义格式为：

@attribute；数据信息的定义格式为独占一行的@data，后面跟着的就是数据信息。

2.安装

Weka的官方地址是http:

//www.cs.waikato.ac.nz/ml/weka/。

点开左侧download栏，可以进入下载页面，里面有windows，macos，linux等平台下的版本，我们以windows系统作为示例。

目前稳定的版本是3.6。

如果本机没有安装java，可以选择带有jre的版本。

下载后是一个exe的可执行文件，双击进行安装即可。

安装完毕，打开启动weka的快捷方式，如果可以看到下面的界面，那么恭喜，安装成功了。

共有4个应用，分别是

1）Explorer

用来进行数据实验、挖掘的环境，它提供了分类，聚类，关联规则，特征选择，数据可视化的功能。

（AnenvironmentforexploringdatawithWEKA）

2）Experimentor

用来进行实验，对不同学习方案进行数据测试的环境。

（Anenvironmentforperformingexperimentsandconductingstatisticaltestsbetweenlearningschemes.）

3）KnowledgeFlow

功能和Explorer差不多，不过提供的接口不同，用户可以使用拖拽的方式去建立实验方案。

另外，它支持增量学习。

（ThisenvironmentsupportsessentiallythesamefunctionsastheExplorerbutwithadrag-and-dropinterface.Oneadvantageisthatitsupportsincrementallearning.）

4）SimpleCLI

简单的命令行界面。

（Providesasimplecommand-lineinterfacethatallowsdirectexecutionofWEKAcommandsforoperatingsystemsthatdonotprovidetheirowncommandlineinterface.）

二、实验内容

1.选用数据文件为：

small_dataset中的weather.arff数据文件

2.在WEKA中点击explorer打开文件weather.arff

3.对数据整理分析

4.将数据分类：

单机classify——在testoptions中选择第一项（Usetrainingset）——点击classifier下面的choose按钮选择trees中的J48

由上图可知该树有5个叶子

是否出去游玩由天气晴朗（sunny）、天气预报（overcast）以及阴雨天（rainy）因素决定

5.关联规则

我们打算对前面的“bank-data”数据作关联规则的分析。

用“Explorer”打开“bank-data-final.arff”后，切换到“Associate”选项卡。

默认关联规则分析是用Apriori算法，我们就用这个算法，但是点“Choose”右边的文本框修改默认的参数，弹出的窗口中点“More”可以看到各参数的说明。

7.切换到“Associate”选项卡。

默认关联规则分析是用Apriori算法，我们就用这个算法

1），将经过离散化的数据存入subsetexample1.arff

2），点击“Choose”旁边的文本框会弹出新窗口以修改离散化的参数。

3），现在我们计划挖掘出支持度在10%到100%之间，并且lift值超过1.5且lift值排在前100位的那些关联规则。

numRules”设为100，metrictype由confidence改为lift。

其他选项保持默认即可。

点击start输出100个数据

Bestrulesfound:

1.humidity=80.5_max7==>play=no4conf:

（0.57）

（1.6）>lev:

（0.11）[1]conv:

（1.13）

2.play=no5==>humidity=80.5_max4conf:

（0.8）

（1.6）>lev:

（0.11）[1]conv:

（1.25）

3.outlook=overcast4==>play=yes4conf:

（1）

（1.56）>lev:

（0.1）[1]conv:

（1.43）

4.play=yes9==>outlook=overcast4conf:

（0.44）

（1.56）>lev:

（0.1）[1]conv:

（1.07）

5.humidity=0_80.5windy=FALSE4==>play=yes4conf:

（1）

（1.56）>lev:

（0.1）[1]conv:

（1.43）

6.play=yes9==>humidity=0_80.5windy=FALSE4conf:

（0.44）

（1.56）>lev:

（0.1）[1]conv:

（1.07）

7.outlook=rainy5==>temperature=0_74.54conf:

（0.8）

（1.4）>lev:

（0.08）[1]conv:

（1.07）

8.temperature=0_74.58==>outlook=rainy4conf:

（0.5）

（1.4）>lev:

（0.08）[1]conv:

（1.03）

9.humidity=0_80.57==>play=yes6conf:

（0.86）

（1.33）>lev:

（0.11）[1]conv:

（1.25）

10.play=yes9==>humidity=0_80.56conf:

（0.67）

（1.33）>lev:

（0.11）[1]conv:

（1.13）

三、总结：

通过实践周的学习，我们不仅继续学习了R还学习了Weka软件的应用。

使我重新学习了一下数据挖掘的相关概念、知识和软件的应用，理解了数据挖掘的用途和使用步骤。

在此过程中学会了运用各个模块的分析方法。

通过本次实训操作，也认识到了数据挖掘对大量的数据进行探索后，能揭示出其中隐藏着的规律性内容，并且由此进一步形成模型化的分析方法。

可以建立整体或某个业务过程局部的不同类型的模型，可以描述发展的现状和规律性，而且可以用来预测当条件变化后可能发生的状况。

经过这一系列的系统学习，我们不仅能研究有关花种问题，同时更能处理好其他相关类问题的研究。

参考文献

[1]数据挖掘教程

[2]韩家炜.数据挖掘概念与技术：

机械工业出版社，2012

展开阅读全文