数据挖掘实验报告实验1Weka基础操作.docx

资源描述

数据挖掘实验报告实验1Weka基础操作.docx

《数据挖掘实验报告实验1Weka基础操作.docx》由会员分享，可在线阅读，更多相关《数据挖掘实验报告实验1Weka基础操作.docx（12页珍藏版）》请在冰豆网上搜索。

数据挖掘实验报告实验1Weka基础操作.docx

数据挖掘实验报告实验1Weka基础操作

数据挖掘实验报告-实验1-Weka基础操作

学生实验报告

学院：

信息管理学院

课程名称：

数据挖掘

教学班级：

B01

姓名：

学号：

实验报告

课程名称

数据挖掘

教学班级

B01

指导老师

学号

姓名

行政班级

实验项目

实验一：

Weka的基本操作

组员名单

独立完成

实验类型

■操作性实验□验证性实验□综合性实验

实验地点

H535

实验日期

2016.09.28

1.实验目的和要求：

（1）Explorer界面的各项功能；

注意不能与课件上的截图相同，可采用打开不同的数据文件以示区别。

（2）Weka的两种数据表格编辑文件方式下的功能介绍；

①Explorer-Preprocess-edit，弹出Viewer对话框；

②WekaGUI选择器窗口-Tools|ArffViewer，打开ARFF-Viewer窗口。

（3）ARFF文件组成。

2．实验过程（记录实验步骤、分析实验结果）

2.1Explorer界面的各项功能

2.1.1初始界面示意

其中：

explorer选项是数据挖掘梳理数据最常用界面，也是使用weka最简单的方法。

Experimenter：

实验者选项，提供不同数值的比较，发现其中规律。

KnowledgeFlow：

知识流，其中包含处理大型数据的方法，初学者应用较少。

SimpleCLI：

命令行窗口，有点像cmd格式，非图形界面。

2.1.2进入Explorer界面功能介绍

（1）任务面板

Preprocess（数据预处理）：

选择和修改要处理的数据。

Classify（分类）：

训练和测试分类或回归模型。

Cluster（聚类）：

从数据中聚类。

聚类分析时用的较多。

Associate（关联分析）：

从数据中学习关联规则。

SelectAttributes（选择属性）：

选择数据中最相关的属性。

Visualize（可视化）：

查看数据的二维散布图。

（2）常用按钮

Openfile：

打开文件

OpenURL：

打开URL格式文件

OpenDB：

打开数据库文件

Generate：

数据生成

Undo：

撤销操作

Edit：

编辑数据

Save：

保存数据文件，可实现文件格式的转换，比如csv格式文件向ARFF格式文件转换等等。

（3）筛选数据

Choose：

从这个按钮进去可以选择某个过滤器对数据进行筛选，数据预处理一般使用这个。

Apply：

处理完成后，点击这个按钮，处理生效。

（4）数据集的属性关系和操作

currentrelation：

展示了属性的（relation）关系名称,（attributes）属性数，（Insetances）实例数，（sumofweights）权重的总和等多种属性关系。

Attributes：

展示了属性的所有列，上边的四个按钮是对属性列的快捷选择按钮，包括（all）全选，（none）全不选，（Ivert）反选，（patern）模式，选择符合某一条件的属性列。

最下边的remove按钮可以删除选中的属性列，如果想撤回，可以使用上边提到的undo按钮~

（5）属性摘要和直方图

Selectedattributes：

如果是数值属性：

属性名（Name）、属性类型（Type）、缺失值（Missing）个数及百分比、不同值（Distinct）数、唯一值（Unique）数及百分比等等。

对于数值属性和标称属性，摘要的方式是不一样的。

图中显示的是标签的取值及相应取值的实例数。

选中属性的直方图。

若数据集的最后一个属性是类标变量（这是分类或回归任务的默认目标变量，如“play”），直方图中的每个长方形就会按照该变量的比例分成不同颜色的段。

要想换个分段的依据，在上方的下拉框中选个不同的分类属性就可以了。

下拉框里选上“NoClass”或者一个数值属性会变成黑白的直方图。

Visualize：

展示所有的属性的直方图

（6）状态栏（status）

显示一些信息让你知道正在做什么。

在状态栏中的任意位置右击鼠标将会出现一个小菜单。

有两个选项：

MemoryInformation--显示WEKA可用的内存量。

Rungarbagecollector--强制运行Java垃圾回收器，搜索不再需要的内存空间并将之释放，从而可为新任务分配更多的内存。

Log：

按钮可以查看以weka操作日志。

没有任务时，右边的小鸟是坐着的，任务运行时，小鸟会站起来左右摇摆。

若小鸟站着但不转动，表示任务出了问题。

2.1.2引例操作显示功能

（1）

2.2weka的两种数据表格编辑方式下的功能介绍

①Explorer-Preprocess-edit，弹出Viewer对话框；

1、双击鼠标可以对数据进行修改，

2、在数据上使用右键可以对数据修改进行撤回（undo）

3、对数据修改之后，如果想保存，点击下方的ok，撤回点击undo，不保存直接点击cancel

②WekaGUI选择器窗口-Tools|ArffViewer，打开ARFF-Viewer窗口。

1、在最开始进入界面点击上边的tools，进入arffviewer。

2、点击打开不同的文件，会在上沿像浏览器一样挨个展示arff文件的内容。

3、鼠标移动到属性名称旁边是会显示对属性列操作的格式，单机左键会对所有数据按照这个属性按照升序排列，（shift+左键）会对属性按照这个属性进行降序排列，（Alt+左键）或者直接右键出现对数据进行操作的菜单，对属性列进行重命名，所有数据相加之类的操作都可以在菜单中找到。

4、鼠标定在某行时，可以删除某一行

5、有点像excel中的操作

2.2ARFF文件组成

2.2.1、对文件格式介绍

WEKA存储数据的格式是ARFF（Attribute-RelationFileFormat）文件

1、这是一种ASCII文本文件

2、文件的扩展名为.arff

3、可以用写字板打开、编辑ARFF文件。

建议用UltraEdit等编辑器

使用写字板打开时如下

①“%”表示注释，WEKA将忽略这些行。

②除去注释后，整个ARFF文件可以分为两个部分:

（a）第一部分给出了头信息（Headinformation），包括了对关系的声明和对属性的声明。

（b）第二部分给出了数据信息（Datainformation），即数据集中给出的数据。

从“@data”标记开始，后面的就是数据信息了。

③关系名称在ARFF文件的第一个有效行来定义，格式为：

@relation<关系名>

<关系名>是一个字符串。

如果这个字符串包含空格，它必须加上引号（指英文标点的单引号或双引号）。

④属性声明用一列以“@attribute”开头的语句表示。

数据集中的每一个属性都有对应的“@attribute”语句，来定义它的属性名称和数据类型（datatype）：

@attribute<属性名><数据类型>

其中<属性名>必须以字母开头的字符串。

和关系名称一样，如果这个字符串包含空格，它必须加上引号。

属性声明语句的顺序很重要，它表明了该项属性在数据部分的位置。

最后一个声明的属性被称作class属性，在分类或回归任务中，它是默认的目标变量。

⑤WEKA一共支持五种数据类型

numeric数值型

nominal标称（nominal）型

string字符串型

date[]日期和时间型

Relational关系型

还可以使用两个类型“integer”和“real”，但是WEKA把它们都当作“numeric”看待。

注意：

“integer”，“real”，“numeric”，“date”，“string”这些关键字是区分大小写的，而“relation”、“attribute”和“data”则不区分。

⑥每个实例占一行，实例的各属性值用逗号“,”隔开。

⑦如果某个属性的值是缺失值（missingvalue），用问号“?

”表示，且这个问号不能省略。

2.2.2xls文件转arff文件

（1）创建xls文件，保存为csv文件

（2）weka中打开csv格式的文件，另存为arff文件，因为在数据处理中，arff文件最受欢迎

转存后

3．问题反馈与收获

3.1问题与解决办法

突然忘记了怎么将表格图片快捷保存了，

咨询XX也没找到结果，然后决定使用截图了

3.2发现与收获

我发现：

在数据处理的时候使用离散化，可以更好的显示数据之间的差别。

如下所示

经过离散化之后，数据可以更清楚看出规律了~

4．指导教师评语及成绩：

评语：

成绩：

指导教师签名：

批阅日期：

月日

展开阅读全文