数据挖掘实验报告实验1Weka基础操作.docx

上传人:b****9 文档编号:25610291 上传时间:2023-06-10 格式:DOCX 页数:12 大小:1.05MB
下载 相关 举报
数据挖掘实验报告实验1Weka基础操作.docx_第1页
第1页 / 共12页
数据挖掘实验报告实验1Weka基础操作.docx_第2页
第2页 / 共12页
数据挖掘实验报告实验1Weka基础操作.docx_第3页
第3页 / 共12页
数据挖掘实验报告实验1Weka基础操作.docx_第4页
第4页 / 共12页
数据挖掘实验报告实验1Weka基础操作.docx_第5页
第5页 / 共12页
点击查看更多>>
下载资源
资源描述

数据挖掘实验报告实验1Weka基础操作.docx

《数据挖掘实验报告实验1Weka基础操作.docx》由会员分享,可在线阅读,更多相关《数据挖掘实验报告实验1Weka基础操作.docx(12页珍藏版)》请在冰豆网上搜索。

数据挖掘实验报告实验1Weka基础操作.docx

数据挖掘实验报告实验1Weka基础操作

 

数据挖掘实验报告-实验1-Weka基础操作

 

学生实验报告

 

学院:

信息管理学院

课程名称:

数据挖掘

教学班级:

B01

姓名:

学号:

 

实验报告

课程名称

数据挖掘

教学班级

B01

指导老师

学号

姓名

行政班级

实验项目

实验一:

Weka的基本操作

组员名单

独立完成

实验类型

■操作性实验□验证性实验□综合性实验

实验地点

H535

实验日期

2016.09.28

1.实验目的和要求:

(1)Explorer界面的各项功能;

注意不能与课件上的截图相同,可采用打开不同的数据文件以示区别。

(2)Weka的两种数据表格编辑文件方式下的功能介绍;

①Explorer-Preprocess-edit,弹出Viewer对话框;

②WekaGUI选择器窗口-Tools|ArffViewer,打开ARFF-Viewer窗口。

(3)ARFF文件组成。

2.实验过程(记录实验步骤、分析实验结果)

2.1Explorer界面的各项功能

2.1.1初始界面示意

其中:

explorer选项是数据挖掘梳理数据最常用界面,也是使用weka最简单的方法。

Experimenter:

实验者选项,提供不同数值的比较,发现其中规律。

KnowledgeFlow:

知识流,其中包含处理大型数据的方法,初学者应用较少。

SimpleCLI:

命令行窗口,有点像cmd格式,非图形界面。

2.1.2进入Explorer界面功能介绍

(1)任务面板

Preprocess(数据预处理):

选择和修改要处理的数据。

Classify(分类):

训练和测试分类或回归模型。

Cluster(聚类):

从数据中聚类。

聚类分析时用的较多。

Associate(关联分析):

从数据中学习关联规则。

SelectAttributes(选择属性):

选择数据中最相关的属性。

Visualize(可视化):

查看数据的二维散布图。

(2)常用按钮

Openfile:

打开文件

OpenURL:

打开URL格式文件

OpenDB:

打开数据库文件

Generate:

数据生成

Undo:

撤销操作

Edit:

编辑数据

Save:

保存数据文件,可实现文件格式的转换,比如csv格式文件向ARFF格式文件转换等等。

(3)筛选数据

Choose:

从这个按钮进去可以选择某个过滤器对数据进行筛选,数据预处理一般使用这个。

Apply:

处理完成后,点击这个按钮,处理生效。

(4)数据集的属性关系和操作

currentrelation:

展示了属性的(relation)关系名称,(attributes)属性数,(Insetances)实例数,(sumofweights)权重的总和等多种属性关系。

Attributes:

展示了属性的所有列,上边的四个按钮是对属性列的快捷选择按钮,包括(all)全选,(none)全不选,(Ivert)反选,(patern)模式,选择符合某一条件的属性列。

最下边的remove按钮可以删除选中的属性列,如果想撤回,可以使用上边提到的undo按钮~

(5)属性摘要和直方图

Selectedattributes:

如果是数值属性:

属性名(Name)、属性类型(Type)、缺失值(Missing)个数及百分比、不同值(Distinct)数、唯一值(Unique)数及百分比等等。

对于数值属性和标称属性,摘要的方式是不一样的。

图中显示的是标签的取值及相应取值的实例数。

选中属性的直方图。

若数据集的最后一个属性是类标变量(这是分类或回归任务的默认目标变量,如“play”),直方图中的每个长方形就会按照该变量的比例分成不同颜色的段。

要想换个分段的依据,在上方的下拉框中选个不同的分类属性就可以了。

下拉框里选上“NoClass”或者一个数值属性会变成黑白的直方图。

Visualize:

展示所有的属性的直方图

(6)状态栏(status)

显示一些信息让你知道正在做什么。

在状态栏中的任意位置右击鼠标将会出现一个小菜单。

有两个选项:

MemoryInformation--显示WEKA可用的内存量。

Rungarbagecollector--强制运行Java垃圾回收器,搜索不再需要的内存空间并将之释放,从而可为新任务分配更多的内存。

Log:

按钮可以查看以weka操作日志。

没有任务时,右边的小鸟是坐着的,任务运行时,小鸟会站起来左右摇摆。

若小鸟站着但不转动,表示任务出了问题。

2.1.2引例操作显示功能

(1)

2.2weka的两种数据表格编辑方式下的功能介绍

①Explorer-Preprocess-edit,弹出Viewer对话框;

1、双击鼠标可以对数据进行修改,

2、在数据上使用右键可以对数据修改进行撤回(undo)

3、对数据修改之后,如果想保存,点击下方的ok,撤回点击undo,不保存直接点击cancel

②WekaGUI选择器窗口-Tools|ArffViewer,打开ARFF-Viewer窗口。

1、在最开始进入界面点击上边的tools,进入arffviewer。

2、点击打开不同的文件,会在上沿像浏览器一样挨个展示arff文件的内容。

3、鼠标移动到属性名称旁边是会显示对属性列操作的格式,单机左键会对所有数据按照这个属性按照升序排列,(shift+左键)会对属性按照这个属性进行降序排列,(Alt+左键)或者直接右键出现对数据进行操作的菜单,对属性列进行重命名,所有数据相加之类的操作都可以在菜单中找到。

4、鼠标定在某行时,可以删除某一行

5、有点像excel中的操作

2.2ARFF文件组成

2.2.1、对文件格式介绍

WEKA存储数据的格式是ARFF(Attribute-RelationFileFormat)文件

1、这是一种ASCII文本文件

2、文件的扩展名为.arff

3、可以用写字板打开、编辑ARFF文件。

建议用UltraEdit等编辑器

使用写字板打开时如下

①“%”表示注释,WEKA将忽略这些行。

②除去注释后,整个ARFF文件可以分为两个部分:

(a)第一部分给出了头信息(Headinformation),包括了对关系的声明和对属性的声明。

(b)第二部分给出了数据信息(Datainformation),即数据集中给出的数据。

从“@data”标记开始,后面的就是数据信息了。

③关系名称在ARFF文件的第一个有效行来定义,格式为:

@relation<关系名>

<关系名>是一个字符串。

如果这个字符串包含空格,它必须加上引号(指英文标点的单引号或双引号)。

④属性声明用一列以“@attribute”开头的语句表示。

数据集中的每一个属性都有对应的“@attribute”语句,来定义它的属性名称和数据类型(datatype):

@attribute<属性名><数据类型>

其中<属性名>必须以字母开头的字符串。

和关系名称一样,如果这个字符串包含空格,它必须加上引号。

属性声明语句的顺序很重要,它表明了该项属性在数据部分的位置。

最后一个声明的属性被称作class属性,在分类或回归任务中,它是默认的目标变量。

⑤WEKA一共支持五种数据类型

numeric数值型

nominal标称(nominal)型

string字符串型

date[]日期和时间型

Relational关系型

还可以使用两个类型“integer”和“real”,但是WEKA把它们都当作“numeric”看待。

注意:

“integer”,“real”,“numeric”,“date”,“string”这些关键字是区分大小写的,而“relation”、“attribute”和“data”则不区分。

⑥每个实例占一行,实例的各属性值用逗号“,”隔开。

⑦如果某个属性的值是缺失值(missingvalue),用问号“?

”表示,且这个问号不能省略。

2.2.2xls文件转arff文件

(1)创建xls文件,保存为csv文件

(2)weka中打开csv格式的文件,另存为arff文件,因为在数据处理中,arff文件最受欢迎

转存后

3.问题反馈与收获

3.1问题与解决办法

突然忘记了怎么将表格图片快捷保存了,

咨询XX也没找到结果,然后决定使用截图了

3.2发现与收获

我发现:

在数据处理的时候使用离散化,可以更好的显示数据之间的差别。

如下所示

经过离散化之后,数据可以更清楚看出规律了~

4.指导教师评语及成绩:

评语:

 

成绩:

指导教师签名:

批阅日期:

月日

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 经管营销 > 企业管理

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1