电子商务weka实验Word格式.docx

上传人:b****4 文档编号:17269984 上传时间:2022-11-30 格式:DOCX 页数:15 大小:652.75KB
下载 相关 举报
电子商务weka实验Word格式.docx_第1页
第1页 / 共15页
电子商务weka实验Word格式.docx_第2页
第2页 / 共15页
电子商务weka实验Word格式.docx_第3页
第3页 / 共15页
电子商务weka实验Word格式.docx_第4页
第4页 / 共15页
电子商务weka实验Word格式.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

电子商务weka实验Word格式.docx

《电子商务weka实验Word格式.docx》由会员分享,可在线阅读,更多相关《电子商务weka实验Word格式.docx(15页珍藏版)》请在冰豆网上搜索。

电子商务weka实验Word格式.docx

4

K-MeansClusteringinWEKA

 

姓名

班级

学号

实验要求

必做

实验类别

数据挖掘

实验时间

2014.6.2

实验名称

指导教师

魏建国

一、实验目的:

 本次实验主要目的是为了练习使用数据挖掘软件WEKA来进行一些基本的数据挖掘预处理操作。

2、实验步骤:

1.装载数据:

WEKA中分析对象是以arff格式文件表示的WEKA也支持csv等格式的数据文件并可以将其转换成arff文件)。

这里我们直接导入老师所给的bank-data.arff文件。

2.移出不相关属性:

我们可以看到bank-data.arff中的数据元组中都有ID属性,在进行相关数据挖掘之前(关联分析、分类、聚类),我们需使用WEKA中的Filter功能将ID属性过滤掉。

点击Filter面板旁边的Choose按钮并选择"

weka.filters.unsupervised.attribute.Remove"

,点击空白处并填写需要移出的属性序号为“1”,如下图:

点击“OK”返回主界面,并点击Apply按钮实施移出,保存当前文件为“bank-data-R1.arff”。

3.接下来要将一些属性的值做离散化(因为有一些算法只能在离散化的属性上才适用)。

首先,我们用文本编辑器打开刚才存储“bank-data-R1.arff”文件,并将children属性后的numeric更改为@attributechildren{0,1,2,3}

4.下面我们使用WEKA来进行"

age"

and"

income"

属性的离散化。

在本实验中我们将这两个属性划分为三个区段。

首先还在刚才的Filter面板旁点击Choose按钮,选择"

weka.filters.unsupervised.attribute.Discretize"

,点击空白并填写相关属性,这里我们要离散化age属性,所以我们键入age属性的序号3,因为我们要进行的是简单的分箱操作,所以将其它选项置为false。

点击OK返回并点击Apply进行离散化。

之后再按此步骤对income属性进行离散化。

都完成后将文件保存,并用Notepad++打开arff文件发现自动划分的边界并不是整数(不易读),我们利用Notepad++中的替换功能将边界值人工修正成我们想要的数值,最后修改结果见“实验结果”中的截图。

3、实验结果

进行属性值离散化之前:

图1-1

图1-2

进行属性值离散化之后:

图1-3

图1-4

成绩

批阅人

批阅时间

学习使用WEKA对数据进行频繁模式、关联和相关方面的分析。

二、实验步骤:

1.将上次实验预处理完毕的arff文件导入至WEKA,并点击“Associate”选项卡,跳转至关联分析界面。

这里我们看到“Assosiator”已经将Apriori算法设置为默认的分析器,但是我们需要更改一些参数,点击空白处调出参数设置页面。

设置参数如下图(注意将metricType度量标准替换为Lift标准):

返回并点击Start进行关联挖掘,返回结果如下图。

三、实验结果

图2-11

当然也可以在WEKA命令行下键入命令及参数进行管理分析,在此不详述。

熟悉在WEKA中使用C4.5(J48)算法以及给定的训练集对未分类数据集进行分类(Classification)。

1.首先我们点击选项卡“Classify”,进入分类界面,选择Trees下的J48算法。

2.“TestOptions”中的“cross-validation”(交叉验证)选项中我们填入10(这个貌似在多个训练集同时使用的时候才有用还是怎么着?

)。

返回主界面后点击“Start”开始分类,文字结果出现在窗体右部,如下图:

分类形成的可视化决策树如下:

这里我们注意到结果的准确度仅有将近69%,但是在这里我们就不进一步采取其它方法提高此值了。

3.下面我们将用以上分类得出的规则来对未知的数据进行分类。

将“Testoptions”选项中的RadioButtion选到Suppliedtestset,并点击“Set…—>

Openfile”,选择bank-new.arff并返回主窗口,再次点击“Start”,得出结果如下图:

4.从上图看到我们什么也没有得到,因为这个数据是需要分类的——其pep属性均为“?

”。

在这里我们右键单击新产生的结果集,并选择“Visualizeclassifiererrors”,并保存此次运行的结果。

5.找到我们保存的结果,用Notepad++打开此文件,发现属性中多了一项predictedpep,这就是我们按照训练集中的规律对于新的未知数据集做的分类结果,如下图所示。

还未作分类的bank-new.arff:

图3-1

已经做完预测的bank-predicted.arff(可以看到定义和元组中均多了一项):

图3-2

熟悉在WEKA中使用K-means算法(在WEKA中的实现为SimpleKMeans)以及给定的训练集对未分类数据集进行分类(Classification)。

1.首先介绍一下K-Means算法,一些K-Means算法的实现仅支持数值类型的数据而不支持离散类型的数据。

但是WEKA算法中的实现SimpleKMeans实现的K-Means算法对于这两种数据类型都提供了支持,这就不需要我们自己做数据类型的转化。

并且SimpleKMeans的实现也自动对数据进行规范化。

SimpleKMeans使用欧几里德距离来衡量相似度。

2.下面进行聚类。

首先选择Cluster选项卡切换到聚类界面。

选择算法为“SimpleKMeans”,并在空白处点击并设置算法参数如下图:

这里的numClusters为最后生成聚类的数量,而seed是作为初始选择中心点的一个“种子”,K-Means对于初始点的选择是很敏感的,所以初始种子设置的不同可能会带来不同的聚类结果。

3.在返回主界面后,选择“ClusterMode”中的"

Usetrainingset"

,并点击“Start”开始算法,得到结果如下图。

图4-1

可视化结果如下图:

图4-2

保存文件截图:

图4-3

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 法律文书 > 起诉状

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1