商务智能与数据挖掘实验报告.docx

上传人:b****4 文档编号:714558 上传时间:2022-10-12 格式:DOCX 页数:11 大小:484.64KB
下载 相关 举报
商务智能与数据挖掘实验报告.docx_第1页
第1页 / 共11页
商务智能与数据挖掘实验报告.docx_第2页
第2页 / 共11页
商务智能与数据挖掘实验报告.docx_第3页
第3页 / 共11页
商务智能与数据挖掘实验报告.docx_第4页
第4页 / 共11页
商务智能与数据挖掘实验报告.docx_第5页
第5页 / 共11页
点击查看更多>>
下载资源
资源描述

商务智能与数据挖掘实验报告.docx

《商务智能与数据挖掘实验报告.docx》由会员分享,可在线阅读,更多相关《商务智能与数据挖掘实验报告.docx(11页珍藏版)》请在冰豆网上搜索。

商务智能与数据挖掘实验报告.docx

商务智能与数据挖掘实验报告

商务智能与数据挖掘实验报告

课程:

商务智能与数据挖掘地点:

L2607时间:

2012年5月13日

学生姓名

*******班级电商

学号

*******成绩

实验项忖

数据挖掘应用实验

指导教师*******

实验目的

1・学握MicrosoftSQLserver的数据库恢复;

2.学握MicrosoftSQLServerAnlysisService的多维数拯分析功能;

3.至少学握一种数据挖掘工具,并能正确地使用;

4.利用所学握的数据挖掘工具进行分类分析.关联分析.聚类分析等。

实验要求

1・根据提供的€€SQL2008SBSDW.bak,

2.在SQL2(X)8SBSDW数据库上搭建

3.根据提供的“data()2哒行分类分析

4.根据提供的“da(a02”进行关联分析

5.根据提供的“dataOl”进行聚类分析(数据可利用系统自带的进行分析,也可利用

'文件恢复SQL2(X)8SBSDW数据库;:

多维数据集。

提供的数据进行分析)

实验内容及实验结果

一、对“data()2”进行分类分析

1.数据格式的转换

⑴打开“data02.xls”另存为CSV类型,得到“da(aO2.csv”。

S)dataO2・csv

⑵在WEKA中提供了一个“ArffViewer”模块,打开一个“data02.csv”进行浏览,然后另存为ARFF文件,得到"dataO2.arff"。

®data02.arff

2.分类过程

(1)决策树分类

用“Explorer”打开数据“data02.arff”,然后切换到“Class辻y”。

点击“Choose”,选择算法"trces-J48”,再在"Testoptions"选择uCross-validation(Flods=10)^,点击“Start”,开始运行。

训练结果:

系统默认trees-J48决策树算法中minNumObj=2,得到如下结果

==Summary==

Precision

RecallF-Mcasurc

ROCArea

Class

1

0.824

0.903

0.892

N

().75

1

0.857

0.892

Y

0.913

0.885

0.887

0.892

TPRate

==DetailedAccuracyByClass===

0.824

1

WeightedAvg.0.885=ConfusionMatrix===

a

b

<—classifiedas

14

31

a=N

0

91

b=Y

 

使帀不同的参数准确率比较:

minNumObj

2

3

4

5

Correctly

Classified

Instances

23

22

23

23

(8&4615%)

(84.6154%)

(8&4615%)

(88.4615%)

由上表,可知minNumObj为2时,准确率最高。

根据测试数集,利用准确率最高的模型得到的结果:

[制WekaClassifierTreeVisualizer:

11:

22:

13・trees.J48(旳帖02)[u>]回j

TreeView

 

分析说明:

在用J48对数据集进行分类时采用了10折交叉验证(Folds=10)来选择和评估模型,其中属性值有两个Y,No一部分结果如下:

CorrectlyClassifiedInstances2388.4615%

IncorrectlyClassifiedInstances311.5385%

===ConfusionMatrix==

ab<—classifiedas

1431a=N

091b=Y

这个矩阵是说,原来是“Y”的实例,有14个被止确的预测为“Y”,有3个错误的预测成了原本是“NO”葩实例有0个被止确的预测成为“Y”,有9个正确的预测成了“N”。

“14+3+0+9=26”是实例的总数,而(14+9)/26=0.884615正好是正确分类的实例所占比例。

这个矩阵对角线上的数字越大,说明预测得越好。

(2)K最近邻分类算法

用“Explorer”打开数据“data02.arff”,然后切换至『Classify”。

点击“Choose”,选择算法“lazy-IBk”,再在"Testoptionsw选择wCross-validation(Flods=10)",点击"Start",开始运行。

训练结果:

系统默认lazy-IBkK最近邻分类算法中KNN=1,得到如下结果

—Summary—

CorrectlyClassifiedInstances

20

76.9231%

IncorrectlyClassifiedInstances

6

23.0769%

Kappastatistic

0.4902

Meanabsoluteerror

0.252

Rootmeansquarederror

0.4626

Relativeabsoluteerror

54.9136%

Rootrelativesquarederror

96.694%

Status,、、

OK[3」M0

TotalNumberofInstances26

=—De:

ailedAccuracyByClass===

TPRate

FPRate

Precision

Recall

F-Measure

ROCArea

Class

0.824

0.333

0.824

0.824

0.824

0.768

N

0.667

0.176

0.667

0.667

0.667

0.768

Y

WeightedAvg.0.769

0.279

0.769

0.769

0.769

0.768

==ConfusionMatrix==

ab<--classifiedas

143|a=N

36|b=Y

使用不同的参数准确率比较:

 

KNN

1

2

3

4

Correctly

Classified

Instances

20

19

23

20

(76.9231%)

(73.0769%)

(8&4615%)

(76.9231%)

由上表,可知KNN为3时,准确率最高。

根据测试数集,利用准确率最高的模型得到的结果:

Classcolour

分析说明:

在用lazy-Ibk(KNN=3)对数据集进行分类时采用了10折交义验证(Folds=10)来选择和评佔模型,其中属性值有两个Y,No一部分结果如下:

===Summary==

CorrectlyClassifiedInstances2388.4615%

IncorrectlyClassifiedInstances311.5385%

===ConfusionMatrix=====

ab<―classifiedas

161a=N

27|b=Y

这个矩阵是说,原来是“Y”的实例,有16个被正确的预测为“Y”,有1个错误的预测成了“N”。

原本是“NO”的实例有2个被正确的预测成为“Y”,有9个正确的预测成了“7”。

“16+1+2+7=26”是实例的总数,而(16+7)726=().884615正好是正确分类的实例所占比例。

二.对“dataOl”进行聚类分析

1.数据咯式的转换

⑴打开“dataO1.xls"另存为CSV类型,得到“dataOl.csv”。

⑵在WEKA中提供了一个“ArtTViewer”模块,打开一个udataOl.csv”进行浏览,然后另存为ARFF

文件,得到“dataOl.arff”。

OdataOl.arff

2.聚类过程

用“Explorer”打开数据“dataOl.arff”,然后切换到“Cluster”。

点击“Choose”,选择算法"SimpleKMeans(numClusters=6,seed=200),再在“Testoptionsn选择"Usetrainingset”,点击“Start”,开始运行。

训练结果:

StatusOK

采用simpleKMcans算法,其中numClusters=6,seed=100,得到如下结果:

Numberofiterations:

3

Withinclustersumofsquarederrors:

6.065322314450069(平方误差之和)

ClusteredInstances

ClusteredInstances

04(15%)

13(12%)

24(15%)

33(12%)

42(8%)

510(38%)(各类的包含的实例个数以及占总实例的百分比)

cluaterOclusterl.clusters

|4>]WekaClustererVisualize:

13:

22:

44・SimpleKMeans(data32)[o|回j

X:

InstancjnumberQlwn)

jl:

Cluster(Horn)

Colour:

Cluster(Hom)

SelectInstance

说明:

其中当seed的取值越大,平方误差之和越小。

在这次实验seed=l(X),得到:

Withinclustersumofsquarederrors:

6.065322314450069.这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离就越小。

接卜■来“Clustercentroids”:

列出了各个簇中心的位置:

Attribute

FullData

(26)

0

(4)

1

(3)

2

(4)

3

(3)

4

(2)

5

(10)

sample

13.5

22.5

4.6667

20.5

14.6667

4.5

11.2

old-year

48.0769

65.75

593333

50.5

25

56.5

41.9

VEGF

1.9231

2.75

2.3333

2

2.6667

3

1

MVC

102.1538

126.45

100.6667

127.4

88.2667

104

86.58

cancer-grade

2.5769

3.75

2

3

3.3333

3.5

1.7

cancer-stage

2.1538

3.25

1.3333

3

2.3333

3.5

1.3

cancermetastasis

N

Y

N

N

Y

Y

N

最后"ClusteredInstances"列出了各个簇中实例的数目及百分比:

ClusteredInstances

04(15%)

13(12%)

24(15%)

33(12%)

4

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1