商务智能与数据挖掘实验报告.docx

资源描述

商务智能与数据挖掘实验报告.docx

《商务智能与数据挖掘实验报告.docx》由会员分享，可在线阅读，更多相关《商务智能与数据挖掘实验报告.docx（11页珍藏版）》请在冰豆网上搜索。

商务智能与数据挖掘实验报告.docx

商务智能与数据挖掘实验报告

课程：

商务智能与数据挖掘地点:

L2607时间：

2012年5月13日

学生姓名

*******班级电商

学号

*******成绩

实验项忖

数据挖掘应用实验

指导教师*******

实验目的

1・学握MicrosoftSQLserver的数据库恢复；

2.学握MicrosoftSQLServerAnlysisService的多维数拯分析功能；

3.至少学握一种数据挖掘工具，并能正确地使用；

4.利用所学握的数据挖掘工具进行分类分析.关联分析.聚类分析等。

实验要求

1・根据提供的€€SQL2008SBSDW.bak,

2.在SQL2（X）8SBSDW数据库上搭建

3.根据提供的“data（）2哒行分类分析

4.根据提供的“da（a02”进行关联分析

5.根据提供的“dataOl”进行聚类分析（数据可利用系统自带的进行分析，也可利用

'文件恢复SQL2（X）8SBSDW数据库；:

多维数据集。

提供的数据进行分析）

实验内容及实验结果

一、对“data（）2”进行分类分析

1.数据格式的转换

⑴打开“data02.xls”另存为CSV类型，得到“da（aO2.csv”。

S）dataO2・csv

⑵在WEKA中提供了一个“ArffViewer”模块，打开一个“data02.csv”进行浏览，然后另存为ARFF文件，得到"dataO2.arff"。

®data02.arff

2.分类过程

（1）决策树分类

用“Explorer”打开数据“data02.arff”，然后切换到“Class辻y”。

点击“Choose”，选择算法"trces-J48”，再在"Testoptions"选择uCross-validation（Flods=10）^,点击“Start”，开始运行。

训练结果：

系统默认trees-J48决策树算法中minNumObj=2,得到如下结果

==Summary==

Precision

RecallF-Mcasurc

ROCArea

Class

0.824

0.903

0.892

（）.75

0.857

0.892

0.913

0.885

0.887

0.892

TPRate

==DetailedAccuracyByClass===

0.824

WeightedAvg.0.885=ConfusionMatrix===

<—classifiedas

a=N

b=Y

使帀不同的参数准确率比较:

minNumObj

Correctly

Classified

Instances

（8&4615%）

（84.6154%）

（8&4615%）

（88.4615%）

由上表，可知minNumObj为2时，准确率最高。

根据测试数集，利用准确率最高的模型得到的结果:

［制WekaClassifierTreeVisualizer:

11:

22:

13・trees.J48（旳帖02）［u>］回j

TreeView

分析说明：

在用J48对数据集进行分类时采用了10折交叉验证（Folds=10）来选择和评估模型，其中属性值有两个Y,No一部分结果如下：

CorrectlyClassifiedInstances2388.4615%

IncorrectlyClassifiedInstances311.5385%

===ConfusionMatrix==

ab<—classifiedas

1431a=N

091b=Y

这个矩阵是说，原来是“Y”的实例，有14个被止确的预测为“Y”,有3个错误的预测成了原本是“NO”葩实例有0个被止确的预测成为“Y”，有9个正确的预测成了“N”。

“14+3+0+9=26”是实例的总数，而（14+9）/26=0.884615正好是正确分类的实例所占比例。

这个矩阵对角线上的数字越大，说明预测得越好。

（2）K最近邻分类算法

用“Explorer”打开数据“data02.arff”,然后切换至『Classify”。

点击“Choose”,选择算法“lazy-IBk”,再在"Testoptionsw选择wCross-validation（Flods=10）",点击"Start",开始运行。

训练结果：

系统默认lazy-IBkK最近邻分类算法中KNN=1,得到如下结果

—Summary—

CorrectlyClassifiedInstances

76.9231%

IncorrectlyClassifiedInstances

23.0769%

Kappastatistic

0.4902

Meanabsoluteerror

0.252

Rootmeansquarederror

0.4626

Relativeabsoluteerror

54.9136%

Rootrelativesquarederror

96.694%

Status,、、

OK[3」M0

TotalNumberofInstances26

=—De:

ailedAccuracyByClass===

TPRate

FPRate

Precision

Recall

F-Measure

ROCArea

Class

0.824

0.333

0.824

0.768

0.667

0.176

0.667

0.768

WeightedAvg.0.769

0.279

0.769

0.768

==ConfusionMatrix==

ab<--classifiedas

143|a=N

36|b=Y

使用不同的参数准确率比较:

KNN

Correctly

Classified

Instances

（76.9231%）

（73.0769%）

（8&4615%）

（76.9231%）

由上表，可知KNN为3时，准确率最高。

根据测试数集，利用准确率最高的模型得到的结果:

Classcolour

分析说明：

在用lazy-Ibk（KNN=3）对数据集进行分类时采用了10折交义验证（Folds=10）来选择和评佔模型，其中属性值有两个Y,No一部分结果如下：

===Summary==

CorrectlyClassifiedInstances2388.4615%

IncorrectlyClassifiedInstances311.5385%

===ConfusionMatrix=====

ab<―classifiedas

161a=N

27|b=Y

这个矩阵是说，原来是“Y”的实例，有16个被正确的预测为“Y”,有1个错误的预测成了“N”。

原本是“NO”的实例有2个被正确的预测成为“Y”，有9个正确的预测成了“7”。

“16+1+2+7=26”是实例的总数，而（16+7）726=（）.884615正好是正确分类的实例所占比例。

二.对“dataOl”进行聚类分析

1.数据咯式的转换

⑴打开“dataO1.xls"另存为CSV类型,得到“dataOl.csv”。

⑵在WEKA中提供了一个“ArtTViewer”模块，打开一个udataOl.csv”进行浏览，然后另存为ARFF

文件，得到“dataOl.arff”。

OdataOl.arff

2.聚类过程

用“Explorer”打开数据“dataOl.arff”，然后切换到“Cluster”。

点击“Choose”,选择算法"SimpleKMeans（numClusters=6,seed=200）,再在“Testoptionsn选择"Usetrainingset”,点击“Start”，开始运行。

训练结果:

StatusOK

采用simpleKMcans算法，其中numClusters=6,seed=100,得到如下结果:

Numberofiterations:

Withinclustersumofsquarederrors:

6.065322314450069（平方误差之和）

ClusteredInstances

04（15%）

13（12%）

24（15%）

33（12%）

42（8%）

510（38%）（各类的包含的实例个数以及占总实例的百分比）

cluaterOclusterl.clusters

|4>]WekaClustererVisualize:

13:

22:

44・SimpleKMeans（data32）[o|回j

InstancjnumberQlwn）

▼

jl：

Cluster（Horn）

卜

Colour：

Cluster（Hom）

▼

SelectInstance

▼

说明：

其中当seed的取值越大，平方误差之和越小。

在这次实验seed=l（X）,得到：

Withinclustersumofsquarederrors:

6.065322314450069.这是评价聚类好坏的标准，数值越小说明同一簇实例之间的距离就越小。

接卜■来“Clustercentroids”：

列出了各个簇中心的位置：

Attribute

FullData

（26）

（4）

（3）

（4）

（3）

（2）

（10）

sample

13.5

22.5

4.6667

20.5

14.6667

4.5

11.2

old-year

48.0769

65.75

593333

50.5

56.5

41.9

VEGF

1.9231

2.75

2.3333

2.6667

MVC

102.1538

126.45

100.6667

127.4

88.2667

104

86.58

cancer-grade

2.5769

3.75

3.3333

3.5

1.7

cancer-stage

2.1538

3.25

1.3333

2.3333

3.5

1.3

cancermetastasis

最后"ClusteredInstances"列出了各个簇中实例的数目及百分比:

ClusteredInstances

04（15%）

13（12%）

24（15%）

33（12%）

展开阅读全文