商务智能与数据挖掘实验报告.docx
《商务智能与数据挖掘实验报告.docx》由会员分享,可在线阅读,更多相关《商务智能与数据挖掘实验报告.docx(12页珍藏版)》请在冰豆网上搜索。
商务智能与数据挖掘实验报告
商务智能与数据挖掘实验报告
课程:
商务智能与数据挖掘地点:
L2607时间:
2012年5月13日
学生姓名
*******班级电商
学号
*******成绩
实验项忖
数据挖掘应用实验
指导教师*******
实验目的
1・学握MicrosoftSQLserver的数据库恢复;
2.学握MicrosoftSQLServerAnlysisService的多维数拯分析功能;
3.至少学握一种数据挖掘工具,并能正确地使用;
4.利用所学握的数据挖掘工具进行分类分析.关联分析.聚类分析等。
实验要求
1・根据提供的€€SQL2008SBSDW.bak,
2.在SQL2(X)8SBSDW数据库上搭建
3.根据提供的“data()2哒行分类分析
4.根据提供的“da(a02”进行关联分析
5.根据提供的“dataOl”进行聚类分析(数据可利用系统自带的进行分析,也可利用
'文件恢复SQL2(X)8SBSDW数据库;:
多维数据集。
提供的数据进行分析)
实验内容及实验结果
一、对“data()2”进行分类分析
1.数据格式的转换
⑴打开“data02.xls”另存为CSV类型,得到“da(aO2.csv”。
S)dataO2・csv
⑵在WEKA中提供了一个“ArffViewer”模块,打开一个“data02.csv”进行浏览,然后另存为ARFF文件,得到"dataO2.arff"。
®data02.arff
2.分类过程
(1)决策树分类
用“Explorer”打开数据“data02.arff”,然后切换到“Class辻y”。
点击“Choose”,选择算法"trces-J48”,再在"Testoptions"选择uCross-validation(Flods=10)^,点击“Start”,开始运行。
训练结果:
系统默认trees-J48决策树算法中minNumObj=2,得到如下结果
==Summary==
Precision
RecallF-Mcasurc
ROCArea
Class
1
0.824
0.903
0.892
N
().75
1
0.857
0.892
Y
0.913
0.885
0.887
0.892
TPRate
==DetailedAccuracyByClass===
0.824
1
WeightedAvg.0.885=ConfusionMatrix===
a
b
<—classifiedas
14
31
a=N
0
91
b=Y
使帀不同的参数准确率比较:
minNumObj
2
3
4
5
Correctly
Classified
Instances
23
22
23
23
(8&4615%)
(84.6154%)
(8&4615%)
(88.4615%)
由上表,可知minNumObj为2时,准确率最高。
根据测试数集,利用准确率最高的模型得到的结果:
[制WekaClassifierTreeVisualizer:
11:
22:
13・trees.J48(旳帖02)[u>]回j
TreeView
分析说明:
在用J48对数据集进行分类时采用了10折交叉验证(Folds=10)来选择和评估模型,其中属性值有两个Y,No一部分结果如下:
CorrectlyClassifiedInstances2388.4615%
IncorrectlyClassifiedInstances311.5385%
===ConfusionMatrix==
ab<—classifiedas
1431a=N
091b=Y
这个矩阵是说,原来是“Y”的实例,有14个被止确的预测为“Y”,有3个错误的预测成了原本是“NO”葩实例有0个被止确的预测成为“Y”,有9个正确的预测成了“N”。
“14+3+0+9=26”是实例的总数,而(14+9)/26=0.884615正好是正确分类的实例所占比例。
这个矩阵对角线上的数字越大,说明预测得越好。
(2)K最近邻分类算法
用“Explorer”打开数据“data02.arff”,然后切换至『Classify”。
点击“Choose”,选择算法“lazy-IBk”,再在"Testoptionsw选择wCross-validation(Flods=10)",点击"Start",开始运行。
训练结果:
系统默认lazy-IBkK最近邻分类算法中KNN=1,得到如下结果
—Summary—
CorrectlyClassifiedInstances
20
76.9231%
IncorrectlyClassifiedInstances
6
23.0769%
Kappastatistic
0.4902
Meanabsoluteerror
0.252
Rootmeansquarederror
0.4626
Relativeabsoluteerror
54.9136%
Rootrelativesquarederror
96.694%
Status,、、
OK[3」M0
TotalNumberofInstances26
=—De:
ailedAccuracyByClass===
TPRate
FPRate
Precision
Recall
F-Measure
ROCArea
Class
0.824
0.333
0.824
0.824
0.824
0.768
N
0.667
0.176
0.667
0.667
0.667
0.768
Y
WeightedAvg.0.769
0.279
0.769
0.769
0.769
0.768
==ConfusionMatrix==
ab<--classifiedas
143|a=N
36|b=Y
使用不同的参数准确率比较:
KNN
1
2
3
4
Correctly
Classified
Instances
20
19
23
20
(76.9231%)
(73.0769%)
(8&4615%)
(76.9231%)
由上表,可知KNN为3时,准确率最高。
根据测试数集,利用准确率最高的模型得到的结果:
Classcolour
分析说明:
在用lazy-Ibk(KNN=3)对数据集进行分类时采用了10折交义验证(Folds=10)来选择和评佔模型,其中属性值有两个Y,No一部分结果如下:
===Summary==
CorrectlyClassifiedInstances2388.4615%
IncorrectlyClassifiedInstances311.5385%
===ConfusionMatrix=====
ab<―classifiedas
161a=N
27|b=Y
这个矩阵是说,原来是“Y”的实例,有16个被正确的预测为“Y”,有1个错误的预测成了“N”。
原本是“NO”的实例有2个被正确的预测成为“Y”,有9个正确的预测成了“7”。
“16+1+2+7=26”是实例的总数,而(16+7)726=().884615正好是正确分类的实例所占比例。
二.对“dataOl”进行聚类分析
1.
数据咯式的转换
⑴打开“dataO1.xls"另存为CSV类型,得到“dataOl.csv”。
⑵在WEKA中提供了一个“ArtTViewer”模块,打开一个udataOl.csv”进行浏览,然后另存为ARFF
文件,得到“dataOl.arff”。
OdataOl.arff
2.聚类过程
用“Explorer”打开数据“dataOl.arff”,然后切换到“Cluster”。
点击“Choose”,选择算法"SimpleKMeans(numClusters=6,seed=200),再在“Testoptionsn选择"Usetrainingset”,点击“Start”,开始运行。
训练结果:
StatusOK
采用simpleKMcans算法,其中numClusters=6,seed=100,得到如下结果:
Numberofiterations:
3
Withinclustersumofsquarederrors:
6.065322314450069(平方误差之和)
ClusteredInstances
ClusteredInstances
04(15%)
13(12%)
24(15%)
33(12%)
42(8%)
510(38%)(各类的包含的实例个数以及占总实例的百分比)
cluaterOclusterl.clusters
|4>]WekaClustererVisualize:
13:
22:
44・SimpleKMeans(data32)[o|回j
X:
InstancjnumberQlwn)
▼
jl:
Cluster(Horn)
卜
Colour:
Cluster(Hom)
▼
SelectInstance
▼
说明:
其中当seed的取值越大,平方误差之和越小。
在这次实验seed=l(X),得到:
Withinclustersumofsquarederrors:
6.065322314450069.这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离就越小。
接卜■来“Clustercentroids”:
列出了各个簇中心的位置:
Attribute
FullData
(26)
0
(4)
1
(3)
2
(4)
3
(3)
4
(2)
5
(10)
sample
13.5
22.5
4.6667
20.5
14.6667
4.5
11.2
old-year
48.0769
65.75
593333
50.5
25
56.5
41.9
VEGF
1.9231
2.75
2.3333
2
2.6667
3
1
MVC
102.1538
126.45
100.6667
127.4
88.2667
104
86.58
cancer-grade
2.5769
3.75
2
3
3.3333
3.5
1.7
cancer-stage
2.1538
3.25
1.3333
3
2.3333
3.5
1.3
cancermetastasis
N
Y
N
N
Y
Y
N
最后"ClusteredInstances"列出了各个簇中实例的数目及百分比:
ClusteredInstances
04(15%)
13(12%)
24(15%)
33(12%)
42(8%)
510(38%)(各类的包含的实例个数以及占总实例的百分比)
三、根据提供的“data02”进行关联分析
山于程序和系统故障,所以不能正确的进行关联分析
实验
心得
通过木次数据挖掘实验,学习了数据挖掘的相关概念和知识,理解了数据挖掘的用途和使用步骤;进一步学习了WEKA开源数据挖掘工具在数据挖掘学习中的使用方法。
并且对WEKA的分类与回归、聚类分析、关联规则、属性分析和可视化分析儿个模块化的基木分析方式进行了操作实验。
在此过程中学会了运用各个模块的分析方法。
由于是初次实验WEKA分析软件,对WEKA的运用和最终的数据结來运用还不熟悉,需要在以后的工作实验屮加以君重研究。
通过本次实验,也认识到了数据挖掘对人量的数据进行探索后,能揭示出其中隐藏着的规律性内容,并口由此进一步形成模型化的分析方法。
可以建立整体或某个业务过程局部的不同类型的模型,可以描述发展的现状和规律性,而且可以用来预测当条件变化后可能发生的状况。