1、商务智能与数据挖掘实验报告商务智能与数据挖掘实验报告课程:商务智能与数据挖掘 地点:L2607时间:2012年5月13日学生姓名* 班级 电商学号* 成绩实验项忖数据挖掘应用实验指导教师 *实验目的1 学握Microsoft SQL server的数据库恢复;2.学握 Microsoft SQLServer Anlysis Service 的多维数拯分析功能;3.至少学握一种数据挖掘工具,并能正确地使用;4.利用所学握的数据挖掘工具进行分类分析.关联分析.聚类分析等。实验要求1 根据提供的 SQL2008SBSDW.bak,2.在SQL2(X)8SBSDW数据库上搭建3.根据提供的“data(
2、)2哒行分类分析4.根据提供的“da(a02”进行关联分析5.根据提供的“dataOl”进行聚类分析 (数据可利用系统自带的进行分析,也可利用文件恢复SQL2(X)8SBSDW数据库; :多维数据集。提供的数据进行分析)实验内容及实验结果一、对“data()2”进行分类分析1.数据格式的转换打开“data02.xls” 另存为 CSV 类型,得到 “da(aO2.csv”。 S)dataO2csv在WEKA中提供了一个“Arff Viewer”模块,打开一个“data02.csv”进行浏览,然后另存为ARFF 文件,得到dataO2.arff。 data02.arff2.分类过程(1)决策树分
3、类用“Explorer”打开数据“data02. arff ”,然后切换到“Class辻y”。点击“Choose”,选择算法 trces-J48”,再在Test options选择 uCross-validation (Flods=10),点击 “Start”,开始运行。训练结果:系统默认trees-J48决策树算法中minNumObj=2,得到如下结果=Summary =PrecisionRecall F-McasurcROC AreaClass10.8240.9030.892N().7510.8570.892Y0.9130.8850.8870.892TP Rate=Detailed Acc
4、uracy By Class =0.8241Weighted Avg. 0.885 =Confusion Matrix =ab 回jTree View分析说明:在用J48对数据集进行分类时采用了 10折交叉验证(Folds=10)来选择和评估模型,其中属性值有 两个Y, No 一部分结果如下:Correctly Classified Instances 23 88.4615 %Incorrectly Classified Instances 3 11.5385 %=Confusion Matrix =a b classified as14 31 a = N0 91 b = Y这个矩阵是说,原来
5、是“Y”的实例,有14个被止确的预测为“Y”,有3个错误的预测成了原本是 “NO”葩实例有0个被止确的预测成为“Y”,有9个正确的预测成了“N”。“14+3+0+9=26”是实例的总数, 而(14+9)/26=0.884615正好是正确分类的实例所占比例。这个矩阵对角线上的数字越大,说明预测得越 好。(2) K最近邻分类算法用“Explorer”打开数据“data02. arff”,然后切换至Classify”。点击“Choose”,选择算法“lazy-IBk”, 再在Test optionsw 选择 wCross-validation (Flods=10),点击Start,开始运行。训练结果
6、:系统默认lazy-IBk K最近邻分类算法中KNN=1,得到如下结果Summary Correctly Classified Instances2076.9231 %Incorrectly Classified Instances623. 0769 %Kappa statistic0. 4902Mean absolute error0.252Root mean squared error0. 4626Relative absolute error54. 9136 %Root relative squared error96.694 %Status , 、OK 3M 0Total Number
7、 of Instances 26=De:ailed Accuracy By Class =TP RateFP RatePrecisionRecallF-MeasureROC AreaClass0. 8240. 3330. 8240. 8240. 8240. 768N0. 6670. 1760. 6670. 6670. 6670. 768YWeighted Avg. 0. 7690. 2790. 7690. 7690. 7690. 768=Confusion Matrix =a b - classified as14 3 | a = N3 6 | b = Y使用不同的参数准确率比较:KNN123
8、4CorrectlyClassifiedInstances20192320(76. 9231 %)(73.0769%)(8&4615%)(76. 9231 %)由上表,可知KNN为3时,准确率最高。根据测试数集,利用准确率最高的模型得到的结果:Class colour分析说明:在用lazy-Ibk(KNN=3)对数据集进行分类时采用了 10折交义验证(Folds=10)来选择和评佔模型,其 中属性值有两个Y, No 一部分结果如下:=Summary =Correctly Classified Instances 23 88.4615 %Incorrectly Classified Instan
9、ces 3 11.5385 %=Confusion Matrix =a b Weka Clusterer Visualize: 13:22:44 SimpleKMeans (data32) o | 回 jX: Ins t anc jnumb er Qlwn )jl: Cluster (Horn)卜Colour: Cluster (Hom)Select Instance说明:其中当seed的取值越大,平方误差之和越小。在这次实验 seed=l(X),得到:Within cluster sum of squared errors: 6. 065322314450069.这是评 价聚类好坏的标准,数
10、值越小说明同一簇实例之间的距离就越小。接卜来“Clustercentroids”:列出了各个簇中心的位置:AttributeFull Data(26)0(4)1(3)2(4)3(3)4(2)5(10)sample13.522.54.666720.514.66674.511.2old-year48.076965.7559333350.52556.541.9VEGF1.92312.752.333322.666731MVC102.1538126.45100.6667127.488.266710486.58cancer-grade2.57693.75233.33333.51.7cancer-stage2.15383.251.333332.33333.51.3cancer metastasisNYNNYYN最后Clustered Instances列出了各个簇中实例的数目及百分比:Clustered Instances0 4 ( 15%)13 ( 12%)24 ( 15%)33 ( 12%)4
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1