商务智能与数据挖掘实验报告.docx-资源下载

商务智能与数据挖掘实验报告.docx

1、商务智能与数据挖掘实验报告商务智能与数据挖掘实验报告课程：商务智能与数据挖掘地点:L2607时间：2012年5月13日学生姓名* 班级电商学号* 成绩实验项忖数据挖掘应用实验指导教师 *实验目的1 学握Microsoft SQL server的数据库恢复；2.学握 Microsoft SQLServer Anlysis Service 的多维数拯分析功能；3.至少学握一种数据挖掘工具，并能正确地使用；4.利用所学握的数据挖掘工具进行分类分析.关联分析.聚类分析等。实验要求1 根据提供的 SQL2008SBSDW.bak,2.在SQL2(X)8SBSDW数据库上搭建3.根据提供的“data(

2、)2哒行分类分析4.根据提供的“da(a02”进行关联分析5.根据提供的“dataOl”进行聚类分析 (数据可利用系统自带的进行分析，也可利用文件恢复SQL2(X)8SBSDW数据库； :多维数据集。提供的数据进行分析)实验内容及实验结果一、对“data()2”进行分类分析1.数据格式的转换打开“data02.xls” 另存为 CSV 类型，得到 “da(aO2.csv”。 S)dataO2csv在WEKA中提供了一个“Arff Viewer”模块，打开一个“data02.csv”进行浏览，然后另存为ARFF 文件，得到dataO2.arff。 data02.arff2.分类过程(1)决策树分

3、类用“Explorer”打开数据“data02. arff ”，然后切换到“Class辻y”。点击“Choose”，选择算法 trces-J48”，再在Test options选择 uCross-validation (Flods=10),点击 “Start”，开始运行。训练结果：系统默认trees-J48决策树算法中minNumObj=2,得到如下结果=Summary =PrecisionRecall F-McasurcROC AreaClass10.8240.9030.892N().7510.8570.892Y0.9130.8850.8870.892TP Rate=Detailed Acc

4、uracy By Class =0.8241Weighted Avg. 0.885 =Confusion Matrix =ab 回jTree View分析说明：在用J48对数据集进行分类时采用了 10折交叉验证(Folds=10)来选择和评估模型，其中属性值有两个Y, No 一部分结果如下：Correctly Classified Instances 23 88.4615 %Incorrectly Classified Instances 3 11.5385 %=Confusion Matrix =a b classified as14 31 a = N0 91 b = Y这个矩阵是说，原来

5、是“Y”的实例，有14个被止确的预测为“Y”,有3个错误的预测成了原本是 “NO”葩实例有0个被止确的预测成为“Y”，有9个正确的预测成了“N”。“14+3+0+9=26”是实例的总数，而(14+9)/26=0.884615正好是正确分类的实例所占比例。这个矩阵对角线上的数字越大，说明预测得越好。(2) K最近邻分类算法用“Explorer”打开数据“data02. arff”,然后切换至Classify”。点击“Choose”,选择算法“lazy-IBk”, 再在Test optionsw 选择 wCross-validation (Flods=10),点击Start,开始运行。训练结果

6、：系统默认lazy-IBk K最近邻分类算法中KNN=1,得到如下结果Summary Correctly Classified Instances2076.9231 %Incorrectly Classified Instances623. 0769 %Kappa statistic0. 4902Mean absolute error0.252Root mean squared error0. 4626Relative absolute error54. 9136 %Root relative squared error96.694 %Status , 、OK 3M 0Total Number

7、 of Instances 26=De:ailed Accuracy By Class =TP RateFP RatePrecisionRecallF-MeasureROC AreaClass0. 8240. 3330. 8240. 8240. 8240. 768N0. 6670. 1760. 6670. 6670. 6670. 768YWeighted Avg. 0. 7690. 2790. 7690. 7690. 7690. 768=Confusion Matrix =a b - classified as14 3 | a = N3 6 | b = Y使用不同的参数准确率比较:KNN123

8、4CorrectlyClassifiedInstances20192320(76. 9231 %)(73.0769%)(8&4615%)(76. 9231 %)由上表，可知KNN为3时，准确率最高。根据测试数集，利用准确率最高的模型得到的结果:Class colour分析说明：在用lazy-Ibk(KNN=3)对数据集进行分类时采用了 10折交义验证(Folds=10)来选择和评佔模型，其中属性值有两个Y, No 一部分结果如下：=Summary =Correctly Classified Instances 23 88.4615 %Incorrectly Classified Instan

9、ces 3 11.5385 %=Confusion Matrix =a b Weka Clusterer Visualize: 13:22:44 SimpleKMeans (data32) o | 回 jX: Ins t anc jnumb er Qlwn )jl： Cluster (Horn)卜Colour： Cluster (Hom)Select Instance说明：其中当seed的取值越大，平方误差之和越小。在这次实验 seed=l(X),得到：Within cluster sum of squared errors: 6. 065322314450069.这是评价聚类好坏的标准，数

10、值越小说明同一簇实例之间的距离就越小。接卜来“Clustercentroids”：列出了各个簇中心的位置：AttributeFull Data(26)0(4)1(3)2(4)3(3)4(2)5(10)sample13.522.54.666720.514.66674.511.2old-year48.076965.7559333350.52556.541.9VEGF1.92312.752.333322.666731MVC102.1538126.45100.6667127.488.266710486.58cancer-grade2.57693.75233.33333.51.7cancer-stage2.15383.251.333332.33333.51.3cancer metastasisNYNNYYN最后Clustered Instances列出了各个簇中实例的数目及百分比:Clustered Instances0 4 ( 15%)13 ( 12%)24 ( 15%)33 ( 12%)4

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？