实验报告Word下载.docx
《实验报告Word下载.docx》由会员分享,可在线阅读,更多相关《实验报告Word下载.docx(19页珍藏版)》请在冰豆网上搜索。
实验学时:
16实验组号:
1
信息管理系
目录
实验一MicrosoftSQLServerAnalysisServices的使用3
实验二使用WEKA进行分类与预测5
实验三使用WEKA进行关联规则与聚类分析6
实验四数据挖掘算法的程序实现7
实验一MicrosoftSQLServerAnalysisServices的使用
实验类型:
验证性实验学时:
4
实验目的:
学习并掌握AnalysisServices的操作,加深理解数据仓库中涉及的一些概念,如多维数据集,事实表,维表,星型模型,雪花模型,联机分析处理等。
实验内容:
在实验之前,先通读自学SQLSERVER自带的AnalysisManager概念与教程。
按照自学教程的步骤,完成对FoodMart数据源的联机分析。
建立、编辑多维数据集,进行OLAP操作,看懂OLAP的分析数据。
实验步骤:
1、启动联机分析管理器:
开始->
程序->
MicrosoftSQLServer->
AnalysisManager。
2、按照AnalysisService的自学教程完成对FoodMart数据源的联机分析。
3、在开始-设置-控制面板-管理工具-数据源(ODBC),数据源管理器中设置和源数据的连接,“数据源名”为T7730206王江波。
4、在开始-设置-控制面板-管理工具-服务-MSSQLServerOLAPService,启动该项服务。
在AnalysisManager中,单击服务器名称,即可建立与AnalysisServers的连接;
否则,在AnalysisServers上单击右键,注册服务器,在服务器名称中输入本地计算机的名字pc08。
本地计算机的名字可右击:
我的电脑,选择属性,网络标志,里面有本地计算机的名字。
建立新的数据库,数据库名与数据源名相同,为T7730206王江波。
在你所建立的数据库中,单击“新数据源”,和早期在ODBC数据源管理器中建立的数据源连接。
5、假设你是FoodMartCorporation的数据库管理员。
FoodMart是一家大型的连锁店,在美国、墨西哥和加拿大有销售业务。
市场部想要按产品和顾客分析1998年进行的所有销售业务数据。
要求建立Sales多维数据集,多维数据集是由维度和事实定义的。
其维度有“Time”维度、“Product”维度、“Customer”维度、“Store”维度和“Promotion”维度,事实表为sales_fact_1998,事实表中的度量为:
store_sales、store_cost、unit_sales。
理解每个维度的级别。
6、可以使用多维数据集编辑器对现有多维数据集进行更改。
在使用或浏览多维数据集中的数据之前,要求设计多维数据集中的数据和聚合的存储选项。
即设计好Sales多维数据集的结构之后,需要选择要使用的存储模式并指定要存储的预先计算好的值的数量。
完成此项操作之后,需要用数据填充多维数据集。
这里选择MOLAP作为存储模式,创建Sales多维数据集的聚合设计,然后处理该多维数据集。
处理Sales多维数据集时将从ODBC源中装载数据并按照聚合设计中的定义计算汇总值。
7、使用多维数据集浏览器,可以用不同的方式查看数据:
可以筛选出可见的维度数据量,可以深化以看到数据的细节,还可以浅化以看到较为概括的数据。
这里可以使用多维数据集浏览器对Sales数据进行切片和切块操作。
要求理解OLAP操作下数据的含义,从而可以分析数据。
8、人力资源部想按商店来分析雇员的工资。
本节将建立一个HR(人力资源)多维数据集,以进行雇员工资分析。
将把Employee(雇员)维度创建为父子维度。
然后使用该维度以及常规维度来生成HR多维数据集。
其中,事实数据表为salary(工资),维度为Employee(雇员)、Store(商店)、Time(时间)。
了解如何建立父子维度。
9、建立计算成员和成员属性。
在Sales多维数据集中建立“Averageprice”计算成员,思考建立该计算成员的目的。
市场部希望将Sales多维数据集分析功能扩展到根据客户的下列特征分析客户销售数据:
性别、婚姻状况、教育程度、年收入、在家子女数和会员卡。
需要向Customer维度添加以下六个成员属性:
Gender(性别)、Maritalstatus(婚姻状况)、Education(教育程度)、YearlyIncome(年收入)、NumChildrenAtHome(在家子女数)和MemberCard(会员卡)。
这些成员属性将限制Customer维度中的每个成员。
理解什么是计算成员和成员属性,为什么要建立?
10、已经为客户维度添加了六个成员属性,可以创建一个带有YearlyIncome(年收入)成员属性的虚拟维度,然后将这个新创建的维度添加到Sales多维数据集中。
使用虚拟维度,可以基于多维数据集中的维度成员的成员属性对多维数据集数据进行分析。
其优点是不占用磁盘空间或处理时间。
11、理解多维数据集角色和数据库角色的联系和区别、建立角色的目的。
12、查看销售多维数据集的元数据和维度的元数据,加深对元数据概念和分类的理解。
实验小结:
思考题
给出一个数据仓库成功应用的案例,包括所解决的问题,功能等。
实验二使用WEKA进行分类与预测
综合性实验学时:
掌握数据挖掘平台WEKA的使用。
综合运用数据预处理、分类与预测的挖掘算法、结果的解释等知识进行数据挖掘。
从而加深理解课程中的相关知识点。
阅读并理解WEKA的相关中英文资料,熟悉数据挖掘平台WEKA,针对实际数据,能够使用WEKA进行数据的预处理,能选择合适的分类与预测算法对数据进行分析,并能解释分析结果。
1、在开始->
程序->
启动WEKA,进入Explorer界面,熟悉WEKA的界面功能。
2、选择数据集,将要处理的数据集转换成WEKA能处理的格式.ARFF格式。
在实验中我用的数据集是bank-data.csv,然后把它转化成了WEKA能处理的格式bank-data.arff。
思考:
如何将其它格式的数据文件转换为.ARFF格式?
有两种方式:
(1)用WEKA3.5中提供了一个“ArffViewer”模块,我们可以用它打开一个CSV文件将进行浏览,然后另存为ARFF文件。
(2)进入“SimpleCLI”模块,在窗口的最下方输入javaweka.core.converters.CSVLoaderbank-data.csv>
bank-data.arff,就可以把数据集bank-data.csv转换成WEKA能处理的bank-data.arff。
3、根据选择的数据挖掘算法,如果有必要,在WekaExplorer界面,Preprocess选项中,进行相应的数据预处理。
我选用的数据集bank-data.arff总共有11个属性其中属性ID对数据挖掘来说是没有意义的就把把它去除掉,剩下10个属性。
这10个属性中“age”,“income”和“children”三个属性的属性值是数值型的,在对数据集进行分类和预测时我采用的算法只能处理所有的属性都是分类型的情况,因此要对这三个属性进行离散化。
在filter中,supervised和unsupervised的区别?
答:
选择supervised需要设置一个class属性,而unsupervised却忽略class属性。
4、在WekaExplorer界面,单击Visualize选项,进入WEKA的可视化页面,可以对当前的关系作二维散点图式的可视化浏览。
5、选择相应的分类与预测挖掘算法对数据集进行分析,进行算法参数的具体设置。
实验中我选择Classifier->
trees->
J48决策树算法对数据集bank-data.arff进行分析,参数设置为classifiers.trees.J48-C0.25-M2(confidencefactor=0.25,minNumobj=2)。
J48算法由决策树生成算法,剪枝算法,规则生成算法3部分组成。
决策树生成树算法依据信息墒理论,选择当前样本集中具有最大信息增益率的属性作为测试属性不断对样本集进行划分,最终构造出一棵完全决策树;
剪枝算法采用错误的剪枝方法对完全决策树进行修剪,得到简化决策树;
规则生成算法把完全决策树转化成一组if..then规则集并进行化简。
classifier->
J48算法与classifier->
id3算法的区别与联系。
J48算法是ID3算法的改进,增加了对连续型的属性,属性值空缺的情况的处理;
而ID3算法只适用于所有属性都是离散字段的情况。
6、对分析所获得的结果进行解释。
在用J48对数据集进行分类时采用了10折交叉验证(10-foldcrossvalidation)来选择和评估模型(选取了pep属性作为测试属性,其属性值有两个:
YES,NO)。
一部结果如下:
CorrectlyClassifiedInstances20668.6667%(这是模型的准确率)
IncorrectlyClassifiedInstances9431.3333%(这是模型的出错率)
===ConfusionMatrix===
ab<
--classifiedas
7464|a=YES
30132|b=NO
这个矩阵是说,原本“pep”是“YES”的实例,有74个被正确的预测为“YES”,有64个错误的预测成了“NO”;
原本“pep”是“NO”的实例,有30个被错误的预测为“YES”,有132个正确的预测成了“NO”。
74+64+30+132=300是实例总数,而(74+132)/300=0.68667正好是正确分类的实例所占比例。
这个矩阵对角线上的数字越大,说明预测得越好。
给出数据挖掘中分类与预测成功应用的案例,并简要介绍。
实验三使用WEKA进行关联规则与聚类分析
综合运用数据预处理、关联规则与聚类的挖掘算法、结果的解释等知识进行数据挖掘。
阅读并理解WEKA的相关中英文资料,熟悉数据挖掘平台WEKA,针对实际数据,能够使用WEKA进行数据的预处理,了解属性选择,能选择合适的关联规则与聚类算法对数据进行分析,并能解释分析结果。
2、选择数据集,将要处理的数据集转换成WEKA能处理的格式。
在这次实验中我选用的数据集还是上次实验中的用到的数据集bank-data.arff,把属性ID除去,在进行关联规则分析时还要对age”,“income”和“children”三个数值型属性进行离散化;
而在聚类分析的时候把“children”属性改为分类型。
3、在WekaExplorer界面,单击Selectattributes选项,进入WEKA的属性选择页面。
5、在WekaExplorer界面,单击Associate选项,进入WEKA的关联规则页面。
选择一个关联规则算法对数据集进行分析,进行算法参数