数据仓库与数据挖掘实验指导.docx-资源下载

数据仓库与数据挖掘实验指导.docx

1、数据仓库与数据挖掘实验指导数据仓库与数据挖掘课程实验本实验是数据仓库与数据挖掘课程的验证性实验环节。课程共计8学时。实验目标:1、掌握建立和配置数据仓库的基本操作技能。主要包括数据仓库系统的安装。2、掌握数据仓库中数据的处理技术。主要包括数据仓库的建模、事务数据的转换、备份数据的恢复。3、掌握基于数据仓库的自动数据分析技术的基本操作技能。包括多维数据分析和数据挖掘。4、掌握一种专用数据挖掘软件,用以分析处理文本或电子表格的数据。实验环境:l Microsoft SQLServer2000l Microsoft SQLServer2000 Analysis Servcel DBMiner2.0

2、l Microsoft SQLServer2000 PACK4l JAVA运行时环境:JRE5.0l WEKA3.55实验项目:l实验1:安装数据仓库系统平台 1.5学时l实验2:构建数据仓库数据环境 1.5学时l实验3:多维数据分析 1.5学时l实验4:基于数据仓库的数据挖掘实验 2.0学时l实验5:数据挖掘平台应用实验 1.5学时实验1:安装数据仓库系统平台l实验任务:1.掌握Microsoft Server2000 数据仓库系统的安装与配置2.安装实验分析环境:1安装Microsoft Server2000 analysis Service2安装DBMiner2.03 安装Java运行时

3、环境JRE5.04安装WEKAl实验准备:请从黑板或网上获取安装文件所在的网络地址。并记在下面:网络资料的地址是:_本实验不得超过1.5学时。l实验指导:Lab1.1检查并安装Microsoft Server2000单元目标:确保完整正确的数据仓库实验环境工作步骤:1.检查你所使用的电脑上是否有Microsoft Server2000。如果有,启动并检查Microsoft Server2000 是否安装了Server Pack3以上的补丁文件。2.如果以上都没问题,则本实验结束。3.下载相应的系统文件安装。先安装Microsoft Server2000,再安装Server Pack3或Serv

4、er Pack4。Lab1.2检查并安装数据分析环境单元目标:确保安装了相应的数据分析软件工作步骤:1.检查你所使用的电脑是否安装了Microsoft Server2000 analysisService,DBMiner2.0, JRE5.0, WEKA3.5.5。如果都已安装且能正常运行,则本实验结束。否则进入以下步骤。2.如果没有安装以上软件。请按以下次序从网络资料地址上下载软件完成安装。完成Lab1.1 和Lab1,2后,本实验结束。实验2:构建数据仓库数据环境l实验任务:本实验主要验证ETL的数据处理过程。主要实验任务有:1.构建数据仓库模型,并在数据仓库系统中生成相应的数据表。2.将

5、事务数据库中的数据转入数据仓库中。3.还原备份和还原的数据仓库中的数据。l实验准备:请从黑板或网上获取数据文件所在的网络地址。并记在下面:数据文件的地址是:_ 本实验不得超过1.5学时。本实验将使用Microsoft SQLserver的示例数据库:Northwind,这是一个商贸公司的销售数据库。我们将这个事务型的数据导入到分析型的数据仓库中去。l实验指导:Lab2.1用caseStudio2.15 建立数据仓库的星型模型单元目标:建立Northwind_DW的数据仓库模型。如下图所示。并根据该模型生成相应的数据仓库的维表和事实表的结构。工作步骤:1. 按下图样式建立Northwind_DW

6、的昨型数据模型,请根据原事务数据库中相应字段的数据类型和宽度,对应地设计相应字段的数据类型和宽度。 2. 安装并启动CaseStudio2.15,设计以上模型。3. 运行生成脚本(Generate script生成相应的SQL代码。Lab2.2将事务型数据加载到分析数据环境中单元目标:根据以上实验单元建立的数据模型,在MicrosoftSQL2000中建立相应的物理数据仓库。工作步骤:1. 请从教师课件中“数据仓库与数据挖掘”目录下的Lab2008中下载文档“多维数据分析操作演练.pdf ”2. 用Adobe reader打开该文档。3. 在数据仓库创建部分,可以使用Lab2.1中的模型进行创

7、建和转化。4. 按照上面所列步骤进行操作。最终完成事实表和维表的数据转移。Lab2.3数据仓库中数据的备份与恢复单元目标:1.将已生成的数据仓库的数据进行备份。2.利用备份文件向新的数据库中还原数据仓库的数据。工作步骤:1、备份打开Sqlserver企业管理器,在需要备份的数据库上点鼠标右键,所有任务中选备份数据库。再从Sqlserver安装目录中的Data目录下,拷贝出要备份的数据库文件*.mdf,*.ldf,并备份这两个文件2、还原将要还原的数据库文件*.mdf,*.ldf拷贝到Sqlserver安装目录下的Data目录下。打开Sqlserver企业管理器,新建一个数据库,在数据库这一项上

8、点鼠标右键,在所有任务中选导入数据库,以拷贝到Data目录下的mdf恢复数据库。还原过程中,如果有什么异常,请参考“数据仓库与数据挖掘技术上机”目录下的“数据仓库实习指导.pdf”中的还原部分的内容。实验3:多维数据分析l实验任务:本实验主要验证OLAP多维分析的过程。主要包括完成OLAP数据库的创建,多维数据集的创建。存储和处理多维数据,浏览多维数据集等实验任务。l实验准备:本实验使用的操作参考为Lab2.2中下载的文档,“多维数据分析操作演练.pdf ”。本实验不得超过1.5学时。l实验指导:Lab3.1多维数据分析实验单元目标:1.掌握Microsoft analysis Service

9、的中对OALP数据库的操作步骤2.在使用过程中熟悉和理解相应的概念。工作步骤:1.在“多维数据分析操作演练.pdf ”中从P85开始进行相应的操作演练。2.在实验过程中,如果对相应的操作还不是很理解,请在”数据仓库与数据挖掘技术上机”目录下有“Sqlserver数据分析.rar ”文档,解压后,有详细的帮助和演练信息。实验4:基于数据仓库的数据挖掘实验l实验任务:1.基于Microsoft SQLserver2000 Analyses Service的数据挖掘模型对数据仓库中的数据进行决策树分析和聚类分析;2.使用DBMiner2.0对数据仓库中的数据进行聚类、关联分析;3.使用DBMiner

10、2.0对数据仓库的数据分析进行可视化。l实验准备:本实验的实验指导参考资料在网上,请下载参考。本实验不得超过1.5学时。l实验指导:Lab4.1 基于Microsoft SQLserver2000 Analyses Service的数据挖掘单元目标:掌握Microsoft SQLserver2000 Analyses Service的数据挖掘模型的使用步骤工作步骤:请在”数据仓库与数据挖掘技术上机”目录下有“Sqlserver数据分析.rar ”文档,解压后,按下图所指,完成“数据挖掘”的演练。 Lab4.2 基于DBMiner2.0的数据挖掘(选做单元目标:掌握DBminer2.0对数据仓库

11、中的数据进行可视化分类、聚类、关联分析由于时间有限,指导教师将进行一些现场的演练指导。工作步骤:1. 在”数据仓库与数据挖掘技术Lab2008”目录下下载相应的操作手册“DBMinerManual.pdf ”文档,阅读第一、二章。2. 对多维数据集进行可视化分析。(chapter 43. 对多维数据集进行关联分析。(chapter 64. 对多维数据集进行分类挖掘。(chapter 75. 对多维数据集进行聚类分析。(chapter 8实验5:数据挖掘平台应用实验l实验任务:1.熟悉WEKA数据挖掘平台的基本功能。2.能够对存于文本或电子表格中的数据进行数据挖掘分析3.本实验为选做,对毕业论文

12、分析数据有利用价值。l实验准备:1.下载Java运行时环境JRE1.5。2.下载WEKA并安装运行3. 在”数据仓库与数据挖掘技术Lab2008”目录下下载“WEKA中文使用手册.pdf”,有较详细的使用说明4.所需要的数据存放在“数据仓库与数据挖掘技术Lab2008WEKA_DATA”下。l实验指导:Lab5.1用WEKA进行决策树分析单元目标:掌握WEKA进行决策树分析的步骤。工作步骤:WEKA把分类(Classification和回归(Regression都放在“Classify”选项卡中,这是有原因的。在这两个任务中,都有一个目标属性(输出变量。我们希望根据一个样本(WEKA中称作实例

13、的一组特征(输入变量,对目标进行预测。为了实现这一目的,我们需要有一个训练数据集,这个数据集中每个实例的输入和输出都是已知的。观察训练集中的实例,可以建立起预测的模型。有了这个模型,我们就可以新的输出未知的实例进行预测了。衡量模型的好坏就在于预测的准确程度。在WEKA中,待预测的目标(输出被称作Class属性,这应该是来自分类任务的“类”。一般的,若Class属性是分类型时我们的任务才叫分类,Class属性是数值型时我们的任务叫回归。选择算法我们使用C4.5决策树算法对bank-data建立起分类模型。我们来看原来的“bank-data.csv”文件。“ID”属性肯定是不需要的。由于C4.5算

14、法可以处理数值型的属性,我们不用像前面用关联规则那样把每个变量都离散化成分类型。尽管如此,我们还是把“Children”属性转换成分类型的两个值“YES”和“NO”。另外,我们的训练集仅取原来数据集实例的一半;而从另外一半中抽出若干条作为待预测的实例,它们的“pep”属性都设为缺失值。经过了这些处理的训练集数据在这里下载;待预测集数据在这里下载。我们用“Explorer”打开训练集“bank.arff”,观察一下它是不是按照前面的要求处理好了。切换到“Classify”选项卡,点击“Choose”按钮后可以看到很多分类或者回归的算法分门别类的列在一个树型框里。3.5版的WEKA中,树型框下方有

15、一个“Filter.”按钮,点击可以根据数据集的特性过滤掉不合适的算法。我们数据集的输入属性中有“Binary”型(即只有两个类的分类型和数值型的属性,而Class变量是“Binary”的;于是我们勾选“Binary attributes”“Numeric attributes”和“Binary class”。点“OK”后回到树形图,可以发现一些算法名称变红了,说明它们不能用。选择“trees”下的“J48”,这就是我们需要的C4.5算法,还好它没有变红。点击“Choose”右边的文本框,弹出新窗口为该算法设置各种参数。点“More”查看参数说明,点“Capabilities”是查看算法适用范

16、围。这里我们把参数保持默认。现在来看左中的“Test Option”。我们没有专门设置检验数据集,为了保证生成的模型的准确性而不至于出现过拟合(overfitting的现象,我们有必要采用10折交叉验证(10-fold cross validation来选择和评估模型。若不明白交叉验证的含义可以Google一下。建模结果OK,选上“Cross-validation”并在“Folds”框填上“10”。点“Start”按钮开始让算法生成决策树模型。很快,用文本表示的一棵决策树,以及对这个决策树的误差分析等等结果出现在右边的“Classifier output”中。同时左下的“Results lis

17、t”出现了一个项目显示刚才的时间和算法名称。如果换一个模型或者换个参数,重新“Start”一次,则“Results list”又会多出一项。我们看到“J48”算法交叉验证的结果之一为Correctly Classified Instances 206 68.6667 % 也就是说这个模型的准确度只有69%左右。也许我们需要对原属性进行处理,或者修改算法的参数来提高准确度。但这里我们不管它,继续用这个模型。右键点击“Results list”刚才出现的那一项,弹出菜单中选择“Visualize tree”,新窗口里可以看到图形模式的决策树。建议把这个新窗口最大化,然后点右键,选“Fit to s

18、creen”,可以把这个树看清楚些。看完后截图或者关掉。这里我们解释一下“Confusion Matrix”的含义。= Confusion Matrix =a b R，我们常用支持度（Support）和置信度（Confidence）来衡量它的重要性。规则的支持度是用来估计在一个购物篮中同时观察到 L 和 R 的概率 P(L,R，而规则的置信度是估计购物栏中出现了 L 时也出会现 R 的条件概率 P(R|L。关联规则的目标一般是产生支持度和置信度都较高的规则。有几个类似的度量代替置信度来衡量规则的关联程度，它们分别是 Lift（提升度？） P(L,R/(P(LP(R Lift=1 时

19、表示 L 和 R 独立。这个数越大，越表明 L 和： R 存在在一个购物篮中不是偶然现象。 Leverage （不知道怎么翻译）： P(L,R-P(LP(R 它和 Lift 的含义差不多。Leverage=0 时 L 和 R 独立，Leverage 越大 L 和 R 的关系越密切。 Conviction （更不知道译了） P(LP(!R/P(L,!R （!R ：表示 R 没有发生） Conviction 也是用来衡量 L 和 R 的独立性。从它和 lift 的关系（对 R 取反，代入 Lift 公式后求倒数）可以看出，我们也希望这个值越大越

20、好。值得注意的是，用 Lift 和 Leverage 作标准时，L 和 R 是对称的，Confidence 和 Conviction 则不然。参数设置现在我们计划挖掘出支持度在 10%到 100%之间，并且 lift 值超过 1.5 且 lift 值排在前 100 位的那些关联规则。我们把“lowerBoundMinSupport”和“upperBoundMinSupport”分别设为 0.1 和 1， “metricType”设为 lift， “minMetric”设为 1.5， “numRules”设为 100。其他选项保持默认即可。 “OK” 之后在“Explorer”中点击

21、“Start”开始运行算法，在右边窗口显示数据集摘要和挖掘结果。下面是挖掘出来的 lift 排前 5 的规则。 Best rules found: 1. age=52_max save_act=YES current_act=YES 113 = income=43759_max 61 conf:(0.54 lev:(0.0 45 conv:(1.85 2. income=43759_max 80 = age=52_max save_act=YES current_act=YES 61 conf:(0.76 lev:(0.0 45 conv:(3.25 3. income=43759_max

22、 current_act=YES 63 = age=52_max save_act=YES 61 conf:(0.97 lev:(0.0 45 conv:(15.72 4. age=52_max save_act=YES 151 = income=43759_max current_act=YES 61 conf:(0.4 lev:(0.0 45 conv:(1.49 5. age=52_max save_act=YES 151 = income=43759_max 76 conf:(0.5 lev:(0.09 55 conv:(1.72 对于挖掘出的每条规则，WEKA 列出了它们关联程度的四

23、项指标。命令行方式我们也可以利用命令行来完成挖掘任务，在“Simlpe CLI”模块中输入如下格式的命令： java weka.associations.Apriori options -t directory-pathbank-data-final.arff 即可完成 Apriori 算法。注意， “-t”参数后的文件路径中不能含有空格。在前面我们使用的 option 为 -N 100 -T 1 -C 1.5 -D 0.05 -U 1.0 -M 0.1 -S -1.0 命令行中使用这些参数得到的结果和前面利用 GUI 得到的一样。我们还可以加上 I” “- 参数，得到不同项数的频繁项集。我用的命令如下： java weka.associations.Apriori -N 100 -T 1 -C 1.5 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -I -t d:wekabank-data-final.arff 挖掘结果在上方显示。 Lab5.3 用 WEKA 进行聚类分析单元目

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？