《数据仓库与数据挖掘》实验指导书2.docx

上传人:b****7 文档编号:9006106 上传时间:2023-02-02 格式:DOCX 页数:39 大小:855.74KB
下载 相关 举报
《数据仓库与数据挖掘》实验指导书2.docx_第1页
第1页 / 共39页
《数据仓库与数据挖掘》实验指导书2.docx_第2页
第2页 / 共39页
《数据仓库与数据挖掘》实验指导书2.docx_第3页
第3页 / 共39页
《数据仓库与数据挖掘》实验指导书2.docx_第4页
第4页 / 共39页
《数据仓库与数据挖掘》实验指导书2.docx_第5页
第5页 / 共39页
点击查看更多>>
下载资源
资源描述

《数据仓库与数据挖掘》实验指导书2.docx

《《数据仓库与数据挖掘》实验指导书2.docx》由会员分享,可在线阅读,更多相关《《数据仓库与数据挖掘》实验指导书2.docx(39页珍藏版)》请在冰豆网上搜索。

《数据仓库与数据挖掘》实验指导书2.docx

《数据仓库与数据挖掘》实验指导书2

实验一、DTS的使用

一、实验目的:

1、了解MSSQLServer2000的安装,熟悉MSSQLServer2000数据库的使用环境

2、理解数据库和数据仓库的关系,为数据仓库建立数据库

3、熟练使用MSSQLServer2000的DTS,能够将各种数据源的数据按照数据仓库设计的要求导入到数据仓库

二、实验内容:

1、熟悉MSSQLServer2000数据库和表的基本操作。

2、为数据仓库建立新的数据库Mynorthwind。

3、使用DTS导入TXT文本文件到Mynorthwind。

4、使用DTS导入Access数据库到Mynorthwind。

5、使用DTS导入Excel文件到Mynorthwind。

6、使用DTS从Northwind导出Products和Categories两个表到Mynorthwind。

7、使用DTS查询导入,从Northwind导出Employees表到Mynorthwind,并将源表中firstname和lastname列合成一个列fullname。

8、使用DTS的查询导入,从Northwind导出Orders表到Mynorthwind为Dates表,并将源表Orders表中OrderDate一列分成年、月、日、周、季五列,同时保留OrderDate一列。

9、使用DTS的查询导入,从Northwind导出OrderDetails表到Mynorthwind为Facts表。

首先用Select语句将产品类别编号和员工编号等从各自表中取出,其次计算合计列值,计算方法为单价*(1-折扣)*数量,然后将OrderDetails表的内容复制到Facts表各列。

三、实验步骤:

1、启动MicrosoftSQLServer2000“服务管理器”,打开“企业管理器”,在出现的“SQLServerEnterpriseManager”窗口中,单击加号找到数据库,右键选择“新建数据库…”,打开对话框如图1.1所示,输入数据库名:

Mynorthwind,点击确定完成创建。

图1.1“新建数据库…”对话框

2、在新建的Mynorthwind数据库上点击右键,选择“所有任务”—>“导入数据”,打开“DTS导入/导出向导”对话框,如图1.2所示。

图1.2“DTS导入/导出向导”对话框

3、点击图1.2对话框中“下一步”,打开新的对话框如图1.3所示。

根据导入数据源的不同格式在对话框下拉菜单中选择不同的“数据源”,如:

“文本文件”、“MicrosoftAccess”或“MicrosoftExcel97-2000”等。

选定“数据源”后,点击“文件名”文本框后对应“...”按钮,选择需要导入的文件,点击“下一步”,保持默认设置不变直到最后完成导入。

图1.3“选择数据源”对话框

4、在图1.3中选定“数据源”为“用于SQLServer的MicrosoftOLEDB提供程序”,在“数据库”下拉菜单中选择源数据库为“Northwind”,点击“下一步”,确定目的“数据库”为“Mynorthwind”,点击“下一步”。

对于简单的表格导出/导入操作,选择“从源数据库复制表和视图”,并按提示完成导出/导入。

对于查询导入选择“用一条查询指定要传输的数据”,打开新的对话框如图1.4所示,输入需要实现的查询命令。

图1.4查询导出/导入对话框

四、注意事项:

1、观察数据库中数据字典的形式。

2、导入TXT文件时,中文输入法输入的符号不能作为分隔符使用。

五、思考与练习:

1、数据仓库与数据库的关系。

2、向数据仓库导入数据的时候将日期分为年、月、日、季的作用是什么?

实验二、数据备份还原和OLAP数据源的建立

一、实验目的:

1、熟悉AnalysisService的使用环境

2、掌握数据仓库的备份和还原操作,能够为AnalysisService的OLAP分析建立数据库和数据源

二、实验内容:

1、安装AnalysisService组件,熟悉AnalysisService包含的基本内容和操作环境

2、还原实验用数据库insur,熟悉数据库的表结构和数据记录

3、在AnalysisService中建立新的分析数据库——人寿保险实验,把insur设为数据源

4、在AnalysisService中浏览人寿保险实验的元数据和多维数据

5、在AnalysisService中备份人寿保险实验为d:

\my\insur.cab

6、删除现有人寿保险实验,还原备份数据库为人寿保险实验

三、实验步骤:

1、启动MicrosoftSQLServer2000“服务管理器”,打开“企业管理器”,在出现的“SQLServerEnterpriseManager”窗口中,单击加号找到数据库,右键选择“所有任务”—>“还原数据库…”,打开对话框如图2.1所示,输入“还原为数据库”名称为“insur”,选择“从设备”还原。

图2.1“还原数据库”对话框

2、点击“选择设备”在弹出的对话框中选择“添加…”,在弹出的对话框中查找对应的数据库备份文件“insur”,确定后返回到图2.1对话框,点击“选项”选项卡打开对话框如图2.2所示。

选中“在现有数据库上强制还原”,修改“移至物理文件名”内容为本地计算机上的正确路径,点击确定完成还原,还原后浏览“insur”数据库中的表,理解表的用途和表之间的关系。

图2.2“还原数据库”对话框

3、启动“AnalysisManager”,如图2.3所示。

图2.3打开“AnalysisManager”

4、在“服务管理器”图标上点击右键选择“新建数据库…”,打开对话框输入数据库名称为“人寿保险实验”,完成分析数据库的创建。

点击打开新建的数据库,在“数据源”上点击右键选择“新数据源…”打开“数据链接属性”对话框,选择希望连接的数据为“MicrosoftOLEDBProviderforSQLServer”,点击“下一步”打开对话框如图2.4所示,分别点击下拉菜单选择对应的服务器名称和服务器上的数据库的名称,点击确定完成数据源的连接。

图2.4“连接数据源”对话框

5、点击“数据源”对应的“元数据”选项卡,查看元数据的格式和内容。

当前数据库意外丢失,或在公共环境下上机无法正常存档需要备份和还原分析数据库。

在“人寿保险实验”上点击右键选择“将数据库存档…”,打开对话框如图2.5所示。

设置本地计算机的合适的保存路径,生成备份文件为“人寿保险实验.CAB”,现有数据库删除后可以还原此数据库。

图2.5备份数据库对话框

四、注意事项:

1、备份数据库时要注意路径的选择。

2、AnalysisService中无法浏览数据的话安装MicrosoftSQLServer补丁软件SP4。

3、SqlServer2000中还原数据库时注意选择从设备还原,找到备份的路径,设定还原后的路径。

五、思考与练习:

1、SqlServer2000中的数据库与“设置聚合选项”对话框AnalysisService中数据库的区别。

实验三、维度的创建

一、实验目的:

1、理解维度的基本概念

2、掌握时间维度、标准维度等维度的创建方法

二、实验内容:

1、选择数据库中的“保单”表中的“时间”属性,建立“时间”维度,分为:

年、季度、月、日四个层次

2、选择数据库中的“收付费类型明细”表,选择“收付费”,建立单一层次的标准维度“收付费类型”

3、选择数据库中的“投保人类型险种分类”表,建立多层次标准维度“险种_投保人类型分类”,包括:

投保人类型、险种名称两个层次(注意层次的先后关系)

4、选择数据库中的“机构区域分类”、“机构细分”、“机构业务员”表,选择“区域分类”、“机构名称”、“业务员名称”,建立多重关系型标准维度“区域_机构_业务员”(注意:

维度向导中选择的是雪花架构)

5、编辑建立的维度,在“收付费类型”维度中添加两个层次:

收付费归并类型、收付费明细类型表示

三、实验步骤:

1、创建“时间”维度

(1)在“AnalysisManager”窗口中点击“人寿保险实验”左边的加号,在列表项中的“共享维度”上点击右键选择“新建维度”,选择“向导…”,点击“下一步”打开“选择维度的创建方式”对话框,如图3.1所示。

图3.1“选择维度的创建方式”对话框

(2)选择默认的“星型架构”,点击“下一步”出现“选择维度表”对话框,在“可用的表”中选择“保单”,对应可以看到字段信息和“浏览数据”,如图3.2所示。

图3.2“选择维度表”对话框

(3)点击“下一步”,打开“选择维度类型”对话框,选择“时间维度”,在下拉菜单中选择“时间列”为“时间”,如图3.3所示。

图3.3“选择维度类型”对话框

(4)点击“下一步”,弹出“创建时间维度级别”对话框,选择时间级别为“年、季度、月、日”,如图3.4所示。

图3.4“创建时间维度级别”对话框

(5)点击“下一步”保持“选择高级选项”默认设置,点击“下一步”,打开“完成”对话框,在“维度名称”中输入“时间”,可以同时看到“时间”维度的层次数据,如图3.5所示,点击“完成”创建。

图3.5“完成”对话框

2、建立“收付费类型”维度

(1)与上面建立“时间”维度步骤类似,将3.2图中选择的表改为“收付费类型明细”,点击“下一步”,打开“选择维度的级别”对话框,选择“维度级别”为“收付费”,如图3.6所示。

图3.6“选择维度的级别”对话框

(2)点击“下一步”保持“指定成员键列”默认设置,点击“下一步”保持“选择高级选项”默认设置,点击“下一步”打开“完成”对话框,在“维度名称”中输入“收付费类型”,点击“完成”创建。

3、建立多层次标准维度“险种_投保人类型分类”

(1)与上面建立“时间”维度步骤类似,将3.2图中选择的表改为“投保人类型险种分类”,点击“下一步”,打开“选择维度的级别”对话框,依次选择“维度级别”为“投保人类型”和“险种名称”两个层次,如图3.7所示。

图3.7“选择维度的级别”对话框

(2)点击“下一步”保持“指定成员键列”默认设置,点击“下一步”保持“选择高级选项”默认设置,点击“下一步”打开“完成”对话框,在“维度名称”中输入“险种_投保人类型分类”,点击“完成”创建。

4、建立多重关系型标准维度“区域_机构_业务员”

(1)在图3.1中选择“雪花架构:

多个相关维度表”,点击“下一步”,在图3.2中选择“机构区域分类”、“机构细分”、“业务员”三个表,点击“下一步”打开“创建和编辑联接”对话框,如图3.8所示。

图3.8“创建和编辑联接”对话框

(2)点击“下一步”,打开“选择维度的级别”对话框,依次选择维度字段“区域分类”、“机构名称”、“业务员名称”,如图3.9所示。

图3.9“选择维度的级别”对话框

(3)点击“下一步”保持“指定成员键列”默认设置,点击“下一步”保持“选择高级选项”默认设置,点击“下一步”打开“完成”对话框,在“维度名称”中输入“区域_机构_业务员”,点击“完成”创建。

5、编辑建立的维度

(1)在“收付费类型”维度上点击右键选择“编辑…”,打开“维度编辑器”,在“收付费”上点击右键选择“新建级别…”,如图3.10所示。

图3.10“维度编辑器”窗口

(2)在弹出的“插入级别”对话框中依次选择“收付费归并类型”、“收付费明细类型表示”,点击确定完成编辑。

四、注意事项:

1、首先熟悉insur数据库中的表,了解各个表的用途和相互之间的联系。

2、建立多重标准维度时注意维度的显示,可以拖动维度以便正确显示连接关系。

五、思考与练习:

1、观察维度数据,理解维度的原理和作用。

2、维度是否可以随时添加。

 

实验四、多维数据集的创建

一、实验目的:

1、理解多维数据集的基本概念

2、掌握基本多维数据集的建立和编辑过程

二、实验内容:

1、建立“保单数据分析”多维数据集

2、加入“时间”、“收付费类型”、“险种_投保人类型分类”、“区域_机构_业务员”维度

3、插入“中间表”,连接事实表和各维度表

4、保存并处理多维数据集

三、实验步骤:

1、在“人寿保险实验”中右键点击“多维数据集”,选择“新建多维数据集”—>“向导…”,打开“多维数据集向导”对话框,选择事实表为“保单”,如图4.1所示。

图4.1“多维数据集向导”对话框

2、点击“下一步”,打开度量值选择对话框,选择所有的事实表数字列为“多维数据集度量值”,如图4.2所示。

图4.2度量值选择对话框

3、点击“下一步”,打开维度选择对话框,选择所有的维度为“多维数据集维度”,如图4.3所示。

图4.3维度选择对话框

4、点击“下一步”,弹出“事实数据表行数”提示框,如图4.4所示,点击“是”。

图4.4“事实数据表行数”提示框

5、在弹出的提示框中点击确定,如图4.5所示。

图4.5信息提示

6、在弹出的“完成”对话框中输入“多维数据集名称”为“保单数据分析”,点击完成弹出“多维数据集编辑器”窗口,如图4.6所示。

图4.6“多维数据集编辑器”窗口

7、在上图的“架构”区域中右键点击空白区域,弹出“插入表…”按钮,在“选择表”对话框中选择“中间表”,点击“添加”,关闭对话框。

将各个表通过公共键连接起来,如图4.7所示。

图4.7表间连接

8、选择“多维数据集编辑器”窗口的“工具”菜单—>“处理多维数据集…”,打开信息提示框,如图4.8所示。

图4.8信息提示

9、点击“是”,打开“存储设计向导”对话框,点击“下一步”打开“选择数据存储类型”对话框,如图4.9所示,选择“MOLAP”选项。

图4.9“选择数据存储类型”对话框

10、点击“下一步”,打开“设置聚合选项”对话框,如图4.10所示,点击“开始”。

图4.10“设置聚合选项”对话框

11、聚合后点击“下一步”,弹出“完成”对话框,如图4.11所示,点击“完成”,得到最终处理结果,如果4.12所示。

图4.11“完成”对话框

图4.12“处理”对话框

四、注意事项:

1、建立“雪花模型”的时候注意表之间的连接操作。

2、计算聚合时选的是MOLAP而不是ROLAP。

五、思考与练习:

1、观察多维数据集的数据,理解多维数据集的原理和作用。

2、聚合的作用。

实验五、OLAP数据展示

一、实验目的:

1、理解OLAP的数据分析模式,掌握钻取、旋转等操作方法

2、学习建立OLAP分析数据的动态访问方式,在Excel上建立OLAP数据透视,对多维立方体进行展示分析

二、实验内容:

1、按照时间对多维数据集的数据进行展示,按照时间和投保人类型进行嵌套维度查询

2、使用Excel进行数据展示,在Excel中建立与分析服务器的连接,将分析结果显示到Excel上

3、学习使用数据透视表进行数据分析展示,查看更细节数据。

三、实验步骤:

1、左键点击“多维数据集”中的“保单数据分析”,对应右边的显示区里点击“数据”选项卡,如图5.1所示。

图5.1数据显示

2、选择“时间”、“收付费类型”或“险种_投保人类型分类”维度的某一个或组合分量查看查询数据,用鼠标左键拖动查询区域维度或显示区域的维度,改变显示形式。

3、新建Excel文件,选择“数据”菜单,打开“导入数据…”,如图5.2所示。

图5.2导入数据菜单

4、打开“选择数据源”对话框,如图5.3所示,点击“新建源…”按钮,弹出“数据连接向导”对话框,如图5.4所示。

图5.3“选取数据源”对话框

图5.4“数据连接向导”对话框

5、在打开的“数据连接向导”中选择数据源为“MicrosoftSQLServerOLAP

服务”,点击“下一步”,在弹出的对话框中输入服务管理器的名称,点击“下一步”,在弹出的对话框中“选择数据库”为“人寿保险实验”,选定多维数据集为“保单数据分析”,如图5.5所示。

图5.5“选择数据库和表”对话框

6、点击“下一步”,点击“完成”,点击“打开”,弹出透视表视图向导,如图5.6所示,点击完成。

图5.6数据透视向导对话框

7、点击“格式”菜单,选择“自动套用格式…”,打开的对话框中选择“表1”格式,如图5.7所示。

图5.7显示区域

8、将“数据透视表字段列表”中的维度和度量值分别拖动到左边的工作区域中,形成完整的表格,如图5.8所示。

图5.8Excel中OLAP数据的显示

四、注意事项:

1、Excel与数据源的连接用菜单的“导入外部数据”功能。

2、注意Excel中显示数据表格的格式。

五、思考与练习:

1、OLAP中旋转、钻取、切片、切块等操作如何实现。

实验六、决策树挖掘与聚类挖掘

一、实验目的:

1、掌握使用AnalysisServices进行决策树分析和聚类分析的方法

2、对AnalysisServices提供的分析结果进行解释

二、实验内容:

1、使用AnalysisServices导入泰坦尼克乘客和心脏病诊断数据表

2、对泰坦尼克乘客数据和心脏病数据分别进行决策树挖掘和聚类挖掘,给出自己对分析结果的解释

3、在泰坦尼克乘客Excel数据表中复制粘贴所有数据,使现有数据为原有数据的两倍,重新进行决策树挖掘,给出自己对分析结果的解释

三、实验步骤:

1、利用实验一的方法,将实验数据导入到数据库“insur”中,在“AnalysisManager”窗口中点开“人寿保险实验”,在“挖掘模型”上点击右键选择“新建挖掘模型…”,打开向导,点击“下一步”,弹出“挖掘模型向导”对话框,如图6.1所示。

图6.1“挖掘模型向导”对话框

2、点击“下一步”,选择“可用的表”为新导入的“sheet1$”,如图6.2所示。

图6.2“选择事例表”对话框

3、点击“下一步”,在弹出的对话框中选择“Microsoft聚集”技术,如图6.3所示。

图6.3“选择数据挖掘技术”对话框

4、点击“下一步”,选择事例键列为“ID”,点击“下一步”,在弹出的对话框中添加输入列,如图6.4所示。

图6.4“选择输入列”对话框

5、点击“下一步”,在弹出的对话框中输入挖掘模型名称,如图6.5所示。

图6.5“完成”对话框

6、处理完后,查看“关系挖掘模型编辑器”窗口的“内容”选项卡,得到数据挖掘的结果,如图6.6所示。

图6.6聚类挖掘结果

四、注意事项:

1、聚类挖掘中簇的数目由属性设定决定。

五、思考与练习:

1、对比原有泰坦尼克乘客数据的决策树挖掘结果与新数据挖掘结果的不同,思考产生不同的原因。

2、观察选定不同数目的输入列与聚类挖掘形成的簇的数目的关系。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 农学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1