数据仓库与数据挖掘实验指导书样本.docx
《数据仓库与数据挖掘实验指导书样本.docx》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘实验指导书样本.docx(34页珍藏版)》请在冰豆网上搜索。
数据仓库与数据挖掘实验指导书样本
实验一、DTS使用
一、实验目:
1、理解MSSQLServer安装,熟悉MSSQLServer数据库使用环境
2、理解数据库和数据仓库关系,为数据仓库建立数据库
3、纯熟使用MSSQLServerDTS,可以将各种数据源数据按照数据仓库设计规定导入到数据仓库
二、实验内容:
1、熟悉MSSQLServer数据库和表基本操作。
2、为数据仓库建立新数据库Mynorthwind。
3、使用DTS导入TXT文本文献到Mynorthwind。
4、使用DTS导入Access数据库到Mynorthwind。
5、使用DTS导入Excel文献到Mynorthwind。
6、使用DTS从Northwind导出Products和Categories两个表到Mynorthwind。
7、使用DTS查询导入,从Northwind导出Employees表到Mynorthwind,并将源表中firstname和lastname列合成一种列fullname。
8、使用DTS查询导入,从Northwind导出Orders表到Mynorthwind为Dates表,并将源表Orders表中OrderDate一列提成年、月、日、周、季五列,同步保存OrderDate一列。
9、使用DTS查询导入,从Northwind导出OrderDetails表到Mynorthwind为Facts表。
一方面用Select语句将产品类别编号和员工编号等从各自表中取出,另一方面计算共计列值,计算办法为单价*(1-折扣)*数量,然后将OrderDetails表内容复制到Facts表各列。
三、实验环节:
1、启动MicrosoftSQLServer“服务管理器”,打开“公司管理器”,在浮现“SQLServerEnterpriseManager”窗口中,单击加号找到数据库,右键选取“新建数据库…”,打开对话框如图1.1所示,输入数据库名:
Mynorthwind,点击拟定完毕创立。
图1.1“新建数据库…”对话框
2、在新建Mynorthwind数据库上点击右键,选取“所有任务”—>“导入数据”,打开“DTS导入/导出向导”对话框,如图1.2所示。
图1.2“DTS导入/导出向导”对话框
3、点击图1.2对话框中“下一步”,打开新对话框如图1.3所示。
依照导入数据源不同格式在对话框下拉菜单中选取不同“数据源”,如:
“文本文献”、“MicrosoftAccess”或“MicrosoftExcel97-”等。
选定“数据源”后,点击“文献名”文本框后相应“...”按钮,选取需要导入文献,点击“下一步”,保持默认设立不变直到最后完毕导入。
图1.3“选取数据源”对话框
4、在图1.3中选定“数据源”为“用于SQLServerMicrosoftOLEDB提供程序”,在“数据库”下拉菜单中选取源数据库为“Northwind”,点击“下一步”,拟定目“数据库”为“Mynorthwind”,点击“下一步”。
对于简朴表格导出/导入操作,选取“从源数据库复制表和视图”,并按提示完毕导出/导入。
对于查询导入选取“用一条查询指定要传播数据”,打开新对话框如图1.4所示,输入需要实现查询命令。
图1.4查询导出/导入对话框
四、注意事项:
1、观测数据库中数据字典形式。
2、导入TXT文献时,中文输入法输入符号不能作为分隔符使用。
五、思考与练习:
1、数据仓库与数据库关系。
2、向数据仓库导入数据时候将日期分为年、月、日、季作用是什么?
实验二、数据备份还原和OLAP数据源建立
一、实验目:
1、熟悉AnalysisService使用环境
2、掌握数据仓库备份和还原操作,可觉得AnalysisServiceOLAP分析建立数据库和数据源
二、实验内容:
1、安装AnalysisService组件,熟悉AnalysisService包括基本内容和操作环境
2、还原实验用数据库insur,熟悉数据库表构造和数据记录
3、在AnalysisService中建立新分析数据库——人寿保险实验,把insur设为数据源
4、在AnalysisService中浏览人寿保险实验元数据和多维数据
5、在AnalysisService中备份人寿保险实验为d:
\my\insur.cab
6、删除既有人寿保险实验,还原备份数据库为人寿保险实验
三、实验环节:
1、启动MicrosoftSQLServer“服务管理器”,打开“公司管理器”,在浮现“SQLServerEnterpriseManager”窗口中,单击加号找到数据库,右键选取“所有任务”—>“还原数据库…”,打开对话框如图2.1所示,输入“还原为数据库”名称为“insur”,选取“从设备”还原。
图2.1“还原数据库”对话框
2、点击“选取设备”在弹出对话框中选取“添加…”,在弹出对话框中查找相应数据库备份文献“insur”,拟定后返回到图2.1对话框,点击“选项”选项卡打开对话框如图2.2所示。
选中“在既有数据库上强制还原”,修改“移至物理文献名”内容为本地计算机上对的途径,点击拟定完毕还原,还原后浏览“insur”数据库中表,理解表用途和表之间关系。
图2.2“还原数据库”对话框
3、启动“AnalysisManager”,如图2.3所示。
图2.3打开“AnalysisManager”
4、在“服务管理器”图标上点击右键选取“新建数据库…”,打开对话框输入数据库名称为“人寿保险实验”,完毕分析数据库创立。
点击打开新建数据库,在“数据源”上点击右键选取“新数据源…”打开“数据链接属性”对话框,选取但愿连接数据为“MicrosoftOLEDBProviderforSQLServer”,点击“下一步”打开对话框如图2.4所示,分别点击下拉菜单选取相应服务器名称和服务器上数据库名称,点击拟定完毕数据源连接。
图2.4“连接数据源”对话框
5、点击“数据源”相应“元数据”选项卡,查看元数据格式和内容。
当前数据库意外丢失,或在公共环境下上机无法正常存档需要备份和还原分析数据库。
在“人寿保险实验”上点击右键选取“将数据库存档…”,打开对话框如图2.5所示。
设立本地计算机适当保存途径,生成备份文献为“人寿保险实验.CAB”,既有数据库删除后可以还原此数据库。
图2.5备份数据库对话框
四、注意事项:
1、备份数据库时要注意途径选取。
2、AnalysisService中无法浏览数据话安装MicrosoftSQLServer补丁软件SP4。
3、SqlServer中还原数据库时注意选取从设备还原,找到备份途径,设定还原后途径。
五、思考与练习:
1、SqlServer中数据库与“设立聚合选项”对话框AnalysisService中数据库区别。
实验三、维度创立
一、实验目:
1、理解维度基本概念
2、掌握时间维度、原则维度等维度创立办法
二、实验内容:
1、选取数据库中“保单”表中“时间”属性,建立“时间”维度,分为:
年、季度、月、日四个层次
2、选取数据库中“收付费类型明细”表,选取“收付费”,建立单一层次原则维度“收付费类型”
3、选取数据库中“投保人类型险种分类”表,建立多层次原则维度“险种_投保人类型分类”,涉及:
投保人类型、险种名称两个层次(注意层次先后关系)
4、选取数据库中“机构区域分类”、“机构细分”、“机构业务员”表,选取“区域分类”、“机构名称”、“业务员名称”,建立多重关系型原则维度“区域_机构_业务员”(注意:
维度向导中选取是雪花架构)
5、编辑建立维度,在“收付费类型”维度中添加两个层次:
收付费归并类型、收付费明细类型表达
三、实验环节:
1、创立“时间”维度
(1)在“AnalysisManager”窗口中点击“人寿保险实验”左边加号,在列表项中“共享维度”上点击右键选取“新建维度”,选取“向导…”,点击“下一步”打开“选取维度创立方式”对话框,如图3.1所示。
图3.1“选取维度创立方式”对话框
(2)选取默认“星型架构”,点击“下一步”浮现“选取维度表”对话框,在“可用表”中选取“保单”,相应可以看到字段信息和“浏览数据”,如图3.2所示。
图3.2“选取维度表”对话框
(3)点击“下一步”,打开“选取维度类型”对话框,选取“时间维度”,在下拉菜单中选取“时间列”为“时间”,如图3.3所示。
图3.3“选取维度类型”对话框
(4)点击“下一步”,弹出“创立时间维度级别”对话框,选取时间级别为“年、季度、月、日”,如图3.4所示。
图3.4“创立时间维度级别”对话框
(5)点击“下一步”保持“选取高档选项”默认设立,点击“下一步”,打开“完毕”对话框,在“维度名称”中输入“时间”,可以同步看到“时间”维度层次数据,如图3.5所示,点击“完毕”创立。
。
图3.5“完毕”对话框
2、建立“收付费类型”维度
(1)与上面建立“时间”维度环节类似,将3.2图中选取表改为“收付费类型明细”,点击“下一步”,打开“选取维度级别”对话框,选取“维度级别”为“收付费”,如图3.6所示。
图3.6“选取维度级别”对话框
(2)点击“下一步”保持“指定成员键列”默认设立,点击“下一步”保持“选取高档选项”默认设立,点击“下一步”打开“完毕”对话框,在“维度名称”中输入“收付费类型”,点击“完毕”创立。
3、建立多层次原则维度“险种_投保人类型分类”
(1)与上面建立“时间”维度环节类似,将3.2图中选取表改为“投保人类型险种分类”,点击“下一步”,打开“选取维度级别”对话框,依次选取“维度级别”为“投保人类型”和“险种名称”两个层次,如图3.7所示。
图3.7“选取维度级别”对话框
(2)点击“下一步”保持“指定成员键列”默认设立,点击“下一步”保持“选取高档选项”默认设立,点击“下一步”打开“完毕”对话框,在“维度名称”中输入“险种_投保人类型分类”,点击“完毕”创立。
4、建立多重关系型原则维度“区域_机构_业务员”
(1)在图3.1中选取“雪花架构:
各种有关维度表”,点击“下一步”,在图3.2中选取“机构区域分类”、“机构细分”、“业务员”三个表,点击“下一步”打开“创立和编辑联接”对话框,如图3.8所示。
图3.8“创立和编辑联接”对话框
(2)点击“下一步”,打开“选取维度级别”对话框,依次选取维度字段“区域分类”、“机构名称”、“业务员名称”,如图3.9所示。
图3.9“选取维度级别”对话框
(3)点击“下一步”保持“指定成员键列”默认设立,点击“下一步”保持“选取高档选项”默认设立,点击“下一步”打开“完毕”对话框,在“维度名称”中输入“区域_机构_业务员”,点击“完毕”创立。
5、编辑建立维度
(1)在“收付费类型”维度上点击右键选取“编辑…”,打开“维度编辑器”,在“收付费”上点击右键选取“新建级别…”,如图3.10所示。
图3.10“维度编辑器”窗口
(2)在弹出“插入级别”对话框中依次选取“收付费归并类型”、“收付费明细类型表达”,点击拟定完毕编辑。
四、注意事项:
1、一方面熟悉insur数据库中表,理解各个表用途和互相之间联系。
2、建立多重原则维度时注意维度显示,可以拖动维度以便对的显示连接关系。
五、思考与练习:
1、观测维度数据,理解维度原理和作用。
2、维度与否可以随时添加。
实验四、多维数据集创立
一、实验目:
1、理解多维数据集基本概念
2、掌握基本多维数据集建立和编辑过程
二、实验内容:
1、建立“保单数据分析”多维数据集
2、加入“时间”、“收付费类型”、“险种_投保人类型分类”、“区域_机构_业务员”维度
3、插入“中间表”,连接事实表和各维度表
4、保存并解决多维数据集
三、实验环节:
1、在“人寿保险实验”中右键点击“多维数据集”,选取“新建多维数据集”—>“向导…”,打开“多维数据集向导”对话框,选取事实表为“保单”,如图4.1所示。
图4.1“多维数据集向导”对话框
2、点击“下一步”,打开度量值选取对话框,选取所有事实表数字列为“多维数据集度量值”,如图4.2所示。
图4.2度量值选取对话框
3、点击“下一步”,打开维度选取对话框,选取所有维度为“多维数据集维度”,如图4.3所示。
图4.3维度选取对话框
4、点击“下一步”,弹出“事实数据表行数”提示框,如图4.4所示,点击“是”。
图4.4“事实数据表行数”提示框
5、在弹出提示框中点击拟定,如图4.5所示。
图4.5信息提示
6、在弹出“完毕”对话框中输入“多维数据集名称”为“保单数据分析”,点击完毕弹出“多维数据集编辑器”窗口,如图4.6所示。
图4.6“多维数据集编辑器”窗口
7、在上图“架构”区域中右键点击空白区域,弹出“插入表…”按钮,在“选取表”对话框中选取“中间表”,点击“添加”,关闭对话框。
将各个表通过公共键连接起来,如图4.7所示。
图4.7表间连接
8、选取“多维数据集编辑器”窗口“工具”菜单—>“解决多维数据集…”,打开信息提示框,如图4.8所示。
图4.8信息提示
9、点击“是”,打开“存储设计向导”对话框,点击“下一步”打开“选取数据存储类型”对话框,如图4.9所示,选取“MOLAP”选项。
图4.9“选取数据存储类型”对话框
10、点击“下一步”,打开“设立聚合选项”对话框,如图4.10所示,点击“开始”。
图4.10“设立聚合选项”对话框
11、聚合后点击“下一步”,弹出“完毕”对话框,如图4.11所示,点击“完毕”,得到最后解决成果,如果4.12所示。
图4.11“完毕”对话框
图4.12“解决”对话框
四、注意事项:
1、建立“雪花模型”时候注意表之间连接操作。
2、计算聚合时选是MOLAP而不是ROLAP。
五、思考与练习:
1、观测多维数据集数据,理解多维数据集原理和作用。
2、聚合伙用。
实验五、OLAP数据展示
一、实验目:
1、理解OLAP数据分析模式,掌握钻取、旋转等操作办法
2、学习建立OLAP分析数据动态访问方式,在Excel上建立OLAP数据透视,对多维立方体进行展示分析
二、实验内容:
1、按照时间对多维数据集数据进行展示,按照时间和投保人类型进行嵌套维度查询
2、使用Excel进行数据展示,在Excel中建立与分析服务器连接,将分析成果显示到Excel上
3、学习使用数据透视表进行数据分析展示,查看更细节数据。
三、实验环节:
1、左键点击“多维数据集”中“保单数据分析”,相应右边显示区里点击“数据”选项卡,如图5.1所示。
图5.1数据显示
2、选取“时间”、“收付费类型”或“险种_投保人类型分类”维度某一种或组合分量查看查询数据,用鼠标左键拖动查询区域维度或显示区域维度,变化显示形式。
3、新建Excel文献,选取“数据”菜单,打开“导入数据…”,如图5.2所示。
图5.2导入数据菜单
4、打开“选取数据源”对话框,如图5.3所示,点击“新建源…”按钮,弹出“数据连接向导”对话框,如图5.4所示。
图5.3“选用数据源”对话框
图5.4“数据连接向导”对话框
5、在打开“数据连接向导”中选取数据源为“MicrosoftSQLServerOLAP
服务”,点击“下一步”,在弹出对话框中输入服务管理器名称,点击“下一步”,在弹出对话框中“选取数据库”为“人寿保险实验”,选定多维数据集为“保单数据分析”,如图5.5所示。
图5.5“选取数据库和表”对话框
6、点击“下一步”,点击“完毕”,点击“打开”,弹出透视表视图向导,如图5.6所示,点击完毕。
图5.6数据透视向导对话框
7、点击“格式”菜单,选取“自动套用格式…”,打开对话框中选取“表1”格式,如图5.7所示。
图5.7显示区域
8、将“数据透视表字段列表”中维度和度量值分别拖动到左边工作区域中,形成完整表格,如图5.8所示。
图5.8Excel中OLAP数据显示
四、注意事项:
1、Excel与数据源连接用菜单“导入外部数据”功能。
2、注意Excel中显示数据表格格式。
五、思考与练习:
1、OLAP中旋转、钻取、切片、切块等操作如何实现。
实验六、决策树挖掘与聚类挖掘
一、实验目:
1、掌握使用AnalysisServices进行决策树分析和聚类分析办法
2、对AnalysisServices提供分析成果进行解释
二、实验内容:
1、使用AnalysisServices导入泰坦尼克乘客和心脏病诊断数据表
2、对泰坦尼克乘客数据和心脏病数据分别进行决策树挖掘和聚类挖掘,给出自己对分析成果解释
3、在泰坦尼克乘客Excel数据表中复制粘贴所有数据,使既有数据为原有数据两倍,重新进行决策树挖掘,给出自己对分析成果解释
三、实验环节:
1、运用实验一办法,将实验数据导入到数据库“insur”中,在“AnalysisManager”窗口中点开“人寿保险实验”,在“挖掘模型”上点击右键选取“新建挖掘模型…”,打开向导,点击“下一步”,弹出“挖掘模型向导”对话框,如图6.1所示。
图6.1“挖掘模型向导”对话框
2、点击“下一步”,选取“可用表”为新导入“sheet1$”,如图6.2所示。
图6.2“选取事例表”对话框
3、点击“下一步”,在弹出对话框中选取“Microsoft汇集”技术,如图6.3所示。
图6.3“选取数据挖掘技术”对话框
4、点击“下一步”,选取事例键列为“ID”,点击“下一步”,在弹出对话框中添加输入列,如图6.4所示。
图6.4“选取输入列”对话框
5、点击“下一步”,在弹出对话框中输入挖掘模型名称,如图6.5所示。
图6.5“完毕”对话框
6、解决完后,查看“关系挖掘模型编辑器”窗口“内容”选项卡,得到数据挖掘成果,如图6.6所示。
图6.6聚类挖掘成果
四、注意事项:
1、聚类挖掘中簇数目由属性设定决定。
五、思考与练习:
1、对比原有泰坦尼克乘客数据决策树挖掘成果与新数据挖掘成果不同,思考产生不同因素。
2、观测选定不同数目输入列与聚类挖掘形成簇数目关系。