06 软件 数据仓库与数据挖掘 实验指导书.docx
《06 软件 数据仓库与数据挖掘 实验指导书.docx》由会员分享,可在线阅读,更多相关《06 软件 数据仓库与数据挖掘 实验指导书.docx(27页珍藏版)》请在冰豆网上搜索。
06软件数据仓库与数据挖掘实验指导书
潘怡编著
《数据分析与挖掘》
课程实验指导书
长沙学院计算机科学与技术系
2009年9月
前言
本书是《数据仓库与数据挖掘》课程及《数据分析与挖掘》的实验指导书。
全书分为三个部分,第一部分为实验内容对每个实验的实验目的、实验类型、实验学时、实验原理及知识点、实验环境(硬件环境、软件环境)和实验内容及步骤进行简单介绍,第二部分为实验指导对每个实验的实验方法,实验步骤及补充的实验知识进行详细介绍,第三部分为实验报告。
本实践课程主要介绍数据仓库的工作机理及其构建过程,。
要求学生熟练使用数据库管理系统MSSQLServer,掌握典型的数据仓库系统及其开发工具的使用,理解数据挖掘的工作原理与流程,掌握典型数据挖掘技术及其工具的使用方法,熟悉SQLSERVERBIDEV集成挖掘环境。
要求学生实验前认真准备,实验后提供实验报告,给出详细设计方法以及设计依据。
实验报告的格式应采用统一封面,统一的实验报告纸。
封面应包括:
课程名称、实验序号、名称、专业、班级、姓名、同组实验者、实验时间。
实验报告内容应包括:
实验名称、目的、内容、实验步骤、实验记录、数据处理(或原理论证、或实验现象描述、或结构说明等)。
第一部分实验内容
实验1:
实践SQLServer数据多维分析环境
实验2:
实践关联规则挖掘方法
实验3:
实践决策树挖掘方法
实验4:
实践聚类挖掘方法
实验5:
实践神经网络挖掘方法
第二部分实验指导
实验1:
实践SQLServer数据多维分析环境
实验2:
实践关联规则挖掘方法
实验3:
实践决策树挖掘方法
实验4:
实践聚类挖掘方法
实验5:
实践神经网络挖掘方法
第三部分实验报告
第一部分
实验内容
实验1:
实践SQLServer数据多维分析环境
一.实验目的
学习和掌握SqlServer2005AnalysisServices工具集,包括如何在BIDevelopmentStudio的AnalysisServices项目中定义数据源、数据源视图、维度、属性、层次结构和多维数据集,如何查看多维数据集和维度,理解并掌握OLAP分析的基本过程与方法。
二.实验类型验证型
三.实验学时4学时
四.实验原理及知识点
1.SQLServer服务
2.服务器注册
3.系统数据源连接
4.数据源视图处理
5.多维数据集
6.事实表和维度表;
7.星型架构模型;
8.元数据结构。
五.实验环境
1.硬件设备要求:
PC及其联网环境;
2.软件设备要求:
操作系统Windows,SQLServer2005,SQLServer2005BIDEVSTUDIO。
六.实验内容及步骤
I.建立SqlServer2005数据挖掘实验环境
1.启动SQLServer服务,打开BI开发环境
2.注册服务器
3.建立系统数据源连接
4.建立数据库和数据源视图
5.浏览多维数据集数据
6.编辑多维数据集数据
II.实践多维数据集分析
假设一连锁超市的用户需求如下,从无到有设计一个数据仓库的基本架构,要求能够满足以下查询:
1.查询公司在2005年的总销售金额
2.查询公司在2005年第一季度的销售金额
3.查询公司在2005年上半年的销售金额
4.查询某供应商s1于2005年提供产品p1的金额总量
5.查询某供应商s1于2005年提供某产品p1的金额总量
6.查询某门市店d1于2005年共销售某一种商品p1的总金额
7.查询公司在2005年度共销售多少金额类别为c1的商品p1的总金额
根据要求:
1.建事实表和维度表
2.设计星型架构模型
3.分析元数据结构。
七.思考与练习
1.什么是SQLSever2005BIDEVSTUDIO?
它包含几个主要部分?
2.如何注册服务器?
3.如何设计数据源视图?
4.如何建立多维数据集?
5.什么是事实表和维度表?
6.什么是星型架构?
7.什么是元数据?
实验2:
实践关联规则挖掘方法
一.实验目的
学习和掌握使用SqlServer2005进行关联规则数据挖掘,了解并掌握挖掘结构、挖掘模型的基本概念,能够使用数据挖掘向导创建数据挖掘结构和模型,掌握数据挖掘设计器的使用方法,掌握模型查看器方法,能够使用挖掘准确性图表,了解模型的提升图,能够创建数据挖掘报告。
二.实验类型设计型
三.实验学时4学时
四.实验原理及知识点
1.SQLServer挖掘结构
2.SQLServer挖掘模型
3.事实表
4.嵌套表
5.键
6.输入列
7.可预测列
8.挖掘参数
五.实验环境
1.硬件设备要求:
PC及其联网环境;
2.软件设备要求:
操作系统Windows,SQLServer2005,SQLServer2005BIDEVSTUDIO。
六.实验内容及步骤
1.数据准备
选定待分析数据库或多维数据集,对所需数据进行必要地提取、清洗和校验,为挖掘工作做好数据准备。
2.创建数据源
3.创建数据源视图
4.创建挖掘结构
5.创建挖掘模型
6.使用模型查看器查看挖掘模型
7.使用挖掘准确性图表查看模型
8.使用挖掘模型预测窗口
9.创建数据挖掘报告
实验3:
实践决策树挖掘方法
一.实验目的
学习和掌握使用SqlServer2005进行决策树挖掘,选择合适的数据进行决策树分析,并尝试给出合理解释(例如,使用案例数据库建立给客户分群的决策树挖掘模型,或者判断学生升学意向)。
在实验过程中了解并掌握挖掘模型的参数意义及设置方法,能够使用数据挖掘向导创建数据挖掘结构和模型,要求使用柱状图等方式展现最终挖掘结果。
二.实验类型设计型
三.实验学时4学时
四.实验原理及知识点
1.Hunt算法
2.最佳划分的度量方法
3.信息熵增益
五.实验环境
1.硬件设备要求:
PC及其联网环境;
2.软件设备要求:
操作系统Windows,SQLServer2005,SQLServer2005BIDEVSTUDIO。
六.实验内容及步骤
1.数据准备
选定待分析数据库或多维数据集,对所需数据进行必要地提取、清洗和校验,为挖掘工作做好数据准备。
2.创建数据源
3.创建数据源视图
4.创建挖掘结构
5.创建挖掘模型
6.使用模型查看器查看挖掘模型
7.使用挖掘准确性图表查看模型
8.使用挖掘模型预测窗口
9.创建数据挖掘报告
实验3:
实践聚类挖掘方法
一.实验目的
学习和掌握使用SqlServer2005进行聚类挖掘,选择合适的数据进行聚类分析,并尝试给出合理解释在实验过程中了解并掌握挖掘模型的参数意义及设置方法,能够使用数据挖掘向导创建数据挖掘结构和模型,要求能够掌握模型察看方法。
二.实验类型设计型
三.实验学时4学时
四.实验原理及知识点
1.K-mean算法
五.实验环境
1.硬件设备要求:
PC及其联网环境;
2.软件设备要求:
操作系统Windows,SQLServer2005,SQLServer2005BIDEVSTUDIO。
六.实验内容及步骤
1.数据准备
选定待分析数据库或多维数据集,对所需数据进行必要地提取、清洗和校验,为挖掘工作做好数据准备。
2.创建数据源
3.创建数据源视图
4.创建挖掘结构
5.创建挖掘模型
6.使用模型查看器查看挖掘模型
7.使用挖掘准确性图表查看模型
8.使用挖掘模型预测窗口
9.创建数据挖掘报告
实验5:
实践神经网络挖掘方法
一.实验目的
学习和掌握使用SqlServer2005进行神经网络数据挖掘,了解并掌握挖掘结构、挖掘模型的基本概念,能够使用数据挖掘向导创建数据挖掘结构和模型,掌握数据挖掘设计器的使用方法,掌握模型查看器方法,能够使用挖掘准确性图表,了解模型的提升图,能够创建数据挖掘报告。
二.实验类型设计型
三.实验学时4学时
四.实验原理及知识点
1.神经网络的拓扑
2.神经网络的组合和激活
3.神经网络的反向传播、误差函数
4.神经网络的处理
五.实验环境
1.硬件设备要求:
PC及其联网环境;
2.软件设备要求:
操作系统Windows,SQLServer2005,SQLServer2005BIDEVSTUDIO。
六.实验内容及步骤
1.数据准备
选定待分析数据库或多维数据集,对所需数据进行必要地提取、清洗和校验,为挖掘工作做好数据准备。
2.创建数据源
3.创建数据源视图
4.创建挖掘结构
5.创建挖掘模型
6.使用模型查看器查看挖掘模型
7.使用挖掘准确性图表查看模型
8.使用挖掘模型预测窗口
9.创建数据挖掘报告
第二部分
实验指导
实验1:
实践SQLServer数据多维分析环境
I.建立SqlServer2005数据挖掘实验环境
一.SQLSEVER2005安装
1)SQLServer2005的一般部署步骤
当你第一次把SQLServer2005的CD或者DVD光盘放到Server里的时候,你会看到一个引导窗口(图A),上面是产品介绍和运行须知。
图A
SQLServer2005的引导页面。
要注意的是,即使你是用单张DVD进行安装,这个页面顶部的文字显示的还是“光盘1/2(Disc1of2)”。
要开始安装,就要选择“安装(Install)”标题下的“Server组件、工具、在线工具书和示例(Servercomponents,tools,BooksOnline,andsamples)”选项。
弹出的第一个画面是产品的最终用户许可证协议。
你需要勾选“我接受协议条款和条件(Iacceptthelicensingtermsandconditions)”,点击“下一步(Next)”按钮继续。
我在这里就不列出许可证页面了。
你对此可能已经很熟悉了。
下一个画面(图B)显示的是安装程序要提前安装的一些程序。
.NET框架2.0是这里的关键。
如果你决定在同一台Server上安装SQLServer2005以及其他应用程序,那就要确保它们都能够使用这个框架。
点击“安装(Install)”按钮来安装这些项目。
当这些项目安装完毕后,你可以点击“下一步”按钮。
图B
当所有需要预先安装的程序都安装到你的系统里之后,SQLServer2005的安装向导就会启动。
安装向导完成的第一项任务是扫描你的系统,以确保它满足SQLServer2005的最低要求。
在下面的图C里,你会看到系统检测提示有两个方面存在问题。
第一个是硬件的最低要求。
它之所以出现是因为我是用虚拟机来安装SQLServer2005的,而虚拟机分配到的内存只有384兆,这个问题很容易解决。
第二个是要求具有Internet信息服务功能(IISFeatureRequirement),这个有点严重。
SQLServer2005的一些服务,例如报告服务(ReportingServices)要求使用IIS。
所以,继续安装之前,我要退出SQLServer2005的安装过程,再在Server上安装IIS。
之后,才能继续进行安装。
图C
系统检测会检查出一些存在的问题,这样你可以在安装之前就解决它们,从而避免一些可能发生的错误。
安装的下一步(图D)就相当简单了。
填好你的名字、公司名和产品密钥。
点击“下一步”继续。
图D
在这一画面里,你需要选希望与SQLS