《数据仓库与数据挖掘》实验指导书doc.docx
《《数据仓库与数据挖掘》实验指导书doc.docx》由会员分享,可在线阅读,更多相关《《数据仓库与数据挖掘》实验指导书doc.docx(14页珍藏版)》请在冰豆网上搜索。
《数据仓库与数据挖掘》实验指导书doc
《数据仓库与数据挖掘》
实验指导书
前言
数据仓库与数据挖掘技术课程在计算机数据管理、维护中有着相当重要的作用。
数据仓库系统在企业信息管理系统中应用非常广泛,数据挖掘技术对数据仓库的管理及维护、完善数据仓库、发挥数据仓库的作用有着非常大的作用。
本课程主要内容为:
数据仓库的概念与体系结构,数据仓库数据处理过程,数据仓库系统的设计与开发,各种数据挖掘技术(关联规则,数据分类,数据类聚,贝叶斯网络,粗糙集,神经网络,遗传算法,统计分析,文本与Web挖掘)及其应用。
本课程既有理论也有实践,实践环节主要是基于SQLServer2005示例数据仓库环境下进行各种数据挖掘技术的实验。
为使学生能在SQLServer2005示例数据仓库环境下进行各种数据挖掘技术的实验,首先必须创建一个SQLServer2005示例数据仓库环境,但考虑到学院实验室管理要求和培养学生的独立动手能力,因此第一个实验(实验一:
SQLServer2005示例数据仓库环境的配置,综合性实验)分两方面进行,一方面由实验室对SQLServer2005示例数据仓库环境的配置完成,提供给学生进行数据挖掘实验,另一方面,学生可利用自己的计算机环境进行课外实验,交实验报告,其他实验可根据课程内容及课时安排在实验指导教师的指导下在实验室完成。
1、实验一:
SQLServer2005示例数据仓库环境的配置···············································页码
2、实验二:
使用SQLServer2005建立多维数据模型··················································页码
3、实验三:
SQLServer2005中的关联规则应用··························································页码
4、实验四:
SQLServer2005中的决策树应用······························································页码
5、实验五:
SQLServer2005中的k-means应用···························································页码
6、实验六:
SQLServer2005中的贝叶斯网络应用·······················································页码
7、实验七:
SQLServer2005中的神经网络应用···························································页码
8、实验八:
SQLServer2005中的线性回归应用···························································页码
9、实验九:
SQLServer2005中的Logistic回归应用·····················································页码
10、实验报告基本内容要求··························································································页码
实验一:
SQLServer2005示例数据仓库环境的配置
实验学时:
2
实验类型:
综合
实验要求:
必修
一、实验目的
通过本实验的学习,使学生掌握配置SQLServer2005示例数据仓库环境的知识,训练其独立配置数据仓库环境的技能,为今后继续配置数据仓库环境的学习奠定基础。
二、实验内容
安装SQLServer2005,并在安装过程中进行示例数据库安装配置,由于本实验为综合性实验,实验中涉及到计算机系统(硬件、软件)环境要求,涉及软件系统安装知识,涉及到软件系统安装配置正确与否进行检验的知识。
三、实验原理、方法和手段
通用微型计算机环境及Windows操作系统环境下系统软件的安装与配置。
四、实验组织运行要求
根据本实验的特点、要求和具体条件,采用“以学生自主训练为主的开放模式组织教学”。
五、实验条件
见MicroftSQLServer2005简体中文企业版系统光盘提供的“SQLServer2005安装要求”。
六、实验步骤
参照MicroftSQLServer2005简体中文企业版系统光盘提供的“SQLServer2005安装说明”及教材《数据仓库与数据挖掘》P72-P74的内容。
七、思考题
1、为什么要配置示例数据库?
2、如何验证配置示例数据库的正确性?
八、实验报告
1.实验要求:
仔细阅读MicroftSQLServer2005简体中文企业版系统光盘提供的“SQLServer2005安装说明”、“SQLServer2005安装要求”及教材P72-P74的内容
2、实验目的、实验内容、实验原理按本实验指导的内容填写
3、实验仪器:
按实验计算机的硬件配置参数填写
4、实验步骤:
按教材P72-P74中
(1)、
(2)、(3)填写
5、实验数据:
无
6、实验总结:
回答思考题以及本次实验的心得
九、其它说明
实验二:
使用SQLServer2005建立多维数据模型
实验学时:
2
实验类型:
验证
实验要求:
必修
一、实验目的
通过本实验的学习,使学生掌握在SQLServer2005示例数据仓库环境下建立多维数据模型过程的知识,训练其把教材上的内容应用到实际中的技能,为今后继续数据挖掘技术的学习奠定基础。
二、实验内容
在SQLServer2005示例数据仓库环境下建立多维数据模型。
三、实验原理、方法和手段
数据仓库环境下多维数据模型建立的方法。
四、实验组织运行要求
根据本实验的特点、要求和具体条件,采用“集中授课形式”。
五、实验条件
SQLServer2005示例数据仓库环境。
六、实验步骤
参照教材《数据仓库与数据挖掘》P75-P87的内容。
七、思考题
1、度量值的不同对多维数据集的结构有何影响?
2、维度的层次结构和有关属性对提高多维数据集的可用性和易用性有何意义?
八、实验报告
1.实验要求:
预习教材P75-P87的内容
2、实验目的、实验内容、实验原理按本实验指导的内容填写
3、实验仪器:
按实验计算机的硬件配置参数填写
4、实验步骤:
按教材P75-P87的1-7填写
5、实验数据:
各实验步骤中的维度、层次等具体数据
6、实验总结:
回答思考题以及本次实验的心得
九、其它说明
实验三:
SQLServer2005中关联规则的应用
实验学时:
2
实验类型:
验证
实验要求:
必修
一、实验目的
通过本实验的学习,使学生掌握在SQLServer2005示例数据仓库环境下关联规则的应用的知识,训练其把教材上的内容应用到实际中的技能,为今后继续关联规则知识的学习奠定基础。
二、实验内容
在SQLServer2005示例数据仓库环境下关联规则的应用。
三、实验原理、方法和手段
关联规则,项目与项集,关联规则的支持度与最小支持度,关联规则的可信度与最小可信度。
四、实验组织运行要求
根据本实验的特点、要求和具体条件,采用“集中授课形式”。
五、实验条件
SQLServer2005示例数据仓库环境。
六、实验步骤
参照教材《数据仓库与数据挖掘》P99-P105的内容。
七、思考题
1、MINIMUM_SUPPORT的取值不同对关联规则的挖掘结果有何影响?
2、MINIMUM_PROBABILITY的取值不同对关联规则的挖掘结果有何影响?
八、实验报告
1.实验要求:
预习教材P99-P105的内容
2、实验目的、实验内容、实验原理按本实验指导的内容填写
3、实验仪器:
按实验计算机的硬件配置参数填写
4、实验步骤:
按教材P99-P105的1-7填写
5、实验数据:
实验步骤5中的具体数据,至少2组
6、实验总结:
回答思考题以及本次实验的心得
九、其它说明
实验四:
SQLServer2005中决策树的应用
实验学时:
2
实验类型:
验证
实验要求:
必修
一、实验目的
通过本实验的学习,使学生掌握在SQLServer2005示例数据仓库环境下决策树的应用的知识,训练其把教材上的内容应用到实际中的技能,为今后继续决策树挖掘技术知识的学习奠定基础。
二、实验内容
在SQLServer2005示例数据仓库环境下决策树的应用。
三、实验原理、方法和手段
精确度,查全率和查准率,信息增益,信息增益比。
四、实验组织运行要求
根据本实验的特点、要求和具体条件,采用“集中授课形式”。
五、实验条件
SQLServer2005示例数据仓库环境。
六、实验步骤
参照教材《数据仓库与数据挖掘》P118-P123的内容。
七、思考题
1、MINIMUM_SUPPORT的取值不同对决策树的挖掘结果有何影响?
2、SCORE_METHOD的取值不同对决策树的挖掘结果有何影响?
八、实验报告
1.实验要求:
预习教材P118-P123的内容
2、实验目的、实验内容、实验原理按本实验指导的内容填写
3、实验仪器:
按实验计算机的硬件配置参数填写
4、实验步骤:
按教材P118-P123的
(1)-(7)填写
5、实验数据:
实验步骤5中的具体数据,根据思考题的取值要求选取数据,至少2组
6、实验总结:
回答思考题以及本次实验的心得
九、其它说明
实验五:
SQLServer2005中的k-means应用
实验学时:
2
实验类型:
验证
实验要求:
必修
一、实验目的
通过本实验的学习,使学生掌握在SQLServer2005示例数据仓库环境下k-means的应用的知识,训练其把教材上的内容应用到实际中的技能,为今后继续聚类知识的学习奠定基础。
二、实验内容
在SQLServer2005示例数据仓库环境下k-means的应用。
三、实验原理、方法和手段
相似度计算方法、k-means思想。
四、实验组织运行要求
根据本实验的特点、要求和具体条件,采用“集中授课形式”。
五、实验条件
SQLServer2005示例数据仓库环境。
六、实验步骤
参照教材《数据仓库与数据挖掘》P139-P143的内容。
七、思考题
1、CLUSTER_COUNT的取值不同对决策树的挖掘结果有何影响?
八、实验报告
1.实验要求:
预习教材P139-P143的内容
2、实验目的、实验内容、实验原理按本实验指导的内容填写
3、实验仪器:
按实验计算机的硬件配置参数填写
4、实验步骤:
按教材P139-P143的
(1)-(7)填写
5、实验数据:
实验步骤5中的具体数据,根据思考题的取值要求选取数据,至少1组
6、实验总结:
回答思考题以及本次实验的心得
九、其它说明
实验六:
SQLServer2005中的贝叶斯网络应用
实验学时:
2
实验类型:
验证
实验要求:
必修
一、实验目的
通过本实验的学习,使学生掌握在SQLServer2005示例数据仓库环境下贝叶斯网络的应用知识,训练其把教材上的内容应用到实际中的技能,为今后继续贝叶斯网络知识的学习奠定基础。
二、实验内容
在SQLServer2005示例数据仓库环境下贝叶斯网络的应用。
三、实验原理、方法和手段
先验概率、后验概率、条件概率、全概率公式、贝叶斯公示
四、实验组织运行要求
根据本实验的特点、要求和具体条件,采用“集中授课形式”。
五、实验条件
SQLServer2005示例数据仓库环境。
六、实验步骤
参照教材《数据仓库与数据挖掘》P160-P165的内容。
七、思考题
八、实验报告
1.实验要求:
预习教材P160-P165的内容
2、实验目的、实验内容、实验原理按本实验指导的内容填写
3、实验仪器:
按实验计算机的硬件配置参数填写
4、实验步骤:
按教材P160-P165的
(1)-(8)填写
5、实验数据:
实验步骤5中的具体数据
6、实验总结:
本次实验的心得
九、其它说明
实验七:
SQLServer2005中的神经网络应用
实验学时:
2
实验类型:
验证
实验要求:
必修
一、实验目的
通过本实验的学习,使学生掌握在SQLServer2005示例数据仓库环境下神经网络的应用的知识,训练其把教材上的内容应用到实际中的技能,为今后继续神经网络知识的学习奠定基础。
二、实验内容
在SQLServer2005示例数据仓库环境下神经网络的应用。
三、实验原理、方法和手段
神经元模型、BP算法。
四、实验组织运行要求
根据本实验的特点、要求和具体条件,采用“集中授课形式”。
五、实验条件
SQLServer2005示例数据仓库环境。
六、实验步骤
参照教材《数据仓库与数据挖掘》P189-P195的内容。
七、思考题
八、实验报告
1.实验要求:
预习教材P189-P195的内容
2、实验目的、实验内容、实验原理按本实验指导的内容填写
3、实验仪器:
按实验计算机的硬件配置参数填写
4、实验步骤:
按教材P189-P195的
(1)-(5)填写
5、实验数据:
实验步骤5中的具体数据
6、实验总结:
本次实验的心得
九、其它说明
实验八:
SQLServer2005中的线性回归应用
实验学时:
2
实验类型:
验证
实验要求:
必修
一、实验目的
通过本实验的学习,使学生掌握在SQLServer2005示例数据仓库环境下线性回归的应用的知识,训练其把教材上的内容应用到实际中的技能,为今后继续线性回归知识的学习奠定基础。
二、实验内容
在SQLServer2005示例数据仓库环境下线性回归的应用。
三、实验原理、方法和手段
线性回归的参数估计、判定系数、回归系数的检验。
四、实验组织运行要求
根据本实验的特点、要求和具体条件,采用“集中授课形式”。
五、实验条件
SQLServer2005示例数据仓库环境。
六、实验步骤
参照教材《数据仓库与数据挖掘》P215-P220的内容。
七、思考题
八、实验报告
1.实验要求:
预习教材P215-P220的内容
2、实验目的、实验内容、实验原理按本实验指导的内容填写
3、实验仪器:
按实验计算机的硬件配置参数填写
4、实验步骤:
按教材P215-P220的
(1)-(7)填写
5、实验数据:
实验步骤5中的具体数据
6、实验总结:
本次实验的心得
九、其它说明
实验九:
SQLServer2005中的Logistic回归应用
实验学时:
2
实验类型:
验证
实验要求:
必修
一、实验目的
通过本实验的学习,使学生掌握在SQLServer2005示例数据仓库环境下Logistic回归的应用知识,训练其把教材上的内容应用到实际中的技能,为今后继续Logistic回归知识的学习奠定基础。
二、实验内容
在SQLServer2005示例数据仓库环境下Logistic回归的应用。
三、实验原理、方法和手段
Logistic回归的参数估计。
四、实验组织运行要求
根据本实验的特点、要求和具体条件,采用“集中授课形式”。
五、实验条件
SQLServer2005示例数据仓库环境。
六、实验步骤
参照教材《数据仓库与数据挖掘》P222-P228的内容。
七、思考题
八、实验报告
1.实验要求:
预习教材P222-P228的内容
2、实验目的、实验内容、实验原理按本实验指导的内容填写
3、实验仪器:
按实验计算机的硬件配置参数填写
4、实验步骤:
按教材P222-P228的
(1)-(7)填写
5、实验数据:
实验步骤5中的具体数据
6、实验总结:
本次实验的心得
九、其它说明
实验报告的基本内容及要求
每门课程的所有实验项目的报告必须以课程为单位装订成册,格式参见附件五。
1.实验预习
在实验前每位同学都需要对本次实验进行认真的预习,并写好预习报告,在预习报告中要写出实验目的、要求,需要用到的仪器设备、物品资料以及简要的实验步骤,形成一个操作提纲。
对实验中的安全注意事项及可能出现的现象等做到心中有数,但这些不要求写在预习报告中。
设计性实验要求进入实验室前写出实验方案。
2.实验记录
学生开始实验时,应该将记录本放在近旁,将实验中所做的每一步操作、观察到的现象和所测得的数据及相关条件如实地记录下来。
实验记录中应有指导教师的签名。
3.实验总结
主要内容包括对实验数据、实验中的特殊现象、实验操作的成败、实验的关键点等内容进行整理、解释、分析总结,回答思考题,提出实验结论或提出自己的看法等。