数据仓库实验报告.docx
《数据仓库实验报告.docx》由会员分享,可在线阅读,更多相关《数据仓库实验报告.docx(126页珍藏版)》请在冰豆网上搜索。
数据仓库实验报告
实验报告
院、系
计算机学院
年级专业
计算机科学与技术
姓名
学号
课程名称
数据仓库与数据挖掘
成绩
指导教师
同组实验者
实验日期
实验名称
实验一基于SQLServer2005示例数据库的多维数据模型
一.实验目的
通过本实验的学习,使学生掌握在SQLServer2005示例数据仓库环境下建立多维数据
模型过程的知识,训练其把教材上的内容应用到实际中的技能,为今后继续数据挖掘技术的
学习奠定基础。
二.实验内容
在SQLServer2005示例数据仓库环境下建立多维数据模型。
针对AdventureWorksCycle公司的销售分析需求,从AdventureWorksDW示例数据库中导出数据,建立并部署“销售分析”多维数据集,进而从多角度对AdventureWorksCycle公司的销售状况作分析研究。
三.实验步骤
1.创建一个新的数据仓库分析项目
打开VisualStudio2005分析项目,选择AnalysisServeices项目,并将项目名称更改为“销售分析示例”
2.定义数据源
在“数据源”文件夹上右击,在弹出的快捷菜单上选择“新建数据源”命令。
启动新建数据源向导,单机新建按钮。
出现”连接管理器“对话框,在“提供程序”下下拉列表框中确保已选中服务账户,并命名数据源为”销售分析数据源”。
3.定义数据源视图
选择“数据源视图”文件夹,新建一个数据原视图。
数据源选择上一步新建的“销售分析数据源”。
在“可用对象”列表框中,选择下列表(同时按下Ctrl键可选择多个表)。
4.定义多维数据集
右键单击“多维数据集”,从弹出的快捷菜单中选择“新建多维数据集”命令;已选中“使用数据源生成多维数据集”选项和“自动生成”选项;在“时间维度表”下拉列表中选择“时间”别名。
下一步设置时间维,将时间属性名称映射到已指定为“时间”维度和维度表中的相应列。
选择事实表的度量值(去掉不是度量值的列),可以对度量值重新命名。
设置和校验维度的属性及层次结构和属性,在“查看新建维度”页上,通过展开树控制件显示该方向导检测到的三个维度的层次结构和属性,查看其中每个维度的维度层次结构(可根据需要去掉部分为度属性)。
在“完成向导”页上,将此多维数据集的名称改为“销售分析多维数据集”单击“完成”按钮,便完成了多维数据集的定义,此时仍可以对维度或度量等名称做更改,以便最终用户理解与使用。
在维度设计器的“维度结构”选项卡上,可以添加,删除和编辑层次结构,级别和属性。
5.部署“销售分析示例”项目
若要查看刚才建立的的销售分析多维数据集中的数据,必须将其所在的项目部署到分析服务的指定实例,然后可以处理多维数据集及其维度。
1)部署配置
在解决方案资源管理器中,右键单击根结点“销售分析实例”项目,从弹出的快捷菜单中选择“属性”命令。
在弹出的对话框中更改“数据库”对应值为AnalysisServices。
2)部署项目
在解决方案资源管理器中,右键单击“销售分析实例”项目,从弹出的快捷菜单中选择“部署”命令,或者在菜单栏上选择“生成”菜单,单击“部署销售分析实例”。
若服务器么有安装AnalysisServices或没有启动数据库服务器,将报错“无法建立连接”,进而部署失败。
查看“输出”窗口和“部署进度-销售分析实例”窗口的内容,验证是否已生成,部署完成多维数据集,没有出现错误,且在右下角显示“部署成功完成”即表示部署成功。
6.浏览已部署的多维数据集
部署完成后,就可以浏览多维数据集的实例数据了。
浏览“销售分析实例”多维数据集及每个维度,已确定为了改进此多维数据集的功能而需要执行的更改。
在解决方案中单击“客户”维度,然后选择”浏览器“选择卡。
在这里,可以从各个角度浏览客户结构,现在有关客户级别的信息只显示客户的电子邮件地址,而不显示客户的姓名,需要通过后面的更改显示客户姓名,按省州分类浏览客户。
单击在解决方案的“多维数据集”目录下的子项“销售分析图.cube”,切换到”浏览器”选项卡上,内容区分三个窗口:
左边窗口显示事实表和维度表的元数据信息,右上窗口维度筛选器,右下窗口为报表数据显示窗口。
浏览多维数据集的操作方法:
从元数据窗口拖动有关内容到右边显示区或筛选器中即可形成一个初步的报表,虽然还很粗糙,特别是显示格式等有待在后续的操作中改进。
展示数据的操作步骤如下:
1)将事实表中的“销售额”度量值拖到数据显示区的“将合计或详细信息字段拖至此处”区域
2)将客户维度表的“英语国家/地区区域名”属性层次结构拖到数据显示区的“将行字段拖至此处“区域。
3)将产品维度表的“产品系列”拖到数据显示区的“将列字段拖至此处”区域;或者右键单击“产品系列”,从弹出的快捷菜单中选择“添加到列区域”命令。
4)将“订单日期”维度的“季度”拖到数据显示区的“将筛选器字段拖至此处”区域,并单击“季度”下拉框,不选第四季度。
5)右键单击“订单日期”维度的“年度”属性层次结构中的2002成员,然后单击“添加到子多维数据集区域”。
再单击“筛选表达式”先单元格的下拉框,复选2003和2004年度即将选择2002/2003和2004这三年数据做报表。
7.提高多维数据集的可用性和易用性
1)修改度量值的有关属性。
2)修改维度的层次结构和有关属性。
3)增加维度属性。
4)将命名计算列表作为弧度的成员名称。
5)重新部署并查看修改。
6)灵活快速地导出各类统计表。
四.实验结果
五.实验总结
本次实验使用SQLServer2005建立多维数据模型,使我对建立多维数据模型与数据的导出过程有了简单的认识。
此外,数据仓库的创建与设计过程需要先配置环境,然后建立多维数据模型。
数据仓库系统建立的过程:
收集与分析业务需求、建立数据仓库的概念和逻辑模型、对数据仓库做物理设计、定义数据源、选择数据仓库技术与平台、数据的ETL处理、选择数据分析与数据展示软件、数据仓库的更新设计等。
数据仓库应用系统的开发包括两个部分:
一是数据仓库数据库的开发与设计,用于存放数据仓库的数据;二是数据分析应用系统的开发。
实验名称
实验二SQLServer2005中的关联规则应用
一.实验目的
通过本实验的学习,使学生掌握在SQLServer2005示例数据仓库环境下关联规则的应
用的知识,训练其把教材上的内容应用到实际中的技能,为今后继续关联规则知识的学习奠
定基础。
二.实验内容
在SQLServer2005示例数据仓库环境下关联规则的应用。
在SQLServer2005中,可以利用AnalysisServerces进行关联规则的挖掘。
以系统提供的AdventureWorksDW数据库为例说明如何发现关联规则。
三.实验步骤和结果
1.创建AnalysisServices项目
打开BusinessIntelligenceDevelopmentStudio,选择“文件”->“新建”命令,新建一个AnalysisServices项目。
在“名称”文件框中将新的项目命名为AdventureWorks,单击“确定”按钮。
2.创建数据源
在右侧解决方案资源管理器中,右键单击“数据源”项,从弹出的快捷菜单中选择“新建数据源”命令。
系统将打开数据源向导。
单击“新建”按钮,向AdventureWorks数据库添加链接。
系统将打开“链接管理器”对话框。
在“链接管理器”对话框的“提供程序”下拉列表中选择“本机OLEDB\MicrosoftOLEDBProviderforSQLServer”选项,在“服务器名”下拉列表中选择承载AdventureWorksDW的服务器,在“选择或输入一个数据库名”下拉列表中选择AdventureWorksDW选项,再单击“确定”按钮。
单击“下一步”按钮进入“模拟信息”页,选择“默认值”。
此后都采取默认值,新的数据源AdventureWorksDW将显示在解决方案资源管理器的“数据源”文件夹中。
3.创建数据源视图
在解决方案资源管理器中,右键单击“数据源视图”,从弹出的快捷菜单中选择“新建数据源视图”命令。
系统将打开数据源视图向导。
在“选择数据源”页的“关系数据库”下,默认选中子啊上一步中粗昂间的AdventureWorksDW数据源。
单击“下一步”按钮,在“选择表和视图”页上选择下列各表,然后单击右键头键,将dbo.vAssocSeqLineItems视图和dbo.vAssocSeqOrders视图包括在线数据源视图中,单击“下一步”按钮。
在“完成向导”页上,默认情况下,系统将数据源视图命名为AdventureWorksDW。
单击“完成”按钮。
系统将打开数据源视图设计器,显示AdventureWorksDW数据源视图。
在数据源视图设计器的数据源视图窗格中,选择vAssocSeqLineItems表的OrderNunber列。
将该列拖到vAssocSeqOrders表中,并将其放到OrderNumber列上。
vAssocSeqOrders和vAssocSeqLineItems表之间便存在新的多对一关系。
4.创建关联挖掘结构
在解决方案资源管理器中,右键单击“挖掘结构”,从弹出的快捷菜单中选择“新建挖掘结构”命令,在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”选项,再单击“下一步”按钮。
在“选择数据挖掘技术”页的“您要使用何种数据挖掘技术?
”列表框中选择“Microsoft关联规则”选项,再单击“下一步”按钮。
“选择数据源”页随即显示。
默认情况下,“可用数据源视图”下的AdventureWorksDW为选中状态。
单击“下一步”按钮,在“指定表类型”页上选择vAssocSeqOrder表右边的“示例”复选框,选中vAssocSeqLineItems表右边的“嵌套”复选框。
关联模型必须包含一个键列、多个输入队列以及一个可预测列。
输入队列必须为离散列。
关联模型的输入数据通常包含在两个表中。
单击“下一步”按钮,在“指定定型数据”页上依次清除CustomerKey右边的“键”复选框和LineNumber右边的“键”和“输入”复选框。
选中Model列右边的“键”和“可预测”复选框。
然后系统也将自动选中“输入”复选框。
单击“下一步”按钮,在“指定列的内容和数据类型”页上单击“下一步”按钮。
在“完成向导”页的“挖掘结构名称”输入Assocoation,再单击“完成”按钮。
系统将打开数据挖掘设计器,显示刚刚创建的Association挖掘结构。
5.设置关联规则挖掘的参数
首先打开数据挖掘设计器的“挖掘模型”选项卡,右键单击设计器网格中的“关联”列,从弹出的快捷菜单中选择“设置算法参数”命令。
系统将打开“算法参数”对话框,在“算法参数”对话框的值列出设置以下参数。
MINIMUM_SUPPORT=0.01
MINIMUM_PROBABILITY=0.1
然后单击“确定”按钮。
MINIMUM_SUPPORT指定在该算法生成规则之前必须包含项集的事例的最小数目。
将该值设置为小于1,将指定最小事例数最为事例总计的百分比;将该值设置为大于1的整数,将指定最小事例数作为必须包含项集的事例的绝对数。
默认值为0.03.
MINIMUM_PROBABILITY指定规则为True的最小概率。
6.建立关联规则挖掘模型
由于已经定义了“关联”挖掘模型的结构和参数,可以对该模型进行处理。
选择“挖掘模型”菜单的“处理挖掘结构和所有模型”选项,系统将打开“处理挖掘结构-Association对话框。
单击“运行”按钮,系统将打开“处理进度”对话框,以显示有关模型处理的信息。
7.查看挖掘结果
处理完成之后,“选择挖掘模型查看器”,第一个页面是挖掘到的频繁集。
或者打开第二个页面,查看挖掘出来的规则。
四.实验总结
通过本次实验,对数据仓库中关联规则的应用以及如何发现关联规则有了简单的了解,通过使用AnalysisServices服务进行关联规则模型的建立和处理,以可视化的方式查看模型结果对关联规则有了根本的了解。
关联规则可以反映一个事物与其他事物之间的相互依存性和关联性,如果两个或多个事物之间存在一定的关联关系,其中一个事物就能通过其他事物预测到。
实验名称
实验三SQLServer2005中决策树的应用
一实验目的
通过本实验的学习,使学生掌握在SQLServer2005示例数据仓库环境下决策树的应用
的知识,训练其把教材上的内容应用到实际中的技能,为今后继续决策树挖掘技术知识的学
习奠定基础。
二实验内容
在SQLServer2005示例数据仓库环境下决策树的应用。
使用SQLServer2005中的决策树方法,构造决策树所使用的数据集是SQLServer2005中的AdventureWorksDW数据库中的vTargetMail数据集。
三实验步骤和结果
1.创建AnalysisServices项目
2.创建数据源
上述两个步骤与实验二的步骤
(1)~
(2)相同。
3.创建数据源视图
在解决方案资源管理器中,右键单击“数据源视图”,从弹出的快捷菜单中选择“新建数据源视图”命令,系统将打开数据源视图向导。
在“欢迎使用数据源视图向导”页上,单击“下一步”按钮。
在“选择数据源”页中再次单击“下一步”按钮。
在“选择表和视图”页上,选择dbo.vTargetMail视图,然后右击,将他包括在新数据源视图中。
单击“下一步”按钮,在随后出现的“完成向导”页上,默认情况下,系统将数据源视图命名为AdventureWorksDW,单击“完成”按钮,数据源视图创建成功。
4.创建决策树挖掘结构
在解决方案资源管理器中,右键单击“挖掘结构”页上,从弹出的快捷菜单中选择“新建挖掘结构”命令,系统将打开数据挖掘向导。
在“欢迎使用挖掘向导”页上,确认已选中“从现有关系数据库或数据仓库”,再单击“下一步”按钮。
在“选择数据挖掘技术”页的“您要使用何种数据挖掘技术?
”下拉列表中选择“Microsoft决策树”选项。
单击“下一步”按钮,请注意在随后出现的“选择数据源视图”页上,已默认选中AdventureWorksDW。
单击“选择数据源视图”页的“下一步”按钮,在“指定表类型”页上,选中vTargetMail表右边“事例”列中的复选框。
在“数据挖掘向导”页上单击“下一步”,出现“指定定型数据”,确保已选中CustomerKey列右边键列中的复选框,选择类别属性BikeBuyer列右边的“输入”和“可预测”复选框,并且从属性列表中选择16个描述属性,选中相应的“输入”复选框。
在“数据挖掘向导”页上单击“下一步”按钮,在随后的“指定列的内容和数据类型”页上,单击“下一步”按钮,出现“完成向导”页,在“挖掘结构名称”文本框中输入DecisionTree,在“挖掘模型名称”文本框中输入DecisionTree,之后单击“完成”按钮。
由此决策挖掘结构创建完成,系统将打开挖掘结构设计器,显示AdventureWorksDW挖掘结构设视图。
5.设置决策树挖掘结构的相关参数
在“挖掘模型”选项卡上单击鼠标右键,从弹出的快捷菜单中选择“设置算法参数”命令,系统将打开“算法参数”对话框。
SCORE_METHOD:
指定选择分支属性的度量标准。
本例中将他的取值改为1,表示使用信息增益作为度量标准。
6.建立决策树挖掘模型
选择“挖掘模型查看器”选项卡,程序问是否建立部署项目,选择“是”,在接下来的“处理挖掘模型”页上,单击“运行”按钮,出现“处理进度”窗口。
处理进度完成之后,单击“关闭”按钮,建模完成。
7.查看挖掘结果
再次选择“挖掘模型查看器”选项卡,由vTargetMail数据集生成的决策树。
四实验总结
本次实验使用SQLServer2005中的决策树方法,进一步的了解数据库Analysis Services的功能,对它的使用方法有了更深入的了解,能做一些基本的操作。
通过应用数据库Analysis Services的一些功能,能够分析一些数据之间的联系,有利于做出判断与决策。
实验名称
实验四SQLServer2005中的k-menas应用
一实验目的
通过本实验的学习,使学生掌握在SQLServer2005示例数据仓库环境下k-menas应用的知识,训练其把教材上的内容应用到实际中的技能,为今后继续k-menas知识的学习奠定基础。
二实验内容
使用SQLServer2005中的k-means聚类方法,使用的数据集时SQLServer2005中的AdventureWorksDW数据中的vtargetMail数据集。
该数据集包含32个属性,其中31描述个位描述属性,1个位类别属性。
由于聚类方法使用的数据集不包含类别属性,所以不选择类别属性BikeBuyer。
实现k-means应用。
三实验步骤和结果
1.创建AnalysisServices项目
2.创建数据源
3.创建数据源视图
上述三个步骤与实验三的
(1)
(2)(3)相同。
4.创建k-means挖掘结构
在解决方案资源管理器中,右键单击“挖掘结构”,在弹出的快捷菜单中选择“新建挖掘结构”命令,系统将打开数据挖掘向导。
在“欢迎使用数据挖掘向导”页上,单击“下一步”按钮。
在“选择定义方法”页上,确认已选中“从现有关系数据库或数据仓库”,再单击“下一步”按钮。
在“选择数据挖掘技术”页的“您要使用何种数据挖掘技术?
”下拉列表中选择“Microsoft聚类分析”选项。
单击“下一步”按钮,在随后出现的“选择数据源视图”页上,请注意已默认选中AdventureWorksDW。
单击“选择数据源视图”页的“下一步”按钮,在“指定表类型”页上,选中vtargetMailyou表右边“事例”列中的复选框,单击“下一步”按钮。
随后出现“指定定型数据”页,确保已选中CustomerKey列右边“键”列中的复选框,并且从属性列表中选择16个描述属性,并且选择相应的“输入”复选框,然后单击“下一步”按钮,在“指定列的内容和数据类型”页上,单击“下一步”按钮,出现“完成向导”页中的“挖掘结构名称”文本框中输入Cluster,“挖掘模型名称”文本框中输入Cluster,之后单击“完成”按钮,由此k-means挖掘结构创建完成。
系统将打开挖掘结构设计器,显示AdventureWorksDW挖掘结构视图。
5.设置k-means挖掘结构的相关参数
在“挖掘模型”选项卡上单击右键,从弹出的快捷菜单中选择“设置算法参数”命令,系统将打开“算法参数”对话框。
在“值”列表中,为要更改的算法设置新的值,如果未在“值”列表中输入值,AnalysisServices将使用默认参数值。
CLUSTER_COUNT:
指定算法所要建立的聚类的近似数目。
本例置6
CLUSTERING_METHOD:
指定使用哪种使用方法。
本例置4,表示k-means
6.建立k-means挖掘模型
选择“挖掘模型查看器”选项卡,程序问是否建立部署项目,选择“是”。
在接下来的“处理挖掘模型”页上,单击“运行”按钮,出现“处理进度”页。
处理进度完成后,单击“完毕”按钮,建模完成。
7.查看挖掘结果
再次选择“挖掘模型查看器”选项卡,由vTargetMail数据集得到的k-means聚类结果。
四实验总结
本次实验使用SQLServer2005中的AnalysisService服务进行k-means算法模型的建立和处理并且可视化的方式查看结果,本次实验使我对k-means的算法加深了认识与了解。
能做到简单的应用。
k-means聚类算法是将各个聚类子集内的所有数样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据集划分为不同的类别,使得评价聚类的性能的准则函数达到最优从而使生成的每个聚类内紧凑。
实验名称
实验五SQLServer2005中贝叶斯网络应用
一实验目的
通过本实验的学习,使学生掌握在SQLServer2005示例数据仓库环境下贝叶斯网络应用的知识,训练其把教材上的内容应用到实际中的技能,为今后继续贝叶斯网络知识的学习奠定基础。
二实验内容
使用SQLServer2005中的贝叶斯网络解决一个简单的预测的诊断问题。
三实验步骤和结果
1.在SQLServer2005中创建一个新的数据库(创建的过程全部取默认值),把新建立的数据库命名为BayesDatabase.
2.在数据库BayesDatabase中创建一个具有4个列的新的数据表Table_2.各列的数据类型和性质。
3.打开数据表Table_2,向数据表中输入数据。
4.创建新的商业智能项目BayesProject
5.在BayesA中的数据连接,连接到数据库BayesDatabase。
6.建立BayesA中的数据源视图,在建立视图的过程中选择数据库中的表格Table_2.
7.创建挖掘结构。
首先要在项目的解决方案资源管理器中的“数据结构”标签上单击鼠标右键,在弹出的快捷菜单中选择“新建挖掘结构”命令。
选择“从现有关系数据库或数据仓库”建立挖掘结构,并选择MicrosoftNaïveBayes挖掘模型。
除了键列mark外,其他各列都是可输入和可预测的。
这是因为贝叶斯网络不但可以进行预测,也可以进行诊断。
诊断的逻辑推理是从结果到原因,也可以认为是另一种形式的预测。
在后面的过程中选择默认操作,便得到了一个贝叶斯网络。
系统通过Table_2中数据的关系得到的连接关系。
从图中可以看出,A和B是互联的,B和C是互联的。
这是所具有概率关系的链接。
如果只允许概率强度大的链接出现,可以向下调整出现的滑条,一些链接关系会被删除。
8.预测和诊断。
首先选择“挖掘模型预测”选项卡,进入预测的界面。
然后选择Table_2为事例表,随后单击工具条上的“单独查询”按钮,得到输入界面。
要做的预测为:
已知B发生在区间[0,1],A的信息不详,预测C发生那个值的可能性最大。
根据题目要求,把各个值输入。
为了预测C,把“挖掘模型”列表中的变量C拖动至其下面第一行的最左面位置。
最后单击“切换到查询结果视图”,得到预测结果。
从上面的预测结果可知,但B在区间[0,1]范围内时,预测C的值时10.也就是C取10的值得概率最大。
下面将进行诊断工作:
已知A的取值在区间[10,11],诊断B的取值。
我们先输入各个变量的值然后拖动B到被预测的位置。
在输入数据完成并选择了预测变量之后,单击“切换到查询结果视图”,得到诊断结果。
前面已经进行了贝叶斯网络的预测工作和诊断工作。
现在进行预测和诊断综合的工作:
已知C的取值区间[0.1],求A得取值。
在输入数据完成并选择了预测变量之后,单击“切换到查询结果视图”,得到预测和诊断的结果。
对上面的预测和诊断综合操作,系统是按照这样的顺序处理的:
首先从C的发生区间诊断出原因节点B在各个区间的发生概率,然后根据B结点在各个区间的发生概率预测A的取值,A最有可能的取值是10.
四实验总结
通过本次实验对贝叶斯网络有了更深入的了解,贝叶斯网络是一个白匣子,各个结点之间的影响程度和条件概