《数据仓库与数据挖掘》课程设计报告模板综述.docx
《《数据仓库与数据挖掘》课程设计报告模板综述.docx》由会员分享,可在线阅读,更多相关《《数据仓库与数据挖掘》课程设计报告模板综述.docx(20页珍藏版)》请在冰豆网上搜索。
《数据仓库与数据挖掘》课程设计报告模板综述
江西理工大学应用科学学院
《数据仓库与数据挖掘》课程设计报告
题 目:
某超市数据集的OLAP分析及数据挖掘
系 别:
班 级:
姓 名:
二〇一二年六月
一、建立数据仓库数据库结构和设置数据源1
1.任务描述2
2.建立数据仓库数据库
3.设置数据源
二、销售数据OLAP分析
1.任务描述
2.设计星型架构多维数据集(Sales)
3.设计存储和数据集处理
4.OLAP分析
三、人力资源数据OLAP分析
1.任务描述
2.设计父子维度的多维数据集(HR)
3.修改多维数据集(HR)的结构
4.设计存储和数据集处理
5.OLAP分析
四、数据仓库及多维数据集其它操作
1.任务描述
2.设置数据仓库及多维数据集角色及权限
3.查看元数据
4.创建对策
5.钻取
6.建立远程Internet连接
五、数据仓库高级操作
1.任务描述
2.创建分区
3.创建虚拟多维数据集
4.DTS调度多维数据集处理
5.备份/还原数据仓库
六、数据挖掘
1.任务描述
2.创建揭示客户模式的决策树挖掘模型
3.决策树挖掘结果分析
4.创建聚类挖掘模型
5.聚类挖掘结果分析
6.创建基于关系数据表的决策树挖掘模型
7.浏览“相关性网络”视图
一、建立数据仓库数据库结构和设置数据源
1、任务描述
数据仓库数据库是将要在其中存放多维数据集、角色、数据源、共享维度和挖掘模型的一种结构。
然后跟预先设置好的ODBC数据源建立连接。
2、建立数据仓库数据库
(1)展开树视图的AnalysisServers;
(2)单击服务器名或右击选择连接,与AnalysisServers建立连接;
(3)右击服务器名,然后单击“新建数据库”命令;
(4)在“数据库”对话框中输入数据库名“教程DW”,单击<确定>;
3、设置数据源
(5)展开刚创建的“教程DW”数据库,可看到如下项目:
数据源、多维数据集、共享维度、挖掘模型、数据库角色
(6)右击“教程DW”数据库下的“数据源”文件夹,然后单击“新数据源”命令;
(7)在“数据链接属性”对话框中,单击“提供程序”选项卡,选择“MicrosoftOLEDBProviderforODBCDrivers”;
(8)单击“连接”选项卡,选择建好的ODBC数据源“FoodMart2000”;
(9)单击<确定>按钮关闭“数据链接属性”对话框
图表1连接数据源
二、销售数据OLAP分析
1.任务描述
以多维方式建立数据模型可简化联机业务分析,提高查询性能。
通过创建多维数据集,AnalysisManager可将存储在关系数据库中的数据转换为具有实际含义并且易于查询的业务信息。
2.设计星型架构多维数据集(Sales)
星型架构的多维数据集由一个事实数据表和链接到该事实数据表的多个维度表组成。
下面针对FoodMart超市1998年的销售业务数据,建立一个多维数据集,以便按产品和顾客2个主题展开分析。
具体操作如下:
(1)展开树窗格的“教程DW”,右击“多维数据集”,选择“新建多维数据集”→“向导…”菜单命令,打开如下“多维数据集向导”对话框。
(2)向多维数据集添加度量值(事实):
(3)单击<下一步>,在“从数据源中选择事实数据表”步骤中,展开“FoodMart”数据源,然后单击“sales_fact_1998”;
(4)单击<下一步>,设置多维数据集的度量值列:
store_sales、store_cost、unit_sales;
(5)单击<下一步>,建立维度表。
单击<新建维度>,打开“维度向导”对话框;
1)向多维数据集添加时间维:
(1)选择维度类型为“星型架构:
单个维度表”;
(2)单击<下一步>,选择维度表“time_by_day”;
(3)单击<下一步>,选择维度类型为“时间维度”;
(4)单击<下一步>,选择时间级别为“年、季度、月”;
(5)单击<下一步>,单击<下一步>,输入时间维名称:
Time,并设为“共享”方式,单击<完成>,OK!
2)向多维数据集添加产品维:
(1)再次单击<新建维度>,打开“维度向导”对话框;
(2)选择创建维度的方式为“雪花架构:
多个相关维度表”;
(3)单击<下一步>,选择维度表“Product”和“product_class”;
(4)单击<下一步>,查看连接方式,在这里可删除不要的连接,添加需要的连接;
(5)单击<下一步>,依次选择product_category、product_subcategory和brand_name三个维度级别;
(6)单击<下一步>,指定成员键列步骤中,不需改变主键列;
(7)单击<下一步>,在“高级选项”步骤中,根据需要选择;
(8)单击<下一步>,输入产品维名称:
Product,并设为“共享”方式,单击<完成>,OK!
3)向多维数据集添加客户维度:
(1)再次单击<新建维度>,打开“维度向导”对话框;
(2)选择创建维度的方式为“星型架构:
单个维度表”;
(3)单击<下一步>,选择维度表“Customer”;
(4)单击<下一步>,选择维度类型为“标准维度”;
(5)单击<下一步>,依次选择Country、State_Province、City和lname四个维度级别;
(6)单击<下一步>,指定成员键列步骤中,不需改变主键列;
(7)单击<下一步>,在“高级选项”步骤中,根据需要选择;
(8)单击<下一步>,输入客户维名称:
Customer,并设为“共享”方式,单击<完成>,OK!
4)生成多维数据集:
(1)回到多维数据集向导对话框,这里已 到了新建的4个维度;
(2)单击<下一步>,在“是否计算事实数据表行数提问时,单击<是>,开始计算。
(3)计算完成后,命名多维数据集为:
Sales,单击<完成>,OK!
(4)关闭向导,随之启动多维数据集编辑器,其中可看到刚刚创建的多维数据集。
单击蓝色或黄色的标题栏,对表进行排列,使其符合下图所示的样子
图表2“Sales多维数据集编辑器”窗口
3.设计存储和数据集处理:
设计好Sales多维数据集的结构之后,需要选择数据的存储模式(MOLAP、ROLAP或HOLAP),并指定要存储的预先计算好的值的数量,然后用数据填充多维数据集。
本例选择MOLAP作为存储模式,创建Sales多维数据集的聚合设计,然后从ODBC源中装载数据并按照聚合设计中的定义计算汇总值。
(1)展开树窗格,右击“Sales”多维数据集,选择“设计存储…”菜单命令,弹出“存储设计向导”对话框;也可在多维数据集编辑窗口中选择“工具|设计存储…”菜单命令,打开“存储设计向导”对话框;
(2)单击<下一步>,然后选择“MOLAP”作为数据存储类型;
(3)单击<下一步>,设置聚合选项为“性能提升达到”,并输入“40”作为指定百分比,以此优化能力平衡查询性能和存储空间大小。
(4)单击<开始>,完成后可看到“性能与大小”图,从中可看出增加性能提升对使用额外磁盘空间的需求。
(5)单击<下一步>,选择“立即处理”,并单击<完成>,系统开始进行数据处理,处理聚合一般要花费较长一些时间。
(6)处理完成后点击<关闭>,回到AnalysisManager窗口。
(7)接下来就可浏览多维数据集的数据了。
4.OLAP分析:
联机分析处理(OLAP)是使用多维数据表达式(称为多维数据集)提供对数据仓库数据进行快速访问的常用方法。
多维数据集为维度表中的数据和数据仓库中的事实数据表建立模型,并为客户端应用程序提供完善的查询和分析功能。
图表3OLAP分析图
三、人力资源数据OLAP分析
1.任务描述:
建立一个人力资源(HR)多维数据集,以进行雇员工资分析。
先把Employee维度创建为父子维度,然后使用该维度以及常规维度来生成HR多维数据集
2.设计父子维度的多维数据集(HR):
(1)展开“教程DW”,右击“共享维度”,选择“新建维度|向导”菜单命令,打开“新建维度向导”对话框。
(2)单击<下一步>,选择维度结构为“父子:
单个维度表中相关的两列”;
(3)单击<下一步>,选择维度表employee;
(4)单击<下一步>,选择employee_id为成员键,选择supervisor_id为父键列,选择full_name为成员名。
(5)单击<下一步>,直到最后一步,输入维度名称:
employee;
(6)单击<完成>,回到维度编辑器。
OK!
3.修改多维数据集(HR)的结构
(1)展开“教程DW”,右击“多维数据集”,选择“新建多维数据集|向导”菜单命令,打开多维数据集向导对话框。
(2)点击<下一步>,选择salary(工资)作事实数据表;
(3)点击<下一步>,选择salary_paid、vacation_used为度量值列;
(4)点击<下一步>,选择Employee(雇员)、Store(商店)、Time(时间)作维度;
(5)点击<下一步>,在提示是否计算事实数据表行数时选“是”。
最后输入人力资源多维数据集的名称NR,点击<完成>,OK!
(6)回到编辑器窗口,手工建立time_by_day表到salary表的联接,再建立store表到employee表中的联接,删除多余的联接。
最后如下图所示。
4.设计存储和数据集处理
设计好Sales多维数据集的结构之后,需要选择数据的存储模式(MOLAP、ROLAP或HOLAP),并指定要存储的预先计算好的值的数量,然后用数据填充多维数据集。
本例选择MOLAP作为存储模式,创建Sales多维数据集的聚合设计,然后从ODBC源中装载数据并按照聚合设计中的定义计算汇总值。
(1)展开树窗格,右击“Sales”多维数据集,选择“设计存储…”菜单命令,弹出“存储设计向导”对话框;也可在多维数据集编辑窗口中选择“工具|设计存储…”菜单命令,打开“存储设计向导”对话框;
(2)单击<下一步>,然后选择“MOLAP”作为数据存储类型;
(3)单击<下一步>,设置聚合选项为“性能提升达到”,并输入“40”作为指定百分比,以此优化能力平衡查询性能和存储空间大小。
(4)单击<开始>,完成后可看到“性能与大小”图,从中可看出增加性能提升对使用额外磁盘空间的需求。
图表4性能与大小
(5)单击<下一步>,选择“立即处理”,并单击<完成>,系统开始进行数据处理,处理聚合一般要花费较长一些时间。
(6)处理完成后点击<关闭>,回到AnalysisManager窗口。
(7)接下来就可浏览多维数据集的数据了。
5.OLAP分析
联机分析处理(OLAP)是使用多维数据表达式(称为多维数据集)提供对数据仓库数据进行快速访问的常用方法。
多维数据集为维度表中的数据和数据仓库中的事实数据表建立模型,并为客户端应用程序提供完善的查询和分析功能。
四、数据仓库及多维数据集其它操作
1任务描述
多维数据集角色用于定义可以访问和查询多维数据集的用户或组,指出其可以访问的对象,以及对这些对象的访问类型。
角色是保护多维数据集内对象和数据安全的主要方法,可以在多维数据集的不同粒度级别上设置安全性。
要定义安全性必须先创建角色,然后向这些角色授予权限。
我们要创建Sales和HR角色分别用于访问多维数据集Sales和HR。
Management角色用于管理整个数据仓库。
2设置数据仓库及多维数据集角色及权限
多维数据集角色用于定义可以访问和查询多维数据集的用户或组,指出其可以访问的对象,以及对这些对象的访问类型。
角色是保护多维数据集内对象和数据安全的主要方法,可以在多维数据集的不同粒度级别上设置安全性。
要定义安全性必须先创建角色,然后向这些角色授予权限。
本例中,我们要创建Sales和HR角色分别用于访问多维数据集Sales和HR。
Management角色用于管理整个数据仓库。
具体操作如下:
2.1创建多维数据集角色:
(1)展开“多维数据集”文件夹,右击“Sales”多维数据集,并选择“管理角色”命令,打开“多维数据集角色管理器”;
(2)目前还没角色显示在角色列表中。
点击<新建…>,打开新建角色对话框,并输入角色名:
Marketing,表示市场部;
(3)在“成员资格”选项卡中单击<添加>按钮,接着在“添加用户和组”对话框中,添加该角色的网络用户名(如hzm),单击<确定>回到新建对话框框框;
(4)其它选项可暂不设定,直接点<确定>,回到角色管理器窗口,角色Marketing就已在列表中了。
在这里可以看到各个角色的权限,也可修改它们的权限。
(5)<关闭>角色管理器。
然后用同样的方法创建多维数据集HR的角色HR。
2.2创建数据库角色:
数据库角色是可在数据库范围内使用的角色,可指派给该数据库的一个或多个多维数据集。
本例中我们可以为经理创建一个数据库角色,然后将其指派到Sales和HR两个多维数据集。
具体操作如下:
(1)在“教程DW”数据库下右击“数据库角色”,然后选择“管理角色”命令,打开“数据库角色管理器”窗口;
(2)这里显示了“教程DW”数据库中现有角色的列表(包括刚建的Marketing和HR多维数据集角色);
(3)单击<新建>,在弹出的对话框中输入角色名:
Management,然后为该角色添加用户或组(如admin),并勾选多维数据集Sales和HR。
最后点击<关闭>退出
3查看元数据
(1)元数据是关于数据属性和数据结构的信息,此信息显示在AnalysisManager右窗格中。
(2)查看多维数据集的元数据:
展开“多维数据集”文件夹,单击某多维数据集,再单击右窗格的“元数据”;
(3)查看维度的元数据:
展开“共享维度”文件夹,单击一个维度,再单击右窗格的“元数据”。
4创建对策
对策是指由最终用户启动的、在所选多维数据集或其某部分上执行的操作。
AnalysisServices管理员可以定义以下几种类型的对策:
命令行、URL、OLEDB语句或多维表达式(MDX)语句。
本例假设市场部想要针对上一节中创建的Sales多维数据集,能在分析过程的某一点跳转到Internet,以便能够搜索并找到关于某个特定客户的信息。
操作步骤如下:
(1)展开“教程DW”数据库,右击“Sales”多维数据集,然后选择“编辑”命令,打开多维数据集编辑器;
(2)右击“对策”文件夹,然后选择“新建对策”命令,启动对策向导,点击<下一步>;
(3)在“目标”框中选择“此多维数据集中的某一维度”,并单击“Customer”,点击<下一步>;
(4)保持“对策类型”列表不变,继续单击<下一步>;
(5)在“定义对策语法”步骤中键入:
“ results.asp?
q=”+[Customer].currentmember.name,意思是“通过浏览器调用MSN搜索引擎搜索Customer维度中的当前客户的信息。
图表5对策语法图
(6)继续单击<下一步>,输入对策名称:
CustomerInfo,点击完成。
OK!
5钻取
本例假设市场部希望对商店和客户按从上到下进行分析,最终深化到关系数据库中的事务级别。
为此,我们要在Sales多维数据集内启用钻取,然后浏览数据并深化到事务。
具体操作如下:
(1)展开“教程DW”数据库,右击“Sales”多维数据集并选择“编辑”命令,打开多维数据集编辑器;
(2)单击“工具|钻取选项…”菜单命令,打开“钻取选项”对话框;
(3)选择“启用钻取”复选框,并单击<全选>以选中所有列,然后单击<确定>,关闭对话框;
(4)接下来为不同的角色分配钻取权限。
(5)右击“Sales”多维数据集,并选择“管理角色…”命令,打开角色管理器;
(6)单击前面创建的“Management”角色,然后在“钻取”列中单击<...>按钮,打开角色权限设置对话框;
(7)选中“允许钻取”复选框,然后单击<确定>返回角色管理器;
这时可看到“Management”角色已获得钻取权。
(8)关闭角色管理器,回到分析管理器,右击“Sales”多维数据集,并选择“浏览数据…”命令,打开数据浏览器;
(9)双击展开统计列以显示不同级别的聚集数据。
右击某数据(如USA→CA→Berkeley的销售额)并选择“钻取”命令,稍等将打开明细数据查看窗口,显示原始数据源中的明细数据。
图表6钻取
6建立远程Internet连接
SQLServerAnalysisServices能让用户借助客户端工具,通过Internet连接访问分析服务器数据库和多维数据集。
本示例介绍通过HTTP从Excel连接到分析服务器并访问多维数据集的操作。
具体步骤如下:
(1)准备:
在分析服务器上安装Web服务(如IIS),从分析服务器的bin文件夹中复制Msolap.asp文件到默认站点文件夹(C:
\Inetpub\wwwroot)中;
(2)启动客户端Excel,选择“数据|数据透视表和数据透视图报表…”菜单命令;
(3)在向导第1步中选择“外部数据源”,然后单击<下一步>;
(4)在向导的第2步,单击<获取数据>,打开“选择数据源”对话框,然后选择“OLAP多维数据集”选项卡,并选中“<新数据源>”,然后单击<确定>;
(5)在接下来的对话框中,输入数据源名称:
RemoteSales,在驱动程序列表中选择“MicrosoftOLEDBProviderforOLAPServices8.0”,然后单击<连接>;
(6)在接下来的对话框中,选中“分析服务器”并输入URL(如http:
//Localhost,然后单击<下一步>;
(7)从连接到的远程分析服务器上选择数据库列表(如教程DW),然后单击<完成>,回到上级对话框;
(8)选定包含所需数据的多维数据集(如Sales),然后单击<确定>,最后一步点击<完成>,回到Excel工作表;
(9)接下来就可以在客户端电子表格中执行OLAP了。
五、数据仓库高级操作
1.任务描述
多维数据集的数据可以存储在一个或多个分区上,在创建多维数据集时系统会自动为其分配一个默认分区。
合理地将一个逻辑多维数据集划分为多个单独的物理分区,常常可以改进查询的性能,但不正确地分区也可能导致错误。
2.创建分区
多维数据集的数据可以存储在一个或多个分区上,在创建多维数据集时系统会自动为其分配一个默认分区。
合理地将一个逻辑多维数据集划分为多个单独的物理分区,常常可以改进查询的性能,但不正确地分区也可能导致错误。
为多维数据集创建分区的步骤如下:
(1)展开“Sales”多维数据集,右击“分区”文件夹,然后选择“新建分区”命令,打开分区向导,单击<下一步>;
(2)在“指定数据源和事实数据表”步骤中,单击<更改>,然后选择“FoodMard”数据源的sales_fact_1997表,然后单击<确定>;
(3)继续单击<下一步>,在“选择数据切片(可选)”步骤中,选择“Time”维度,展(4)开“所有Time”级别并选择1997,继续单击<下一步>;
(5)在“指定分区类型”步骤中,选择“本地”并单击<下一步>;
(6)输入分区名称:
Sales97,并选择“从现有的分区(Sales)中复制聚合设计”和“完成时处理分区”,最后单击<完成>;
图表7分区
(7)处理完成后单击<关闭>,97年多维数据集将位于另一个名为Sales97的分区上了。
将来99、2000、…的数据也可分别存储在不同的分区上,这样既便于管理,也可提高查询的效率,特别对大型数据集,效果更加明显。
3.创建虚拟多维数据集
虚拟维度是基于物理维度内容的逻辑维度。
这些内容可以是物理维度中的现有成员属性,也可以是物理维度的表中的列。
使用虚拟维度可基于成员属性对多维数据集数据进行分析。
其优点是不占用磁盘空间或处理时间。
下面创建一个带有YearlyIncome(年收入)成员属性的虚拟维度,然后将这个新创建的维度添加到Sales多维数据集中。
操作步骤如下:
(1)右击“共享维度”文件夹,选择“新建维度|向导”菜单命令;
(2)单击<下一步>,选择“虚拟维度:
另一个维度的成员属性”,再单击<下一步>;
(3)在“选择带有成员属性的维度”步骤中,单击“Customer”维度,再单击<下一步>;在“选择虚拟维度的级别”步骤中,添加“Lname.YearlyIncome”成员属性后再单击<下一步>,在“高级选项”步骤中直接单击<下一步>;
(4)在“完成”步骤中,输入维度名称“YearlyIncome”;
(5)单击<完成>。
关闭向导。
新建的虚拟维度“YearlyIncome”已在共享维度列表中了。
接下来就可向现有多维数据集添加虚拟维度了。
4.DTS调度多维数据集处理
本例为Sales、HR和ExpenseBudget三多维数据集创建自动化过程,确保在每天早上3点钟从OLTP和ERP导入前一天的新增业务数据。
处理完成后再给管理员和关键用户发送电子邮件通知他们处理任务已顺利完成。
具体操作如下:
(1)选择“开始|程序|MicrosoftSQLServer|企业管理器”菜单命令,启动SQLServer企业管理器;
(2)逐级展开,直到看到“数据转换服务”文件夹下的“本地包”,右击“本地包”并选择“新建包”命令,打开DTS包窗口,接下来为2个多维数据集定义处理任务;
(3)点击DTS包窗口的左窗格中的“AnalysisServices处理任务”图标,并将其拖动到空白窗格中,弹出“AnalysisServices处理任务”对话框;
(4)在对话框中,给第1个任务输入名称为Sales,并输入相应的描述,如Sales任务;
展开树窗格的“教程DW”数据仓库,单击“Sales”多维数据集,然后在右窗格选择处(5)理选项,选择“完整处理”;
(6)同样的方法为“HR”多维数据集创建另1个处理任务:
HR任务;
(7)接下来指定任务执行的顺序:
按住键,依次选择Sales任务和HR任务,然后选择“工作流|完成时”菜单命令;
(8)将左窗格中的“发送电子邮件”图标拖至右窗格中,弹出“发送邮件任务属性”对话框,设置好相关参数后点<确定>,然后设置其处理顺序。
最后以“Cubes处理”为名保存该包。
(9)回到企业管理器窗口,刚创建的包位于“本地包”文件夹中,接下来要为该包设置执行时间;
(10)右击“Cube处理”包,选择“调度包…”命令,弹出“作业调度”对话框;
在“每月”频率下,设置“第末一天,每1个月”,在“每日频率”下设置:
“一次发生于:
3:
00:
00AM”,单击<确定>;
(11)至此,多维数据集定期处理任务已定制完成,可以退出企业管理器了。
OK!
5.备份/还原数据仓库
5.1以下3种情况可能需要对数据仓库进行存档:
5.1.1创建数据仓库的压缩备份;
(1)数据仓库不再用于日常分析了,先存档后删除,以后需要时还可还原;
(2)将数据仓库从一台服务器复制到另一台服务器。
5.1.2具体操作如下:
(1)在AnalysisManager树窗格中右击“教程DW”,然后单击“将数据库存档”命令,