ImageVerifierCode 换一换
格式:DOCX , 页数:20 ,大小:232.42KB ,
资源ID:11725768      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/11725768.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(《数据仓库与数据挖掘》课程设计方案报告模板.docx)为本站会员(b****4)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

《数据仓库与数据挖掘》课程设计方案报告模板.docx

1、数据仓库与数据挖掘课程设计方案报告模板江西理工大学应用科学学院数据仓库与数据挖掘课程设计报告题目: 某超市数据集的OLAP分析及数据挖掘系别:班级:姓名:二一二年六月一、建立数据仓库数据库结构和设置数据源 11. 任务描述 22. 建立数据仓库数据库3. 设置数据源 二、销售数据OLAP分析 1. 任务描述 2. 设计星型架构多维数据集(Sales) 3. 设计存储和数据集处理 4. OLAP分析 三、人力资源数据OLAP分析 1. 任务描述 2. 设计父子维度的多维数据集(HR) 3. 修改多维数据集(HR)的结构 4. 设计存储和数据集处理 5. OLAP分析 四、数据仓库及多维数据集其它

2、操作 1. 任务描述 2. 设置数据仓库及多维数据集角色及权限 3. 查看元数据 4. 创建对策 5. 钻取 6. 建立远程 Internet 连接 五、数据仓库高级操作 1. 任务描述 2. 创建分区 3. 创建虚拟多维数据集 4. DTS调度多维数据集处理 5. 备份/还原数据仓库 六、数据挖掘 1. 任务描述 2. 创建揭示客户模式的决策树挖掘模型 3. 决策树挖掘结果分析 4. 创建聚类挖掘模型 5. 聚类挖掘结果分析 6. 创建基于关系数据表的决策树挖掘模型 7. 浏览“相关性网络”视图 一、建立数据仓库数据库结构和设置数据源1、任务描述数据仓库数据库是将要在其中存放多维数据集、角色

3、、数据源、共享维度和挖掘模型的一种结构。然后跟预先设置好的ODBC数据源建立连接。2、建立数据仓库数据库(1) 展开树视图的Analysis Servers; (2) 单击服务器名或右击选择连接,与Analysis Servers建立连接; (3) 右击服务器名,然后单击“新建数据库”命令; (4) 在“数据库”对话框中输入数据库名“教程DW”,单击;3、设置数据源(5) 展开刚创建的“教程DW”数据库,可看到如下工程:数据源、多维数据集、共享维度、挖掘模型、数据库角色(6) 右击“教程DW”数据库下的“数据源”文件夹,然后单击“新数据源”命令; (7) 在“数据链接属性”对话框中,单击“提供

4、程序”选项卡,选择“Microsoft OLE DB Provider for ODBC Drivers”;(8) 单击“连接”选项卡,选择建好的ODBC数据源“FoodMart 2000”;(9) 单击按钮关闭“数据链接属性”对话框图表 1 连接数据源二、销售数据OLAP分析1. 任务描述以多维方式建立数据模型可简化联机业务分析,提高查询性能。通过创建多维数据集,Analysis Manager 可将存储在关系数据库中的数据转换为具有实际含义并且易于查询的业务信息。2. 设计星型架构多维数据集(Sales)星型架构的多维数据集由一个事实数据表和链接到该事实数据表的多个维度表组成。下面针对Fo

5、odMart超市1998年的销售业务数据,建立一个多维数据集,以便按产品和顾客2个主题展开分析。具体操作如下:(1)展开树窗格的“教程DW”,右击“多维数据集”,选择“新建多维数据集”“向导”菜单命令,打开如下“多维数据集向导”对话框。(2)向多维数据集添加度量值(事实) :(3)单击,在“从数据源中选择事实数据表”步骤中,展开“FoodMart”数据源,然后单击“sales_fact_1998”; (4)单击,设置多维数据集的度量值列: store_sales、store_cost、unit_sales;(5)单击,建立维度表。单击,打开“维度向导”对话框;1) 向多维数据集添加时间维:(1

6、)选择维度类型为“星型架构:单个维度表”;(2)单击,选择维度表“time_by_day”;(3)单击,选择维度类型为“时间维度”;(4)单击,选择时间级别为“年、季度、月”;(5)单击,单击,输入时间维名称: Time,并设为“共享”方式,单击,OK!2) 向多维数据集添加产品维:(1)再次单击,打开“维度向导”对话框;(2)选择创建维度的方式为“雪花架构:多个相关维度表”; (3)单击,选择维度表“Product”和“product_class”。(4)单击,查看连接方式,在这里可删除不要的连接,添加需要的连接;(5)单击,依次选择product_category、product_subc

7、ategory和brand_name三个维度级别;(6)单击,指定成员键列步骤中,不需改变主键列;(7)单击,在“高级选项”步骤中,根据需要选择;(8)单击,输入产品维名称: Product,并设为“共享”方式,单击,OK!3) 向多维数据集添加客户维度:(1)再次单击,打开“维度向导”对话框;(2)选择创建维度的方式为“星型架构:单个维度表”; (3)单击,选择维度表“Customer”。(4)单击,选择维度类型为“标准维度”;(5)单击,依次选择Country、State_Province、City和lname四个维度级别;(6)单击,指定成员键列步骤中,不需改变主键列;(7)单击,在“高

8、级选项”步骤中,根据需要选择;(8)单击,输入客户维名称: Customer,并设为“共享”方式,单击,OK!4) 生成多维数据集:(1)回到多维数据集向导对话框,这里已到了新建的4个维度;(2)单击,在“是否计算事实数据表行数提问时,单击,开始计算。 (3)计算完成后,命名多维数据集为:Sales,单击,OK!(4)关闭向导,随之启动多维数据集编辑器,其中可看到刚刚创建的多维数据集。单击蓝色或黄色的标题栏,对表进行排列,使其符合下图所示的样子图表 2“Sales多维数据集编辑器”窗口3. 设计存储和数据集处理:设计好 Sales 多维数据集的结构之后,需要选择数据的存储模式(MOLAP、RO

9、LAP或HOLAP),并指定要存储的预先计算好的值的数量,然后用数据填充多维数据集。本例选择MOLAP作为存储模式,创建Sales多维数据集的聚合设计,然后从ODBC源中装载数据并按照聚合设计中的定义计算汇总值。(1)展开树窗格,右击“Sales”多维数据集,选择“设计存储”菜单命令,弹出“存储设计向导”对话框;也可在多维数据集编辑窗口中选择“工具|设计存储”菜单命令,打开“存储设计向导”对话框; (2)单击,然后选择“MOLAP”作为数据存储类型 ;(3)单击,设置聚合选项为“性能提升达到”,并输入“40”作为指定百分比,以此优化能力平衡查询性能和存储空间大小。(4)单击,完成后可看到“性能

10、与大小”图,从中可看出增加性能提升对使用额外磁盘空间的需求。(5)单击,选择“立即处理”,并单击,系统开始进行数据处理,处理聚合一般要花费较长一些时间。(6)处理完成后点击,回到Analysis Manager窗口。(7)接下来就可浏览多维数据集的数据了。 4. OLAP分析:联机分析处理(OLAP)是使用多维数据表达式(称为多维数据集)提供对数据仓库数据进行快速访问的常用方法。多维数据集为维度表中的数据和数据仓库中的事实数据表建立模型,并为客户端应用程序提供完善的查询和分析功能。图表 3 OLAP分析图三、人力资源数据OLAP分析1. 任务描述:建立一个人力资源(HR)多维数据集,以进行雇员

11、工资分析。先把Employee维度创建为父子维度,然后使用该维度以及常规维度来生成HR多维数据集2. 设计父子维度的多维数据集(HR):(1) 展开“教程DW”,右击“共享维度”,选择“新建维度|向导”菜单命令,打开“新建维度向导”对话框。(2) 单击,选择维度结构为“父子:单个维度表中相关的两列”;(3) 单击,选择维度表 employee;(4) 单击,选择employee_id为成员键,选择supervisor_id为父键列,选择full_name为成员名。(5) 单击,直到最后一步,输入维度名称: employee。(6) 单击,回到维度编辑器。OK!3. 修改多维数据集(HR)的结构

12、(1) 展开“教程DW”,右击“多维数据集”,选择“新建多维数据集|向导”菜单命令,打开多维数据集向导对话框。(2) 点击,选择salary(工资)作事实数据表;(3) 点击,选择salary_paid、vacation_used为度量值列;(4) 点击,选择Employee(雇员)、Store(商店)、Time(时间)作维度;(5) 点击,在提示是否计算事实数据表行数时选“是”。最后输入人力资源多维数据集的名称NR,点击,OK!(6) 回到编辑器窗口,手工建立time_by_day表到salary表的联接,再建立 store表到employee表中的联接,删除多余的联接。最后如下图所示。4.

13、 设计存储和数据集处理设计好 Sales 多维数据集的结构之后,需要选择数据的存储模式(MOLAP、ROLAP或HOLAP),并指定要存储的预先计算好的值的数量,然后用数据填充多维数据集。本例选择MOLAP作为存储模式,创建Sales多维数据集的聚合设计,然后从ODBC源中装载数据并按照聚合设计中的定义计算汇总值。(1)展开树窗格,右击“Sales”多维数据集,选择“设计存储”菜单命令,弹出“存储设计向导”对话框;也可在多维数据集编辑窗口中选择“工具|设计存储”菜单命令,打开“存储设计向导”对话框; (2)单击,然后选择“MOLAP”作为数据存储类型 ;(3)单击,设置聚合选项为“性能提升达到

14、”,并输入“40”作为指定百分比,以此优化能力平衡查询性能和存储空间大小。(4)单击,完成后可看到“性能与大小”图,从中可看出增加性能提升对使用额外磁盘空间的需求。图表 4 性能与大小(5)单击,选择“立即处理”,并单击,系统开始进行数据处理,处理聚合一般要花费较长一些时间。(6)处理完成后点击,回到Analysis Manager窗口。(7)接下来就可浏览多维数据集的数据了。 5. OLAP分析联机分析处理(OLAP)是使用多维数据表达式(称为多维数据集)提供对数据仓库数据进行快速访问的常用方法。多维数据集为维度表中的数据和数据仓库中的事实数据表建立模型,并为客户端应用程序提供完善的查询和分

15、析功能。四、数据仓库及多维数据集其它操作1 任务描述多维数据集角色用于定义可以访问和查询多维数据集的用户或组,指出其可以访问的对象,以及对这些对象的访问类型。角色是保护多维数据集内对象和数据安全的主要方法,可以在多维数据集的不同粒度级别上设置安全性。要定义安全性必须先创建角色,然后向这些角色授予权限。 我们要创建Sales和HR角色分别用于访问多维数据集Sales和HR。Management角色用于管理整个数据仓库。 2 设置数据仓库及多维数据集角色及权限多维数据集角色用于定义可以访问和查询多维数据集的用户或组,指出其可以访问的对象,以及对这些对象的访问类型。角色是保护多维数据集内对象和数据安

16、全的主要方法,可以在多维数据集的不同粒度级别上设置安全性。要定义安全性必须先创建角色,然后向这些角色授予权限。本例中,我们要创建Sales和HR角色分别用于访问多维数据集Sales和HR。Management角色用于管理整个数据仓库。 具体操作如下:2.1 创建多维数据集角色:(1) 展开“多维数据集”文件夹,右击“Sales”多维数据集,并选择“管理角色”命令,打开“多维数据集角色管理器”;(2) 目前还没角色显示在角色列表中。点击,打开新建角色对话框,并输入角色名:Marketing,表示市场部;(3) 在“成员资格”选项卡中单击按钮,接着在“添加用户和组”对话框中,添加该角色的网络用户名

17、(如hzm),单击回到新建对话框框框;(4) 其它选项可暂不设定,直接点,回到角色管理器窗口,角色Marketing就已在列表中了。在这里可以看到各个角色的权限,也可修改它们的权限。(5) 角色管理器。然后用同样的方法创建多维数据集HR的角色HR。2.2 创建数据库角色:数据库角色是可在数据库范围内使用的角色,可指派给该数据库的一个或多个多维数据集。本例中我们可以为经理创建一个数据库角色,然后将其指派到Sales和HR两个多维数据集。具体操作如下:(1) 在“教程DW”数据库下右击“数据库角色”,然后选择“管理角色”命令,打开“数据库角色管理器”窗口;(2) 这里显示了“教程DW”数据库中现有

18、角色的列表(包括刚建的Marketing和HR多维数据集角色);(3) 单击,在弹出的对话框中输入角色名:Management,然后为该角色添加用户或组(如admin),并勾选多维数据集Sales和HR。最后点击退出 3 查看元数据(1) 元数据是关于数据属性和数据结构的信息,此信息显示在 Analysis Manager 右窗格中。(2) 查看多维数据集的元数据:展开“多维数据集”文件夹,单击某多维数据集,再单击右窗格的“元数据”;(3) 查看维度的元数据:展开“共享维度”文件夹,单击一个维度,再单击右窗格的“元数据”。4 创建对策对策是指由最终用户启动的、在所选多维数据集或其某部分上执行的

19、操作。 Analysis Services管理员可以定义以下几种类型的对策:命令行、URL、OLE DB语句或多维表达式 (MDX) 语句。 本例假设市场部想要针对上一节中创建的Sales多维数据集,能在分析过程的某一点跳转到Internet,以便能够搜索并找到关于某个特定客户的信息。操作步骤如下:(1)展开“教程DW”数据库,右击“Sales”多维数据集,然后选择“编辑”命令,打开多维数据集编辑器;(2)右击“对策”文件夹,然后选择“新建对策”命令,启动对策向导,点击; (3)在“目标”框中选择“此多维数据集中的某一维度”,并单击“Customer”,点击 ;(4)保持“对策类型”列表不变,

20、继续单击;(5)在“定义对策语法”步骤中键入:“results.asp?q=” + Customer.currentmember.name,意思是“通过浏览器调用MSN 搜索引擎搜索Customer维度中的当前客户的信息。图表 5 对策语法图(6)继续单击,输入对策名称:Customer Info,点击完成。OK!5 钻取 本例假设市场部希望对商店和客户按从上到下进行分析,最终深化到关系数据库中的事务级别。为此,我们要在 Sales 多维数据集内启用钻取,然后浏览数据并深化到事务。具体操作如下:(1)展开“教程DW”数据库,右击“Sales”多维数据集并选择“编辑”命令,打开多维数据集编辑器;

21、(2)单击“工具|钻取选项”菜单命令,打开“钻取选项”对话框;(3)选择“启用钻取”复选框,并单击以选中所有列,然后单击,关闭对话框; (4)接下来为不同的角色分配钻取权限。(5)右击“Sales”多维数据集,并选择“管理角色”命令,打开角色管理器;(6)单击前面创建的“Management”角色,然后在“钻取”列中单击 按钮,打开角色权限设置对话框;(7)选中“允许钻取”复选框,然后单击返回角色管理器; 这时可看到“Management”角色已获得钻取权。(8)关闭角色管理器,回到分析管理器,右击“Sales”多维数据集,并选择“浏览数据”命令,打开数据浏览器; (9)双击展开统计列以显示不

22、同级别的聚集数据。右击某数据(如USACABerkeley的销售额)并选择“钻取”命令,稍等将打开明细数据查看窗口,显示原始数据源中的明细数据。图表 6 钻取6 建立远程 Internet 连接SQL Server Analysis Services 能让用户借助客户端工具,通过Internet连接访问分析服务器数据库和多维数据集。本示例介绍通过 HTTP 从 Excel 连接到分析服务器并访问多维数据集的操作。具体步骤如下:(1)准备:在分析服务器上安装Web服务(如IIS),从分析服务器的bin文件夹中复制Msolap.asp文件到默认站点文件夹(C:Inetpubwwwroot)中;(2

23、)启动客户端 Excel,选择“数据|数据透视表和数据透视图报表”菜单命令; (3)在向导第1步中选择“外部数据源”,然后单击;(4)在向导的第2步,单击,打开“选择数据源”对话框,然后选择“OLAP多维数据集”选项卡,并选中“”,然后单击;(5)在接下来的对话框中,输入数据源名称:RemoteSales,在驱动程序列表中选择“Microsoft OLE DB Provider for OLAP Services 8.0”,然后单击;(6)在接下来的对话框中,选中“分析服务器”并输入URL(如 ,然后单击;(7)从连接到的远程分析服务器上选择数据库列表(如教程DW),然后单击,回到上级对话框;

24、 (8)选定包含所需数据的多维数据集(如Sales),然后单击,最后一步点击,回到Excel工作表;(9)接下来就可以在客户端电子表格中执行OLAP了。五、数据仓库高级操作1. 任务描述多维数据集的数据可以存储在一个或多个分区上,在创建多维数据集时系统会自动为其分配一个默认分区。合理地将一个逻辑多维数据集划分为多个单独的物理分区,常常可以改进查询的性能,但不正确地分区也可能导致错误。2. 创建分区多维数据集的数据可以存储在一个或多个分区上,在创建多维数据集时系统会自动为其分配一个默认分区。合理地将一个逻辑多维数据集划分为多个单独的物理分区,常常可以改进查询的性能,但不正确地分区也可能导致错误。

25、 为多维数据集创建分区的步骤如下:(1)展开“Sales”多维数据集,右击“分区”文件夹,然后选择“新建分区”命令,打开分区向导,单击; (2)在“指定数据源和事实数据表”步骤中,单击,然后选择“FoodMard”数据源的sales_fact_1997表,然后单击; (3)继续单击,在“选择数据切片(可选)”步骤中,选择“Time”维度,展(4)开“所有Time”级别并选择1997,继续单击; (5)在“指定分区类型”步骤中,选择“本地”并单击; (6)输入分区名称:Sales 97,并选择“从现有的分区(Sales)中复制聚合设计”和“完成时处理分区”,最后单击;图表 7 分区(7)处理完成

26、后单击,97年多维数据集将位于另一个名为Sales 97的分区上了。将来99、2000、的数据也可分别存储在不同的分区上,这样既便于管理,也可提高查询的效率,特别对大型数据集,效果更加明显。3. 创建虚拟多维数据集虚拟维度是基于物理维度内容的逻辑维度。这些内容可以是物理维度中的现有成员属性,也可以是物理维度的表中的列。使用虚拟维度可基于成员属性对多维数据集数据进行分析。其优点是不占用磁盘空间或处理时间。下面创建一个带有Yearly Income(年收入)成员属性的虚拟维度,然后将这个新创建的维度添加到Sales多维数据集中。操作步骤如下: (1) 右击“共享维度”文件夹,选择“新建维度|向导”

27、菜单命令; (2) 单击,选择“虚拟维度:另一个维度的成员属性”,再单击; (3) 在“选择带有成员属性的维度”步骤中,单击“Customer”维度,再单击 ;在“选择虚拟维度的级别”步骤中,添加“Lname.Yearly Income”成员属性后再单击,在“高级选项”步骤中直接单击;(4) 在“完成”步骤中,输入维度名称 “Yearly Income”; (5) 单击。关闭向导。新建的虚拟维度“Yearly Income”已在共享维度列表中了。接下来就可向现有多维数据集添加虚拟维度了。 4. DTS调度多维数据集处理 本例为Sales、HR和Expense Budget三多维数据集创建自动化

28、过程,确保在每天早上3点钟从OLTP和 ERP导入前一天的新增业务数据。处理完成后再给管理员和关键用户发送电子邮件通知他们处理任务已顺利完成。具体操作如下:(1)选择“开始|程序|Microsoft SQL Server|企业管理器”菜单命令,启动SQL Server企业管理器;(2)逐级展开,直到看到“数据转换服务”文件夹下的“本地包”,右击“本地包”并选择“新建包”命令,打开DTS包窗口,接下来为2个多维数据集定义处理任务;(3)点击DTS包窗口的左窗格中的“Analysis Services处理任务”图标,并将其拖动到空白窗格中,弹出“Analysis Services 处理任务”对话框

29、; (4)在对话框中,给第1个任务输入名称为Sales,并输入相应的描述,如Sales任务;展开树窗格的“教程DW”数据仓库,单击“Sales”多维数据集,然后在右窗格选择处(5)理选项,选择“完整处理”;(6)同样的方法为“HR”多维数据集创建另1个处理任务:HR任务;(7)接下来指定任务执行的顺序:按住键,依次选择Sales任务和HR任务,然后选择“工作流|完成时”菜单命令;(8)将左窗格中的“发送电子邮件”图标拖至右窗格中,弹出“发送邮件任务属性”对话框,设置好相关参数后点,然后设置其处理顺序。最后以“Cubes处理”为名保存该包。(9)回到企业管理器窗口,刚创建的包位于“本地包”文件夹中,接下来要为该包设置执行时间;(10)右击“Cube处理”包,选择“调度包”命令,弹出“作业调度”对话框;在“每月”频率下,设置“第末一天,每1个月”,在“每日频率”下设置:“一次发生于:3:00:00AM”,单击;(11)至此,多维数据集定期处理任务已定制完成,可以退出企业管理器了。OK!5. 备份/还原数据仓库5.1 以下3种情况可能需要对数据仓库进行存档:5.1.1创建数据仓库的压缩备份;(1)数据仓库不再用于日常分析了,先存档后删除,以后需要时还可还原;(2)将数据仓库从一台服务器复制到另一台服务器。5.1.2具体操作如下:(1)在Analysis M

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1