ImageVerifierCode 换一换
格式:DOCX , 页数:13 ,大小:804.14KB ,
资源ID:3602297      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/3602297.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(大数据仓库与大数据挖掘课程设计.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

大数据仓库与大数据挖掘课程设计.docx

1、大数据仓库与大数据挖掘课程设计1. 绪论 2.1.1项目背景 2.1.2提出问题 2.2 数据库仓库与数据集的概念介绍 2.2.1数据仓库 2.2.2数据集 2.3 数据仓库 3.3.1数据仓库的设计 3.3.1.1数据仓库的概念模型设计 3.3.1.2数据仓库的逻辑模型设计 3.3.2数据仓库的建立 3.3.2.1数据仓库数据集 3.3.2.2建立维表 4.4.数据挖掘操作 4.4.1数据预处理 4.4.1.1描述性数据汇总 4.4.2决策树 4.5、实验心得 1.2.6、大总结 1.2.1. 绪论1.1项目背景 在现在大数据时代,各行各业需要对商品及相关关节的数据进行收集处理, 尤其零售行

2、业, 于企业对产品的市场需求进行科学合理的分析, 从而预测出将来 的市场,制定出高效的决策,给企业带来经济收益。1.2提出问题对于超市的商品的购买时期和购买数量的如何决定,才可以使销售量最大, 不积压商品, 不缺货, 对不同时期季节和不同人群制定不同方案, 使企业收益最 大,通过数据挖掘对数据进行决策树分析, 关联分析, 顺序分析与决策分析等可 以制定出最佳方案。2 数据库仓库与数据集的概念介绍2.1数据仓库数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战 略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。 为企 业提供需要业务智能来指导业务流程改进和监视时间、成

3、本、质量和控制。数据仓库是决策系统支持 (dss)和联机分析应用数据源的结构化数据环境。 数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主 题、集成性、稳定性和时变性。2.2数据集数据集是指一种由数据所组成的集合。 Data set (或 dataset )是一个数据 的集合,通常以表格形式出现。 每一列代表一个特定变量。 每一行都对应于某一 成员的数据集的问题。 它列出的价值观为每一个变量, 如身高和体重的一个物体 或价值的随机数。 每个数值被称为数据资料。 对应于行数, 该数据集的数据可能 包括一个或多个成员。3 数据仓库3.1数据仓库的设计3.1.1 数据仓库的概念模

4、型设计 概念模型的设计是整个概念模型开发过程的三阶段。 设计阶段依据概念模型 分析以及分析过程中收集的任何数据, 完成星型模型和雪花型模型的设计。 如果 仅依赖 ERD,那只能对商品、销售、客户主题设计成如图所示的概念模型。这种 模型适合于传统的数据库设计,但不适合于数据仓库的设计。3.1.2 数据仓库的逻辑模型设计 逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出各个业务的 需求,同时对系统的物理实施有着重要的指导作用, 它的作用在于可以通过实体 和关系勾勒出企业的数据蓝图, 数据仓库的逻辑模型设计任务主要有: 分析主题 域,确定要装载到数据仓库的主题、确认粒度层次划分、确认数据分割策

5、略、关 系模式的定义和记录系统定义、 确认数据抽取模型等。 逻辑模型最终设计成果包 括每个主题的逻辑定义,并将相关内容记录在数据仓库的元数据中、粒度划分、 数据分割策略、表划分和数据来源等。3.2数据仓库的建立3.2.1 数据仓库数据集一般说来 , 一个数据集市是按照某一特定部门的决策支持需求而组织起来 的、针对一组主题的应用系统。 例如, 财务部拥有自己的数据集市 , 用来进行财务 方面的报表和分析 ,市场推广部、销售部等也拥有各自专用的数据集市 , 用来为本 部门的决策支持提供辅助手段。数据集市大都采用多维数据库技术 , 这种技术对 数据的分析而言也许是最优的 ,但肯定不适合于大量数据的存

6、储 , 因为多维数据 库的数据冗余度很高。为了提高速度 , 对数据集市中的数据一般都建立大量的索 引。换言之 , 数据集市中往往靠对数据的预处理来换取运行时的高速度 , 当业务部 门提出新的问题时 , 如果不在原来设计的范围内 , 则需要数据库管理员对数据库 作许多调整和优化处理。3.2.2 建立维表 维是分析问题的角度,度量是要分析的问题。 多维视图:用包含度量和维的表的数据结构可以创建一个多维视图,用试 题和维创建的多维模型称为星型模型,星型模型生成的主要表格被称为事实 表。事实表的属性值几乎都有连续值。事实表是规范化的。与维表不同不是随 时间的推移变化,而是不断变大。维表:星型模型也具有

7、非常小的表,用来装载描述信息。维表是逆规范化 的。如果把维表置于第二范式中,这样的表称为雪花模型。维表包括主键,通常对应事实表的外部键。如果维表的主键不在实事表 中,这个主键字便被称作退化的维。创建维表:有 3 种方法:星型模型、雪花模型和星暴模型。星暴模型含有 两张以上的事实表。基本有些充当维事实表。星型模型:所有信息维都放在同一个维表中。维表信息包含一个唯一的标 识符(ID)和通过这个维表建立的所有维所需的属性。星型模型由小的维表与大 的事实表组成,多称为“小表和大表”。事实表一般是标准表。雪花模型:把信息分为 3 种标准格式。产品表、类别表、子类别表。把这 些信息放到一起需要一定数据的连

8、接。雪花模型比星型模型效率低,占空间 少。所有的事实表都有一个与之相关的时间维表。4.数据挖掘操作4.1数据预处理4.1.1 描述性数据汇总 对于许多数据预处理任务,希望知道关于数据的中心趋势和离中趋势特 征。中心趋势度量包括均值( mean)、中位数( median)、众数( mode)和中列 数( midrange),而数据离中趋势度量包括四分位数( quartiles )、四分位数 极差( interquartile range, IQR)和方差( variance )。这些描述性统计量有 助于理解数据的分布。4.2决策树1)读取文本数据使用变量文件节点读取定界文本数据。可以从选项板中添

9、加变量文件节点,方法是单击源选项卡找到此节点, 或者使用收藏夹选项卡 (默认情况下, 其中包 含此节点)。然后,双击新添加的节点以打开相应的对话框。如图 1 所示。图1单击紧挨“导入文件”框右边以省略号“ .”标记的按钮,浏览到系统中的Clementine 安装目录。打开目标文件目录, 然后选择名为 sales.xls 的文件。选择 从文件读取字段名,并注意已载入此对话框中的字段和值。如图 2 所示图2单击过滤选项,可以把用不到的信息给过滤掉。如图 3 所示。图3类型选项卡可帮助了解数据中的更多字段类型。 还可以选择读取值来查看各个字段的实际值,具体取决于在值列中的选择。 此过程称为实例化。如

10、图 4所示。图4(2)添加表现在已载入数据文件, 可以浏览一下某些记录的值。 其中一个方法就是构建 一个包含表节点的流。 要将表节点添加到流中, 可双击选项板中的表节点图标或 将其拖放到工作区。如图 5 所示。图5双击选项板中的某个节点后,该节点将自动与流工作区中的选定节点相连 接。此外,如果尚未连接节点,则可以使用鼠标中键将源节点与表节点相连接。 要模拟鼠标中键操作,请在使用鼠标时按下 Alt 键。如图 6 所示。图6 要查看表,请单击工具栏上的绿色箭头按钮执行流,或者右键单击表节点, 然后选择执行。如图 7 所示。(3)创建分布图将分布节点添加到流, 并将其与源节点相连接, 然后双击该节点

11、以编辑要显 示的选项。 选择商品名称作为要显示其分布的目标字段。 然后,在对话框中单击执行。如图 8 所示。图8最终图表将有助于查看数据的 “结构”。结果表明, 商品 300g壶瓶枣和 400g 沁州黄卖的最多。如图 9 所示。图9此外,还可以在“输出”选项卡中找到数据审核节点。如图 10 所示。图 10添加并执行数据审核节点, 同时快速浏览所有字段的分布图和直方图。 如图图 1111所示(4)创建散点图现在我们来看一下有哪些因素会对商品出售 (目标变量) 产生影响。 作为一 名消费者, 我们一定知道销售模式对销售数量有着重要的影响。 所以创建一个关 于商品名称和销售模式的散点图。 将散点图节

12、点放在工作区中, 并将其与源节点 相连接,然后双击该节点对其进行编辑。如图 12 所示。图 12在“散点图”选项卡中,选择商品名称作为 X 字段,选择销售模式作为 Y 字段,并选择销售金额作为交叠字段。然后单击执行。如图 13 所示。图 14(5)创建直方图因很多数据不能够直接显示, 所以我们要建立直方图, 直方图能够很清晰的 显示数据。首先,将网络节点与您工作区中的源节点相连接。如图 15 所示。图 15在“直方图”选项卡中,选择商品序号作为 X 字段,选择销售数量作为交 叠字段。然后单击执行。如图 16 所示。图 16此直方图能够清楚地显示不同商品销售数量的不同。 由图可以看出序号为 1

13、的商品销售数量最多,序号为 9 的商品销售数量最少。如图 17所示。图 175、实验心得在本次实验中, 从新建工作流一直到获得最终结果, 整个流程让我对数据挖 掘中数据分析处理的基本方法有了深入的了解,特别是决策树模型应用的理解, 同时,也学会了如何使用决策树通过建模和直观化显示发现数据库中的关系 (即 链接)以及利用这些链接与数据中的案例组相对应关系可以通过建模可详细研究 这些组并描绘其特征,增强了运用决策树模型和聚类分析模型的能力。通过这次学习让我意识到,对于数据我们不仅要能利用统计来分析它的规 律,也要能会通过数据挖掘软件来挖掘数据当中的潜在信息, 并且利用数据挖掘 所得到的有利信息更好

14、的服务于数据使用者。6、大总结坚持好一段时间, 终于把完成了任务, 通过这几次实验报告的实践操作, 我 收获很大,不但学习相关数据挖掘的知识,关于 SPSS了解更多,操作也比原来 熟练多了。虽然过程中有点折磨过,但当你克服了,耐心去一步一步操作,那些 烦躁的心情就会慢慢消失,还得要有耐心,认真的态度去操作,才能有结果。关联分析是一个很有用的数据挖掘模型, 能够帮助企业做很多很有用的产品 组合推荐、优惠促销组合, 同时也能指导货架摆放是否合理, 还能够找到更多的 潜在客户,的确真正的把数据挖掘落到实处。 关联分析具体能用来做什么呢? 可以一句话来概括:最大限度地从你口袋里面掏出更多的钱买我的产品

15、。1.通过关联规则,推出相应的促销礼包或优惠组合套装,快速帮助提高销售 额。如自行车针对不同人群,来制定有效的销售方案。2.零售超市或商场,可以通过产品关联程度大小,指导产品合理摆放,方便 顾客最购买更多其所需要的产品。 最常见的就是超市里面购买肉和购买蔬菜水果 等货架会摆放得很近, 目前就是很多人会同时购买肉与蔬菜, 产品的合理摆放也 是提高销售的一个关键。3.进行相关产品推荐或者挑选相应的关联产品进行精准营销。最常见的是 你在亚马逊或京东购买产品的时候, 旁边会出现购买该商品的人, 有百分之多少 还会购买如下的产品, 快速帮助顾客找到其共同爱好的产品。 物以类聚, 人以群 分。例如,穷人一

16、般和穷人在一起,富人也喜欢和富人在一起。还有数据挖掘的 人喜欢和数据挖掘的人打交道,都离不开这些鸟道理。4.寻找更多潜在的目标客户。 例如:100 人里面,购买 A 的有 60 人,购买 B 的有 40 人,同时购买 A 和 B 的有 30 人,说明 A 里面有一半的顾客会购买 B, 反推而言。如果推出类似 B 的产品,除了向产品 B 的用户推荐(因为新产品与 B 的功能效果比较类似)之外,还可以向 A 的客户进行推荐,这样就能最大限 度地寻找更多的目标客户。决策树分析法是常用的风险分析决策方法。 该方法是一种用树形图来描述各 方案在未来收益的计算。 比较以及选择的方法, 其决策是以期望值为标

17、准的。 人 们对未来可能会遇到好几种不同的情况。 每种情况均有出现的可能, 人们目前无 法确知,但是可以根据以前的资料来推断各种自然状态出现的概率。 在这样的条 件下,人们计算的各种方案在未来的经济效果只能是考虑到各种自然状态出现的 概率的期望值,与未来的实际收益不会完全相等。决策树法是管理人员和决策分析人员经常采用的一种行之有效的决策工具。 它具有下列优点:1.决策树列出了决策问题的全部可行方案和可能出现的各种自然状态, 以及 各可行方法在各种不同状态下的期望值。2.能直观地显示整个决策问题在时间和决策顺序上不同阶段的决策过程。3.在应用于复杂的多阶段决策时,阶段明显,层次清楚,便于决策机构

18、集体 研究,可以周密地思考各种因素,有利于作出正确的决策。当然,决策树法也不是十全十美的,它也有缺点,如使用范围有限,无法适 用于一些不能用数量表示的决策;对各种方案的出现概率的确定有时主观性较 大,可能导致决策失误;等等预测分析法是根据客观对象的已知信息而对事物在将来的某些特征、 发展状 况的一种估计、 测算活动。 运用各种定性和定量的分析理论与方法, 对事物未来 发展的趋势和水平进行判断和推测的一种活动。预测的实质是根据事物的过去和现在估计未来, 根据已知预测未知, 从而减 少对未来事物认识的不确定性, 以指导我们的决策行动, 减少决策的盲目性。 预 测学的出现不是孤立的、 它是在人类社会生产力和科学技术日益发达的基础上应 运而生的,它与其它的学科诸如经济学、数学、系统工程学、统计学、电子计算 机技术等都有密切的关系。总而言之,数据仓库与数据挖掘这门课程很有学习的意思, 以后的用处很大, 随着市场竞争的越来越激烈, 商业环境中的信息越来越密集, 企业必须能够深入 灵活利用积累的大量数据挖掘潜在的规律, 提高决策质量,把握和发现市场机遇, 提升企业的竞争力。8. 任务分配

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1