ImageVerifierCode 换一换
格式:DOCX , 页数:10 ,大小:1.73MB ,
资源ID:3867895      下载积分:12 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/3867895.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(细化维度表属性.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

细化维度表属性.docx

1、细化维度表属性The Data Warehouse Toolkit, 2rd读书笔记数据仓库受业务驱动的最终目标数据仓库必须使组织机构的信息变得容易存取数据仓库必须一致地展示组织机构的信息数据仓库必须具有广泛的适应性和便于修改数据仓库必须发挥安全堡垒作用以保护信息资产数据仓库必须在推动有效决策方面承担最基本的角色数据仓库被业务群体所接受才能认定是成功的数据仓库体系的主要构件操作型源系统,数据聚集,数据展示,数据存储工具操作型源系统:外部的操作型数据库数据聚集:数据存储和ETL(extract-transformation-load)数据展示:数据组织、存储,便于其他应用直接查询数据存储工具:存

2、储、读取数据的工具事实表和维度表术语元数据:描述数据的数据,也就是数据属性。例如下图中,“出版者”、“出版日期”是元数据项目,“中信出版社”、“2011”是元数据内容。事实表:包含数字数据(事实),多个索引(维度表的主键)。例如下图中,“Product Key”、“Store Key”是索引,“Quantity Sold”、“Dollar Sales Amount”是数字数据。维度表:包含主键(事实表的索引),详细信息。例如下图中,“Product Key”是主键,“Weight”、“Product Description”等是商品的详细信息。粒度:数据单位中保存数据的细化或综合程度的级别。细

3、化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。连接事实表和维度表理解了事实和维度表之后,现在就考虑将两个组块一起融合到维度模型中去的问题。如下图所示,有数字型度量值组成的事实表连接到一组填满描述属性的维度表上。这个星型特征结构通常被叫做星型连接方案。该术语可以追溯到最早的关系数据库时期。关于其中用到的维度方案,应该注意的第一件事就是其简明性和对称性。很显然,业务用户会因为数据容易理解和浏览而从简明性方面受益。上图设计方案的魅力就在于它能够充分地被业务人员所认可。在针对几百个相关实例所做的自由评测活动中,用户们一致认为维度模型正是他们所要的东西。特别是,表格数量的减少和富有意义的业

4、务描述符号的使用,更进一步减少了出现误解的可能性。如果有一张已经存在的规范化ER图,将它转换为一组维度模型的第一步是,将ER图分成一些分散的业务处理过程,然后分别单独建模。第二步是选出ER图中那些含有数字型和可加性非关键字事实的多对多关系,并将它们标记为事实表。最后一步是,将剩下的所有表复合成具有直接连接到事实表的单连关键字的平面表,这些表成为维度表。有关维度建模的讹传神话1 维度模型和数据中心都只是应用于概要性数据方面的神话2 维度模型和数据中心是针对部门而不是针对企业的解决方案神话3 维度模型和数据中心是不可升级的神话4 维度模型和数据中心仅当可预见的使用模式时才适合神话5 维度模型和数据

5、中心是不能集成的,从而只能形成直通的解决方案数据仓库构建需要避免的常见疏误疏误10 过多地将心思放在技术和数据上了,而不关注业务的要求和目标疏误9 未能实现或者再现像数据仓库业务主管所具备的看起来有影响、易访问而又合乎情理的管理功能梦想而耿耿于怀疏误8 扭住指定一个庞大的多年工程计划不放,而不是去追求一个更易处理的可能也是更急迫的可以进行迭代开发的方案疏误7 将精力全部投入到构造规范化数据结构中去了,而在建造一个基于维度模型的可行的展示环节时,却已经用光了给定的投入疏误6 把注意力放在后台的作业性能和容易开发上,而不是放在前台的查询性能和容易使用疏误5 把展示环节中假定为可查询的数据做得过于复

6、杂。喜欢一个显得更为复杂的展示的数据库设计人员必定要花费一年的时间向业务用户提供(使用)支持,所以应该去建立一个在突出简明性更为人们所欣赏的解决方案。疏误4 在孤立应用的基础上建立维度模型,而没有考虑到采用共享的一致的维度将这些模型捆绑在一起的数据体系结构疏误3 仅仅将总结性数据加入到展示环节的维度中疏误2 把业务、业务需求和分析内容以及基本数据和支持技术等都看成是静态的疏误1 忽视了数据仓库的成功直接系于用户的接受程度这样的认识。设计维度模型的四步过程1、选取要建模的业务处理过程2、定义业务处理的粒度3、选定用于每个事实表行的维度4、确定用于形成每个事实表行的数字型事实以零售为例:第一步:选

7、取业务处理POS零售业务,什么促销条件下的什么日子里,在什么商店正在销售什么样的产品。第二步:定义粒度通过访问POS事务信息,粒度最好是原子性的,以便能够得出一个关于商场销售非常详细的概况。例如,想弄清星期一相对于星期日在销售上的不同情况,是否值得为谷物一类的物品准备那么多不同大小的商标,想了解有多少购物者对优惠50%的洗发精促销活动特别感兴趣,想确定如果对一个竞争很激烈的饮用苏打产品进行了大力的促销宣传以后进行降价销售会造成什么样的影响。第三步:选定维度根据实例研究,可以确定的描述性维度有:日期、产品、商店和促销第四步:确定事实根据实例研究,可以确定的事实有:销售量、销售额、成本额、毛利润金

8、额细化维度表属性日期维度表日期维度表的每列由行所代表的特定日期进行定义。“星期”一列含有每天像“星期一”这样的名称内容,该列可用于创建比较“星期一”和“星期日”的业务的报表。日历表中“月”所在列的日编号从每个月的1开始取值,然后根据月份的情况取到28、29、30或者31,这一列对于每月的同一天进行比较的情况很有好处。按照类似的方式,可给出一年中每月的编号(1,12)。纪元表示法采用一种称为凯撒日编号(即从某纪元开始连续对日期进行计数)来有效地给出日编号。当然也可以在表中给出“星期”和“月份”的绝对编号列。所有这些整数都支持跨年度跨月份的简单数据运算。在生成报表时,常常要给出像“一月”这样的月份

9、名称。此外,为报表给定一个“年月”(YYYY-MM)列标题也是很有用途的。同样,报表中很可能需要季度编号(Q1,Q4)或者诸如2001-Q4这样的年季度编号列。如果财政年度和日历表在周期上不一致,则可以为财政年度给出类似的列。在“节假日”指示列中给出“节假日”或者“非节假日”这样的内容。要记住,维度表属性是做报表标记之用的,因此,简单地在“节假日”指示列中给出“Y”或者“N”是没有多大作用。关于这个问题,考虑以下要对某产品的节假日和非节假日的销售情况进行比较的报表应用就可以弄清楚。显然,列中给出“节假日”或者“非节假日”这样富有意义的值比一个“Y”或者“N”之类的编码,要有用得多。还要注意,不

10、应该在报表生成器中执行将编码标记翻译成易理解的标记这种操作,而应该将翻译内容存放在数据库中,以便使各种用户不受其报表生成工具的限制而得到一致的翻译内容。如果用户要存取可以针对一天的情况进行分析(例如,在下班高峰的傍晚区间或者商场的第三班时间段内)的事务时间,就应该通过和事实表相连接的一个单独日历维度表来处理它。日期和时间几乎是完全不相关的。如果将这两个维度组合在一起,日期维度表就会增大许多。于是,加入在同一个表(或者支架)中按分钟对时间进行处理的话,那么一个只有3650行就可以对10年的数据进行处理的简洁维度,一下子将扩展到5256000行。比较起来,显然更应该创建一个3650行的日期维度表和

11、一个分开的按分钟为每天记录1440行的维度表。产品维度表产品维度描述杂货店的每个SKU。虽然典型的连锁店可能存储60000个SKUs,但在考虑跨连锁店和涵盖不再销售的历史产品的不同商品规划方案时,产品维度可能至少需要150000行乃至多达百万行。产品维度几乎总是起源于操作型产品主文件。大多数零售商在总部对其产品主文件进行管理,并经常不间断地将文件的一部分下载到各商店的POS系统中。总部负责为每个由货物包装商创建的新UPC定义合适的产品主记录(以及具有唯一性的SKU),同时还负责定义将SKUs分配给诸如面包类食品、肉食品和农产品这些项目的规则。在产品主文件发生改变的任何时候,都要从主文件抽取数据

12、并存入产品维度表中。产品主文件的一个重要作用,就是维护每个SKU的许多描述属性。商品体系就是一组重要的属性。通常,各类SKUs堆积形成商标,商标堆积形成分类,而分类则堆积形成部门,其中的每个关系都是多对一的。这个商品体系和其他属性的详细情况如下图所示。对于每个SKU而言,所有层次的商品体系都是经过良好定义的,并且像SKU描述之类的一些属性还具有唯一性。在这种情况下,SKU描述项至少有150000个不同的取值。在另一个极端,可能出现部门属性只有50个不同取值的情况。于是平均下来,部门属性的每个唯一值会有3000个重复项。不过没什么关系!没有必要考虑将这些重复值分成另一个规范化表而节省一点空间。须

13、知,维度表的空间需求同事实表的空间考量相比显得多么不起眼。产品维度表的许多属性并不是商品体系的组成部分。例如,包装类型属性就极可能有瓶装、袋装、盒装或者其他类型。任何部门的任何产品都可能去这些值的一个。将这类属性的约束和商品体系属性方面的约束进行组合,具有非常积极的意义。座位例子,可以看一下袋装谷物分类中的所有SKUs。换个角度来考虑这个问题,可以对维度属性进行顺次浏览看它们是否属于商品体系,或者可以使用属性进行向上或者向下探查而看他们是否属于商品体系。另外,甚至可以在产品维度表中明确地包含一个以上的体系。一个合理的产品维度表可以拥有50或者更多的描述属性。每个属性都是约束和构造行标题的丰富来

14、源。从这个意义上讲,如此费心劳神除了得到能够提供更多信息的行标题外,别无所求。还是看看已经按部门针对销售额和销售量进行了汇总的简单报表吧:如果进行向下探查,实际上可以从产品维度将诸如商标这样的任何其他属性拖入紧接部门的下一级报表,并且能够自动探查到次一级的细节层次。在商品体系内,一个典型的向下探查结果和如下情形非常类似:或者可以按脂肪含量属性向下探查,即使它不在商品堆积体系之列也是如此。前面煞费苦心地给出探查例子的目的就是为了得出座位设计原则来表述的观点。商店维度表商店维度描述杂货连锁店的每个商场。和每个大型杂货店业务中基本上都能够得到的产品主文件不同,并不能保证存在可用的商场综合主文件。每当

15、有新的或者变化的产品出现时,就需要将产品主文件下载到各个商场。不过,单个POS系统并不需要一个商场主文件。IT人员必须经常性地对来自总部多个操作源的商场维度必要分量进行装配。促销维度表促销维度使方案中可能最令人感兴趣的维度。促销维度描述产品销售的促销情形。促销情形包括临时降价、廊端展销、报纸广告和优惠券等。因为这个维度用来描述被认为会使产品销售发生变化的因素而通常被叫做因果维度。总部和商场的经理都对一个促销活动是否有效感兴趣。促销由下列一至多个因素进行评判:促销活动的销售是否在促销区间出现增长。这叫做上扬除去促销区间(过渡时间)内销售方面的增长外,促销活动的销售是否就在促销进行之前或者随后表现

16、出减少的情形。是否发生促销产品的销售出现增长,而临近货架上的其他产品销售却呈现出相应的降低情况在考虑了促销之前、区间和其后的时间段因素(市场生长)的情况下,促销类别中所有产品的销售是否都经历了一个实际的总体增长?促销是否盈利?对销售产生潜在影响的因果情形,并不需要由POS系统进行直接的跟踪。这种事务系统要保持对降价和削价的跟踪。通常优惠券的使用也由该事务进行捕获,因为顾客在购买商品时要么出示优惠券,要么不这么做。广告和商场的展示可能需要和其他源头进行连结,各种可能的因果情形都是高度相关的。临时降价通常和广告或廊端展销联系在一起,优惠券通常也和广告相关联。因为这个原因,在促销维度为促销出现的每种组合都创建一行显得很有意义。在一年的进程中,可能出现1000个广告,5000次临时降价和1000次廊端展销,但可能只有10000个这三种手段的组合能够影响任何特定的产品。例如,在某给定维度中,大多数商场都会同时运作所有三种机制,而只有少数几个商场不进行廊端展销。在这种情况下,就需要两个单独的促销情形行,一个用于通常的降价并外加广告和展示,而一个用于降价并外加单纯的广告。维度建模陷阱1、维度规范化,即雪花模型。这样设计虽然节约了空间,但是会使系统复杂性大大上升,不利于程序员开发系统。2、使用过多维度。例如将日期拆分为,年维度表,月维度表,日维度表,这样设计大大提升系统复杂性,也应该避免。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1