ImageVerifierCode 换一换
格式:DOCX , 页数:6 ,大小:20.67KB ,
资源ID:6879991      下载积分:12 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/6879991.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据仓库模型的设计说明.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

数据仓库模型的设计说明.docx

1、数据仓库模型的设计说明2.5数据仓库模型的设计数据仓库模型的设计大体上可以分为以下三个层面的设计151:.概念模型设计;逻辑模型设计;物理模型设计;下面就从这三个层面分别介绍数据仓库模型的设计。2.5.1概念模型设计进行概念模型设计所要完成的工作是:界定系统边界确定主要的主题域及其容概念模型设计的成果是,在原有的数据库的 基础上建立了一个较为稳固的概念模型。因为数据仓库是对原有数据库系统中 的数据进行集成和重组而形成的数据集合,所以数据仓库的概念模型设计,首 先要对原有数据库系统加以分析理解,看在原有的数据库系统中“有什 么”、“怎样组织的”和“如何分布的”等,然后再来考虑应当如何建立数据 仓

2、库系统的概念模型。一方面,通过原有的数据库的设计文档以及在数据字典 中的数据库矢系模式,可以对企业现有的数据库中的容有一个完整而清晰的认 识;另一方面,数据仓库的概念模型是面向企业全局建立的,它为集成来自 各个面向应用的数据库的数据提供了统一的概念视图。概念模型的设计是在较高的抽象层次上的设计,因此建立概念模型时不用 考虑具体技术条件的限制。1 界定系统的边界数据仓库是面向决策分析的数据库,我们无法在数据仓 库设计的最初就得到详细而明确的需求,但是一些基本的方向性的需求还是摆 在了设计人员的面前:.要做的决策类型有哪些?.决策者感兴趣的是什么问题?这些问题需要什么样的信息?要得到这些信息需要包

3、含原有数据库系统的哪些部分的数据?这样,我 们可以划定一个当前的大致的系统边界,集中精力进行最需要的部分的开发。因而,从某种意义上讲,界定系统边界的工作也可以看作是数据仓库系统设计 的需求分析,因为它将决策者的数据分析的需求用系统边界的定义形式反映出 来。2,确定主要的主题域在这一步中,要确定系统所包含的主题域,然后对 每个主题域的容进行较明确数据仓库建模技术在电信行业中的应用的描述,描 述的容包括:主题域的公共码键;.主题域之间的联系:充分代表主题的属性组。2.5.2逻辑模型设计逻辑建模是数据仓库实施中的重要一环,因为它能直 接反映出业务部门的需求,同时对系统的物理实施有着重要的指导作用。在

4、这 一步里进行的工作主要有:分析主题域,确定当前要装载的主题;确定粒度层次划分;确定数据分割策略;矢系模式定义;记录系统定义逻辑模型设计的成果是,对每个当前要装载的主题的逻辑 实现进行定义,并将相尖容记录在数据仓库的元数据中,包括:适当的粒度划分;.合理的数据分割策略;适当的表划分;定义合适的数据来源等。I 分析主题域在概念模型设计中,我们确定了几个基本的主题域,但是,数据仓库的设 计方法是一个逐步求精的过程,在进行设计时,一般是一次一个主题或一次若 干个主题地逐步完成的。所以,我们必须对概念模型设计步骤中确定的几个基本主题域进行分析,一并选择首先要实施的主题 域。选择第一个主题域所要考 虑的

5、是它要足够大,以便使得该主题域能 建设成为一个可应用的系统;它还要 足够小,以便于开发和较快地实施。如果所选择的主题域很大并且很复杂,我 们甚至可以针对它的一个有意义的子集来进行开发。在每一次的反馈过程中, 都要进行主题域的分析。乙粒度层次划分数据仓库逻辑设计中要解决的一个重要问题是决定数据仓 库的粒度划分层次,粒度层次划分适当与否直接影响到数据仓库中的数据量和 所适合的查询类型。确定数据仓库的粒度划分,可以使用在粒度划分一节中介 绍的方法,通过估算数据行数和所需的DASD数,来确定是采用单一粒度还 是多重粒度,以及粒度划分的层次。3确定数据分割策略在这一步里,要选择适当的数据分割的标准,一般

6、要 考虑以下几方面因素:数据量而非记录行数)、数据分析处理的实际情况、 简单易行以及粒度划分策略等。数据量的大小是决定是否进行数据分割和如何 分割的主要因素;数据分析处理的要选择数据分割标准的一个主要依据,因 为数据分割是跟数据分析处理的对象紧密联系的;我们还要考虑到所选择的数 据分割标准应是自然的、易于实施的:同时也要考虑数据分割的标准与粒度划 分层次是适应的。4矢系模式定义数据仓库的每个主题都是由多个表来实现的,这些表之间 依靠主题的公共码键联系在一起,形成一个完整的主题。在概念模型设计时, 我们就确定了数据仓库的基本主题,并对每个主题的公共码键、基本容等做了 描述在这一步里,我们将要对选

7、定_的当前实施的主题进行模式划分,形成多 个表,并确定各个表的尖系模式。用尖系型数据库来实现数据仓库信息模型时,目前较常用的两种建 模方法是所谓的第三式(3NF,即Third Normal Form)和星型模式 Star-Schem司,我们将重点讨论两种方法的特点和它们在数据仓库系统中的 适用场合。4.1什么是第三式式是数据库逻辑模型设计的基本理论,一个尖系模型可 以从第一式到第五式进行无损分解,这个过程也称为规化(Normalize) 在数 据仓库的模型设计中目前一般采用第三式,它有非常严格的数学定义。如果从 其表达的含义来看,一个符合第三式的尖系必须具有以下三个条件:1 每个属性的值唯一,

8、不具有多义性;2.每个非主属性必须完全依赖于整个主键,而非主键的一部分 ;3.每个非主属性不能依赖于其他尖系中的属性,团为这样的话,这种属 性应该归到其他矢系中去。我们可以看到,第三式的定义基本上是围绕主键与非主属性之间的尖系而 作出的。如果只满足第一个条件,则称为第一式;如果满足前面两个条件, 则称为第二式,依此类推。因此,各级式是向下兼容的。4.2什么是星型模式星型模式是一种多维的数据矢系,它由一个事实表(Fact Table)和一组 维表(Dimension Table)组成。每个维表都有一个维作为主键,所 有这些维则 组合成事实表的主键,换言之,事实表主键的每个元素都是维表的外键。事实

9、 表的非主属性称为事实(Fact),它们一般都是数值或其他可以进行计算的数 据;而维大都是文字、时间等类型的数据。它也是与星型模式类似还有一种业界提的比较多的设计方式是雪花模式,一种在尖系数据库中实现多维数据尖系的方式,与星型模式相区别的是它的维 表结构与星型模式不同。星型模式中同一维度的不同层次 位于一维表中,维 表由唯一主键和事实表尖连;雪花模式中同一维度中的不同层次位于不同的层 次表中,最低层次表与事实表矢连,各个层次再 分别和比自己高一级的层次表 矢连。因为星型模式查询效率要比雪花模式高的多,所以比较多的是采用 星型模式设计多维数据尖系。4.3第三式和星型模式在数据仓库中的应用大多数人

10、在设计中央数据仓库 的逻辑模型时,都按照第三式来设计而在进行物理实施时,则由于数据库引擎 的限制,不得不对逻辑模型进行不规处理(De-Normalize),以提高系统的响 应速度,这当然是以增加 系统的复杂度、维护工作量、磁盘使用比率(指原 始数据与磁盘大小的比率)并降低系统执行动态查询能力为代价的。根据数据仓 库的测试标准TPC-D规,在数据仓库系统中,对数据库引擎最大的挑战主要是 这样几种操作:多表连接、表的累计、数据排序、大量数据的扫描。下面列出 了 一些DBMS在实际系统中针对这些困难所采用的折衷处理办法:1、 如何避免多表连接:在设计模型时对表进行合并,即所谓的预连接 (Pre-Jo

11、in)。当数据规模小时,也可以采用星型模式,这样能提高系统速度, 但增加了数据冗余量。2、 如何避免表的累计:在模型中增加有矢小计数据(Summarized Data)的项。这样也增加了数据冗余,而且如果某项问题不在预建的累计项, 需临时调整。3、 如何避免数据排序:对数据事先排序。但随着数据仓库系统的运 行,不断有新的数据加入,数据库管理员的工作将大大增加。大量的时间将用 于对系统的整理,系统的可用性随之降低。4、 如何避免大表扫描:通过使用大量的索引,可以避免对大量数据进行 扫描。但这也将增加系统的复杂程度,降低系统进行动态查询的能力。这些措施大都属于不规处理。根据上面的讨论,当把规的系统

12、逻辑模型进 行物理实施时,由于数据库引擎的限制,常常需要进行不规处理。举例来 说,当系统数据量很小,比如只有几个GB时,进行多表连接之类复杂查询的 响应时间是可以忍受的。但是设想一下加果数据量扩展到 很大,到几百GB, 甚至上TB,个表中的记录往往有几百万、几千万,甚至更多,这时进行多表 连接这样的复杂查询,响应时间长得不可忍受。这时就有必要把几个表合并, 尽量减少表的连接操作。当然,不规处理的程度取决于数据库引擎的并行处理能力。数据仓库建设者在选择数据 库引擎时,除了参考一些相尖的基准测试结 果外,最好是能根据自己的实际情况设计测试方案,从几个数据库系统中选择 最适合自己企业决策 要求的一种

13、。不规化处理虽然是提高系统性能的一种有效手段,但是由于中央数 据仓库 的数据模型反映了整个企业的业务运行规律,在这里进行不规处理容易影响整 个系统,不利于今后的扩展。而且不规处理产生的数据冗余将使整个系统的数 据量迅速增加,这将增加DBA的工作量和系统投资。因此,当系统性能下降 而进行不规处理时,比较好的办法是选择问题较集中的部门数据集市实施这种 措施。这样既能有效地改善系统性能汉不至于影响整个系统。在国外一些成功的大型企业级数据仓库案例 中,基本上都是采用这种方法。那么,在中央数据仓库中是否可以采用星型模式来进行模型设计呢我们知 道,星型模式中有一个事实表和一组维表,我们可以把事实看成是各个

14、维交叉 点上的值。例如,一个汽车厂在研究其销售情况时可以考察汽车的型号、颜 色、代理商等多种因素,这些因素就是维,而销售量就是事实。这种多维模型 能迅速给出基于各个维的报表,这些维必须事先确定。星型模式之所以速度快,在于针对各个维作了大量的预处理,如按照维进 行预先的统计、分类、排序等。在上面的例子中,就是按照汽车的型号、颜 色、代理商进行预先的销售量统计。因此,在星型模式设计的数据仓库中,作 报表的速度虽然很快,但由于存在大量的预处理,其建模过程相对来说就比较 慢。当业务问题发生变化,原来的维不能满足要求时,需要增加新的维。由于 事实表的主键由所有维表的主键组成,这种维的变动将是非常复杂、非

15、常耗时 的。星型模式另一个显著的缺点是数据的冗余量很大。综合这些讨论,不难得 出结论,星型模式比较适合于预先定义好的问题加需要产生大量报表的场合; 而不适合于动态查询多、系统可扩展能力要求高或者数据量很大的场合。因 此,星型模式在一些要求大量报表的部门数据集市中有较多的应用。4. 4两种模式的比较上面讨论了数据仓库逻辑模型设计中常用的两种方法在数据仓库的应用 环境中,主要有两种负载:一种是回答重复性的问题;另一种是回答交互性的 问题。动态查询具有较明显的交互性特征,即在一个问题答案的基础上进行进 一步的探索,这种交互过程常称为数据挖掘(Data Mining)或者知识探索 (Knowledge

16、 Discovery)。对于以第一种负载为 主的部门数据集市,当数据量 不大、报表较固定时可以采用星型模式;对于中央数据仓库,考虑到系统的可 扩展能力、投资成本和易于管理等 多种因素,最好采用第三式。或者说对于数 据仓库中当前详细级别的数据和轻度综合的数据可以采用第三式的方式设计, 对于高度综合的数据可以采用星型模式设计。2.5.3物理模型设计这一步所做的工作是确定数据的存储结构,确定索引 策略5确定数据存放位置,确定存储分配。确定数据仓库实现的物理模型,要求设计人员必须做到以下几方面要全 面了解所选用的数据库管理系统,特别是存储结构和存取方法。了解数据环境、数据的使用频度、使用方式、数据规模

17、以及响应时 间要求 等,这些是对时间和空间效率进行平衡和优化的重要依据。了解外部存储设备的特性,如分块原则,块大小的规定,设备的I/O特性等。1 确定数据的存储结构一个数据库管理系统往往都提供多种存储结构供设 计人员选用,不同的存储结构有不同的实现方式,各有各的适用围和优缺点, 设计人员在选择合适的存储结构时应该权衡三个方面的主要因素:存取时间、 存储空间利用率和维护代价。2确定索引策略数据仓库的数据量很大,因而需要对数据的存取路径进行 仔细的设计和选择。由于数据仓库的数据都是不常更新的,因而可以设计多种 多样的索引结构来提高数据存取效率。在数据仓库中,设计人员可以考虑对各个数据存储建立专用的

18、、复杂的索引,以获得最高的存取效率,因为在数据仓库中的数据是不常更新的,也就是 说每个数据存储是稳定的,因而虽然建立专用的、复杂的索引有一定的代价, 但一旦建立就几乎不需维护索引的代价。3确定数据存放位置我们说过,同一个主题的数据并不要求存放在相同的 介质上。在物理设计时,我们常常要按数据的重要程度、使用频率以及对响应 时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。重要 程度高、经常存取并对响应时间要求高的数据就存放在高速存储设备上,如硬 盘;存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上,如 磁盘或磁带。数据存放位置的确定还要考虑到其它一些方法,如:决定是否进行合并 表;是否对一些经常性的应用建立数据序列;对常用的、不常修改的表或属性 是否冗余存储。如果采用了这些技术,就要记入元数据。4确定存储分配许多数据库管理系统提供了一些存储分配的参数供设计者 进行物理优化处理,如:块的尺寸、缓冲区的大小和个数等等,它们都要在 物理设计时确定。这同创建数据库系统时的考虑是一样的。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1