BI技术方案Word文档格式.doc

上传人:b****1 文档编号:13062387 上传时间:2022-10-04 格式:DOC 页数:35 大小:1.72MB
下载 相关 举报
BI技术方案Word文档格式.doc_第1页
第1页 / 共35页
BI技术方案Word文档格式.doc_第2页
第2页 / 共35页
BI技术方案Word文档格式.doc_第3页
第3页 / 共35页
BI技术方案Word文档格式.doc_第4页
第4页 / 共35页
BI技术方案Word文档格式.doc_第5页
第5页 / 共35页
点击查看更多>>
下载资源
资源描述

BI技术方案Word文档格式.doc

《BI技术方案Word文档格式.doc》由会员分享,可在线阅读,更多相关《BI技术方案Word文档格式.doc(35页珍藏版)》请在冰豆网上搜索。

BI技术方案Word文档格式.doc

3.2 设计规范 5

3.3 设计阶段划分 6

3.4 可伸缩性 7

3.5 数据集市 8

4 ETL过程管理 8

4.1 开发 9

4.2 运行 13

4.3 预警 13

5 OLAP设计 13

5.1 最佳实践 14

5.2 向下兼容 17

5.3 权限管理 18

5.4 接口 19

6 数据挖掘模型的开发及应用 19

6.1 过程及方法 19

6.2 挖掘分析示例 22

6.3 接口 25

7 分析结果展现 25

7.1 多维透视分析 25

7.2 报表 27

7.3 挖掘分析结果展现 29

8 门户平台 30

9 软硬件配置 31

9.1 硬件环境 31

9.2 软件环境 31

地址:

绵阳市高新区绵兴东路35号(621000)

电话:

010-2417006传真:

010-2416541

网址:

E-mail:

service@

1前言

1.1目的

1.2读者对象

1.3定义、缩略语

1.4参考资料

2方案概述

2.1架构设计

系统整体架构采用以微软SQLServer2008为中心的技术架构,集成ETL技术、OLAP技术、报表技术、数据挖掘技术和门户技术,有效地保障了数据的时效性、准确性和易用性。

逻辑架构图如下:

系统架构图

 

产品架构图

2.2软件列表

1.数据仓库及ODS数据库:

SQLServer2008关系型数据库

2.OLAP服务:

SQLServer2008的分析服务(AnalysisService)

3.ETL工具:

SQLServer2008的SSIS(SQLServerIntegrationService)

4.前端报表展现工具:

SQLServer2008的RS(ReportingService)、OWC和Office2003。

5.数据挖掘:

6.门户:

SharePointServer2010

2.3域控服务

采用AD(域控,下同)为HISBI系统以及医院未来进一步信息建设提供强大的帐户以及权限统一管理的基础框架服务。

HISBI系统采用AD的帐户集成存储管理的模式为报表权限,数据访问权限提供统一的管理模式。

大大简化了帐户及权限的管理设置。

为程序的扩展提供良好的基础。

结合AD,为MOSS平台提供文档管理权限控制。

MOSS平台可通过AD的帐户统一的管理权限,每个用户都可以自行控制其所属文件的访问权限。

2.4邮件服务

采用开源免费的邮箱系统,该邮箱系统可结合AD服务提供完善统一的邮箱帐户信息。

并且支持多种协议访问,可使用Foxmail,Outlook等免费或者收费软件访问邮箱系统。

该邮箱服务产品是开源的,意味着可以通过院信息化平台开发人员自行拓展邮箱功能,也为邮箱的安全性提供进一步的支持。

该邮箱产品支持多种后台数据库产品,例如SQLServer,DB2,Oracle,MySQL.此项为数据库产品的选型提供更加灵活的方式。

2.5协同办公平台

基于上述域控管理和邮件服务功能,安普莱软件的BI系统可以和海军总医院现有办公平台无缝集成,我们也可以帮助海军总医院搭建企业级的协同办公平台,为海军总医院提供完善的办公平台服务,简化办公流程复杂度,提高办公协同的工作效率。

3数据仓库设计

SQLServer2008基于SQLServer2008的强大功能之上,提供了一个完整的数据管理和分析解决方案,它将会给不同规模的组织带来帮助:

1.构建、部署和管理企业应用程序,使其更加安全、伸缩性更强和更可靠。

2.降低开发和支持数据库应用程序的复杂性,实现了IT生产力的最大化。

3.能够在多个平台、应用程序和设备之间共享数据,更易于连接内部和外部系统。

4.在不牺牲性能、可用性、可伸缩性或安全性的前提下有效控制成本。

数据仓库将依据于数据仓库的标准规则创建,以确保其具有良好的可扩展性。

数据仓库在项目中起到了呈上启下的作用,对其它部分的影响很大,所以数据仓库设计非常重要。

3.1设计原则

1. 

第三范式

第三范式的基本特征是非主键属性只依赖于主键属性。

基于第三范式的数据库表设计具有很多优点:

1)消除了冗余数据,节省了磁盘存储空间;

2)有良好的数据完整性限制,即基于主外键的参照完整限制和基于主键的实体完整性限制,这使得数据容易维护,也容易移植和更新;

3)数据的可逆性好,在做连接(Join)查询或者合并表时不遗漏、也不重复;

4)因为消除了冗余数据(冗余列),在查询(Select)时每个数据页存的数据行就多,这样就有效地减少了逻辑I/O,每个Cash存的页面就多,也减少物理I/O;

5)对大多数事务(Transaction)而言,运行性能好;

6)物理设计(PhysicalDesign)的机动性较大,能满足日益增长的用户需求。

第三范式也存在一定的缺点,在缺乏足够的技术力量和数据仓库建设经验的情况下,按照这种模型设计的系统建设过程长,周期长,难度大,风险大,容易失败。

由于采用了第三范式,数据存储冗余度低、数据组织结构性好、反映的业务主题能力强以及具有较好的业务扩展性等,但同时会存在大量的数据表,表之间的联系比较多,也比较复杂,跨表操作多,查询效率较低,对数据仓库系统的硬件性能要求高等问题。

另一方面,数据模式复杂,不容易理解,对于一般计算机用户来说,增加了理解数据表的困难。

2. 

多维模型

多维模型在一定程度上降低了范式化,以分析主题为基本框架来组织数据。

以维模型开发分析主题,这样能够快速实施,迅速获得投资回报,在取得实际效果的基础上,再逐渐增加应用主题,循序渐进,积累经验,逐步建成企业级数据仓库。

这也可以说是采用总线型结构先建立数据集市,使所有的数据集市具有统一的维定义和一致的业务事实,这种方法融合了自下而上和自上而下两种设计方法的思想。

这种模型的优点是查询速度快,做报表也快;

缺点是由于存在大量的预处理,其建模过程相对来说就比较慢。

当业务问题发生变化,原来的维不能满足要求时,需要增加新的维。

由于事实表的主码由所有维表的主码组成,所以这种维的变动将是非常复杂、非常耗时的。

而且信息不够全面、系统欠灵活、数据冗余多。

综述,在我们的数据仓库设计中,将结合两种设计思想,取长补短。

数据仓库的整体设计将主要依据于第三范式,以确保系统的伸缩性和可扩展性,同时在设计时也会参考多维模型的思想,使数据仓库更利于数据分析。

在数据集市中,我们将主要依据多维模型原则进行建设,从而确保数据集市更易于理解以及更利于与OLAP系统集成。

3.2设计规范

维度表设计规范

维度表包含内容:

1)主键:

整型,不可重复,唯一标识每一条记录,不包含任何商业信息

2)代理键:

传统意义的主键,包含相应的商业信息,如员工编号。

3)名称:

数据分析时显示的内容,如员工名称等;

4)排序键:

自定义序列

5)自定义汇总:

利用自定义表达式进行特定的数据运算;

6)父键:

父子维度中用来标识主键的上级;

7)一元运算符:

在父子维度中用来定义上下级的汇总关系;

8)属性:

属性包含有关维度的信息。

例如,Customer维度可以包含Name、PhoneNumber、Gender、City、State等属性。

属性通过属性层次结构显示出来。

维度中的属性层次结构同时包含可选的(All)级别和该属性的非重复成员。

例如,Customer维度可以包含具有两个级别的Name属性层次结构:

(All)级别以及为每个姓名包含一个成员的级别。

父子层次结构的处理方式有所不同。

属性不一定要具有属性层次结构。

如果未创建属性层次结构,多维数据集的空间将与属性无关。

例如,通常不会为PhoneNumber属性创建属性层次结构,因为通常不会按电话号码导航维度。

如果没有为属性创建属性层次结构,则该属性可用作成员属性,但不能用作用户层次结构中的级别。

属性可以通过前端展示软件进行展现。

9)属性层次结构:

属性层次结构完全定义多维数据集的空间。

多维数据集是由多维数据集的属性层次结构的交集产生的多维空间。

10) 

用户层次结构:

用户层次结构由多个属性层次结构构成,用于实现特的上下级关系,用户层次结构不会影响多维数据集的空间。

事实表设计规范

事实表包含内容:

1)外键:

外键将与各维度表的主键相关联,从而确保数据的完整性和正确性。

2)量度:

量度是可以进行聚合的,一般为数值型字段。

所有的量度都需要对应唯一的聚合函数(除Count和DistinctCount)。

3)其他钻透用字段:

此类字段不参与聚合,只有特定的查询和钻透才会涉及此类字段。

3. 

映射表设计规范

映射表包含内容:

主键唯一标识记录;

2)外键:

与其他表进行关联。

3.3设计阶段划分

数据仓库模型设计主要分三个阶段:

1、概念设计

2、逻辑设计

3、详细设计

并分别产生三类设计模型

1、主题域模型

2、业务数据模型

3、物理模型

数据仓库模型设计采用迭代式开发,这一点也符合数据仓库系统迭代开发的特点。

它具有较好的灵活性和易变性,适应于主题不明确或不确定的需求。

1.概念设计

数据仓库是面向主题来组织数据,一个数据仓库有若干个主题,而每个主题又有一个数据集合体做支撑,这个数据集合称为主题域。

概念设计的中心工作是在需求分析基础上设计的主题域模型。

主体域模型是客观到主观之间的桥梁,是与硬件环境、软件选择无关的数据抽象模型,是为下一步建立业务数据模型、物理模型服务的概念性工具。

主题域具有两个特性:

1)独立性,即主题域具有明确的边界与独立的内涵,虽然主题间可以有交叉,但不影响其独立性。

2)完备性,即每个主题的分析要求所需的数据均应能在主题域中得到。

采用概念数据模型设计就是要设计主题域的数据结构。

2.逻辑设计

逻辑设计的中心工作是设计业务数据模型,业务数据模型是用具体的软件结构来实现概念数据模型。

目前数据仓库一般是建立在关系数据库基础上,因此数据仓库的设计中采用的业务数据模型就是关系模型。

逻辑设计设计到的知识点包括:

1)业务数据模型设计的建模对象应包含实体、属性、关键字和联系。

2)业务数据模型设计应该遵守规范化准则:

即第三范式设计准则。

3)业务数据模型的ER图表示法。

3.详细设计

物理模型是从业务数据模型创建而来的,建立物理模型

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经管营销 > 公共行政管理

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1