数据仓库系统设计说明书.docx
《数据仓库系统设计说明书.docx》由会员分享,可在线阅读,更多相关《数据仓库系统设计说明书.docx(13页珍藏版)》请在冰豆网上搜索。
数据仓库系统设计说明书
归一大数据平台
数据仓库
系统设计说明书
件控制
档编号
版本号
分册名称
第册/共册
总页数
正文
附录
编制
审批
生效日期
修改变更记录:
更改条款及内容
更改人
审批人
更改日期
创建文档
阎飞
谢益武
2015-11-5
编写指南:
本模板力图给出系统设计阶段可能包括的基本信息,重点在于和需求分析文档相联系。
描述系统整体情况。
如果某个章节在项目或当前阶段中无法描述,则可保留其标题,注明“不适用”;如果需要对本模板的个别章节详细描述,也可将其形成单独的文档,成为本文档附件。
若文档中的某个章节已经在其他项目文档中加以描述,可保留标题,注明“参见(文档编号)(文档名称)(条款)”。
形成正式文档后须删除斜体字内容。
0报告编制要求
这里列出本系统设计报告编制的经验性要求,须由系统设计人员参照其进行裁剪以确定本次报告编制的相关规定。
序号
要求
1
对各种结构图要求采用Visio绘制。
2
软件体系结构图通常包括:
子系统实体、子系统间数据流、相关说明。
3
软件结构图通常包括:
模块实体、模块间数据流、数据存储、相关说明。
4
运行体系图包括:
进程实体、启动顺序、并发性、数据交换。
5
物理结构图包括:
物理节点实体、物理节点分布、物理节点描述、物理节点间相互关系。
6
对数据库结构的描述要求采用结构图方式描述,而非采用过多表格。
7
数据库结构图主要包括:
表实体、表间关系、主要字段、相关说明四部分。
8
对于平台性产品,要求有系统层次的划分图。
9
通常要隔离应用对数据库的直接访问。
1引言
1.1文档编制目的
Ø指导开发人员进行后期的开发工作;
Ø指导测试人员进行解决方案级的系统测试;
1.2背景
叙述系统设计阶段的目标、作用范围以及其他应向读者说明的理解本报告所需的背景,如与公司其它软件之间的联系等。
1.3词汇表
列出本系统设计说明书中专门术语的定义、英文缩写词的原词组和意义、项目组内达成一致意见的专用词汇,同时要求继承全部的先前过程中定义过的词汇。
词汇名称
词汇含义
备注
备注中注明该词汇的来源,或有其他更详细的解释的文档位置;以及对该词汇的其他叫法。
1.4参考资料
需求规格说明书
系统架构设计说明书
数据仓库命名规范.docx
2总体设计
2.1软件体系结构
2.2系统物理结构
描述使用本软件系统典型用户的物理设备分布图及设备上相应基本软件配置。
软件环境包括:
操作系统、数据库、以及其它支撑软件;硬件环境包括:
主机类型、网络类型、存储器容量、其它特殊设备。
要求:
1)尽量为系统的每个物理节点定义一个和功能相关的名称,名称的含义在词汇表中说明;
2)结合运行体系图中提到的“程序”,将相关的“运行程序”分布到各个物理节点中;
3)采用网络拓扑图表示。
2.3技术路线
描述本软件系统在实现过程中所采用的技术路线、方法。
对较新的技术给予详细的阐述及必要的说明,在可能的情况下给出相应的技术参考资料。
3系统接口设计
3.1用户接口
无接口。
4子系统/模块设计
4.1数据仓库
4.1.1ODL(操作数据层)设计
4.1.1.1功能描述
实现从外部系统导入数据到大数据平台,ODL层数据与数据源保持一致.
Ø同步方式包括:
●增量同步
●全量同步
Ø数据源类型包括:
●数据库
4.1.1.2业务流程
Ø流程图:
Ø流程说明:
1.调度系统定时启动数据同步作业.
2.作业读取数据同步脚本,远程调用数据库接口.
3.数据库接口返回远程调用结果.
4.接收数据库接口返回的数据集,装载到ODL本地表.
Ø异常处理:
调度系统捕获异常并处理
Ø日志说明:
由调度系统负责记录作业(正常和异常)日志.
Ø数据源说明:
1.通过视图封装需要同步的物理表,与业务进行隔离.当物理表发生变动,尽量通过修改视图兼容.
2.数据同步程序访问数据源视图.
Ø数据粒度说明:
与数据源保持完全一致。
4.1.1.3作业设计
详见<<数据同步列表.xlsx>>
4.1.2BDL(事物层)设计
4.1.2.1功能描述
BDL层对ODL数据进行清洗、转换,实现统一维度的数据整合。
4.1.2.2业务流程
Ø流程图:
Ø流程说明:
1.调度系统定时启动数据同步作业.
2.作业读取ODL表,进行数据清洗,对不符合规则的数据进行丢弃或转换.
3.将转换后的结果数据装载到BDL本地表.
Ø异常处理:
调度系统捕获异常并处理.
Ø日志说明:
由调度系统负责记录作业(正常和异常)日志.
Ø数据粒度说明:
与ODL保持一致.
4.1.2.3作业设计
详见<<数据仓库转换文档.xlsx>>
4.1.3IDL(宽表层)设计
4.1.3.1功能描述
在IDL层对BDL事实表按主题进行合并,形成一次写多次读的宽表,降低系统整体开销.并实际根据需要进行用户级粒度的聚合,进一步提高查询效率.
4.1.3.2业务流程
Ø流程图:
Ø流程说明:
1.调度系统定时启动数据同步作业.
2.按主题读取相关BDL表,进行关联,尽量补齐维度字段,生成事物级宽表.
3.按用户级粒度聚合,生成用户级宽表.
Ø异常处理:
调度系统捕获异常并处理
Ø日志说明:
由调度系统负责记录作业(正常和异常)日志.
Ø数据粒度说明:
1.事物级粒度.
2.用户级粒度.
4.1.3.3作业设计
详见<<数据仓库转换文档.xlsx>>
4.1.4PDL(应用层)设计
4.1.4.1功能描述
PDL层按业务需求,IDL宽表汇总查询生成各种结果表.
4.1.4.2业务流程
Ø流程图:
Ø流程说明:
1.调度系统定时启动数据同步作业.
2.读取IDL宽表,按业务需求进行聚合,筛选,生成指标数据.
3.结果写入PDL层结果表.
Ø异常处理:
调度系统捕获异常并处理
Ø日志说明:
由调度系统负责记录作业(正常和异常)日志.
Ø数据粒度说明:
1.按业务需求的各种粒度.
4.1.4.3业务账数据统计设计
业务账数据统计如下特点:
Ø业务账指标由多个交易类型代码组合,一个交易类型代码对应多个业务指标,例如:
业务账指标A交易类型代码{M00010,M00001,M00002,M00003,…}
业务账指标B交易类型代码{M00010,M00011,M00012,M00013,…}
业务账指标C交易类型代码{M00000,M00011,M00002,M00023,…}
Ø随需求也业务变化,业务账指标及其交易类型代码也会变化.
Ø每个业务账指标统计算法相同,只是其交易类型代码组合不同.
Ø每个业务账指标可能会被多个报表调用,例如“积分总金额”
针对以上特性,通过抽象的方法,设计对指标(交易类型代码)配置化管理、运算统一化技术的功能,减少系统维护成本。
4.1.4.4作业设计
详见<<数据仓库转换文档.xlsx>>
4.1.5PUB(维度)库设计
4.1.5.1功能描述
采用异步LOOUP方法,主动捕获非法维度数据,经过人工识别生成维度数据.
4.1.5.2业务流程
Ø流程图:
Ø流程说明:
1.调度系统定时启动数据同步作业.
2.异步读取ODL表和维表,对比维度映射表查找是否有不存在的维度数据.
3.如果发现非法维度数据,经过人工识别,写入维度映射表和维度表.
Ø异常处理:
调度系统捕获异常并处理
Ø日志说明:
由调度系统负责记录作业(正常和异常)日志.
4.1.5.3作业设计
详见<<数据仓库转换文档.xlsx>>
4.1.6业务账(数据集市)库
4.1.7数据导出设计
4.1.7.1功能描述
将PDL表和维度导出,同步给mysql库,供统计报表查询使用.
4.1.7.2业务流程
Ø流程说明:
1.调度系统定时启动数据同步作业.
2.读取PDL表和维表,将数据装载到MYSQL库对应的表中.
Ø异常处理:
调度系统捕获异常并处理
Ø日志说明:
由调度系统负责记录作业(正常和异常)日志.
4.1.7.3作业设计
5数据结构与数据库设计
详见<<数据库设计说明书.docx>>
6外部存储结构设计
说明本系统存贮于磁盘等持久性存贮介质,而且不是由数据库管理系统进行管理的数据的组织结构,包括数据名称、用途、每个数据项的标识名、类型和含义,组织结构、访问方法和存储要求。
7故障处理说明
说明本系统所采用的基本错误处理方法和原则,例如:
统一采用C++try-catch错误方法,所有错误最终必须以界面形式向用户说明。
用一览表方式说明各类可能的错误或故障出现时系统的处理方法和补救措施。
8尚需解决的问题
以列表的形式列出在系统设计阶段必须解决但尚未解决的问题。
可对问题进行编号以便进行跟踪。