大数据仓库建设项目实施方案设计建议书V12文档格式.docx

资源描述

大数据仓库建设项目实施方案设计建议书V12文档格式.docx

《大数据仓库建设项目实施方案设计建议书V12文档格式.docx》由会员分享，可在线阅读，更多相关《大数据仓库建设项目实施方案设计建议书V12文档格式.docx（51页珍藏版）》请在冰豆网上搜索。

大数据仓库建设项目实施方案设计建议书V12文档格式.docx

涉及的相关CUBE主要有总帐行项目、应收、应付、成本、采购、库存、销售、考核指标等。

3.部署SAPBO集成EP作为新的数据展现（应用）层，将当前BW中的部分报表展现重构，以BO在原BWCUBE的基础上重新开发，形成SAPBW+BO+EP的商务智能技术平台结构，完成重要历史报表的迁移工作。

4.构建主数据共享平台，扩展数据仓库实现重要主数据归集和储存的业务应用，目前有物料、客户、供应商、人员、岗位、组织机构、制造BOM、订单BOM七类核心业务系统中的主数据需要汇集到BW数据仓库，通过ETL手段完成SAP和非SAP系统的主数据抽取并且在BW中建模，最终实现将数据仓库作为ESB中核心业务系统重要主数据的存储与共享中心，提供相关主数据的接口以供ESB系统调用，以此实现重要主数据的跨平台同步。

第2章南车电气数据仓库建设解决方案详述

2.1.南车电气数据仓库建设整体方案说明

2.1.1.方案概述

本期项目的专业定位是集团企业级核心数据仓库的建设，数据仓库架构的优化及规范体系的建立。

XX软件系统有限公司以ROI（投资回报）为目标，以科技为手段，为南车电气未来的公司绩效管控和决策支持服务构建强壮的基础。

XX公司通过结合中国本地的人力资源和地利之先，综合国内外的先进管理思想和应用实践，愿为南车电气的事业锦上添花。

针对上一章节中我们所理解归纳的南车电气本期项目的需求，本期项目是南车电气信息系统建设的核心部分，整合后的数据仓库将作为将来南车电气整个IT环境中的数据基础平台，建设完成后将为未来的南车电气企业绩效管理信息化系统做准备。

数据仓库系统的建设有其顺序性，且需要大量时间。

数据仓库系统建设过程中，将发现原有的营运系统在作业流程、数据质量、数据标准化的问题，基于此发现，将有助于对营运系统的缺陷进行修复。

BI系统的建设是循序渐进不断完善的，是跟业务一起发展的。

基于上述想法，数据仓库项目的实施，当一期建设完成后，二期、三期将建设更为详细的企业各系统数据模型，增加新的源数据系统，扩展和完善数据主题域，新建更多主题数据集市，涵盖整个南车电气的业务范围。

以SAPBW数据仓库平台为基础，构建未来企业级中心数据仓库，通过SAPBO平台重新进行报表前端展现层的开发，最后通过EP平台发布，形成SAPBW+BO+EP的商务智能技术平台结构。

2.1.2.系统逻辑架构

系统逻辑架构示意图

源系统说明

本次项目的主要数据来源为SAP系统和非SAP系统

数据处理层

数据抽取层的目的是实现将数据源的数据经过抽取，转换后加载到数据管理层中，同时在这个过程中，需要进行任务的调度控制，任务出错处理以及数据质量的检查。

南车电气的项目数据主要通过BW中的ETL技术手段来实现抽取和汇总：

1）SAP数据源通过BW标准的数据抽取方式；

2）非SAP系统建立数据库连接数据源（oracle），同时考虑增量抽取机制。

数据管理层

数据管理层以业务需求为驱动，根据业务不同的主题，建立多个主题模型。

建模以维度建模方法论为指导，结合实际需求，考虑模型的灵活性，扩展性以及性能，为前端展现提供一致、高效的数据。

报表平台层

报表平台采用业界最为优秀的SAPBO产品，可实现固定格式报表,动态报表,移动展现等多种报表。

报表展现层

前端展现SAPEP门户集成BO报表来实现。

2.1.3.系统硬件架构建议方案

本次项目至少需要有两套环境：

开发环境和生产环境，从逻辑上，两套环境必须分开，权限上必须进行区分。

每套环境配置相同数量的服务器，安装相同的操作系统和应用软件，保证环境的一致性。

开发的资源配置可低于生产环境。

由于未来BW将作为南车核心数据仓库使用，众多核心的业务系统中的数据都需要抽取到BW数据库中，我们调研了一部分业务系统的数据总量及增量如下表所示

系统名称

当前数据量

月增量数据

SAPERP

2.1T

40~50G

SAPCRM

115.77G

3~4G

PLM

710G

25~30G

供应商门户（电气加国变）

52.3G

约0.8G

供应商门户（风电）

19.5G

约0.1G

供应商门户（电动）

39.6G

约40M

费用管理系统

35G

1G~1.5G

投资管理系统

46G

预算系统

5.88G

0.1G

上述系统只是部分核心业务系统，其当前的数据总量为3个多T，未来5年的数据增量保守估计为6～10个T。

而BW系统的数据基本上为源系统数据量的1.5~2倍，也就是说在数据仓库服务器的存储设备上至少要准备20T以上才能满足未来5年内的业务需求。

目前南车BW生产环境的数据库服务器存储空间较小，才不到2个T，而且已经使用了80%左右，所以我们建议在服务器存储空间上需要有较大的配置增加。

服务器种类

VCPU

（虚拟CPU）

内存

硬盘空间

性能问题简述

BW开发服务器

（应用+数据库）

20G

50G;

1500G

操作响应慢

EP开发服务器

80G;

300G

BW生产服务器

30G

100G,D:

数据查询等待时间长

BW生产数据库服务器

1800G,D:

400G

EP生产服务器

由上表中我们可以看到几乎每一台服务器都有不同程度的性能问题，但光看配置感觉在CPU和内存上并没有太大问题，所以我们的做法是在项目启动之后，将会派遣资深的SAPBASIS顾问对于相关系统的内存使用率、CPU使用情况、服务器资源分配是否合理等等情况进行评估，找准产生性能问题的原因之后，我们再进行相关的BW软硬件配置调整。

2.1.4.未来建设目标

第一阶段目标：

1.数据获取：

将所有源系统数据通过ETL工具和BW数据抽取汇总到数据仓库；

搭建智慧采集平台以录入的方式对业务系统中无法抽取的指标数据进行统一上报，使其汇总到数据仓库的接口表中存放（重大任务、重点工作的进度、数据调整也将通过智慧采集平台来调整并保存到数据仓库之中）。

2.指标管理：

进行指标管理系统的初步建设，该系统主要功能为设置指标阀值、指标权重、指标字典、梳理指标归口关系，是一个管理维护整个指标体系的强大系统；

由于涉及的功能较为复杂，我们会逐步完善充实该系统，本期的目标是该系统的初步建设，主要开发指标阀值、指标权重维护功能。

3.指标展现：

我们在XX智慧决策平台上实现多个事业部和产业板块的绩效数据汇总和BSC指标展现，同时还包括财务、运营、人事等方面的主题分析，主要内容为各类日常使用报表、管理驾驶舱以及绩效考核重大任务。

阶段性成果：

这一阶段的工作重点是XX智慧采集平台、XX智慧决策平台的建立以及这两个平台同南车时代电气原有的企业级数据仓库、报表平台相整合，同时做好数据仓库的数据梳理工作。

当第一阶段顺利完成之后，将会形成一套完整的绩效管理系统和面向事业部及集团的BI系统，届时所有相关绩效考核的数据都可以顺利的进入数据仓库中，并进行正确的合并汇总。

同时，对集团和事业部BI用户实现严格的权限划分，使不同管辖权限的用户看到不同的数据，为今后系统建设及扩展打下坚实基础。

第二阶段目标：

1.深化主题：

对一期已经开发的主题分析、绩效指标进行更深入分析和展现，指标的监控及考核从一期的二级对象深入到三级对象中，各个BCS战略层面的进一步深化。

2.提升指标管理：

完善指标管理系统的功能，在第二阶段中指标字典、指标归口关系设定等功能将陆续开发，最终使得整个指标管理平台可以完全满足整个系统指标管理维护的需要，使得未来的开发维护成本大大降低。

3.完善BI平台建设：

将一期已经得到的成果结合平衡计分卡的理念，将企业四个维度（财务成果、内部管理、市场与客户、学习与发展）的关键指标进行多角度探索分析；

同时从一期的指标展现提升为数据分析，多维分析、预测分析等商务智能的王牌分析全面展开，为高层决策层与知识型管理者提供科学的决策依据。

在这一阶段中，主要是对一期已经建设完成的较为全面的绩效管理系统的全面深化，包括预测分析、多维分析、各个主题分析的深入和系统功能的完善。

在第一阶段，我们看到的是绩效指标的展现、监控，现在我们将可以根据更全面的数据定义各个单位个性化的指标，领导可以从指标的分析、预测，深入了解到每一个环节的问题，了解问题的原因，从好更好的帮助管理层了解如何让企业运作的更好。

考虑到未来可能有的系统扩展和SAPERP故障，XX智慧采集平台依旧在整个架构中扮演重要的角色，但是手工上报数据和自动上报数据将通过数据标签严格区分，以便事业部和集团清楚数据来源。

第三阶段：

随着数据仓库中越来越丰富的数据，南车电气已经完全具备了大数据分析的能力，此时可以引入先进的数据分析软件（如SAS）等为集团BI系统进行更多的挖掘和分析，届时将实现一些高级别数据分析的需求和结果。

例如，我们可以从风机运行时各部件传感器传回的大量秒级数据之中分析得到为什么这个型号的风机故障率会高？

故障主要集中在哪几个点？

当出现怎么样的数据参数波动时，风机的哪个部件有可能将会出问题？

从而做到设备的故障预测，减少设备的非计划性停机维护，增加客户的经济效益，提升客户的满意度。

同时，随着技术的发展和实时数据及性能的需求，可以把原先的数据仓库替换成HANA产品，HANA强大的数据处理能力和系统实时性数据的展现可以通过关键指标体系，展示企业实时的运营状态，将采集到的数据形象化、直观化、具体化、时效化。

让管理层随时可以观察到企业的运转状态，即使得到分析预测结果来辅助自己的决策，为战略层和管理层提供“一站式”的决策支持。

在这个阶段中，我们要更强化BI系统数据仓库架构，通过从业务系统抽取更多的明细数据以使集团BI系统可以分析到凭证级粒度，在这个基础之上我们可以为各个产业板块开发定制化的DataMart。

这一阶段工作重点将会是如何做好HANA平台的替换以及如何运用数据分析软件做到BI系统的全面预测、深入的数据分析及多元化的报表展现。

最终成果：

南车时代电气BI系统通过整合各个事业部、分子公司、产业板块业务数据，将集团各层级管理人员关心的业务指标以驾驶舱、分析报表等形式通过XX智慧决策平台的个性化展现，BI战略管理层通过这个平台可以一目了然地看清企业全貌和业务全貌，让企业管理者从各个方面多个个维度来了解自己的企业，为集团层面、事业部层面和分子公司管理层提供高效数据分析和决策支持。

与此同时，通过大数据、数据分析等应用，逐步形成针对各产业板块的个性化的数据挖掘、数据预测，以提高对市场的洞察力、提升客户满意度、促进技术创新，最终达成提升企业市场竞争力，为企业创造更多的经济效益和社会效益。

2.2.南车时代电气数据仓库平台建设

2.2.1.数据仓库建设原则

数据仓库系统的建设不是一蹴而就的，是一个渐进和长期的过程，所以，XX公司在南车电气数据仓库建设项目方案规划过程中，始终贯穿了下列原则：

●先进性：

采用业界领先的管理思想和技术手段构建数据仓库，保证信息化体系结构和数据仓库解决方案在业界处于领先地位；

●开放性：

数据仓库系统模型采用国际统一标准进行建模，集成SAPECC各模块数据，这些数据可供管理人员共同使用，支持多种数据源和第三方的分析与报告工具，支持数据的抽取和数据的分析，如能够提供对各种数据业务含义进行解释和方便的查询，为开发人员提供高效的外部接口。

●灵活性：

数据仓库系统的模型需要能够依业务变化而调整，南车电气数据仓库系统从不同的角度对整个南车电气的生产情况和销售情况进行多维度、多角度、多指标的不同层次的分析，这样就确保了随着业务的发展，可以很方便的在此基础上扩充更多的应用、主题，用户能够灵活地根据实际需要定制不同层次的分析。

●持续性：

数据仓库系统提供了一个完善的数据平台，保存了大量的历史数据，具备极佳的扩展性，可以为今后可能出现的管理、决策支持系统提供数据支持。

●容灾性：

数据仓库系统的3个重要元件，包括ODS、EDW、DM的系统平台架设于不同的数据库实例，此种设计确保系统因单个系统发生灾害时，减少系统恢复的时间，降低相应的损失。

2.2.2.数据仓库规范体系设计

2.2.2.1数据仓库目标分析

数据的存储和管理是企业级数据仓库的核心内容之一，企业级数据仓库存储详细数据及必要的汇总数据,支持整个企业的业务分析和决策。

现有业务系统的数据被抽取、清理，并有效地集成到数据仓库中，并按照主题进行重新组织。

数据仓库设计时应全面考虑，实施时可以先按照需求的轻重缓急选择部分业务主题，然后逐步扩展到涵盖全部业务。

数据仓库管理的数据包含了集成之后的多年历史数据，数据量是巨大的。

数据应被合理的规划、组织、存储，分片和索引，保证数据的管理和使用的高效性。

按照企业建立数据“唯一事实”的要求，数据仓库应为各级业务人员提供一致的信息视图。

因而，整个企业应共享统一的数据存储模型。

与这样的要求相匹配，企业数据仓库采用满足第三范式的规范化建模。

规范化建模是一个剔除冗余并应用业务规则的过程，它的目的是为了更好的理解和表达存在于数据元素之间的依赖性和参与性。

规范化的关系型数据通常能够给出精确和无歧异的回答。

规范化建模的目的是建立企业级数据仓库的逻辑数据模型。

逻辑数据模型是把业务需求，特别是对数据的需求，用规范化的ER模型和文字进行描述。

它反映的是业务逻辑，因此它是数据库中立、技术无关的；

同时，它应能涵盖业务需求的各方面，回答有关业务的所有合理问题。

逻辑数据模型标识出业务管理领域中涉及的主题、实体、属性，及它们之间的关系。

主题集中反映某方面业务内容，通常是同类或关联关系较为紧密的实体的集合。

实体是任何可以区分的人、地点、事情、事件或概念，信息围绕它来保存。

属性是实体的特性或数据字段。

对数据仓库需求进行分解，按业务主题进行组织，将业务主题相关的数据组织成主题域，并对各指标进行分析。

数据仓库目标分析后形成数据仓库目标说明书，其中详细说明包含的业务主题、业务主题域等内容。

数据模型是数据仓库系统的关键部分，开发数据模型除了要描述企业现有的业务数据架构，还要满足企业未来业务扩展的需要，通过整体数据架构的搭建可以实现以下三个目标：

数据整合，建立业务数据构架，找出业务项目的相互关系，描绘企业的各个业务项目在现实中是如何被组合在一起的，创建出企业业务的整体性视图，基于业务数据架构创建企业数据模型，能够较好地保证数据模型的稳定性和有效性。

理解业务，不同部门用户对数据有着不同的理解，作为企业级的决策支持系统必须通过一定的手段把这些不一致的理解定义出来，支持性元数据的使用就是解决这一问题的主要手段。

数据分析，业务上经常遇到同一指标在不同报表里得到的值不一致，有些不一致是为人所知的，有些不一致却没有人清楚，通过对数据的分析和了解，使不一致变得明显而可操作，是数据模型建立的主要目标之一。

通过元数据的使用，记录数据的加工规则及使用环境，可以让使用者清楚地知道差异的原因，从而正确使用这些数据。

控制好建模范围和周期将直接关系到项目的进展，最好的方法是利用已有的各类业务需求、报表需求及查询需求，借助建模人员本身的业务经验及与各部门业务人员的沟通，将获得的需求片断有机地组织成一个完整的目标区域，在区域范围内开展建模工作。

2.2.2.2数据仓库逻辑模型

数据仓库逻辑模型设计要进行的工作主要有：

分析主题域，确定当前要装载的主题；

确定粒度层次划分；

确定数据分割策略；

关系模式定义；

记录系统定义。

逻辑模型设计的成果是，对每个当前要装载的主题的逻辑实现进行定义，并将相关内容记录在数据仓库的元数据中，包括：

（1）适当的粒度划分；

（2）合理的数据分割策略；

（3）适当的表划分；

（4）定义合适的数据来源等。

2.2.2.3数据仓库物理模型

数据仓库物理模型所做的工作是确定数据的存储结构，确定索引策略，确定数据存放位置，确定存储分配。

确定数据仓库实现的物理模型，要求设计人员必须做到以下几方面：

要全面了解所选用的数据库管理系统，特别是存储结构和存取方法。

了解数据环境、数据的使用频度、使用方式、数据规模以及响应时间要求等，这些是对时间和空间效率进行平衡和优化的重要依据。

了解外部存储设备的特性，如分块原则，块大小的规定，设备的I/O特性等。

2.2.3.BW数据仓库结构定义

2.2.3.1数据抽取层

数据抽取层是面向业务主题划分的一组数据模型，用于从每个源系统中抽取必需的数据。

该层数据对接BW底层与其他业务系统数据，同时仅对该层数据进行基本的清理，以保留业务系统原始数据。

BW系统使用信息包完成对业务源系统的抽取工作，主要抽取SAPECC、PLM、报价系统、预算系统等核心系统以及外部文本的数据，根据的具体情况，可以将各业务系统数据源信息包分为以下几类：

●系统历史交易数据初始化信息包；

●系统增量交易数据抽取信息包；

●系统全量交易数据抽取信息包。

为了将数据从各源系统顺利抽取至BW系统，需要进行以下工作：

●配置BW与各源系统的接口连接；

●复制各业务源系统的数据源；

●创建各数据源的初始化、全量、增量信息包；

●SAPECC系统LO数据源的初始化，删除，填充设置表；

●执行信息包，装载数据至PSA；

●创建信息包到数据抽取层DSO转换及DTP；

●将数据从PSA加载至数据抽取层DSO。

2.2.3.2数据逻辑层

数据合并层是面向客户业务操作将抽取层数据进行初步的清洗和整理，将数据抽取层中数据按照业务规则集成、整合的过程，在此模型上执行粒度较细的查询分析。

该层模型的集成、整合工作主要分为以下两大类：

●不同业务系统间模型合并

数据抽取层中来自不同业务系统的模型数据，按照业务规则创建模型转换，进行数据合并。

该过程要注意来自异构业务系统的数据格式、关联关系。

根据实际需要新增数据映射关系表，以保证数据合并。

●同一业务系统内模型合并

数据抽取层中来自同一业务系统的模型数据，按照业务内容及逻辑规则创建模型转换，进行数据合并。

以上合并过程，最终都通过数据传输流程（DTP）进行数据加载，将数据抽取层转换、加载至数据逻辑层，DTP默认加载方式为增量加载。

2.2.3.3数据分析层

数据分析层是面向高层战略分析将数据合并层的业务数据统一汇总到数据分析层，提供综合决策数据支撑。

该层模型的设计原则是以最终分析为准，根据分析规则创建转换，将数据指标按照多维度组织，同时衍生出计算后分析指标，通过数据传输流程（DTP）将数据加载至数据分析层。

2.2.3.4ETL过程

BW系统集成了对各种源系统进行数据抽取、数据转换及加载到数据仓库的各种功能，并提供简单的图形化操作界面，可以通过简单的拖动实现数据源的建立、数据的抽取，可以定义数据转换的规则及加载方式、时间等。

上图即为BW数据仓库ETL的流程，使用信息包（InfoPackage）将数据从源系统抽取至BW底层PSA，通过一系列的转换（Transformation）和数据传输流程（DTP）将PSA中数据逐层加载至数据抽取层、数据合并层及分析层相应的模型中。

2.2.3.5数据存储

BW数据仓库中，数据存储采用的分层设计方法，即上文所划分的数据抽取层、数据合并层、数据分析层。

在这样的设计中，数据是真正物理存储于各层模型中。

数据在流经各层时，从性能与准确性方面考虑，使用全量或增量。

2.2.3.6分析层

数据分析层提供给商务用户一个专业的数据视图，提供多样展示数据必需的功能。

选择分析工具集来满足数据展示的需求信息。

这个工具的具体信息在软件和硬件层里详细的描述。

属性

描述

主要功能

此层给出了支持商务用户信息需求的功能

内在关系

●数据存储层

●数据处理

●安全与保密

●系统管理

●软件和硬件

●元数据

●连接

2.2.3.7主数据

按照需求应用的需要，主数据首先进入到抽取层DSO中。

抽取层、合并层使用DSO存放数据，分析层一般使用DSO存放数据，但亦有使用特性存放主数据，如与时间相关的主数据。

2.2.3.8交易数据

展开阅读全文