数据中心建设方案简版Word文档格式.docx

上传人:b****1 文档编号:13168898 上传时间:2022-10-07 格式:DOCX 页数:51 大小:3.60MB
下载 相关 举报
数据中心建设方案简版Word文档格式.docx_第1页
第1页 / 共51页
数据中心建设方案简版Word文档格式.docx_第2页
第2页 / 共51页
数据中心建设方案简版Word文档格式.docx_第3页
第3页 / 共51页
数据中心建设方案简版Word文档格式.docx_第4页
第4页 / 共51页
数据中心建设方案简版Word文档格式.docx_第5页
第5页 / 共51页
点击查看更多>>
下载资源
资源描述

数据中心建设方案简版Word文档格式.docx

《数据中心建设方案简版Word文档格式.docx》由会员分享,可在线阅读,更多相关《数据中心建设方案简版Word文档格式.docx(51页珍藏版)》请在冰豆网上搜索。

数据中心建设方案简版Word文档格式.docx

基于标准化接口,实现对标签、客户视图、指标等数据查询API封装,实现与周边系统实时互动,体现数据价值,减少数据冗余,保证数据安全,保证数据的一致性。

应用层:

应用层的应用使用服务层提供的各种数据服务。

本期应用层包括:

经分应用、流量运营、ESOP应用、VGOP应用、指标库、流量运营战略地图、掌上分析、自助业务分析、区域洞察、渠道运营、自助分析、客户标签库、实时营销、LTE互联网管控策略。

统一门户:

提供统一域名分配、负载均衡、鉴权管理、统一管控平台接入、应用注册、应用发布、应用访问数据信息等功能,同时提供数据中心被应用访问的频次,被应用访问的数据范围,提供数据资产的评估,为应用上下线和数据开放提供依据。

统一平台管控:

面向开发人员、运维人员实现数据、应用、资源的统一管控,包括:

数据资产管控、开发管理、监控管理、调度管理、系统管理、安全管理。

1.3技术架构

图、技术架构

系统技术架构分为数据采集、计算存储服务、数据共享服务、平台管控。

采用Hadoop云技术,可以满足计算能力线性扩展、多租户能力、数据汇总能力;

批处理场景采取Hadoop的Map/Reduce、Hive或者Spark来完成;

流式数据处理,采用Esper计算引擎实现。

数据采集:

采用Flume计算框架,实现文件和消息采集与解析;

采用流式爬虫、中文分词、图片识别技术,实现互联网网页信息实时采集;

采用FTP文件方式实现对数据文件的采集;

采用Socket消息方式实现对消息数据的采集;

采用sqoop方式实现将数据库数据装载到HDFS文件系统。

计算存储服务:

采用Hadoop中HDFS文件系统提供统一的大数据数据存储,满足全量数据留存;

基于Yarn提供跨平台的资源管理,满足资源的统一调度与管理;

采用Hadoop实现非实时ETL,实现海量数据的批处理,主要处理ODS层->

DWD层->

DW层->

ST层的数据处理;

视业务数据情况部分DW层->

ST层的数据处理采用Spark计算框架实现;

采用Esper和rabbitmq支撑流数据处理与复杂事件处理;

利旧DB2提供ST层数据的存储与计算,支持高并发的指标级数据共享。

数据共享:

数据开放共享采用基于HTTP协议REST风格的OpenAPI完成同步处理与基于消息队列(MQ)完成异步处理,实现类SOA面向服务的架构体系。

支持OAuth提供一个安全的、开放而又简易的授权协议。

数据共享服务部署在集群环境中以应对高并发的访问请求,并实现集群的负载均衡。

采用JavaEE技术,通过MVC模式(ModelViewController,是模型-视图-控制器)把业务逻辑、数据、界面显示分离的方法组织代码,将业务逻辑聚集到一个部件里面,在改进和个性化定制界面及用户交互的同时,不需要重新编写业务逻辑。

1.4数据流图

Mc信令(实时)数据通过Socket消息适配模块接入至Esper计算引擎进行实时处理,向应用提供事件API服务,支撑实时营销应用;

后期如Gn信令、LTE信令也提供实时数据,可满足基于Gn信令、LTE信令的实时处理。

除Mc信令(实时)数据外,Gn信令、Mc信令、自有业务订购与使用行为等数据通过非实时ETL方式装载到Hadoop的HDFS文件系统,实现全量数据留存;

由Hive承担主库的职能,实现海量数据的批处理,承载ODS->

DWD->

DW->

ST各层数据处理,其中DW层部分数据提供给Spark,由Spark完成数据处理工作。

对外数据服务可以由不同种类的API来完成:

1、针对诸如客户统一视图、客户标签库的数据探索查询服务:

将数据加载到Spark的RDD中,通过API将数据共享出去;

2、针对诸如客户标签信息查询、客户详单查询类的数据查询服务(特点是通过一个Key来查询数据):

将数据加载到Hbase中,通过API将数据共享出去;

3、针对诸如指标数据查询、KPI数据查询服务(特点是高并发、多维度的数据查询):

将数据加载到DB2数据库(利旧)中,通过API将数据共享出去;

4、针对多租户的数据共享服务,详见5.3章节;

第2章企业ETL数据处理平台

2.1功能框架

根据数据中心的建设需求,企业级的ETL平台实现统一的数据采集、转换、加载、处理以及统一调度、管控等功能。

这里的ETL指的是广义的ETL,具备以下的特点:

Ø

统一数据获取接入,支持B域数据、M域数据、O域数据或其他外部数据统一接入数据中心平台。

支持结构化和非结构化数据采集、加工;

对非结构化数据要实现从非结构化到结构化的处理过程。

支持数据采集、转换、加载等关键,.数据处理过程,实现企业数据的标准。

从周期上,支持批量的数据采集,实时的数据采集

满足数据中心数据加工,处理以及对外提供数据分发、同步

支持全过程的数据稽核。

包括事前、事中、事后的稽核方式。

以及灵活的稽核规则管理,算法管理

全过程的可视化开发配置管理。

通过可视化的开发配置,测试和部署上线。

全过程元数据管理。

重点要实现事前的元数据管理。

管理的内容包括:

支持数据模型、数据流程、转换规则、数据关系和转换映射规则。

企业级的ETL平台产品DACP可以很好支持上述的关键功能特点。

第3章数据存储层

3.1总体概述

3.2存储规划

Hive

Hbase

db2

ODS层

3+1月

--

DWD层

6+1月

DW层

12+1月

ST层

36月

客户标签/视图

3月

指标

永久

3.3模型设计

数据模型设计按照层次,主题的数据模型设计的思路。

系统根据模型设计会自动转成hadoop上存储。

层次、主题映射到相应的目录。

3.4模型规范化管理

3.4.1分层规范

依据数据仓库建模理论,结合实际经验,数据计算平台承载数据模型分为四层:

ODS、DWD、DW和ST,即接口层、存储层、汇总层、应用层。

模型分层说明:

接口层:

ODS模型的数据结构与业务系统接口文件结构保持一致,接口层的数据在数据计算平台进行暂存。

存储层:

即明细数据层,是数据计算核心层数据模型之一,用于存放由清洗、转换层来的数据或者接口层直接来的数据,其设计目标是为后续的汇总数据层和信息子层提供数据基础。

汇总层:

即轻度汇总数据层,也是数据计算核心层数据模型之一,该层实现对主题内的数据做轻量汇总。

设计目标是为应用层提供足够灵活、方便的基础数据,并保证从该层获取数据是性能最优。

在汇总数据层之上,数据按照应用需求做数据聚合,生成相关应用所需数据的数据层。

应用数据层是面向应用的,但是也不是每个应用都在应用数据层对应一个表,对应用要在数据应用层中进行整合。

3.4.2表命名规范

OMG标准化组织建议,采用5分段的命名规范:

如下

3.4.3字段命名规范

建立字段的命名规范,并固化为domain类型,指导模型设计字段命名。

当有变更,可以做到跨平台的统一建模。

3.4.4模型版本管理

第4章数据开放服务层

4.1建设目标

l通过数据服务标准化开放访问,帮助企业IT建设中,应用和数据分离,引入更多的应用开发商,促进应用的百花齐放和应用的专业性。

l基于标准化接口,实现对标签、客户视图、指标等数据查询API封装,实现与周边系统实时互动,体现数据价值,减少数据冗余,保证数据安全,保证数据的一致性。

l对于详单级数据,支持通过文件或授权的方式共享给周边系统。

l通过统一的技术平台框架,制定企业数据标准体系规范,基础数据采集处理,加工汇总,可以引入多家厂商或多租户进行标准化开发。

要实现上述目标,需要解决的关键问题:

1)需要什么样平台功能?

2)开放的对象。

给谁开放?

3)开放什么内容。

包含两部分,基础数据的集成开发的开放和应用访问层数据开放。

4)开放的安全保障机制

5)如何保证开放对象开发提交的结果的规范化、质量。

6)开放平台运营的组织结构和流程制度。

4.2概述

要满足建设目标的要求,数据服务开放的整个功能框架如下:

4.2.1开放对象

示例说明如下

开放对象

说明

使用形式

相关数据

多租户

通过授权的机制,给租户开放通过sql查询数据能力,租户可以在此基础上汇总加工自己私有的数据

SQL,进行数据处理

在保障数据安全性、数据可控性的前提下,将Hive仓库的ODS、DWD、DW各层的开放授权给数据处理开放给租户。

ESOP,VGOP

通过文件接口将数据分发给对端系统,满足其数据分析需求

文件

客户视图,汇总模型等

手机经分

通过在线同步API调用的方式获取数据

开放API

指标类数据

实时营销

客户端通过事件注册的方式监听服务接口,当服务满足触发条件是主动通知监听客户端

消息服务

信令位置信息等

4.2.2开放共享方式

共享方式

应用场景示例

文件接口

数据中心将数据主动导出文件,发送给数据需求方

1、boss的互动接口

2、即席查询临时周期性生成数据

通过API查询获取结果数据,即查即用,不落地。

按查询数据对象粒度分为三类:

1)ST表查询

1、通过对发布的数据模型发起LSQL进行查询获取数据

2)指标类查询

2、如手机经分查询指标,原来是通过接口表导入数据,可以通过API来查询数据

3)单用户清单信息查询

API

数据分发

将数据中心的数据分发到目标数据库。

需求方提出申请审批通过后,系统通过分发平台定期将数据分发到目标库

定期数据同步。

如将用户行为汇总数据定期同步到经营分析系统

即席查询

业务分析人员通过封装好的数据模型和提供

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 其它模板

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1