8A版大数据平台概要设计说明书.docx

资源描述

8A版大数据平台概要设计说明书.docx

《8A版大数据平台概要设计说明书.docx》由会员分享，可在线阅读，更多相关《8A版大数据平台概要设计说明书.docx（34页珍藏版）》请在冰豆网上搜索。

8A版大数据平台概要设计说明书.docx

8A版大数据平台概要设计说明书

计算平台

概要设计说明书

文件编号

受控编号

版次

1.0

密级

内部公开

总页数

附录

作者：

日期：

20XX-01-28

批准：

日期：

审核：

日期：

文件修改记录

修改日期

修改状态

修改页码及条款

修改人

审核人

批准人

1.引言5

1.1编写目的5

1.2术语与缩略词6

1.3对象及范围8

1.4参考资料9

2.系统总体设计9

2.1需求规定9

2.1.1数据导入9

2.1.2数据运算9

2.1.3运算结果导出10

2.1.4系统监控10

2.1.5调度功能11

2.1.6自动化安装部署与维护11

2.2运行环境12

2.3基本设计思路和处理流程13

2.4系统结构14

2.4.1大数据运算系统架构图14

2.4.2hadoop体系各组件之间关系图14

2.4.3计算平台系统功能图15

2.4.4系统功能图逻辑说明16

2.4.5计算平台业务流程图16

2.5尚未解决的问题17

3.模块/功能设计17

3.1计算驱动模块17

3.1.1设计思路17

3.1.2流程图19

3.1.3处理逻辑20

3.2调度模块20

3.2.1设计思路20

3.2.2流程图22

3.2.3处理逻辑23

3.3自动化安装部署模块23

3.3.1设计思路23

3.3.2处理逻辑23

3.4调度模块与计算驱动模块交互流程24

3.4.1处理流程图24

3.4.2处理逻辑24

3.4.3hadoop驱动模块调用驱动接口25

3.4.4调度模块接收hadoop执行状态接口25

3.5调度模块与kettle交互流程26

3.5.1处理流程图26

3.5.2处理逻辑27

3.6对调度任务运行过程进行监控流程27

3.6.1处理流程图27

3.6.2处理逻辑27

3.7对hadoop驱动任务运行过程进行监控流程28

3.7.1处理流程图28

3.7.2处理逻辑28

3.8对操作系统/应用程序监控流程29

3.8.1处理流程图29

3.8.2处理逻辑29

3.9监控报警模块30

3.9.1设计思路30

3.9.2流程图31

3.9.3处理逻辑31

4.系统数据结构设计32

4.1数据实体关系图32

4.2数据逻辑结构32

4.2.1驱动任务设置表32

4.2.2驱动设置表33

4.2.3驱动任务执行明细表34

4.2.4调度任务表34

4.2.5调度步骤表35

4.2.6调度步骤执行记录表36

4.2.7操作系统监控数据表37

4.2.8应用程序监控数据表38

4.2.9监控系统配置表38

4.2.10业务数据记录表39

4.3数据物理结构39

5.安全设计39

6.容错设计40

6.1挽救措施40

6.2系统维护设计40

7.日志设计40

引言

编写目的

大数据泛指巨量的数据集，因可从中挖掘出有价值的信息而受到重视。

《华尔街日报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的三大技术变革。

麦肯锡公司的报告指出数据是一种生产资料，大数据是下一个创新、竞争、生产力提高的前沿。

世界经济论坛的报告认定大数据为新财富，价值堪比石油。

因此，发达国家纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手。

互联网特别是移动互联网的发展，加快了信息化向社会经济各方面、大众日常生活的渗透。

有资料显示，1998年全球网民平均每月使用流量是1MB（兆字节），20XX年是10MB，20XX年是100MB，20XX年是1GB（1GB等于1024MB），20XX年将是10GB。

全网流量累计达到1EB（即10亿GB或1000PB）的时间在20XX年是一年，在20XX年是一个月，在20XX年是一周，而20XX年仅需一天，即一天产生的信息量可刻满1.88亿张DVD光盘。

我国网民数居世界之首，每天产生的数据量也位于世界前列。

淘宝网站每天有超过数千万笔交易，单日数据产生量超过50TB（1TB等于1000GB），存储量40PB（1PB等于1000TB）。

XX公司目前数据总量接近1000PB，存储网页数量接近1万亿页，每天大约要处理60亿次搜索请求，几十PB数据。

一个8Mbps（兆比特每秒）的摄像头一小时能产生3.6GB数据，一个城市若安装几十万个交通和安防摄像头，每月产生的数据量将达几十PB。

医院也是数据产生集中的地方。

现在，一个病人的CT影像数据量达几十GB，而全国每年门诊人数以数十亿计，并且他们的信息需要长时间保存。

总之，大数据存在于各行各业，一个大数据时代正在到来。

　　信息爆炸不自今日起，但近年来人们更加感受到大数据的来势迅猛。

一方面，网民数量不断增加，另一方面，以物联网和家电为代表的联网设备数量增长更快。

20XX年全球有5亿个设备联网，人均0.1个；20XX年全球将有500亿个设备联网，人均70个。

随着宽带化的发展，人均网络接入带宽和流量也迅速提升。

全球新产生数据年增40%，即信息总量每两年就可以翻番，这一趋势还将持续。

目前，单一数据集容量超过几十TB甚至数PB已不罕见，其规模大到无法在容许的时间内用常规软件工具对其内容进行抓取、管理和处理。

　　数据规模越大，处理的难度也越大，但对其进行挖掘可能得到的价值更大，这就是大数据热的原因。

鉴于越来越大的数据规模，采用常规基于DBMS的数据分析工具和方法已经无法满足大规模数据分析的需求，目前一些大型互联网公司采用hadoop体系进行大规模数据的运算，结合hadoop体系结构与实际的运算需求结合，采用hadoop体系结构的分布式运算模型，通过集群的方式实现大数据运算，为企业提供大数据的价值。

为适应大数据计算的要求，同时提供大数据运算平台的系统设计的依据，特制定计算平台的系统概要设计文档，为后期的系统详细设计和实现提供依据。

术语与缩略词

下列术语、定义和缩略语适用于本标准：

术语与缩略词

解释

备注

Namenode

HDFS采用master/slave架构。

一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。

Namenode是一个中心服务器，负责管理文件系统的名字空间（namespace）以及客户端对文件的访问。

Namenode执行文件系统的名字空间操作，比如打开、关闭、重命名文件或目录。

它也负责确定数据块到具体Datanode节点的映射

Datanode

集群中的Datanode一般是一个节点一个，负责管理它所在节点上的存储。

HDFS暴露了文件系统的名字空间，用户能够以文件的形式在上面存储数据。

从内部看，一个文件其实被分成一个或多个数据块，这些块存储在一组Datanode上。

Datanode负责处理文件系统客户端的读写请求。

在Namenode的统一调度下进行数据块的创建、删除和复制

Secondnamenode

光从字面上来理解，很容易让一些初学者先入为主的认为：

SecondaryNameNode（snn）就是NameNode（nn）的热备进程。

其实不是。

snn是HDFS架构中的一个组成部分，但是经常由于名字而被人误解它真正的用途，其实它真正的用途，是用来保存namenode中对HDFSmetadata的信息的备份，并减少namenode重启的时间

Jobtracker

JobTracker是MapReduce框架中最主要的类之一，所有job的执行都由它来调度，而且Hadoop系统中只配置一个JobTracker应用。

它们都是由一个master服务JobTracker和多个运行于多个节点的slaver服务TaskTracker两个类提供的服务调度的。

master负责调度job的每一个子任务task运行于slave上，并监控它们，如果发现有失败的task就重新运行它，slave则负责直接执行每一个task

TaskTracker

TaskTracker都需要运行在HDFS的DataNode上，而JobTracker则不需要，一般情况应该把JobTracker部署在单独的机器上

HBase

HBase是一个分布式的、面向列的开源数据库，该技术来源于Changetal所撰写的Google论文“Bigtable：

一个结构化数据的分布式存储系统”。

就像Bigtable利用了Google文件系统（FileSystem）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。

HBase是Apache的Hadoop项目的子项目。

HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

另一个不同的是HBase基于列的而不是基于行的模式。

Hive

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。

其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

Storm

Storm为分布式实时计算提供了一组通用原语，可被用于“流处理”之中，实时处理消息并更新数据库。

这是管理队列及工作者集群的另一种方式。

Storm也可被用于“连续计算”（continuouscomputation），对数据流做连续查询，在计算时就将结果以流的形式输出给用户。

它还可被用于“分布式RPC”，以并行的方式运行昂贵的运算。

Flume

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

ETL

ETL是数据抽取（EGtract）、清洗（Cleaning）、转换（Transform）、装载（Load）的过程。

是构建数据仓库的重要一环，用户从数据源抽取出所需的数据，经过数据清洗,最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。

Kettle

Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、LinuG、UniG上运行，绿色无需安装，数据抽取高效稳定。

MySQL

MySQL是一个开放源码的小型关联式数据库管理系统，开发者为瑞典MySQLAB公司。

目前MySQL被广泛地应用在Internet上的中小型网站中。

由于其体积小、速度快、总体拥有成本低，尤其是开放源码这一特点，许多中小型网站为了降低网站总体拥有成本而选择了MySQL作为网站数据库。

MongoDB

MongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。

他支持的数据结构非常松散，是类似json的bson格式，因此可以存储比较复杂的数据类型。

Mongo最大的特点是他支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，而且还支持对数据建立索引。

展开阅读全文