海洋大数据项目实施方案V100228.docx

上传人:b****2 文档编号:1438419 上传时间:2022-10-22 格式:DOCX 页数:32 大小:423.83KB
下载 相关 举报
海洋大数据项目实施方案V100228.docx_第1页
第1页 / 共32页
海洋大数据项目实施方案V100228.docx_第2页
第2页 / 共32页
海洋大数据项目实施方案V100228.docx_第3页
第3页 / 共32页
海洋大数据项目实施方案V100228.docx_第4页
第4页 / 共32页
海洋大数据项目实施方案V100228.docx_第5页
第5页 / 共32页
点击查看更多>>
下载资源
资源描述

海洋大数据项目实施方案V100228.docx

《海洋大数据项目实施方案V100228.docx》由会员分享,可在线阅读,更多相关《海洋大数据项目实施方案V100228.docx(32页珍藏版)》请在冰豆网上搜索。

海洋大数据项目实施方案V100228.docx

海洋大数据项目实施方案V100228

海洋大数据基础平台

实施方案

2020年02月

文档控制页

版本记录

版本号

版本描述

责任人

修订日期

初稿(讨论稿)

2020-02-21

VI.0

补充验收标准、性能指标、业务场景及技术

方案完善

2020-02-27

第1章引言

本文档的主要对象是双方领导及负责人、技术人员、项目小组成员、相关管理人员,为他们提供实施项目的思路、实现目标和工作步骤,统一对实施工作、实施方案的认识。

本文档是双方进行工作的基础性文件。

本文档阐述实施工作的步骤、注意事项、实现的目标,经客户方代表确认后,实施人员需按照本方案的相关要求执行工作任务。

该实施方案随着项目的深入在具体的操作过程中会做适当调整。

序号

术语名称

术语定义

第2章项目背景

虽然早期海洋领域的信息化建设己经取得了一些成效,但大数据技术在海洋信息化领域还属于新生事物,建设和运行过程中,还存在着一些不确定性、面临着很多问题和挑战,具体表现在:

1.没有成熟的大数据建设路线用于指导海洋大数据应用建设

由于大数据技术在海洋信息化领域还属于起步和发展阶段,新思路、新技术、新产品层出不穷,各个单位和部门在大数据能做什么、怎么做、要多久等关键问题上还处于半迷茫阶段。

如果没有成熟的大数据建设路线指导,必然产生大量的探索、走弯路的情况,造成时间和资金的浪费。

2.现有平台无法进行海量数据的存储和管理

海洋研究领域涉及到的海洋大数据有卫星海洋数据、模型数据、气象数据等多源异构的海量数据,而且原有的海洋信息化系统等大部分是基于结构化数据库的模式建设和管理,随着数据规模的不断增长,将产生急剧增长的数据库授权和管理成本。

同时.大量的日志数据、互联网数据、物联网数据都是非结构化数据,目前没有平台可以有效存储和管理这些数据,后期必将造成部分数据的遗失。

3.散落各处的大数据无法产生智能分析、智慧应用的价值

海洋信息化领域己经建成了大量的信息化应用,具备丰富的业务数据、日志数据。

同时随着智慧海洋建设的逐步深入,每时每刻都在产生着大量的物联网数据,互联网的发展也促使网络信息的爆发性增长,这些数据蕴含的价值也越来越大。

同时.海洋各单位各部门数据的利用率不高,许多数据整合了却未被使用;许多数据由于各自独立建设,数据之间缺乏关联性。

上述种种问题,都导致无法发挥大数据的海量数据关联分析优势,无法发掘数据的潜在价值。

第3章项目实施方案

3.1需求总体理解

对海洋大数据平台整体的理解:

海洋大数据平台是实现智慧海洋的重要载体,也是实现智慧海洋的基础设施。

一方面由于早期的海洋信息化系统是条块管理下的'烟囱式'建设,存在数据标准混乱、很多信息尚未数字化、数据质量层参差不齐、各条块之间数据孤岛化严重等现象,阻碍了数据的共享和融合创新。

另一方面随着海洋观测技术的发展以及国家对海洋大数据科学化管理和创新应用的要求,传统的信息化技术面对海洋领域多源异构的海量大数据的采集、计算、时效性等方面明显不足。

因此海洋大数据平台要实现海洋领域多源异构的大数据的统一采集、海量数据的分布式存储和计算、大数据的数据治理和管控、跨业务条块的数据共享和融合、实时数据的预警预测预报、基于海洋GIS的可视化应用等能力,是一套从数据釆集、存储、整合、治理到数据探索、价值利用等全链条的大数据平台套件。

对本项目的理解.本项目是一个阶段性的项目实施交付,有明确的功能范围和应用场景,在这一阶段旨在搭建一套基于大数据生态技术环境的基础能力平台(能力底座),基于这套平台完成1・2种数据形态的大数据釆集和存储,利用采集到的数据完成1-2种应用场景的大数据处理和计算,最后将处理和计算的结果数据形成对外的数据服务接口,将接口预封装提供给数据可视化模块,供数据的展示和其他消费。

3.2项目技术方案

3.2.1大数据基础平台

3.2.1.1基础能力框架图

釆用目前主流的Hadoop生态技术组件技术,基于开源组件实现功能增强,

搭建大数据基础能力平台,保持100%的开放性,不使用私有架构和组件。

该平台

提供大数据技术环境下的分布式存储以及分布式计算能力,在可靠性、安全性、管理性方面做持续的优化和增强。

卮Ambari集群安装、部署、配置、监控和管理

 

图1大数据基础平台能力框架

3.2.1.2基础组件功能

以下是各个组件的功能说明(基于实际的业务和应用场景,可以进行按需部署和组

件扩展):

组件名称

功能说明

HDFS

HDFS是一个分布式文件系统,提供高吞吐量的数据存储与访问,支持多种类型数据存储,具有高可靠性和容错性。

MapReduce

提供快速并行处理大量数据的能力,是一种分布式数据处理模式和执行环境。

YARN

YARN是一个资源调度平台,负责为运算程序提供服务

器运算资源,可以为各类应用程序进行资源管理和调度。

Spark

Spark是一个基于内存进行计算的分布式计算框架,相比于MapReduce,数据计算性能有了极大的提升。

SparkStream

SparkStreaming是一个流式处理框架,是SparkAPI的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,并且可以使用高级功能的复杂算子来处理流数据。

SparkMLlib

SparkMLlib是Spark中提供学习函数的库,它是专为在集群上并行运行的情况而设计,包含众多的机器学习算法。

Hive

Hive是一个建立在Hadoop基础上的数据仓库,提供类似SQL的HiveQL语言操作结构化数据存储服务和基本的数据分析服务。

HBase

HBase是一个分布式的、面向列的数据库,具有可伸缩的、严格一致性,同时具有最理想化的写和极好的读性能。

它支持可插拔的压缩算法,充分利用了磁盘空间。

ElasticSearch

Elasticsearch是一个基于Lucene构建的开源、分布式、

RESTful接口的全文搜索引擎,同时也是一个分布式文档数据库,并且它能够横向扩展至数以百计的服务器存储以及处理PB级的数据,在极短的时间内存储、搜索和

分析大量的数据。

ZooKeeper

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Hadoop和Hbase的重要组件。

它是一个为分布式应用,提供一致性服务的软件,提供的功能包括:

配置维护、域名服务、分布式同步、组服务等。

Oozie

Oozie是一个基于工作流引擎的开源框架,它可以用来调度与管理Hadoop任务,如MapReduce、Spark、Hive、Sqoop等。

Sqoop

Sqoop是一款数据导入/导出工具,主要用于在

Hadoop(Hive)与传统的数据库(mysqLpostgresql...)间进行数据的传递,可以将一个关系型数据库(例如:

mysqLoracle、postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

Flume

Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

Kafka

Kafka是分布式发布-订阅消息系统,它是一个分布式的、可划分的、冗余备份的持久性的日志服务,它主要

用于处理活跃的流式数据。

Ambari

Ambari是一个拥有集群自动化安装,中心化管理,集群监控,报警等功能的一个工具,使得安装集群从几天的时间缩短到几个小时以内,运维人员大幅下降,极大的提高了集群的管理效率。

Kerberos

Kerberos是一个用于鉴定身份的协议,它采取对称密钥加密,密钥不会在网络上传输,攻击者无法通过嗅探网络来偷取用户的密码,利用对称加密和受信任的第三方来鉴别要求使用网络服务的用户的身份。

Ranger

Ranger是一个用在Hadoop平台上并提供操作、监控、管理综合数据安全的框架,它通过访问控制策略提供了—种标准的授权方法,作为标准,Ranger提供了一种集中式的组件,用于审计用户的访问行为和管理组件间的安全交互行为。

3.2.1.3可视化界面参考

以下为大数据基础平台部分可视化界面功能:

1、大数据基础平台管理视图-平台管理主监控界面

GHOFSD

0YARN

OM^)Reduce2

QTtt

OHve

©HBaso

aP>g

QSooop

OZooKeeper

©Flume

OAmbanMedics

©KaA^

OKnew

©R»ge<

i

aKorboros

QSider

AcbOTft.

Me

MotncActions♦Last1hour♦

HDFSDWcUMge

DatoNodesLS

5/5

HOFSlinks

N^neNod*

SecondaryN^meMode

5OaUN

\g-

MemoryUsoge

465GB

N^twodcUwge

ClusterLoed

wm/Nodeuptime

40.0d

CPUUsage

NmneNodeRPC

0ms

YARNLinks

ResoufceManagev

4NodeMarwQws

More■

HBaseMasterUptime

258.9d

H8aseMoMerHe«p

u%

o

HBaseLinks

HBaseMaster

4RegionS«rvmMasterWebUl

More■

HBaseAveLoad

445

Resourc«Monag«r

^odoManfigerslive

YARNMwnoty

Uptime

4acttvt

18%

258.9d

Olost

0unhealthy

0rebooted

0decommissioned

 

FlumeLive

2/2

2、集群各主机可视化视图

ipAddrevs

Rack

Cores

RAM

DiskUsage

LOddAvq

v«csk)ns

Convxwnu

OMpO4.gzbiQdat2L

10.

fdekMVrack

32物

62.63GB

1.34

HDP-Z5.6.D

20CcmponorAs

□OhdpO5ozt(9

*10.无

WaA-rack

32(32)

62.6368

0.15

HJP-25.6.0

20Compcftems

QtxlpOS.^ztXQ

10.

f如Vk

32倒

62.63GB

0.29

HDP-2.5.6.0

23Com(x)(wn»

□ehdpo?

gztxQCiataergcn

10.CW-

Wojit-rack

32

6253G8

0.46

rt)P-2560

7CoTOcrerts

(32)

QEpO8.gztMg

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 初中教育 > 数学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1