数据采集处理项目技术方案.docx

上传人:b****3 文档编号:1478820 上传时间:2022-10-22 格式:DOCX 页数:36 大小:81.15KB
下载 相关 举报
数据采集处理项目技术方案.docx_第1页
第1页 / 共36页
数据采集处理项目技术方案.docx_第2页
第2页 / 共36页
数据采集处理项目技术方案.docx_第3页
第3页 / 共36页
数据采集处理项目技术方案.docx_第4页
第4页 / 共36页
数据采集处理项目技术方案.docx_第5页
第5页 / 共36页
点击查看更多>>
下载资源
资源描述

数据采集处理项目技术方案.docx

《数据采集处理项目技术方案.docx》由会员分享,可在线阅读,更多相关《数据采集处理项目技术方案.docx(36页珍藏版)》请在冰豆网上搜索。

数据采集处理项目技术方案.docx

数据采集处理项目技术方案

xxx大数据库中心数据库

投资商和企业数据采集处理项目

项目编号:

技术方案

xxx有限公司

二○一七年六月

1引言3

1.2项目目标3

1.3建设原则3

1.4参考规范4

1.5名词解释5

2云数据采集中心7

2.1需求概述7

2.2总体设计7

2.3核心技术及功能10

3大数据计算平台34

3.1需求概述34

3.2总体设计34

3.3数据模型设计35

4数据运营38

4.2数据分析处理的主要工作38

4.3数据分析团队组织和管理39

5安全设计42

6风险分析46

7部署方案47

8实施计划48

9技术规格偏离表49

10售后服务承诺52

11关于运行维护的承诺55

12保密措施及承诺56

13培训计划58

1引言

1.1项目背景

XXX大数据中心建设出发点考虑从投资者角度涵盖招商全流程,尽可能为投资者解决项目实施过程中的困难和问题,便于招商部门准确掌握全省招商数据,达到全省招商项目数据共享,形成全省招商工作“一盘棋、一张网、一体化”格局。

大数据中心将充分发挥大数据优势,加强对企业投资项目、投资轨迹分析,评估出其到XX投资的可行性,为招商过程留下痕迹、找到规律、明辨方向、提供“粮食”、提高效率,实现数据寻商、数据引商、数据助商,实现数据资源实时共享、集中管理、随时查询,实现项目可统计、可监管、可协调、可管理、可配对、可跟踪、可考核。

本次数据运营服务主要是为大数据平台制定数据运营规范及管理办法,同时为“企业数据库”提供数据采集、存储与分析服务,并根据运营规范要求持续开展数据运营服务。

1.2项目目标

✍制定招商大数据运营规范及管理办法。

✍制定招商大数据相关元数据标准,完成相关数据的采集、整理与存储。

✍根据业务需求,研发招商大数据招商业务分析模型,并投入应用。

✍根据运营规范及管理办法的要求持续开展数据运营工作。

1.3建设原则

基于本项目的建设要求,本项目将遵循以下建设原则:

✍前瞻性和高标准整个项目要按照企业对大数据应用的需要的高要求和高标准建设,参考行业标杆应用,建立满足需求,面向未来的目标,整个项目具有一定前瞻性。

✍经济性和实用性整个项目以现有需求为基础,充分考虑未来发展的需要来确定系统的架构,既要降低系统的初期投入,又能满足服务对象的需求,同时系统设计应充分考虑对已有投资的保护,对已建立的数据中心、基础平台、应用软件应提供完备的整合方案。

✍先进性和成熟性为了确保项目具有较长的生命周期,应充分考虑到管理创新、技术发展需要,按照先进的建设理念,选择先进的技术架构和成熟技术,满足业务需求。

✍高性能和安全性规范地进行系统建设和开发,提供合理且经济有效的应急方案,确保系统的稳定,向各类服务对象提供可靠的服务。

具有安全性,在系统遭到攻击或崩溃时能快速恢复,确保重要数据的机密性和完整性。

1.4参考规范

✍GB/T20269-2006信息安全技术—信息系统安全管理要求

✍GB/T20984-2007信息安全技术—信息安全风险评估规范

✍GB/T22239-2008信息安全技术—信息系统安全等级保护基本要求

✍GB/T22240-2008信息安全技术—信息系统安全等级保护定级指南

✍GA/T388-2002B计算机信息系统安全等级保护管理要求

✍GB/T8567-1988计算机软件产品开发文件编制指

✍GB/T11457-1995软件工程术语

✍GB/T11457-2006信息技术软件工程术语

✍GB/T16260.1-2006软件工程产品质量第1部分:

质量模型

✍GB/T16260.2-2006软件工程产品质量第2部分:

外部度量

✍GB/T16260.3-2006软件工程产品质量第3部分:

内部度量

✍GB/T16260.4-2006软件工程产品质量第4部分:

使用质量的度量

✍GB/T14394-2008计算机软件可靠性和可维护性管理

✍GB/T17544-1998信息技术软件包质量要求和测试

1.5名词解释

●S2DFS:

简单存储分布式文件系统(SimpleStorageDistributedFileSystem)

●D2B:

分布式数据库(DistributedDatabase)

●JSS:

作业调度服务(JobSchedulerService)

●DCS:

数据计算服务(DataComputerService)

●MPS:

消息处理服务(MessageProcessService)

●SDS:

流数据处理服务(StreamDataService)

●DMQ:

分布式消息队列(DistributedMessageQueue)

●JGS:

作业生成服务(JobGenerationService)

●ACS:

自动清理服务进程(AutomaticCleaningServices)

●HTTP:

超文本传输协定(HyperTextTransferProtocol)

●SMB:

服务器信息块协议(ServerMessageBlock)

2云数据采集中心

2.1需求概述

根据规划,云数据采集中心的建立至少满足1至2年内的数据存储和计算规模,需要满足:

●数据采集范围包括但不限于世界500强、全国500强、行业20强企业相关数据。

●总数据容量至少达到30T。

2.2总体设计

整个云数据采集中心分为三部分:

硬件资源层、软件平台层、软件应用层。

硬件资源层主要指实体硬件设备,包括用来存储数据的光纤阵列柜和存储服务器,用来作统计、分析以及搜索用的计算服务器,用来部署分布式消息(DMQ)/WEB/APP软件的WEB及消息服务器,用来部署用PostgreSQL关系数据库软件的应用数据库服务器,用来部署作业调度服务进程(JSS)的作业调度服务器。

作为数据通信用的全千兆三层交换机等等。

其中光纤阵列柜主要用来存储统计分析后的粗颗粒度数据。

存储服务器用来部署分布式文件系统和分布式数据库,同时存储非结构化和结构化(台标图片,电商图片等等)和结构化数据(行为数据,索引数据,log数据,清理后的细颗粒度数据等等)。

计算服务器主要用来完成数据的清理、统计、搜索等计算任务。

为了节省成本和减少通信代价,建议存储服务器和计算服务器合二为一,所以该服务器同时具有计算和存储数据的功能,前期也可以考虑把作业调度服务进程(JSS)进程部署在存储/计算服务器上。

由于云数据采集中心需要面对多种宽带用户(电信、移动、联通),所以,数据中心的对外的网络需要直连上电信、移动、联通三家公司的网络,保证以上三家公司间的通信性能高速和可靠。

软件平台层是云数据采集中心的核心支撑层,也是我们这次方案设计和实施的主体部分,在核心技术章节会对“分布式文件系统(S2DFS)”、“分布式数据库(D2B)”、“分布式消息服务(DMQ)”“作业调度服务进程(JSS)、数据计算服务进程(DCS)”主要部分加以详细的描述。

软件平台层的所有服务器都统一部署的64位操作系统CentOS6.5(也可以选择RHEL6.5x64);其核心软件或者进程有:

分布式文件系统(S2DFS)、分布式数据库(D2B)、作业调度服务进程(JSS)、数据计算服务进程(DCS)、作业生成服务进程(JGS)、消息处理服务进程(MPS)、流数据处理进程(SDS)等等。

WEB及应用服务器软件Apache&Tomcat,消息队列软件分布式消息(DMQ)。

还要实现整个云数据采集中心的资源管理及监控管理系统。

软件应用层是云数据采集中心的功能实现及UI表达层,功能实现需要基于软件平台层的支撑,后期设计和实施的主体。

该层的主要功能应用有:

数据采集应用、数据统计应用、云数据采集中心的资源监控及调度。

通过公共数据网(电信、联通、移动)和HTTP协议,把采集的海量文本、图片数据以及用户行为数据存储在云数据采集中心里,以供后期分析计算用。

云数据采集中心整体架构图

云数据采集中心网络结构图

2.3核心技术及功能

2.3.1分布式文件存储技术

(1)传统存储技术面临的问题:

✍构建成本高:

大容量及高网络带宽的高端存储系统架构昂贵。

✍文件系统功能和性能差强人意:

难以实现全局命名空间的文件共享、文件系统难以扩展,容易形成瓶颈。

✍扩展性困难:

技术存在瓶颈(Scale-up架构决定的)、扩展成本无法控制。

✍可用性问题:

潜在的单点故障,数据恢复困难,代价高。

✍应用目标差异:

主要面临运营商、金融行业的OLTP应用、很少针对海量的流数据,或者非结构化数据进行设计和优化。

✍异构设备繁杂:

不同时期、不同公司、不同操作系统的异构设备纷繁复杂,无法整合,资源利用率极低。

分布式文件系统主要为解决以上问题而出现的一种新型大规模数据存储技术架构。

主要为非结构化数据(视频/文件/文档/图像/音频等非结构化数据)提供海量的存储平台,以集群的方式提供线性横向扩展能力。

分布式文件系统是一种构建于通用x86部件之上的高可用、高可靠、高可扩展的新型分布式文件系统。

应用分布式文件系统,用户可以采用廉价可靠的通用服务器、SATA/SAS硬盘以及以太网络来构建媲美企业级存储产品的存储系统。

(2)分布式文件系统应对的数据特性和访问特性:

✍数据量巨大,数百TB或PB级,增长迅速;

✍类型多样化,包括图像、文本、语音、视频等文件数据;

✍按时间有序生成,数据均带有时间标志;

✍✍前端数据写入速度很高,每秒钟写入数据可达几万甚至几十万条记录或者上GB量数据;

✍✍更新操作极少:

追加方式写入,一旦写入,几乎没有数据修改,查询涉及大量的磁盘读操作,查询处理产生大量的临时结果,不同类型的数据存在联合分析查询;

分布式文件系统的基本原理是采用集群方式来整合物理上独立的多个存储资源,以软件方式提供单一的名字空间;采用多副本的方式保证数据的高可用性,任意单一节点失效均不会导致数据丢失和数据服务的正常运行;同时,分布式文件系统通过良好设计的系统结构和数据分布策略,可保证系统性能的高可扩展性,并支持存储容量/性能的在线扩展。

相比较于DAS(直连存储)、SAN(存储区域网络)和NAS(网络存储),应用分布式文件系统构建的网络存储系统更像是一个NAS,提供类似于传统NAS的文件级访问接口(SAN和DAS都是块设备级别的访问接口)。

(3)分布式文件系统与传统NAS/SAN设备的比较:

比较项

高端NAS

FC-SAN

分布式文件系统

性能

一般双端口,性能受机头

影响,难以扩展,出口带宽是瓶颈

一般双端口,性能受

机头影响,难以扩展,IOPS较好

性能随节点数的增加成线

性增长

扩展能力

性能及容量无法扩展,或

者有限扩展

能较好扩展,但成本

高昂

性能及容量按需扩展,动

态均衡

可用性

RAID方式保护,双机保

护,停机RAIDRebuid,耗时

RAID方式保护,双机

保护,停机RAIDRebuid,耗时

基于灵活的多副本机制,

自动检测,自动故障恢复,无需停机

数据管理

企业级功能需要单独购买

企业级功能需要单独

购买(还需要单独的

文件系统,100多万一

套)

内嵌多种企业级应用:

照、镜像、

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 解决方案 > 学习计划

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1