XXX大数据平台技术白皮书.docx
《XXX大数据平台技术白皮书.docx》由会员分享,可在线阅读,更多相关《XXX大数据平台技术白皮书.docx(8页珍藏版)》请在冰豆网上搜索。
XXX大数据平台技术白皮书
XXX大数据平台技术白皮书
XXXX大数据平台技术白皮书
文档版本号:
文档密级:
编写人:
文档编号:
归属部门/项目:
编写日期:
产品部
XXXX有限公司
修订记录:
版本号V 修订人修订日期 修订描述
XX版权所有XXXX科技有限公司保留所有权利版权声明:
档著作权XXXX科技有限公司享有。
文中涉及XXXX科技有限公司的专有信息,未经XXXX科技有限公司书面许可,任何单位和个人不得使用和泄漏该文档以及该文档包含的任何图片、表格、数据及其他信息。
档中的信息随着XXXX科技有限公司产品和技术的进步将不断更新,XXXX科技有限公司不再通知此类信息的更新。
目录
第1章产品概述....................................................................................................................3第2章系统架构....................................................................................................................4第3章数据存储....................................................................................................................5
分布式集群存储分布式文件系统...........................................................................6HBase-分布列式数据库............................................................................................7Hive-数据仓库...........................................................................................................9GraphDB-大规模分布式并行图数据库.................................................................12第4章数据总线..................................................................................................................13
数据采集与交换.....................................................................................................15数据预处理.............................................................................................................16
规则过滤......................................................................................................17定制化ETL..................................................................................................19
第5章计算引擎..................................................................................................................21
功能.........................................................................................................................21组成.........................................................................................................................21计算框架.................................................................................................................23通用算子.................................................................................................................23专用算子及分析模板.............................................................................................25第6章高性能高可用..........................................................................................................29
高性能.....................................................................................................................29高可用.....................................................................................................................30第7章可视化分析..............................................................................................................30
功能特色.................................................................................................................30效果展示.................................................................................................................31第8章运维管理平台..........................................................................................................33
系统监控界面.........................................................................................................33系统配置界面.........................................................................................................33
SQL查询分析..........................................................................................................34批量数据导入导出.................................................................................................35第9章产品规格..................................................................................................................35
产品指标.................................................................................................................35
平台规模......................................................................................................35系统能力......................................................................................................35系统运营......................................................................................................36硬件环境.................................................................................................................36软件环境.................................................................................................................36参考配置.................................................................................................................36
第1章产品概述
XX大数据引擎平台UDE是一款大数据通用平台软件产品,支持海量数据的采集、过滤、转换、存储、搜索、查询、统计、分析、可视化与安全管理等大数据全生命周期管理,各种行业应用和最终用户,可以通过平台提供的丰富的接口,完成大规模行业数据的挖掘分析和应用对接管理。
对外提供大容量数据分析和查询能力,为解决各大企业的以下需求:
软硬件国产自主可控多源异构数据接入数据关联融合、统一访问大规模、高性能、可扩展高可靠、高可用
XXXX在开源Hadoop版本的基础上对HBase、HDFS和MapReduce等组件增加了HA、查询和分析功能,并进行了性能优化。
产品定位如图1-1所示:
第2章系统架构
图2-1XX系统架构图
如上图所示,XX是一款大数据管理分析平台,基于底层的基础平台,自下而上可以分四层,依次是数据存储层、数据总线、数据处理层以及业务适配层。
同时具有高性能和高可用的特征。
数据存储层:
支持海量异构数据的统一可靠的存储管理,对外提供统一的分布式调用接
口。
数据总线:
支持数据采集、过滤、缓存、中转分发调度等。
数据总线是计算与存储的枢
纽,同时是内外数据交换的通道,完成数据在组件间及层次间中转、缓冲及调度。
数据处理层:
基于支持多种计算模型的分布式计算框架,为上层业务系统提供专业的计
算处理库,包括文本处理、搜索引擎、数据挖掘等。
业务适配层:
为上层业务系统提供各种不同协议和标准的访问接口。
高性能高可用保障:
通过软硬件多方优化配置和深度研究,保证整个平台的高可用和高
性能。
产品特点:
面向网络内容及社会计算领域,通过多年积累数据处理层的特有业务处理引擎深度业务适配及衍生的垂直解决方案
以数据总线为中心进行数据全生命周期调度及价值实现的数据流驱动视角
第3章数据存储
XX为用户提供企业级大数据平台软件一体化解决方案;并支持特殊应用场景下的定制化硬件加速。
面对结构复杂、需求多变的异构数据处理业务,XX不仅提供统一、稳定、高效的存储子系统,还整合了先进的分布式集群资源管理和进程调度方案、高性能数据总线技术、全并行架构分布式关系数据库、面向图计算的并行图数据库、分布式KV存数据库,以及面向用户业务的各类工具软件和库支持。
基于XX平台,用户可以以非常低的时间代价构建大规模企业大数据一体化解决方案。
文档数据库图片音视频流式数据DB邮件消息多维数据GraphDB关系型数据Hbase非关系型数据HDFSDSQL龙威集群存储(申威国产平台)图3-1:
XX数据存储子系统结构图
上图是XX存储组件的结构图,主要包括如下功能组件:
分布式集群存储:
基于对象的高性能分布式文件存储系统。
TBase:
分布式Key-Value数据库。
DSQL:
分布式关系数据库。
GraphDB:
并行图数据库。
分布式集群存储分布式文件系统
分布式集群存储是一款针对海量数据存储应用而设计的大规模通用集群存储系统,采用通用硬件设备作为基本的构建单元,为应用提供全局统一的系统映像和完全POSIX兼容的API接口。
分布式集群存储系统采用了存储服务器集群和元数据服务器集群通过千兆以太网络/万兆以太网络/Infiniband网络构建,具备极高的扩展性和可靠性。
利用分布式集群存储的相关软件功能消除集群内的单点故障,避免因为故障而导致服务中断或者数据丢失等影响,并且打破了传统存储系统架构上的限制。
其基本架构如图3-2所示。
图3-2:
分布式集群存储系统架构
图3-2:
分布式集群存储系统架构分布式集群存储为异构数据提供统一的存储方案;不仅对大文件应用场景提供良好的性能支持,元数据集群、高效检索、横向扩展等特性使得它在复杂的大数据应用场景中有更好的表现。
除了100%POSIX兼容外,还提供完全的HadoopAPI兼容。
这意味着Hadoop生态群的计算框架和组件可以透明运行于分布式集群存储之上。
分布式集群存储提供如下关键特性:
元数据集群
多个元数据服务器组成集群提供互备HA及动态负载分担,可有效分载对目录树热点区域的访问,同时可在线扩展对元数据高密集型应用提供支撑。
并发数据恢复
消除传统RAID恢复技术中单盘性能瓶颈,采用多对多的方式,从所有节点的所有磁盘并发进行数据恢复,可提供极高的聚合恢复带宽,从而有效缩短因设备出错导致的全系统降级运行时间。
兼容POSIX/Hadoop
通过提供hadoop接口,可使数据分析直接基于在线生产环境进行,避免大量的数据迁移操作。
动态扩展&容量均衡
分布式集群存储提供在线的容量及处理能力扩展,包括数据存储节点及元数据处理节点,并自动在扩容后对全系统容量和热点访问进行均衡。
分布式EC
数据可靠性方面,分布式集群存储除了提供副本方式之外还提供基于Erasurecode技术的冗余方式,包括Raid5及N+1等多种策略。
其数据分布也是跨节点跨磁盘的。
HBase-分布列式数据库
HBase是适合大数据场景的一款海量分布式列数据库产品。
其架构上兼容了Hadoop体系的高可扩展性,可支持大于几十个节点,PB存储规模的scale-out;性能上其针对具体大数据应用场景进行深度定制和调优,尤其对于高吞吐率入库和实时检索场景;功能上除了支持标准的K-V访问接口之外,XXBase还可较好的兼容SQL标准及JDBC接口,可以很好的与既有数据分析业务对接。
尤其在索引性能优化及对后缀和全文索引的支持上XXBase都有显著优势。
图3-3:
TBase系统架构
在应用场景方面,TBase常被用作全量基础数据的组织和存储,同时提供对此全量数据的实时查询;此外TBase可兼容传统数据仓库OLAP场景,对复杂SQL分析可提供近实时的分析性能。
从而可同时支持对大数据的实时查询和复杂离线分析。
TBase底层架构在HDFS和MapReduce之上,功能层分别提供数据压缩/解压缩、数据导入、索引、计算、SQL访问以及访问控制和应用隔离等主要功能。
其系统架构如下图所示。
图3-4:
TBase基于HBase的优化增强TBase架构基于分布式列存模型进行扩展。
其实现参考开源Hbase的技术架构,并在其基础上针对应用场景进行了深度性能调优,并基于业务场景的实际需求对功能进行了扩展增强。
其优化点涉及从客户端到底层存储的各个环节,如图3-3所示。
TBase提供如下关键特性:
SQL实时短查询
对全量数据的实时简单查询,包括单表多条件的组合查询SQL长查询@OLAP
XXXX大数据平台技术白皮书
文档版本号:
文档密级:
编写人:
文档编号:
归属部门/项目:
编写日期:
产品部
XXXX有限公司
修订记录:
版本号V 修订人修订日期 修订描述
XX版权所有XXXX科技有限公司保留所有权利版权声明:
档著作权XXXX科技有限公司享有。
文中涉及XXXX科技有限公司的专有信息,未经XXXX科技有限公司书面许可,任何单位和个人不得使用和泄漏该文档以及该文档包含的任何图片、表格、数据及其他信息。
档中的信息随着XXXX科技有限公司产品和技术的进步将不断更新,XXXX科技有限公司不再通知此类信息的更新。
目录
第1章产品概述....................................................................................................................3第2章系统架构....................................................................................................................4第3章数据存储....................................................................................................................5
分布式集群存储分布式文件系统...........................................................................6HBase-分布列式数据库............................................................................................7Hive-数据仓库...........................................................................................................9GraphDB-大规模分布式并行图数据库.................................................................12第4章数据总线..................................................................................................................13
数据采集与交换.....................................................................................................15数据预处理.............................................................................................................16
规则过滤......................................................................................................17定制化ETL..................................................................................................19
第5章计算引擎..................................................................................................................21
功能.........................................................................................................................21组成.........................................................................................................................21计算框架.................................................................................................................23通用算子.................................................................................................................23专用算子及分析模板.............................................................................