浪潮云海大数据一体机产品白皮书Word文档格式.docx
《浪潮云海大数据一体机产品白皮书Word文档格式.docx》由会员分享,可在线阅读,更多相关《浪潮云海大数据一体机产品白皮书Word文档格式.docx(12页珍藏版)》请在冰豆网上搜索。
采用全分布式大数据处理架构,平台能够随着客户数据的增长和业务的扩张而不断增长,并且能够保持极高的线性度,解决了传统架构的扩展瓶颈,系统在扩展至120000核心时依旧保持0.8左右的扩展效率;
软硬一体化的系统
集成计算单元、存储单元、通讯单元、管理单元等核心模块,是对数据存储、处理、展现的全环节的解决方案,由浪潮统一开发,能够统一交付,集中管理,用户可以轻松完成;
全局优化的系统
浪潮进行全局优化性能等技术指标大幅提升,在性能、可用性方面有了重大提升。
16%:
通过优化系统任务调度策略,动态调整任务执行资源,减少慢任务数量,任务执行时间平均缩短16%以上;
30%:
引入Reed-Solomon算法,优化分布式散列数据布局,满足文件高并发和高带宽双重需求同时平衡数据冗余度,浪潮采用两副本加编码的方式相对三副本最大可实现30%空间节省;
50%:
采用多级高速缓存,实现硬件加速。
经测试,1TB数据排序测试整体访问性能提高50%;
系列化、产品化
针对视频等重载应用、商业智能分析应用、海量并发的轻量级线程类应用这三类应用场景。
云海大数据一体机根据用户应用特点提供个性化解决方案;
国产化
浪潮可提供基于飞腾处理器、浪潮云谷系统等产品的全国产化方案;
在敏感行业、关键数据,保障数据核心处理平台的自主可控;
专业化服务
从业务分析、应用移植、应用开发到运维服务的全环节服务保障。
解决用户在实施分布式数据理架构面临的软硬件部署、二次开发等实际问题,帮助客户实现由传统数据仓库向新型大数据平台的平滑迁移。
2.体系架构
大数据一体机基于ApacheHadoop集群架构,由三个大的模块构成:
底层基础架构基于浪潮的先进硬件平台,软件部分则采用浪潮的专有Hadoop发行版来提供海量数据的存储与处理能力,通过浪潮软件、硬件的彼此优化与整合,形成一套高性能的软硬一体的平台解决方案,并经过大量的测试调优来保证整体系统的兼容性、稳定性和可靠性。
在软硬件之上,还架构了一个可视化的管理界面来帮助用户对一体机的硬件、软件进程进行统一的管理和控制。
2.1大数据一体机硬件组成
大数据一体机物理部署图(SDA30000主柜)
如上图所示,SDA硬件上主要由管理节点,数据节点,管理交换机,计算交换机,KVM控制器机柜等组件构成
一体机组件
说明
管理节点
采用2台高性能的2路,4路或8路服务器,用来执行集群中的文件访问管理,数据处理任务调度,节点性能监控和故障恢复等任务。
两台服务器间互为冗余,实现管理节点的高可用性,保证集群可以持续对外提供服务。
数据节点
专用的2路2U存储服务器,除系统盘外,配置了12块大容量硬盘,单节点可以提供高达36TB的存储空间和192GB内存容量。
数据结点数量可以按客户具体需求配置,并可灵活线性扩展。
管理交换机
对内提供24个10/100/1000M自适应电口,对外4个SFP非复用端口,交换容量为208Gbps(全双工),包转发率51Mpps
计算交换机
对内提供24-48个万兆SFP+端口,对外提供4个40GQSFP+端口,支持冗余电源,支持FcoE接入,其中可支持2/4/8GbpsFC端口。
交换容量1.28T,包转发率960Mbps
KVM控制器
1U高度,可折叠式,整合17"
LCD液晶显示器、切换器、键盘及触控板于一体的抽拉式视频控制模块。
机柜
19″、42U专用机柜,最高静载1000kg;
机柜两侧预留布线槽,强弱电分离布线,机柜上下方均可走线;
前后门采用钢制网孔设计,保证前后通风,顶部有通风孔结构;
1个承重托盘,支持并柜并带有并柜遮条;
自带2个线缆槽,配置专业工业PDU,可选220V/380V供电环境
2.2大数据一体机网络拓扑
大数据一体机网络拓扑图
如图所示,大数据一体机具有两套相互独立的网络系统:
管理网络和计算网络
管理网络:
采用千兆以太网连接一体机所有节点,实现节点的配置,管理和性能监控,并可以通过IPMI接口,实现远程开关机,虚拟设备挂载等带外管理功能
计算网络:
采用万兆以太网连接一体机所有节点,一体机各节点间的数据交换和通信通过计算网络完成。
文件服务器,ETL服务器和应用服务器等相关系统可配备万兆网卡直接连入一体机,或者通过交换机万兆上联端口连入一体机计算网络进行数据交换和处理。
2.3大数据一体机软件架构
浪潮云海大数据一体机软件架构
在软件架构上,浪潮云海大数据一体机支持多种Linux版操作系统,并采用浪潮自主研发的Hadoop商业发行版—浪潮云谷系统(CloudCanyon)。
浪潮云谷系统为用户提供稳定的、可靠的、易用的Hadoop平台,其组件包括HDFS文件存储系统、MapReduce框架以及Hive数据仓库、Pig数据分析平台和HBase数据库等。
浪潮CloudCanyon发行版产品功能如下:
商业套件
功能详解
分布式文件系统
(HDFS)
●高带宽集群文件存储系统
●高可扩展性,无需停机无缝动态扩容
●高容错性,数据自动复制和校验
分布式协同工作系统
(ZooKeeper)
●高效的选举算法,确保分布式系统一致性
●保证集群数据及配置同步
●实现统一命名服务
分布式数据库
(HBase)
●分布式、面向列存储的、多维度的数据系统
●数据自动切分和分布存储
●高可扩展性,高性能并发读写
分布式计算框架
(Map/Reduce)
●高度并行和可扩展的分布式批处理计算框架
●高容错能力,支持任务自动迁移和重试
●合理调度任务,有效降低网络带宽
●灵活的资源分配和调度,达到资源利用最大化
分布式数据仓库(Hive)
●高性能分布式海量数据仓库
●强大的查询与分析功能
●类似SQL的查询语言
数据转移工具(Sqoop)
●将关系型数据库导入到Hadoop的HDFS
●将HDFS的数据导入到关系型数据库
分布式数据处理(Pig)
●大规模数据分析实现平台
●系统自动化最优策略实现
●高可扩展性,易于实现用户需求
3.应用场景
云海大数据一体机是一体化的数据分析处理平台,可应对多种数据类型和多种数据处理需求,包括但不限于以下四种应用场景:
海量数据存储:
大数据一体机具备高性能的分布式文件系统,支持大吞吐量高并发访问,具有自我修复,动态扩展等特性,硬件配备了高密度大容量的硬盘和高速的数据交换网络,对外提供丰富的数据访问接口,非常适合监控视频,医疗影像,科研数据等大数据集的存储。
批量数据处理:
通过分布式计算框架MapReduce,大数据一体机可调用所有节点的计算资源执行诸如数据格式整理,数据类型转换,图片特征值提取,语音识别等数据数据处理任务,在处理过程中减少了数据在不同节点间的交换,降低了传输带宽的压力,极大的提升了处理效率。
海量结构化数据在线查询:
大数据一体机内置了列存数据库HBase,它具有高效的查询性能和良好的横向扩展能力,支持高并发访问,百亿条的数据规模下进行查询可达到毫秒级响应,非常适合金融,电信等行业的历史交易详单查询以及公安,交通等行业的道路卡口数据查询,快速身份信息查询等需。
数据仓库:
大数据一体机配备了数据仓库工具和ETL工具,可实现将数据从多种数据库,多个数据源抽取,转换最终加载到数据仓库中。
数据仓库对外提供标准SQL接口,可对接SAS,Congons等传统分析应用,适合各种面向分析应用的数据仓库场景。
4.关键技术特性
针对企业用户对与数据分析处理的需求,大数据一体机在硬件上进行了定制化设计,在软件层面也在开源Hadoop基础之上进行了优化和较大的功能改进:
1.支持高速并发写入和高并发查询,每秒实现10万条以上写入和查询(记录大小1K);
2.递交请求创建数据表,数据表需要能灵活改变Schema;
3.灵活的表结构,可动态改变和增加每一行的列,保证新旧数据共存;
4.数据自动切分和分布,可通过增加服务器动态扩容,扩容过程中无需停机可持续服务;
5.单台数据库节点失效会自动修复,所提供服务可自动迁移至集群中其他服务器;
6.数据文件存放于分布式文件系统之上,可复制多份,保证数据不丢失;
7.数据文件实现元数据备份和恢复功能,防止元数据破坏失效;
8.线上动态扩容,新加节点可以实现自动负载均衡;
9.节点数据的副本以及正确性的自动检查,尽最大限度的保证数据的高可用性;
10.多副本机制,提供高并发读性能;
11.磁盘故障的自动检测,发现故障磁盘,数据自动实现副本恢复迁移;
12.提供多层容错机制,应用程序故障能自动迁移重启;
13.可以实现表中指定列的复制份数,做到可用性和复制冗余根据需要灵活调配;
14.可以实现表中指定列的压缩,可根据需要实现存储空间的高利用率;
15.分布式数据库自动负载均衡;
16.分布式数据库支持多级别的客户请求过滤器,可对单个列族、多列族、行等进行过滤;
17.分布式数据库局部性机制,减少读写数据时网络传输消耗;
18.分布式数据仓库可以增加节点提高计算性能,扩容无须停机;
19.分布式数据仓库需要提供灵活的扩展性,如复杂数据类型,扩展函数和脚本等;
20.分布式数据仓库可以提供分区操作,桶操作;
21.集群管理软件提供图形化界面对集群服务器角色,配置和状态进行管理;
22.集群管理软件支持分布式文件系统、分布式数据库和分布式数据参数所有参数配置及用户自定义参数配置;
23.集群管理软件支持集群服务器上分布式系统状态监控和服务器状态监控;
24.集群管理软件支持自定义报警;
25.集群节点健康状态监控管理;
26.集群组件服务状态监控;
27.平台支持全文检索功能扩展;
28.提供大对象存储能力;
29.采用有效的数据冗余技术;
30.提供有效的安全访问及鉴权机制,确保合法用户对数据进行合法访问;
31.提供独立的远程管理控制端口;
32.提供自动化的管理特性,帮助管理员简化运维管理;
33.可根据日志数据的保存周期,设置数据生命周期策略,对不同阶段的日志数据采用不同的可靠性策略,并支持自动资源回收。
技术指标
根据不同的应用场景需求,浪潮云海大数据一体机有三个通用系列供用户选择,并可为用户进行定制化配置满足客户要求:
大数据一体机型号
SDA20000
SDA30000
SDA60000
*扩展性
只支持单机柜,最多14个数据节点
主柜最多14个节点支持1-2个机柜,最多30个数据节点
主柜最多12个节点,支持多个机柜,最大支持60节点
应用场景
小规模数据处理,扩展性要求不高
高性价比配置,适合大多数数据处理场景
适合数据量大,增长速度快,数据处理性能要求高的应用场景
管理网络
千兆以太网
数据网络
万兆以太网
整机最大计算CPU
168核
360核
720核
整机最大计算内存
5096GB
10920GB
21840GB
*整机最大存储空间
504TB
1080TB
2160TB
交流输入电压
220V或380V可选
整柜最大功率
11200w
12600w
10800w
整柜最大重量
690kg
760kg
630kg
机柜尺寸
1050*600*2050
工作温度
5-35摄氏度
管理节点配置
双路E5-2620V2CPU
96G内存
4块2.5寸600G硬盘
2个千兆网口
四路E7-4820V2(8核)CPU
256G内存
8块2.5寸300G硬盘
4个千兆网口
1个单口万兆网卡
八路E7-8837(8核)CPU
数据节点配置
双路E5-2420v2CPU
192G内存
2块2.5寸500G硬盘
12块3.5寸3T硬盘
*扩展性:
指大数据一体机标准配置的扩展能力,采用特殊硬件和设计理论上可扩展到4000节点
*主柜数据存储空间:
如采用HDFS3副本机制实际存储容量需要除以3