1、 540TB;网络: 1Gbps、 10Gbps或者40Gbps适合处理密集型的重载应用: 视频处理,图片处理分析,图像渲染,在线交易等。可重构加速器件或众核处理器,硬件加速。二关键模块介绍HDFS分布式存储解决数据如何存储的问题,Map/Reduce解决数据如何处理问题,HBase解决实时数据库问题,Hive解决基于SQL的数据分析和挖掘。2.1Hadoop分布式文件系统:使用低成本存储和服务器构建 存放PB级别的海量数据 高可扩展性,实际生产环境扩展至4000个节点 高可靠性和容错性,数据自动复制 ,可自我修复 高带宽,高并发访问 2.2Hadoop MapReduce计算框架:为离线数据
2、分析而设计,基本上是个利用数据并行性进行分布运算而后汇总结果的计算框架。通用的计算框架,松耦合,非常利于线性扩展。与HDFS一起使用,具有容错特性,数据本地化处理,通过移动计算,而非移动数据来实现高效数据处理。分析问题能够被并行化,且输入数据集可以被切分 一个Map函数,在第一阶段计算对 一个Reduce函数,在第二阶段用于汇总Map函数的结果 2.3HBase 分布式数据库HBase是一个分布式的、按列存储的、多维表结构的实时数据库, 为高速在线数据服务而设计 NoSQL 面向列、可压缩,有效降低磁盘I/O,提高利用率。 多维表,四个维度,其中三个维度可变,适合描述复杂嵌套关系。灵活的表结构
3、,可动态改变和增加(包括行、列和时间戳)。支持单行的ACID事务处理 分布式系统 高性能,支持高速并发写入和高并发查询;可扩展,数据自动切分和分布,可动态扩容,无需停机;高可用性,建立在HDFS分布式文件系统之上。2.4Hive数据仓库Hive是一个建立在hadoop之上的数据仓库,用于查询和分析结构化海量数据 采用HDFS进行数据存储 采用Map/Reduce进行数据操作 基本特点:提供类似于SQL的查询语言 高扩展性(scale-out),动态扩容无须停机 针对海量数据的高性能查询和分析系统 提供灵活的扩展性 复杂数据类型,扩展函数和脚本等 三浪潮云海大数据一体机解决方案优势3.1高性能专
4、用的大数据存储服务器:针对大数据的应用特点,浪潮凭借在服务器及存储方面的领先优势,自主开发了大数据存储服务器,具备高密度、大容量存储特性。胖节点加速方案:胖节点拥有英特尔至强平台的最强性能、最大内存、最高RAS特性保障。闪存加速技术:将闪存盘放在整个计算缓存里面做高速缓存,针对不同应用类型,实现全局的算法,降低冗余率,使整个平台的计算节点、存储节点大大提高运行效率。高速通信网络:通信网络选用性能领先的万兆网络或者IB网络,实现一体机内部的高速互联,消除网络瓶颈。软件性能优化IO瓶颈易于解决 可以发挥大规模并行运算优势 支持大规模并行装载,装载前无需数据格式化,节点越多装载速度越快 优化系统任务
5、调度策略,对任务实现实时监控,动态调整任务执行资源,减少慢任务数量,提高整体性能 3.2高可靠性服务器本身冗余特性:节点的硬盘、风扇、电源等关键部件都是冗余设计,保障了节点本身的可靠性。链路冗余:网络可实现物理冗余设计,避免单点故障对系统的影响。采用Reed-Solomon算法,优化分布式散列数据布局,满足文件高并发和高带宽双重需求同时平衡数据冗余度。采用两副本加编码的方式相对三副本最大可实现30%空间节省 。智能失败任务识别:自动将任务转移到备份数据节点执行,单个节点的故障不影响整个任务的执行,有效应对计算单元失效。3.3高性价比Hadoop的诞生本身就是为了在低成本的通用硬件集群上运行分布
6、式计算框架。浪潮云海大数据一体机具备优异的线性可扩展,满足了未来业务量增长的需求,有效保护了现有投资,降低总体CTO。3.4易管理本地管理平台:每套大数据一体机中都配有本地管理平台,使系统管理人员方便集中控管一体机。远程集中管理平台:HDFS配置界面HBase配置界面监控管理界面3.5专业化服务实施服务:云海大数据一体机会在出厂前进行产品预装及严格的可靠性测试,保障产品的品质。产品实施实现客户现场的一体化交付,真正做到插电即用,极大地降低了客户利用大数据的门槛。售后服务:浪潮建立了以山东济南客户服务总部为中心、其他各省、直辖市设立服务分中心的覆盖全国的完备售后体系,所有客服工程师都是原厂经验丰
7、富的服务工程师。浪潮已经连续九年获得售后服务满意度金奖。四竞争性分析4.1跟传统关系型数据库对比分析机型浪潮云海大数据一体机Oracle Exadata一体机类型新型的Hadoop解决方案传统关系型数据库(RDBMS)适用场景数据规模10TBEB规模结构化,半结构化,非结构化混合存储和处理海量数据的ETL和数据挖掘分析应用海量数据的高并发随机访问数据规模TB以下结构化数据的存储和处理联机交易应用GB级别的数据分析和ETL架构无共享MPP架构单一实例Share-all架构可用性默认三份数据冗余,用户可依据需求进行调整备用元数据节点,故障后自动切换数据损失后,可以在剩余机器上自愈故障节点作业可以转
8、移到其它节点无需第三方支持,HBase提供基于日志的容灾解决方案大部分产品依赖RAID技术进行数据冗余大部分产品不具备数据自愈能力,需要数据备份节点故障后,SQL任务中断,不能自动转移部分主流商业数据库,无需第三方支持提供基于日志的容灾解决方案性能IO瓶颈易于解决可以发挥大规模并行运算优势支持大规模并行装载,节点越多装载速度越快IO瓶颈难以解决难以发挥大规模并行运算优势装载性能有限,数据需要格式化可扩展性存储能力,性能,并发访问,既可纵向扩展硬件得到提升,也可横向增加节点进行线性扩展国内外均有大量数百,上千节点的部署案例海量数据环境中,可联机改变数据结构存储能力,性能,并发访问能力主要通过硬件
9、纵向扩展提升,难以进行线性扩展Share-all集群架构规模难以突破40节点海量数据环境下,改变数据结构代价大,且影响业务访问接口标准文件访问接口(FTP,NFS等)部分兼容SQL92(ODBC/JDBC)Native JAVA访问接口Rest访问接口Thrift访问接口完整的SQL访问接口(ODBC/JDBC,专有客户端等)丰富的开发,集成,管理工具其它低廉的软硬件成本,完全开放架构无字符集选择问题支持基本权限管理和透明数据加密解密以开源文档为基础,提供新增特性接口和使用说明高昂的软硬件成本需要事先确定字符集部分产品支持完善权限管理和透明数据加密解密完整的文档4.2跟开源Hadoop对比分析
10、直接使用开源Hadoop开源Hadoop一体化交付方案型产品,经过系统优化,实现了软件、硬件的最优性能全面测试的企业级发行版,保证长期稳定运行,集成最新开源的和自行开发的补丁,用户可以及时修正漏洞保证各个部件之间的一致性,使应用顺滑运行无相关经验,单纯地进行硬件和软件环境的搭建针对HDFS数据节点的读写选取提供高级均衡算法,提高系统扩展性,适合不同配置服务器组成的集群简单均衡算法,容易在慢速服务器或热点服务器上产生读写瓶颈,最慢服务器成为系统性能瓶颈根据读请求并发程度动态增加热点数据的复制倍数,提高Map/Reduce任务扩展性无法自动扩充倍数功能,在集中读取时扩展性不强,存在性能瓶颈为HDF
11、S的NameNode提供双机热备方案,提高可靠性主NameNode节点失效时,自动切换到备用NameNodeNameNode是系统的单点破损点,一旦失效系统将无法读写实现跨区域数据中心的HBase超级大表,用户应用可实现位置透明的数据读写访问和全局汇总统计允许跨多个物理数据中心建立分布式大表,突破单一数据中心由于空间和供电限制无法建立超大集群的限制无此功能,无法进行跨数据中心部署可将HBase表复制到异地集群,并提供单向、双向复制功能,实现异地容灾没有成熟的复制方案在HBase中,根据数据局部性、服务器Region数、表的Region数来实现负载均衡,适合多用户共享集群创建多张大表的应用只根据
12、Region数量进行负载均衡,容易产生系统不均衡基于HBase的分布式聚合函数,比传统方式提高10倍以上效率无成熟方案提供独有的基于浏览器的集群安装和管理界面,解决开源版本管理困难的问题,提供网页、邮件方式的系统异常报警无图形化管理界面完善的售后服务体系无售后服务五成功案例5.1某城市智能交通系统项目背景年过车信息数据量达数百亿级记录规模市局和区县的数据中心两级架构,分布式存储,集中管理。支持多条件组合快速查询:卡口名称、车道名称、车辆类型、车牌类型、车牌号码、车身颜色、车牌颜色、车速范围、车长范围、号牌段范围、时间范围。支持海量过车信息的模糊匹配检索。支持各种统计分析、数据挖掘:车辆违章率统
13、计、过车识别率统计、套牌分析、关联性分析、黑名单等系统需求数据量(过车记录+违章图片+数据冗余+异地容灾): 6PB数据采集终端: 12000个,写入性能 24000记录/秒用户数: 1000过车记录单个区数据中心全市数据总和每秒钟 6MB/s1200 条记录/s120MB/s24000条记录/秒每小时20GB/hour432万条/小时400GB/hour8640万条/小时每天480GB/day1亿条/天9.6TB/day20亿条/天每月14.4TB/month30亿条/月288TB/month600亿条/月三个月43.2TB/3months90亿条/三个月0.8PB/3months1800亿
14、条/三个月违章车辆图片数据 1.8GB/h36GB/h43.2GB/day864GB/day1.2TB/month24TB/month3.6TB/3months72TB/3months难点分析传统数据库方案潜在问题:初始投入和后期维护,扩展成本巨大 人为分库,灵活性差。混合数据类型支持 规模仅能支持单个区域中心应用可靠性差,难以保证业务连续性代码复杂系统可维护性拓扑图智能交通应用技术方案规模、指标、特点该方案使用SDA-1、SDA-2,共计580节点集群性能:写入100000条记录/秒,20000主键查询/秒系统特点:解决了海量过车信息(结构文本+图片)存储问题解决了分布式数据查询问题,应用系
15、统可以接入任何一个本地数据中心,并访问全库数据系统提供了易于使用的API,方便进行二次开发系统做了较多优化,性能很好的满足了项目的实时性要求系统稳定性强,建立在X86服务器平台,自动进行数据迁移和数据恢复5.2某省级运营商清帐单查询系统原有方案:小型机+存储+Oracle成本高、扩展性差服务器采用P595的两个分区(48CPU),部署不同的地市,互为主备;存储使用2台DS8300,RAID5方式,有效容量54TB数据量大,增长迅速,但数据库的扩容工程施工风险高数据风险高灾难恢复依赖磁带,业务中断时间长效率低关系数据库处理困难,查询慢(超过15秒)关系数据库入库慢,常有清单文件积压,不能实时入库
16、,从而不能实时查询新清账单中心方案底层为浪潮提供的大数据解决方案平台,上层由应用开发商开发业务程序,对入库和查询进行业务处理。这种架构有效的屏蔽了底层的功能,对上层来说,只需要调研相关接口即可。数据的分发、复制、任务调度、容错都是由系统软件来控制。大规模的PC具备强大的处理能力和网络带宽,同时具备线性的横向扩展能力。3份冗余的数据保证对硬件的容错和读处理的支持。存储使用69台PC机身硬盘作分布式存储DataNode,每台PC配置6TB磁盘容量,按每份数据存放3份计算,有效容量138TB,保存6+1个月数据,压缩比1:5 六浪潮云海大数据一体机配置系统平台根据客户实际应用容量需求,用SDA-1、SDA-2进行灵活线性扩展。操作系统:Red Hat Enterprise Linux for Servers或CentOS, 64位系统,版本6以上。SUSE Linux 11 SP1Hadoop平台:HDFS/MapReduce HIVE HBASE Hadoop Manager Zookeeper
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1