ImageVerifierCode 换一换
格式:DOCX , 页数:25 ,大小:89.48KB ,
资源ID:5079122      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/5079122.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(大数据中心建设方案word资料43页.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

大数据中心建设方案word资料43页.docx

1、大数据中心建设方案word资料43页大数据中心建设方案“师”之概念,大体是从先秦时期的“师长、师傅、先生”而来。其中“师傅”更早则意指春秋时国君的老师。说文解字中有注曰:“师教人以道者之称也”。“师”之含义,现在泛指从事教育工作或是传授知识技术也或是某方面有特长值得学习者。“老师”的原意并非由“老”而形容“师”。“老”在旧语义中也是一种尊称,隐喻年长且学识渊博者。“老”“师”连用最初见于史记,有“荀卿最为老师”之说法。慢慢“老师”之说也不再有年龄的限制,老少皆可适用。只是司马迁笔下的“老师”当然不是今日意义上的“教师”,其只是“老”和“师”的复合构词,所表达的含义多指对知识渊博者的一种尊称,虽

2、能从其身上学以“道”,但其不一定是知识的传播者。今天看来,“教师”的必要条件不光是拥有知识,更重于传播知识。 信息技术有限公司宋以后,京师所设小学馆和武学堂中的教师称谓皆称之为“教谕”。至元明清之县学一律循之不变。明朝入选翰林院的进士之师称“教习”。到清末,学堂兴起,各科教师仍沿用“教习”一称。其实“教谕”在明清时还有学官一意,即主管县一级的教育生员。而相应府和州掌管教育生员者则谓“教授”和“学正”。“教授”“学正”和“教谕”的副手一律称“训导”。于民间,特别是汉代以后,对于在“校”或“学”中传授经学者也称为“经师”。在一些特定的讲学场合,比如书院、皇室,也称教师为“院长、西席、讲席”等。 目

3、 录第1章方案概述“百年大计,教育为本”,教育行业是我国经济发展的关键命脉之一,伴随着数据集中在教育业信息化的逐渐展开,数据中心在企业和信息化的地位越来越重要。教育数据中心建设已成为教育机构信息化趋势下的必然产物。教育数据中心作为承载教育机构业务的重要 IT 基础设施,承担着教育机构稳定运行和业务创新的重任。在教育机构新型客户服务模式下,数据中心需要更高效地支持后台业务和信息共享需求,同时要 24 小时不间断的提供服务,支持多种服务手段。这对教育数据中心的资源整合,全面安全,高效管理和业务连续性提出更高的要求。此数据中心建设方案主要对数据中心的基础设施和网络规划部分提出整体建议,保证数据中心的

4、高性能、安全、可靠,从而使数据中心能承载更多高品质的业务。1.1.建设背景自从出现数字化教育以来,数据中心作为数字化交易的核心,被各个教育系统广泛采用。目前随着教育电子化的推广,客户市场细分的深入,教育产品设计的专业化,以及对于教育系统安全性的要求。教育系统的数据中心需要更强大的运算能力,更多的存储空间,更安全可靠的规划和设计。不仅如此,教育系统相比其他行业的数据中心有其自身特有的特点和要求。教育行业数据中心的非常重要的一点就是安全和可靠。因为哪怕是短时间的网络瘫痪也会造成非常广泛和严重的后果。这对教育数据中心的资源整合,全面安全,高效管理和业务连续性提出更高的要求。所以教育行业数据中心产品和

5、方案的应用必须采用更高等级的产品和整体设计方案,以满足对于系统安全性的要求。从数据大集中到多业务整合,教育行业的数据中心建设正围绕着业务发展的需要迅速展。教育基础设施的建设,很重要的一个环节就是教育数据中心的建设。教育数据中心工程不仅集建筑、电气、安装、网络等多个专业技术于一体,更需要丰富的工程实施和管理经验。教育数据中心设计与施工的优劣直接关系到数据中心内计算机系统是否能稳定可靠地运行,是否能保证各类信息通讯畅通无阻。由于教育数据中心的环境必须满足计算机等各种数据,以达到反馈信息和处理问题的功效。特别是要将需要解决电池放电状态和旁路运行状态的监控管理问题等重要信息发到主要负责人的手机上,以便

6、能随时掌握信息,对一些天气灾害停电而有应急预案。1.2.当前现状随着业务的发展,数据中心的问题与日俱增,数据中心所面临的压力和挑战也越来越大:业务的不断调整和改变让数据中心总体架构面临极大的压力、有限的物理空间让数据中心扩展性和灵活性有所限制、虚拟化的欠缺让数据中心资源调配能力有限、复杂多变的异构环境让数据中心管理效率异常低下、高居不下的耗电量让数据中心能源成本迅速上升。这些问题与挑战让数据中心管理者迫切需要对数据中心进行整合和升级。通过有效的整合让传统数据中心升级成为一个智能化、自动化、高效化的数据中心。当前数据中心面临的问题:可靠性问题供电可靠性是数据中心安全性的重要保障,随着以信息技术为

7、支撑的新业务的不断涌现,教育行业数据中心对供电可靠性的要求大大提升。在数据中心领域,动力平台的可用性指标分别高于数据中心的可用性指标和整个网络系统的可用性指标,因此,对动力平台的关注理应放到最核心的位置。比如服务器电源的冗余方式发生了变化,供电系统就应当做出相应改变。刀片服务器以及虚拟化的应用,使高热密度问题凸显,数据中心环境更加恶劣,制冷模式就也需要做出改变。节能降耗问题数据中心建设的加速,导致的最直接后果就是能源消耗量的急剧攀升。在当前全球能源紧张的大背景下,节能降耗是整个数据中心行业的大趋势。对于企业本身而言,能耗的急剧增长大大提升了数据中心的运行成本,数据中心的节能和能效改善已成为整个

8、行业的迫切要求。管理与维护问题数据中心是一个庞大而复杂的系统,这些系统是一个有机的整体,牵一发而动全身,数据中心可靠性的发挥有赖于每个设备的正常运行,有赖于这些设备的协调一致,任何一个环节出现故障,都有可能造成巨大损失。因此,对整个系统的管理越来越重要,而难度也越来越大。扩容问题随着业务量的不断扩大,教育行业IT应用系统日益增长,服务器规模变得日益庞大,带来了高能耗、数据中心空间紧张、IT 预算紧张等问题。同时,数据中心动力平台的匹配性却不够,要么利用率低,资源浪费严重;要么供电与制冷明显不足,影响数据中心可用性。简言之,动力系统对核心设备供电或者制冷需求的反映不够灵敏。针对上述问题,技术有限

9、公司推出了创新型的数据中心解决方案。该解决方案具有高可用性、高节能性、高灵活性、高可维护性等四大特点,能够帮助教育行业客户解决数据中心建设与应用的难题,满足教育企业在信息化过程中对数据中心动力安全、节能环保等方面日益增长的应用需求。1.1.建设目标数据中心建设应达成以下目标:高可用-数据中心的高可用直接影响到业务系统的可用性,高可用至少包括高可靠、高安全和先进性三个方面:高可靠:应采用高可靠的产品和技术,充分考虑系统的应变能力、容错能力和纠错能力,确保整个基础设施运行稳定、可靠。当今,关键业务应用的可用性与性能要求比任何时候都更为重要。高安全:基础设计的安全性,涉及到核心数据安全。应按照端到端

10、访问安全、网络分层安全两个维度对安全体系进行设计规划,采用软硬件安全设备,从局部安全、全局安全到智能安全,将安全理念渗透到整个数据中心网络中。先进性:数据中心将长期支撑企业的业务发展,数据中心建设需要考虑后续的机会成本,采用主流的、先进的技术和产品,建立高性能,大容量存储的数据中心。易扩展-随着信息化的发展,企业内通信网络的建立和全面覆盖,未来的业务范围会更多更广,业务系调整与扩展再所难免,因此数据中心必须能够适应业务系统的频繁调整,同时在性能上应至少能够满足未来510年的业务发展。对于设备的选择和协议的部署,应遵循业界标准,保证良好的互通性和互操作性,支持业务的快速部署。易管理-数据中心是I

11、T技术最为密集的地方,数据中心的设备繁多,各种协议和应用部署越来越复杂,对运维人员的要求也越来越高,单独依赖运维人员个人的技术能力和业务能力是无法保证业务运行的持续性的。因此数据中心需要提供完善的运维管理平台,对数据中心IT资源进行全局掌控,减少日常的运维的人为故障。同时一旦出现故障,能够借助工具直观、快速定位。第2章方案设计原则1.1.设计原则根据“先进、实用、稳定、可靠”的总原则,对云数据中心软硬件系统进行科学合理的设计,保证中心建设的胜利完成。数据中心工程是智能弱电工程的重要组成部分。其基本要求可归纳为:保证系统运行的可靠性、保证系统的设计寿命、保证信息安全的要求、保证操作人员的工作环境

12、。设计一个好的数据中心,要以兼顾人机并重之原则,一个合格的现代化计算机数据中心,应该是一个安全可靠、舒适实用、节能高效和具有可扩充性的数据中心,设计应以运行条件、安全可靠作为首要的考虑因素。因此对数据中心建设要求遵循以下设计原则:1高安全可靠性为保证数据中心能为用户提供连续不间断的724小时服务, 数据中心必须具有高可靠性。在系统设计时应注意尽量减少单点故障的存在,对存在单点故障的环节,在设计上必须减少其对整个系统的影响。由于该数据中心内部计算机系统涉及到机密信息,其泄密可能严重危害社会秩序,所以需要保证数据中心的安全性,必须具有安保系统以保证用户的设备和数据不受侵害。实现高安全性的措施包括:

13、闭路电视监测、门禁系统、自动安全报警系统等。中心软硬件系统要高度可靠,虚拟机出现故障要能自动迁移,数据要有冗余备份,可以从故障中及时恢复。2可扩展性鉴于信息网络系统需求的不断发展与变化,技术也在不断提高,故在建设时应考虑这些变化对资源需求的改变,以使整个系统具有灵活的可扩展性,特别是精密空调、配电开关及配电柜、UPS及供电母线等。中心的服务器、存储、网络都可以不用停机就线性扩容服务器、存储、网络等设备。3易于管理通过使用先进和可靠的管理工具来实现系统的高质量管理,以节约人力资源。由于数据中心内设备繁多,具有一定复杂性,随着业务的不断发展,管理的任务必定会日益繁重。所以在设计时,必须建立一套完善

14、的数据中心管理和监控系统。实时监控、监测整个数据中心的运行状况、语音报警,实时事件记录,可以迅速确定故障,提高可靠性,简化数据中心管理人员的维护工作。中心的资源池支持方便灵活地管理维护和审计。4高性能价格比数据中心所需设备的选型应该以适用为主,合理选择材料与设备;不要造成资源浪费;同时也要保证该数据中心的高可靠性。以较高的性能价格比设计数据中心,能以较低的成本、较少的人员投入来维持系统运转,提供高效能与高效益。中心的软硬件设施选择合理,具有高性价比。1.2.设计依据电子计算机数据中心设计规范GB50174-93 计算机场地技术条件GB2287-89 计算机场地安全要求GB9361-88 计算机

15、机房活动地板技术条件GB6650-86 建筑物防雷设计规范GB50057-94 高层民用建筑设计防火规范GBJ45 电子计算机机房施工及验收规范SJ/T30003-93 建筑防火设计规范GB5004-95 空调与通风工程施工及验收规范GB50243-97 建筑与建筑群综合布线系统工程设计规范GB/T50311-2000 建筑与建筑群综合布线系统工程验收规范GB/T50312-2000 中华人民共和国通信行业标准YD-T926 1、2、3 国际综合布线标准TIA/EIA 568-B 供配电系统设计规范GB50052-92火灾自动报警系统设计规范GBJ116-98 工业企业通信接地设计规范GBJ7

16、9-85 高性能屏蔽室屏蔽效能的测量方法GB12190第3章 数据中心方案架构3.1 数据中心架构设计 云计算数据中心通过运行在单独的服务器上的云操作系统对服务器、存储、网络等资源进行虚拟化管理,提供可以自定义的虚拟机,在虚拟机上安装Hadoop、hbase等Nosql分布式数据库集群,对现有的数据ETL采集、清洗、转换、汇总进来,使用海量数据分布存储技术,用spark、storm等大数据处理软件对hbase中的数据进行分析处理,挖掘数据价值。还可以在虚拟机上运行业务应用系统,提供负载均衡和冗余备份,达到系统的稳定、高可用和方便的扩展性。通过安装SSR等安全软件和安全服务器,可以保证提升操作系

17、统的安全级别,从而达到国家等级保护的三级要求,为客户构建真正的安全长城。云计算数据中心可以自动管理和动态分配、部署、配置、重新配置以及回收资源,也可以自动安装软件和应用,具有良好的弹性和灵活性,管理、使用方便。云中心可以向用户提供虚拟基础架构。用户可以自己定义虚拟基础架构的构成,如服务器配置、数量,存储类型和大小等等。用户通过自服务界面提交请求,每个请求的生命周期由平台维护。服务器虚拟化系统基于服务器,存储和网络设备构建资源池,在资源池上通过资源的管理、调度和镜像管理实现系统的各种高级功能,例如计算层面的系统负载均衡和虚拟机高可用,存储层面的镜像复制和冗余。系统支持以主机或者虚拟群集为单位管理

18、资源,虚拟群集为一组共享存储资源的物理主机。 云中心既是一个企业云,也可以对外提供服务,扩展成公有云。学校还可以使用别的公有云如阿里云,形成混合云。云中心包括iaas、paas、saas三层服务:1). SaaS:提供给客户的服务是运营商运行在云计算基础设施上的应用程序,用户可以在各种设备上通过客户端界面访问,如浏览器。消费者不需要管理或控制任何云计算基础设施,包括网络、服务器、操作系统、存储等等;2). PaaS:提供给消费者的服务是把客户采用提供的开发语言和工具(例如Java,python, 等)开发的或收购的应用程序部署到供应商的云计算基础设施上去。客户不需要管理或控制底层的云基础设施,

19、包括网络、服务器、操作系统、存储等,但客户能控制部署的应用程序,也可能控制运行应用程序的托管环境配置;可以使用docker容器完成应用系统的部署和管理。3). IaaS:提供给消费者的服务是对所有计算基础设施的利用,包括处理CPU、内存、存储、网络和其它基本的计算资源,用户能够部署和运行任意软件,包括操作系统和应用程序。消费者不管理或控制任何云计算基础设施,但能控制操作系统的选择、存储空间、部署的应用,也有可能获得有限制的网络组件(例如路由器、,防火墙,、负载均衡器等)的控制。 云中心采用xen、kvm、VMware进行虚拟化,LXC提供Linux容器,支持docker应用容器。一 . 服务器

20、采用浪潮整机柜服务器SmartRack,面向海量数据的存储和处理,适合云资源池如虚拟化、分布式存储,大数据处理如Hadoop集群等应用,目前在国内服务器中占主导地位,特点如下:定位多种应用,支持各类服务器节点。针对不同业务对存储、计算、IO吞吐量、功耗的不同要求,设计开发出不同种类的服务器节点,包括:1U全宽双路12盘位综合型节点、1U全宽单路18盘位冷存储节点、1U半宽双路计算型节点,满足不同需求。 整机柜集中供电、集中散热,相比其他架构服务器,运行功耗降低10%以上。 整机柜由一组电源模块集中供电,最大输出功率高达22.5kw,直接支持交流或高压直流供电,各节点通过铜排从电源模块取电,结合

21、电源负载动态调整技术,电源转换效率高达94%以上。机柜背部风扇墙集中散热,根据节点数量灵活调节风扇墙高度,采用140mm大尺寸风扇,相同功耗下可提供更大散热量。领先的架构设计,保障系统高可靠运行。服务器节点中无独立的电源和风扇,有效降低单点故障。根据整机柜实际负载情况,电源可实现N+N/N+2/N+1多种冗余方式。风扇可根据温度状况自动调节转速,支持2+1冗余。对整机柜节点、电源、风扇进行集中监控管理。实现管理中心RMC对整个机柜各模块的统一监控和管理,节点、电源、风扇的健康状况、温度、配置信息一目了然,还可进行批量开关机、重启,功耗控制,风扇转速自动/手动调节等功能,搭配专为Smart Ra

22、ck设计的可视化管理软件,轻松实现简易化智能管理。简易维护,无需繁琐拆装。独有节点前维护设计、各模组免工具热插拔设计、优化的线缆走线设计,使得系统运维难度大大降低。风扇等易损部件全部裸露在外,更加方便更换维护。二 云操作系统建议采用浪潮云海云数据中心操作系统 V3.0,此系统秉承开放化、模块化、标准化的设计理念,基于虚拟化技术,实现了数据中心资源融合、资源管理及服务交付,简化了云数据中心运维,提高了云数据中心服务水平。云海云数据中心操作系统有以下特点:自主可控、安全可靠的云数据中心操作系统:浪潮自主研发的国产云数据中心操作系统,加强了WEB安全、虚拟化安全、数据安全、访问控制、安全审计等方面的

23、安全控制,可帮助用户构建安全可控的云数据中心。异构资源管理:云海OS支持对数据中心各类异构硬件设备及软件资源的统一管理;支持对VMWare vSphere、Inspur iVirtual等异构虚拟化资源池的集中管理,已部署的虚拟化环境可被云海OS无缝接管;精细的软硬件资源监控:云海OS支持对数据中心主流厂商的服务器、网络设备、存储设备等物理资源,操作系统、数据库、WEB应用等软件资源,VMWare vSphere、Inspur iVirtual等虚拟化环境的精细监控,提供界面、邮件、短信等多种告警方式,通过详尽清晰的报表分析数据,帮助数据中心的运维人员随时掌握数据中心的各类资源的运行状况,降低

24、运维管理复杂度,提高运维效率。快速的服务交付:云海OS支持通过虚拟机模板、应用服务模板的方式,实现业务的快速交付,业务上线时间由原来的几周、几天,缩短为几分钟,大大提高数据中心的服务水平。资源使用按量计费:实时的资源使用情况统计,让用户精确掌控自身资源和费用使用情况,帮助IT部门实现由成本中心向价值中心的角色转变。资源按需服务:云海OS可实现将基础架构作为服务交付,用户可通过自助服务门户在线申请及访问自己的虚拟数据中心、应用服务、虚拟机等资源,实现资源的按需申请、便捷获取、自助使用。可定制的业务流程:云海OS支持用户创建与原工作流程吻合的资源申请的审批流程,实现业务流程的个性化、可定制化。灵活

25、的服务交付方式:云海OS既支持从下到上的资源申请与审批,也支持从上到下的资源创建与分配的服务交付方式,可满足不同客户对资源获取方式的不同需要。多租户私有云:云海OS可创建多个组织,一个组织可代表某业务部门、分部或子公司。每个组织都有各自独立的虚拟数据中心、用户及独有的目录,可将组织资源分配给本组织的用户,每个组织如同拥有自己的数据中心。利用基于权限的用户控制机制和基于虚拟交换机的网络隔离技术,实现多租户环境下的安全性和可靠性,以此构建安全的多租户私有云。灵活可控的权限管理:云海OS支持用户自定义角色类型,不同的权限可自由组合,实现灵活可控的系统权限管理。服务全生命周期管理:云海OS涵盖服务提供

26、所需的各个环节,包括服务的申请审批;服务的交付和回收;服务的使用统计和计费;服务的运行监控服务移动性:通过vApp封装多个虚拟机服务和相关的网络连接策略,遵循OVF等开放式标准,实现同一个云环境的终端用户彼此之间可以轻松共享服务,而不同的云环境的用户可以轻松的在云之间迁移服务。3.2 大数据处理设计通过在虚拟机上安装Hadoop2.6、hbase1.0等Nosql数据库集群,用sqoop1.3把现有的数据汇总进来,要对现有数据做个总的分析,对字段统一定义规划,制定转换策略,做到正确性、唯一性、可用性,去除重复字段,通过ETL抽取、清洗数据,把数据导入hbase,这样就可以消除信息孤岛,用spa

27、rk、storm等大数据处理软件对hbase中的数据进行分析处理,挖掘数据价值。云中心通过调度系统自动采集、加工、存储数据,为应用系统提供支持: 在云中心的平台上,开发招生、创业、就业、数据实验室等应用系统,通过元数据库管理所有的数据数据经过采集、加工后进入hbase,消除信息孤岛,统一管理使用:一.hadoop2架构体系下图是hadoop2的架构图1. HDFS文件系统,Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high

28、throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。2、YARN是一套资源统一管理和调度平台,可管理各种计算框架,包括MapReduce,Spark,MPI等。包括 以下内容:ResourceManager(RM):整个系统只有一个RM,它就只管调度方面的事情,并且为集群应用而优化,因而具有很好的性能。RM的一个核心是它的Scheduler。调度包含两个过程,一要搜集各节点的情况;二要根据某种调度策略,分配合适的节点。搜

29、集节点情况是基于一个资源容器(resource container)的概念,该容器包括cpu,disk,network等(目前只用到cpu)NodeManager(NM):NM是每个节点一个实例,管理每个节点,它触发应用容器(application container),监控节点的资源(cpu/disk等),并向RM报告资源的情况。ApplicationMaster(AM):AM是每个应用一个实例,它是一个特定的框架接口库,一方面与RM中的Scheduler协商得到resource container,另一方面与NM一起执行和监控各子任务部件,从系统的角度,AM本身也一种container(下

30、图中将它与container画得一样)。Container:从逻辑上,container可认为是资源的分配容器,它包括hostname,cpu,memory等属性。AM发送ResourceRequest给RM,然后RM分配合适的Container给AM,AM再将此Container提交给它所在节点的NM,NM采用此资源容器运行任务。实际上,Container是一种使用资源的“授权”,AM得到此授权后,在NM的管理下,可以运行任何进程(包括非Java应用,这一点与1.0不同)。 二、 Hive是基于Hadoop的一个数据仓库工具,处理能力强而且成本低廉。主要特点:存储方式是将结构化的数据文件映射

31、为一张数据库表。提供类SQL语言,实现完整的SQL查询功能。可以将SQL语句转换为MapReduce任务运行,十分适合数据仓库的统计分析。三、 HBaseHBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而 不是基于行的模式。HBase使用和 BigTable非常相同的数据模型。用户存储数据行在一个表里。一个数据行拥有一个可选择的键和任意数量的列,一个或多个列组成一个 ColumnFamily,一个Fmaily下的列位于一个HFile中,易于缓存数据。表是疏松的存储的,因此用户可以给行定义各种不同的列。

32、在 HBase中数据按主键排序,同时表按主键划分为多个HRegion,如下图所示(HBase数据表结构图):四. Sqoop是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql、oracle.)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。五.spark架构体系Spark与Hadoop的对比 Spark的中间数据放到内存中,对于迭代运算效率更高。Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面,有RDD的抽象概念。 Spark比Hadoop更

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1