Google云计算原理.docx

上传人:b****3 文档编号:26665852 上传时间:2023-06-21 格式:DOCX 页数:47 大小:595.97KB
下载 相关 举报
Google云计算原理.docx_第1页
第1页 / 共47页
Google云计算原理.docx_第2页
第2页 / 共47页
Google云计算原理.docx_第3页
第3页 / 共47页
Google云计算原理.docx_第4页
第4页 / 共47页
Google云计算原理.docx_第5页
第5页 / 共47页
点击查看更多>>
下载资源
资源描述

Google云计算原理.docx

《Google云计算原理.docx》由会员分享,可在线阅读,更多相关《Google云计算原理.docx(47页珍藏版)》请在冰豆网上搜索。

Google云计算原理.docx

Google云计算原理

第1章绪论

很少有一种技术能够像“云计算”这样,在短短两年间就产生巨大影响力。

Google、亚马逊、IBM和微软等IT巨头们以前所未有速度和规模推动云计算技术和产品普及,一些学术活动迅速将云计算提上议事日程,支持和反对声音不绝于耳。

那么,云计算到底是什么?

发展现状如何?

它实现机制是什么?

它与网格计算是什么关系?

本章将分析这些问题,目是帮助读者对云计算形成一个初步认识。

1.1云计算概念

云计算(CloudComputing)是在2007年第3季度才诞生新名词,但仅仅过了半年多,其受到关注程度就超过了网格计算(GridComputing),如图1-1所示。

图1-1云计算和网格计算在Google中搜索趋势

然而,对于到底什么是云计算,至少可以找到100种解释,目前还没有公认定义。

本书给出一种定义,供读者参考。

云计算是一种商业计算模型,它将计算任务分布在大量计算机构成资源池上,使用户能够按需获取计算力、存储空间和信息服务。

这种资源池称为“云”。

“云”是一些可以自我维护和管理虚拟计算资源,通常是一些大型服务器集群,包括计算服务器、存储服务器和宽带资源等。

云计算将计算资源集中起来,并通过专门软件实现自动管理,无需人为参与。

用户可以动态申请部分资源,支持各种应用程序运转,无需为烦琐细节而烦恼,能够更加专注于自己业务,有利于提高效率、降低成本和技术创新。

云计算核心理念是资源池,这与早在2002年就提出网格计算池(ComputingPool)概念非常相似[3][4]。

网格计算池将计算和存储资源虚拟成为一个可以任意组合分配集合,池规模可以动态扩展,分配给用户处理能力可以动态回收重用。

这种模式能够大大提高资源利用率,提升平台服务质量。

之所以称为“云”,是因为它在某些方面具有现实中云特征:

云一般都较大;云规模可以动态伸缩,它边界是模糊;云在空中飘忽不定,无法也无需确定它具体位置,但它确实存在于某处。

之所以称为“云”,还因为云计算鼻祖之一亚马逊公司将大家曾经称为网格计算东西,取了一个新名称“弹性计算云”(ElasticComputingCloud),并取得了商业上成功。

有人将这种模式比喻为从单台发电机供电模式转向了电厂集中供电模式。

它意味着计算能力也可以作为一种商品进行流通,就像煤气、水和电一样,取用方便,费用低廉。

最大不同在于,它是通过互联网进行传输。

云计算是并行计算(ParallelComputing)、分布式计算(DistributedComputing)和网格计算(GridComputing)发展,或者说是这些计算科学概念商业实现。

云计算是虚拟化(Virtualization)、效用计算(UtilityComputing)、将基础设施作为服务IaaS(InfrastructureasaService)、将平台作为服务PaaS(PlatformasaService)和将软件作为服务SaaS(SoftwareasaService)等概念混合演进并跃升结果。

从研究现状上看,云计算具有以下特点。

1)超大规模。

“云”具有相当规模,Google云计算已经拥有100多万台服务器,亚马逊、IBM、微软和Yahoo等公司“云”均拥有几十万台服务器。

“云”能赋予用户前所未有计算能力。

2)虚拟化。

云计算支持用户在任意位置、使用各种终端获取服务。

所请求资源来自“云”,而不是固定有形实体。

应用在“云”中某处运行,但实际上用户无需了解应用运行具体位置,只需要一台笔记本或一个PDA,就可以通过网络服务来获取各种能力超强服务。

3)高可靠性。

“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务高可靠性,使用云计算比使用本地计算机更加可靠。

4)通用性。

云计算不针对特定应用,在“云”支撑下可以构造出千变万化应用,同一片“云”可以同时支撑不同应用运行。

5)高可扩展性。

“云”规模可以动态伸缩,满足应用和用户规模增长需要。

6)按需服务。

“云”是一个庞大资源池,用户按需购买,像自来水、电和煤气那样计费。

(7)极其廉价。

“云”特殊容错措施使得可以采用极其廉价节点来构成云;“云”自动化管理使数据中心管理成本大幅降低;“云”公用性和通用性使资源利用率大幅提升;“云”设施可以建在电力资源丰富地区,从而大幅降低能源成本。

因此“云”具有前所未有性能价格比。

Google中国区前总裁李开复称,Google每年投入约16亿美元构建云计算数据中心,所获得能力相当于使用传统技术投入640亿美元,节省了40倍成本。

因此,用户可以充分享受“云”低成本优势,需要时,花费几百美元、一天时间就能完成以前需要数万美元、数月时间才能完成数据处理任务。

云计算按照服务类型大致可以分为三类:

将基础设施作为服务IaaS、将平台作为服务PaaS和将软件作为服务SaaS,如图1-2所示。

IaaS将硬件设备等基础资源封装成服务供用户使用,如亚马逊云计算AWS(AmazonWebServices)弹性计算云EC2和简单存储服务S3。

在IaaS环境中,用户相当于在使用裸机和磁盘,既可以让它运行Windows,也可以让它运行Linux,因而几乎可

图1-2云计算服务类型

以做任何想做事情,但用户必须考虑如何才能让多台机器协同工作起来。

AWS提供了在节点之间互通消息接口简单队列服务SQS(SimpleQueueService)。

IaaS最大优势在于它允许用户动态申请或释放节点,按使用量计费。

运行IaaS服务器规模达到几十万台之多,用户因而可以认为能够申请资源几乎是无限。

同时,IaaS是由公众共享,因而具有更高资源使用效率。

PaaS对资源抽象层次更进一步,它提供用户应用程序运行环境,典型如GoogleAppEngine。

微软云计算操作系统MicrosoftWindowsAzure也可大致归入这一类。

PaaS自身负责资源动态扩展和容错管理,用户应用程序不必过多考虑节点间配合问题。

但与此同时,用户自主权降低,必须使用特定编程环境并遵照特定编程模型。

这有点像在高性能集群计算机里进行MPI编程,只适用于解决某些特定计算问题。

例如,GoogleAppEngine只允许使用Python和Java语言、基于称为DjangoWeb应用框架、调用GoogleAppEngineSDK来开发在线应用服务。

SaaS针对性更强,它将某些特定应用软件功能封装成服务,如Salesforce公司提供在线客户关系管理CRM(ClientRelationshipManagement)服务。

SaaS既不像PaaS一样提供计算或存储资源类型服务,也不像IaaS一样提供运行用户自定义应用程序环境,它只提供某些专门用途服务供应用调用。

需要指出是,随着云计算深化发展,不同云计算解决方案之间相互渗透融合,同一种产品往往横跨两种以上类型。

例如,AmazonWebServices是以IaaS发展,但新提供弹性MapReduce服务模仿了GoogleMapReduce,简单数据库服务SimpleDB模仿了GoogleBigtable,这两者属于PaaS范畴,而它新提供电子商务服务FPS和DevPay以及网站访问统计服务AlexaWeb服务,则属于SaaS范畴。

1.2云计算发展现状

由于云计算是多种技术混合演进结果,其成熟度较高,又有大公司推动,发展极为迅速。

Google、亚马逊、IBM、微软和Yahoo等大公司是云计算先行者。

云计算领域众多成功公司还包括VMware、Salesforce、Facebook、YouTube、MySpace等。

亚马逊研发了弹性计算云EC2(ElasticComputingCloud)和简单存储服务S3(SimpleStorageService)为企业提供计算和存储服务。

收费服务项目包括存储空间、带宽、CPU资源以及月租费。

月租费与电话月租费类似,存储空间、带宽按容量收费,CPU根据运算量时长收费。

在诞生不到两年时间内,亚马逊注册用户就多达44万人,其中包括为数众多企业级用户。

Google是最大云计算技术使用者。

Google搜索引擎就建立在分布在200多个站点、超过100万台服务器支撑之上,而且这些设施数量正在迅猛增长。

Google一系列成功应用平台,包括Google地球、地图、Gmail、Docs等也同样使用了这些基础设施。

采用GoogleDocs之类应用,用户数据会保存在互联网上某个位置,可以通过任何一个与互联网相连终端十分便利地访问和共享这些数据。

目前,Google已经允许第三方在Google云计算中通过GoogleAppEngine运行大型并行应用程序。

Google值得称颂是它不保守,它早已以发表学术论文形式公开其云计算三大法宝:

GFS、MapReduce和Bigtable,并在美国、中国等高校开设如何进行云计算编程课程。

相应,模仿者应运而生,Hadoop是其中最受关注开源项目。

IBM在2007年11月推出了“改变游戏规则”“蓝云”计算平台,为客户带来即买即用云计算平台。

它包括一系列自我管理和自我修复虚拟化云计算软件,使来自全球应用可以访问分布式大型服务器池,使得数据中心在类似于互联网环境下运行计算。

IBM正在与17个欧洲组织合作开展名为RESERVOIR云计算项目,以“无障碍资源和服务虚拟化”为口号,欧盟提供了1.7亿欧元作为部分资金。

2008年8月,IBM宣布将投资约4亿美元用于其设在北卡罗来纳州和日本东京云计算数据中心改造,并计划2009年在10个国家投资3亿美元建设13个云计算中心。

微软紧跟云计算步伐,于2008年10月推出了WindowsAzure操作系统。

Azure(译为“蓝天”)是继Windows取代DOS之后,微软又一次颠覆性转型——通过在互联网架构上打造新云计算平台,让Windows真正由PC延伸到“蓝天”上。

Azure底层是微软全球基础服务系统,由遍布全球第四代数据中心构成。

目前,微软已经配置了220个集装箱式数据中心,包括44万台服务器。

在我国,云计算发展也非常迅猛。

2008年,IBM先后在无锡和北京建立了两个云计算中心;世纪互联推出了CloudEx产品线,提供互联网主机服务、在线存储虚拟化服务等;中国移动研究院已经建立起1024个CPU云计算试验中心;解放军理工大学研制了云存储系统MassCloud,并以它支撑基于3G大规模视频监控应用和数字地球系统。

作为云计算技术一个分支,云安全技术通过大量客户端参与和大量服务器端统计分析来识别病毒和木马,取得了巨大成功。

瑞星、趋势、卡巴斯基、McAfee、Symantec、江民、Panda、金山、360安全卫士等均推出了云安全解决方案。

值得一提是,云安全核心思想,与早在2003年就提出反垃圾邮件网格非常接近[5]。

2008年11月25日,中国电子学会专门成立了云计算专家委员会。

2009年5月22日,中国电子学会隆重举办首届中国云计算大会,1200多人与会,盛况空前。

2009年11月2日,中国互联网大会专门召开了“2009云计算产业峰会”。

2009年12月,中国电子学会举办了中国首届云计算学术会议。

2010年5月,中国电子学会将举办第二届中国云计算大会。

1.3云计算实现机制

由于云计算分为IaaS、PaaS和SaaS三种类型,不同厂家又提供了不同解决方案,目前还没有一个统一技术体系结构,对读者了解云计算原理构成了障碍。

为此,本书综合不同厂家方案,构造了一个供参考云计算体系结构。

这个体系结构如图1-3所示,它概括了不同解决方案主要特征,每一种方案或许只实现了其中部分功能,或许也还有部分相对次要功能尚未概括进来。

图1-3云计算技术体系结构

云计算技术体系结构分为四层:

物理资源层、资源池层、管理中间件层和SOA(Service-OrientedArchitecture,面向服务体系结构)构建层。

物理资源层包括计算机、存储器、网络设施、数据库和软件等。

资源池层是将大量相同类型资源构成同构或接近同构资源池,如计算资源池、数据资源池等。

构建资源池更多是物理资源集成和管理工作,例如研究在一个标准集装箱空间如何装下2000个服务器、解决散热和故障节点替换问题并降低能耗。

管理中间件层负责对云计算资源进行管理,并对众多应用任务进行调度,使资源能够高效、安全地为应用提供服务。

SOA构建层将云计算能力封装成标准WebServices服务,并纳入到SOA体系进行管理和使用,包括服务接口、服务注册、服务查找、服务访问和服务工作流等。

管理中间件层和资源池层是云计算技术最关键部分,SOA构建层功能更多依靠外部设施提供。

云计算管理中间件层负责资源管理、任务管理、用户管理和安全管理等工作。

资源管理负责均衡地使用云资源节点,检测节点故障并试图恢复或屏蔽之,并对资源使用情况进行监视统计;任务管理负责执行用户或应用提交任务,包括完成用户任务映象(Image)部署和管理、任务调度、任务执行、任务生命期管理等;用户管理是实现云计算商业模式一个必不可少环节,包括提供用户交互接口、管理和识别用户身份、创建用户程序执行环境、对用户使用进行计费等;安全管理保障云计算设施整体安全,包括身份认证、访问授权、综合防护和安全审计等。

基于上述体系结构,本书以IaaS云计算为例,简述云计算实现机制,如图1-4所示。

图1-4简化IaaS实现机制图

用户交互接口向应用以WebServices方式提供访问接口,获取用户需求。

服务目录是用户可以访问服务清单。

系统管理模块负责管理和分配所有可用资源,其核心是负载均衡。

配置工具负责在分配节点上准备任务运行环境。

监视统计模块负责监视节点运行状态,并完成用户使用节点情况统计。

执行过程并不复杂,用户交互接口允许用户从目录中选取并调用一个服务,该请求传递给系统管理模块后,它将为用户分配恰当资源,然后调用配置工具为用户准备运行环境。

1.4网格计算与云计算

网格(Grid)是20世纪90年代中期发展起来下一代互联网核心技术。

网格技术开创者IanFoster将之定义为“在动态、多机构参与虚拟组织中协同共享资源和求解问题”[6]。

网格是在网络基础之上,基于SOA,使用互操作、按需集成等技术手段,将分散在不同地理位置资源虚拟成为一个有机整体,实现计算、存储、数据、软件和设备等资源共享,从而大幅提高资源利用率,使用户获得前所未有计算和信息能力。

国际网格界致力于网格中间件、网格平台和网格应用建设。

就网格中间件而言,国外著名网格中间件有GlobusToolkit、UNICORE、Condor、gLite等,其中GlobusToolkit得到了广泛采纳。

就网格平台而言,国际知名网格平台有TeraGrid、EGEE、CoreGRID、D-Grid、ApGrid、Grid3、GIG等。

美国TeraGrid是由美国国家科学基金会计划资助构建超大规模开放科学研究环境。

TeraGrid集成了高性能计算机、数据资源、工具和高端实验设施。

目前TeraGrid已经集成了超过每秒750万亿次计算能力、30PB数据,拥有超过100个面向多种领域网格应用环境。

欧盟e-Science促成网格EGEE(EnablingGridsforE-sciencE),是另一个超大型、面向多种领域网格计算基础设施。

目前已有120多个机构参与,包括分布在48个国家250个网格站点、68000个CPU、20PB数据资源,拥有8000个用户,每天平均处理30000个作业,峰值超过150000个作业。

就网格应用而言,知名网格应用系统数以百计,应用领域包括大气科学、林学、海洋科学、环境科学、生物信息学、医学、物理学、天体物理、地球科学、天文学、工程学、社会行为学等。

我国在十五期间有863支持中国国家网格(CNGrid,863-10主题)和中国空间信息网格(SIG,863-13主题)、教育部支持中国教育科研网格(ChinaGrid)、上海市支持上海网格(ShanghaiGrid)等。

中国国家网格拥有包括香港地区在内10个节点,聚合计算能力为每秒18万亿次,目前拥有408个用户和360个应用。

中国教育科研网格ChinaGrid连接了20所高校计算设施,运算能力达每秒3万亿次以上,开发并实现了生物信息、流体力学等五个科学研究领域网格典型应用。

十一五期间,国家对网格支持力度更大,通过973和863、自然科学基金等途径对网格技术进行了大力支持。

973计划有“语义网格基础理论、模型与方法研究”等,863计划有“高效能计算机及网格服务环境”、“网格地理信息系统软件及其重大应用”等,国家自然科学基金重大研究计划有“网络计算应用支撑中间件”等项目。

就像云计算可以分为IaaS、PaaS和SaaS三种类型一样,网格计算也可以分为三种类型:

计算网格、信息网格和知识网格[6]。

计算网格目标是提供集成各种计算资源、虚拟化计算基础设施。

信息网格目标是提供一体化智能信息处理平台,集成各种信息系统和信息资源,消除信息孤岛,使得用户能按需获取集成后精确信息,即服务点播(ServiceonDemand)和一步到位服务(OneClickisEnough)。

知识网格[8]研究一体化智能知识处理和理解平台,使得用户能方便地发布、处理和获取知识。

需要说明是,目前大家对网格认识存在一种误解,认为只有使用GlobusToolkit等知名网格中间件应用才是网格。

我们认为,只要是遵照网格理念,将一定范围内分布异构资源集成为有机整体,提供资源共享和协同工作服务平台,均可以认为是网格。

这是因为,由于网格技术非常复杂,必然有一个从不规范到规范化过程,应该承认差异存在客观性。

虽然网格界从一开始就致力于构造能够实现全面互操作环境,但由于网格处于信息技术前沿、许多领域尚未定型、已发布个别规范过于复杂造成易用性差等原因,现有网格系统多针对具体应用采用适用、个性化框架设计和实现技术等,造成网格系统之间互操作困难,这也是开放网格论坛OGF(OpenGridForum)提出建立不同网格系统互通机制计划GIN(GridInteroperationNow)原因。

从另一个角度看,虽然建立全球统一网格平台还有很长路要走,但并不妨碍网格技术在各种具体应用系统中发挥重要作用。

网格计算与云计算关系如表1-1所示。

表1-1网格计算与云计算比较

网格计算

云计算

目标

共享高性能计算力和数据资源,实现资源共享和协同工作

提供通用计算平台和存储空间,提供各种软件服务

资源来源

不同机构

同一机构

资源类型

异构资源

同构资源

资源节点

高性能计算机

服务器/PC

虚拟化视图

虚拟组织

虚拟机

计算类型

紧耦合问题为主

松耦合问题

应用类型

科学计算为主

数据处理为主

用户类型

科学界

商业社会

付费方式

免费(政府出资)

按量计费

标准化

有统一国际标准OGSA/WSRF

尚无标准,但已经有了开放云计算联盟OCC

网格计算在概念上争论多年,在体系结构上有三次大改变,在标准规范上花费了大量人力,所设定目标又非常远大——要在跨平台、跨组织、跨信任域极其复杂异构环境中共享资源和协同解决问题,所要共享资源也是五花八门——从高性能计算机、数据库、设备到软件,甚至知识。

云计算暂时不管概念、不管标准,Google云计算与亚马逊云计算差别非常大,云计算只是对它们以前所做事情新共同时髦叫法,所共享存储和计算资源暂时仅限于某个企业内部,省去了许多跨组织协调问题。

以Google为代表云计算在内部管理运作方式上简洁一如其界面,能省功能都省略,Google文件系统甚至不允许修改已经存在文件,只允许在文件后追加数据,大大降低了实现难度,而且借助其无与伦比规模效应释放了前所未有能量。

网格计算与云计算关系,就像是OSI与TCP/IP之间关系:

国际标准化组织(ISO)制定OSI(开放系统互联)网络标准,考虑得非常周到,也异常复杂,在多年之前就考虑到了会话层和表示层问题。

虽然很有远见,但过于理想,实现难度和代价非常大。

当OSI一个简化版——TCP/IP诞生之后,将七层协议简化为四层,内容也大大精简,因而迅速取得了成功。

在TCP/IP一统天下之后多年,语义网等问题才被提上议事日程,开始为TCP/IP补课,增加其会话和表示能力。

因此,可以说OSI是学院派,TCP/IP是现实派;OSI是TCP/IP基础,TCP/IP又推动了OSI发展。

两者不是“成者为王、败者为寇”,而是滚动发展。

没有网格计算打下基础,云计算也不会这么快到来。

云计算是网格计算一种简化实用版,通常意义网格是指以前实现以科学研究为主网格,非常重视标准规范,也非常复杂,但缺乏成功商业模式。

云计算是网格计算一种简化形态,云计算成功也是网格成功。

网格不仅要集成异构资源,还要解决许多非技术协调问题,也不像云计算有成功商业模式推动,所以实现起来要比云计算难度大很多。

但对于许多高端科学或军事应用而言,云计算是无法满足需求,必须依靠网格来解决。

目前,许多人声称网格计算失败了,云计算取而代之了,这其实是一种错觉。

网格计算已经有十多年历史,不如刚兴起时那样引人注目是正常。

事实上,有些政府主导、范围较窄、用途特定网格,已经取得了决定性胜利。

代表性有美国TeraGrid和欧洲EGEE等,这些网格每天都有几十万个作业在上面执行。

未来科学研究主战场,将建立在网格计算之上。

在军事领域,美军全球信息网格GIG已经囊括超过700万台计算机,规模超过现有所有云计算数据中心计算机总和。

相信不久将来,建立在云计算之上“商业2.0”与建立在网格计算之上“科学2.0”都将取得成功。

参考文献

[1]MichaelArmbrust,ArmandoFox,andReanGriffith,etal.AbovetheClouds:

ABerkeleyViewofCloudComputing,mimeo,UCBerkeley,RADLaboratory,2009

[2]IanFoster,CarlKesselman,andSteveTuecke.TheAnatomyoftheGrid:

EnablingScalableVirtualOrganizations.InternationalJournalofHighPerformanceComputingApplications,15(3),2001

[3]刘鹏.提出一种实用网格实现方式——网格计算池模型,2002

[4]PengLiu,YaoShi,San-liLi,ComputingPool—aSimplifiedandPracticalComputationalGridModel,theSecondInternationalWorkshoponGridandCooperativeComputing(GCC2003),Shanghai,Dec7-10,2003,publishedinLectureNotesinComputerScience(LNCS),Vol.3032,Heidelberg:

Springer-Verlag,2004

[5]PengLiu,YaoShi,FrancisC.M.Lau,Cho-LiWang,San-LiLi,GridDemoProposal:

AntiSpamGrid,IEEEInternationalConferenceonClusterComputing,HongKong,Dec1-4,2003,sel

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 艺术创意

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1