文献综述例子.docx

上传人:b****7 文档编号:10633233 上传时间:2023-02-22 格式:DOCX 页数:9 大小:22.88KB
下载 相关 举报
文献综述例子.docx_第1页
第1页 / 共9页
文献综述例子.docx_第2页
第2页 / 共9页
文献综述例子.docx_第3页
第3页 / 共9页
文献综述例子.docx_第4页
第4页 / 共9页
文献综述例子.docx_第5页
第5页 / 共9页
点击查看更多>>
下载资源
资源描述

文献综述例子.docx

《文献综述例子.docx》由会员分享,可在线阅读,更多相关《文献综述例子.docx(9页珍藏版)》请在冰豆网上搜索。

文献综述例子.docx

文献综述例子

 

Ⅱ.文献综述

 

《云计算中分布式存储服务管理平台开发》文献综述

摘要:

云计算是以虚拟化技术为基础,以网络为载体提供基础架构、平台、软件等服务为形式,整合大规模可扩展的计算、存储、数据、应用等分布式计算资源进行协同工作的超级计算模式。

但是,大规模也给我们带来了硬件设施上的压力。

如何更好地利用网络共享的存储空间构建可靠、高效的分布式存储服务,并在此基础上提供云计算服务成为我们课题研究的重点方向。

关键词:

云计算;分布式存储;PSP文件存储系统;运筹学

 

Literaturereviewonadistributedcloudstoragesystem

Abstract:

Cloudcomputingisbasedonvirtualizationtechnology,usenetworkasthecarriertoprovidetheinfrastructure,platform,softwareandotherservices.AndintegrateLarge-scaleofscalablecomputation,storage,data,applicationsandotherdistributedcomputingresourcestoworkwithsupercomputingmodel.But,Large-scalealsogivesusthepressureonthehardware.Howtomakebetteruseofnetworksharedstoragebuildingreliableandefficientdistributedstorageservices,andonthisbasistoprovidecloudcomputingservicesbecomethefocusoftheresearchdirection.

 

Keywords:

Cloudcomputing,distributedstorage,PSPfilestoragesystems,operationsresearch

 

第1章云计算的特征与主要云计算平台

云计算被认为是“革命性的计算模型”,它是将用户从桌面推向互联网关键的一步,因而它是基于互联网的商业计算模型。

利用高速互联网的传输能力,将数据的处理过程从个人计算机或服务器移到互联网上的服务器集群中。

这些服务器由一个大型的数据处理中心管理着,数据中心按客户的需要分配计算资源,达到与超级计算机同样的效果。

1.1云计算的特征

云计算具有以下特点:

(1)超大规模。

“云”具有相当的规模,Google云计算已经拥有100多万台服务器,Amazon、IBM、微软、Yahoo等的“云”均拥有几十万台服务器。

企业私有云一般拥有数西上千台服务器。

“云”能赋予用户前所未有的计算能力。

(2)虚拟化。

云计算支持用户在任意位置、使用各种终端获取应用服务。

所请求的资源来自“云”,而不是固定的有形的实体。

应用在“云”中某处运行,但用户无需了解、也不用担心应羽运行的其体位置。

(3)高可靠性。

“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机可靠。

(4)通用性。

云计算不针对特定的应用,在“云”的支撑下可以构造出各种应用,同一个“云”可以同时支撑不同的应用运行。

(5)高可扩展性。

“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。

(6)按需服务。

“云”是一个庞大的资源池,可按需购买;云可以象自来水、电,煤气一样计费。

(7)极其廉价。

由于“云”的特殊容错措施br以采用极其廉价的节点来构成云,“云”的自动化集中式管理使大量企I≯无需负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之传统系统大幅提升,因此剧户可以充分享受“云”的低成本优势,经常只要花费几百美元、几天时间就能完成以前需要数万美元、数月时阀蠢‘能完成的任务。

1.2Google的云计算基础设施

Google的云计算基础设施[17]是在最初为搜索应用提供服务基础上逐步扩展的,主要由分布式文件系统GoogleFileSystem(GFS)、大规模分布式数据库BigTable、程序设计模式MapReduce、分布式锁机制Chubby等几个相互独立又紧密结合的系统组成。

GFS是一个分布式文件系统,它能够处理大规模的分布式数据。

系统中每个GFS集群由一个主服务器和多个块服务器组成,被多个客户端访问。

主服务器负责管理元数据,存储文件和块的名空间、文件到块之间的映射关系以及每一个块副本的存储位置;块服务器存储块数据,文件被分割成为固定尺寸(64MB)的块,块服务器把块作为Linux文件保存在本地硬盘上。

为了保证可靠性,每个块被缺省保存3个备份。

主服务器通过客户端向块服务器发送数据请求,而块服务器则将取得的数据直接返回给客户端。

1.3IBM“篮云”计算平台

IBM“蓝云”解决方案是IBM云计算中心经过多年的探索和实践开发出来的先进的基础架构管理平台。

该方案结合了业界最新技术,充分体现云计算理念,已在IBM内部成功运行多年,并在全球范围内有众多客户案例。

该解决方案可以对企业现有的基础架构进行整合,通过虚拟化技术和自动化技术,构建企业自己拥有的云计算中心,实现企业硬件资源和软件资源的统一管理、统一分配、统一部署、统一监控和统一备份,打破应用对资源的独占,从而帮助企业实现云计算理念。

该解决方案可以自动管理和动态分配、部署、配置、重新配置以及回收资源,也可以自动安装软件和应用。

“蓝云”可以向用户提供虚拟基础架构。

用户可以自己定义虚拟基础架构的构成,如服务器配置、数量,存储类型和大小,网络配置等等。

用户通过自服务界面提交请求,每个请求的生命周期由平台维护。

1.4Amazon的弹性计算云

Amazon是最早提供云计算服务的公司之一,该公司的弹性计算云(elasticcomputecloud,EC2)平台建立在公司内部的大规模计算机、服务器集群上,平台为用户提供网络界面操作在“云端”运行的各个虚拟机实例(instance)。

用户只需为自己所使用的计算平台实例付费,运行结束后计费也随之结束。

弹性计算云用户使用客户端通过SOAPoverHTTPS协议与Amazon弹性计算云内部的实例进行交互。

弹性计算云平台为用户或者开发人员提供了一个虚拟的集群环境,在用户具有充分灵活性的同时,也减轻了云计算平台拥有者(Amazon公司)的管理负担。

弹性计算云中的每一个实例代表一个运行中的虚拟机。

用户对自己的虚拟机具Grossman等提出并实现了一种基于高性能广域网的云计算平台Sector/Sphere,实验测试显示性能方面优于Hadoop。

 

第2章主要问题描述

问题1:

服务的可用性。

现今,绝大多数互联网服务提供商都会利用多个网络提供商来使自己避免在一个单独公司出现故障的情况下导致从互联网上消失,我们相信唯一合乎情理的提供极高可用性服务的解决方案就是多云计算提供商。

问题2:

数据丢失。

虽然现在的软件集已经在跨平台性方面改进了很多,但是从本质上说云计算的API仍是私有的,或者说当前没有建立起统一的标准。

因此,用户很难将他们的数据和程序从一个站点移到另一个。

这也是很多用户不愿采用云计算的原因。

问题3:

数据安全性和可审计性:

过去一段时间中我们曾听到多次这样的话:

“我们企业的那些敏感数据将永远不会放到云中。

”当前的云从本质上来说是提供了公共(而不是私有)网络,因此会遭受更多的攻击。

可审计性也很重要,按照《萨班斯法案》和《健康保险携带和责任法案》等相关法律规定,企业提交到云中的数据必须满足审计需求。

我们相信建立同现有的各类内部IT环境同样安全的云计算环境是不存在任何根本问题的,灵活的运用加密存储、虚拟局域网、网络中间件(例如防火墙、包过滤)等技术就能迅速的解决当前已经碰到的一些问题。

问题4:

数据传输瓶颈。

当前应用发展越来越趋向于数据密集型。

如果应用能够被拆分交由不同的云去处理,这将导致复杂的数据存放和传输。

快递硬盘是克服这样高成本的互联网传输成本问题的一种机遇。

由于一旦数据存放在云中,数据传输将不在是一个瓶颈,这将会催生其他一些利用云计算能力的新服务。

除了广域网带宽成为一个瓶颈外,云内网络技术也可能是一个性能瓶颈。

问题5:

性能不可预知性。

我们的经验表明,在云计算中多虚拟机能够很好的共享CPU和内存,但是I/O的共享却有明显的问题。

一个机遇是改进体系结构和操作系统以获得更有效率的虚拟中断和I/O通道。

另外一个可能是闪存能够降低I/O冲突。

闪存相比硬盘能够支持更多的单位时间内的I/O操作,因此,有着随机I/O访问冲突的多虚拟机能够很好的协同工作,而不会出现使用机械硬盘时常见的互相干扰。

最后一个不可预期的问题是运行某些批处理程序时多个虚拟机的调度问题,这在高性能计算领域尤其明显。

克服这一问题的机遇就在于为云计算提供一个有效的资源调度和管理工具。

问题6:

可伸缩的存储。

目前针对这个问题有许多不同的尝试,从提供丰富的查询和存储API,提供性能保证,到由存储系统支持数据结构,都各不相同。

存在的机遇是创建一个存储系统,不仅具备上述功能,而且提供向上和向下的伸缩性支持,同时在可扩展性、数据持久性以及高可用性等数据管理方面满足程序员需求。

问题7:

大规模分布式系统中的错误。

云计算中一个很大的挑战是从大规模分布式系统中去消除错误。

一个经常出现的问题是这些bug不会在稍小规模的配置中重现,因此调试必须在生产环境中进行。

云计算中的虚拟机可能会成为一个机遇,它可能使程序员获得在传统分布式系统上难以获得的一些有价值的信息。

问题8:

快速伸缩。

即用即付无疑很适合存储和网络带宽,这两者都可以用使用字节数来衡量。

由于使用虚拟机,计算稍稍有些不同。

这里的机遇是在不违背使用协议的前提下能够实现根据负载自动并快速的调整计算规模以能够最大的节省费用。

问题9:

声誉和法律危机。

一个用户的恶意操作会影响到整个云的声誉。

创建类似于信任邮件服务那样的声誉保护服务将可能会成为一个机遇。

另外一个问题是法律责任的转移——当出现问题是,云计算提供商将会希望由用户去承担相应法律责任,而不要将责任转嫁给他们。

问题10:

软件许可当前软件许可证通常限定在运行软件的机器上。

用户购买软件并按年支付维护费用。

许多云计算提供商从一开始就倾向于开源软件,部分正是因为商业软件许可证模式并不适合效用计算。

 

第3章相关工作

3.1基于P2P文件存储系统概述

对等网络(Peer—Peer,简称P2P)是一种网络模型,在这种网络中所有的节点是对等的,各节点具有相同的责任与能力并协同完成任务。

对等点之间通过直接互联共享信息资源、处理器资源、存储资源甚至高速缓存资源等,无须依赖集中式服务器或资源就可完成。

在文件共享、分布计算、协同工作、搜索引擎、p2p平台等很多方面都有广泛的应用。

目前,对于p2p没有一个统一的定义,简单说来,p2p就是系统之间通过直接互连,来共享计算机资源和服务。

这些资源包括信息资源、内存、CPU时间、缓存、磁盘存储空间以及硬盘驱动器处理周期等等。

p2p并不是互联网出现后才一被引申出来的一项全新网络技术,早在几年前互联网出现的时候p2p就已经应运而生,但是由于当时互联网的发展并不是像今天这样普及,而且在网络建设(如带宽、处理能力)和相关的硬件器材上并不能够满足p2p的需求,因此在几年的互联网发展过程中也衍生出来了许多中间产物。

p2p只不过是不同于C/5和B/s等传统模式的新型通信技术,它最大的特点是抛开了应用服务器的束缚,使网络非中心化。

在p2p模式中,peer之间可以直接互连.对于每一个peer,它既可以作为客户机,又可以作为服务器,使得传统意义“服务器”的概念被削弱了。

应用p2p技术把桌面PC机和网络连接起来,使用户或企业单独没有能力完成的任务,能够借用网上的共享资源来实现。

p2p是一种分布式网络,网络的参与者共享他们所拥有的一部分硬件资源(处理能力、存储能力、网络连接能力、打印机等),这些共享资源需要由网络提供服务和内容,能被其它对等节点直接访问而无需经过中间实体。

在此网络中的参与者既是资源提供者,又是资源获取者。

3.2分布式存储系统模型

分布式存储系统,就是将数据分散存储在多台独立的设备上。

传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。

分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。

 

3.3.1分布式存储系统的组成

分布式存储系统从结构上来看,主要由元数据服务器、数据存储节点组成。

元数据服务器负责存储文件的属性信息以及数据块的分布情况,文件的属性信息包括文件名、大小、创建者等,数据块的分布是指文件的数据分布在哪些存储节点上。

数据存储节点就是负责存储文件的数据,根据不同的冗余机制,文件的数据被分块,然后复制或者编码,分发到各个存储节点上。

客户端要完成文件读写,首先需要访问元数据服务器,获得文件数据块的分布情况,然后在访问相应的数据存储节点。

3.3.2元数据管理

在分布式网络存储系统中,元数据服务器模块地位非常重要,因为所有的文件操作都要经过元数据服务器,它负责管理元数据,执行元数据操作。

随着存储系统规模的扩大,元数据服务器逐渐成为存储系统的性能瓶颈。

如何实现数据和元数据的分离,以及元数据的分布式管理是一个重要的任务。

3.3.3数据分发技术

在分布式存储系统中,做了数据冗余后,我们希望找到一个最合适的节点集合来存放这些数据,以达到最好的数据持久性。

不适当的节点组合将可能极大的消耗系统带宽,甚至威胁系统中数据的持久性。

例如将数据的多个副本放在一个错误相关的节点集合上,这样即便有多个数据副本,也容易出现数据不可用的情况。

在P2P网络中,主要存在DHT直接数据分发和基于目录的间接分发两种形式。

3.3.4错误检测机制

冗余的数据分发出去,会出现节点的失效,影响数据存储的持久性。

因此,我们需要一套有效的机制发现系统中节点出现的错误,这就是错误检测。

错误检测主要分为两种方式,定期心跳法和失效事件广播法。

3.3.5一致性协议

分布式存储系统主要用来存储数据以方便用户读写,但是光有存储设备还不能实现这一功能。

一致性协议用来协调存储节点处理客户端的读写请求,保证在读写过程中的数据一致性。

对于客户端来说,存储系统提供的操作主要是读和写,所以一致性协议主要由读写算法组成。

对于某些复杂的一致性控制协议来说,还要包括数据的版本维护等。

 

第4章结束语

基于上面所说的一些云计算的特点和主要的与计算平台以及分布式存储的相关知识,我们希望通过能够在这些知识的基础上,对云计算中分布式存储服务平台进行一定程度的改善。

利用网络共享的存储空间构建可靠、高效的分布式存储服务,并在此基础上提供云计算服务。

 

【参考文献】

[1]廉价、高效、稳定、微软新一代分布式存储系统[J].新电脑,2006,(06).

[2]马晓昊.基于云计算的安全数据存储服务的研究与实现[J].同济大学软件学院,2008,(05):

03-07.

[3]吴吉义,平玲娣,潘雪增,李卓.云计算:

从概念到平台.[J]杭州:

浙江大学计算机科学与技术学院,杭州:

杭州市电子商务与信息安全重点实验室杭州.

[4]蔡键,王树梅.基于Google的云计算实例分析[J].徐州师范大学现代教育技术中心,徐州师范大学计算机科学与技术学,2009.

[5]王左利.云计算面临三重门[J].中国教育网络,2008,12.

[6]陈康,郑纬民.云计算:

系统实例与研究现状[J].北京:

清华大学清华信息科学与技术国家实验室北京,北京:

清华大学计算机科学与技术系,2009,03-05.

[7]MichaelArmbrust.ArmandoFox,ReanGriffith,AnthonyD.Joseph,RandyH.Katz,AndrewKonwinski,GunhoLee,DavidA.Patterson,ArielRabkin,IonStoica,MateiZaharia.AbovetheClouds:

BerkeleyViewOfCloudComputing.ElectricalEngineeringandComputerSciencesUniversityofCaliforniaatBerkeley,2009,02-04..

[8]RobertL.Grossman.AQuickIntroductiontoClouds.UniversityofIllinoisatChicago[J].October29,2008.

[9]Byung2GonChun,FrankDabek,AndreasHaeber2len.Efficientreplicamaintenancefordistributedstoragesystem[C].Proceedingsof3rdconferenceon3rdSymposiumonNetworkedSystemsDesign&Implementation2Volume3,2006.

[10]JohnKubiatowicz,DavidBindel,YanChen,StevenCzerwinski,PatrickEaton,DennisGeels,RamakrishnaGummadi,SeanRhea,HakimWeatherspoon,WestleyWeimer,ChrisWells,BenZhao.OceanStore:

AnArchitectureforGlobal-ScalePersistentStorage[J].ACM,2009190-201.

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 环境科学食品科学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1