云计算产品及技术方案分析报告.docx
《云计算产品及技术方案分析报告.docx》由会员分享,可在线阅读,更多相关《云计算产品及技术方案分析报告.docx(21页珍藏版)》请在冰豆网上搜索。
云计算产品及技术方案分析报告
云计算产品及技术方案分析报告
云计算产品及技术方案分析报告
北京邮电大学
网络与交换技术国家重点实验室
11月19日
1引言
当前,云计算技术成为IT领域的研究热点。
当前的云计算产品和技术方案层出不穷,国内外研究机构、IT软硬件厂家、标准化组织、开源软件组织都在十分积极的推出云计算产品和技术解决方案。
本报告在学习和了解相关云计算技术资料、产品白皮书以及软件手册的基础上,希望对现有产品和技术解决方案给予归纳、整理和分析,实现对各类产品的清晰认识,以便于选择和使用。
2云计算产品分类
云计算产品大致分软件和硬件产品两大类。
其中硬件产品是主要依赖于大型服务器设备的提供商实现的面向云特征的具有分布式并行计算能力的设备,代表有IBM、SUM、曙光机等。
软件产品是云计算产品的主流,包括虚拟机管理平台、数据存储平台、分布式计算平台等,主要有的平台有Google应用软件引擎(GoogleAppEngine)、微软的Azure平台、亚马逊网络服务(AmazonAWS)、IBM蓝云、PlatformComputing的ISF以及VMware的云产品。
同时,国内的友友系统和美地森公司在云存储方面也走在了云技术发展的前沿。
3国外的主流产品
从Google提出云计算技术,到现在,国际上几乎所有一线的IT企业都积极参与进入这块新兴领域,并依据自己传统的技术领域和市场策略提出自己的云计算架构。
她们经过深挖技术基础,把大量以前的产品和技术的云计算特征挖掘出来,如软件的虚拟化、分布式存储系统,在此基础上建立自己的云计算产品线。
3.1Amazon云计算方案
3.1.1介绍
专业IT企业提供的云计算多多少少会限制在自己提供的系统之上,亚马逊公司不是IT系统制定者而是应用者,因此Amazon平台是开放的。
技术特征:
弹性虚拟平台
核心技术:
虚拟化技术Xen
企业服务:
EC2S3SimpleDBSQS
开源情况:
开源
3.1.2AmazonWebServices(AWS)
平台类型:
PaaSIaaSSaaS
虚拟化技术:
Xen
支持语言:
多种语言
运行环境:
位于云端的Amazon平台
应用程序间的隔离:
不同的应用运行在不同的虚拟机实现隔离
开发限制:
较少(支持所有操作系统、开源代码或商业软件)
可扩展性:
手动或经过编程自动增加所需要虚拟机数量
计费方式:
按实际使用量付费(EC2计算服务0.1~0.8美元/小时,S3存储服务每GB大约0.15美元/月)
收费机制较复杂
有免费体验(EC2今年11月1日能够申请一年免费体验)
服务类型:
任意选择服务组合,服务耦合度低
实现功能:
较多
3.1.3弹性计算云EC2
服务类型:
IaaS
虚拟机的使用:
用户根据需要设置虚拟机的硬件配置
模型:
1个AMI+若干实例(每个用户最多20个实例)
容错机制:
弹性IP地址(与用户账号绑定)
当正在使用的实例出现故障,用户只需将弹性IP地址重新映射到一个新的实例
易用性:
稍差(Amazon提供模块供用户组建自己的程序)
运行环境:
用户自行提供运行程序所需的AMI(Amazon机器映像)构建自己的服务器平台
灵活性:
很好
允许用户对运行的实例数量和类型自行配置
允许用户选择实例运行的地理位置
安全性:
很好
基于密钥对机制的SSH方式访问
可配置的防火墙机制
允许用户对其应用程序进行监控
适用的应用程序:
任意
3.1.4简单存储服务S3
概述:
架构在Dynamo之上,提供一个字节到数GB字节的支持,大概有520亿对象。
结构:
桶——对象两级模式
扩展性:
增加桶中的对象数量进行扩充
手动或编程自动扩容
容错性:
冗余存储数据监听回传Merkle哈希树
存储限制:
对象(<5GB)桶(<100个/用户)
不限制桶中对象的个数
数据交互:
用户从获得授权的对象中取得数据
数据缓存:
对Master中元数据进行缓存
数据一致性:
最终一致性模型
后一次操作直接覆盖前一次操作
安全性:
身份认证(基于HMAC-SHA1的数字签名)
访问控制列表
负载均衡
数据恢复
3.1.5数据库服务SimpleDB
概述:
非传统的关系模型
系统结构:
域—条目—属性—值四级模式
查询语言:
支持有限的SQL
数据类型:
结构化数据
可扩展性:
超级可扩展性
查询功能:
查询结果只包含条目名称不包括相应的属性值
相应时间不能超过5秒,否则报错
安全策略:
每一个容器数据在微软数据中心有多个备份
数据更新时间:
有延迟
新数据复制到其它服务器上存在延迟
其它功能:
很少
没有事务(Transaction)的概念不支持Join操作
实际存储的数据类型过于单一(所有的数据都以字符串形式存储)
备注:
用户相对大的数据存储在S3中
SDB中只保存指向某个特定文件位置的指针
3.2Google云计算方案
3.2.1介绍
建立在其搜索引擎技术的基础上,是一个没有”端”的系统:
用户经过一个简单的搜索框完成对海量计算的搜索
技术特性:
存储及运算水平扩充能力
核心技术:
平行分散技术MapReduce,BigTable,GFS
企业服务:
GoogleAppEngine
开源情况:
不开源
3.2.2GoogleAppEngine
平台类型:
PaaS(用户在其上开发软件,在Google基础设施上运行,无需服务器维护)
应用服务器:
Python应用服务器群低端服务器
虚拟化技术:
没有应用
支持语言:
只支持Python、Java
运行环境:
Google提供在云端的应用程序环境
功能完整的本地开发环境,开发人员能够在本地模拟GoogleAppEngine环境
应用程序间的隔离:
经过沙盒实现(同时也给程序员带来很多限制)
开发限制:
较多
开发语言支持少
沙盒的使用带来的限制
可扩展性:
自动扩充所需资源并进行复杂均衡
计费方式:
每一个Google账户有一定额度的免费流量和空间支持
存在收费项目
服务类型:
所有服务捆绑在一起,耦合度高
用户经过特定API来使用相应服务
实现功能:
较少
3.2.3计算服务MapReduce
服务类型:
PaaS
虚拟机的使用:
没有应用
模型:
1个Master+若干Worker(分别执行map和reduce)
容错机制:
Master周期设置检查点,任务失败,从最近的检查点恢复并重新执行
Master失效,整个MapReduce重新运行
Worker失效,其任务调度到其它Worker重新执行
通用性:
很好
运行环境:
Google自身提供,用户无法自行调配
灵活性:
稍差(现只是搜索企业的选择)
适用的应用程序:
能够并行处理的程序
3.2.4存储服务GFS(GoogleFileSystem)
概述:
面向不可信服务器节点的分布式文件系统,文件分块存储
结构:
1个Master(储存元数据)+众多ChunkServer(储存文件块)
服务器:
大量分散的普通廉价服务器
扩展性:
动态插入节点(ChunkServer)(普通电脑),自动扩容
容错性:
ChunkServer冗余备份(3份)
Master瘫痪,有Shadow作为替补
访问效率:
高效
经过GFS上层的BigTable实现
存储限制:
无特别限制
数据交互:
一般情况下,Application和ChunkServer在同一台服务器上
Application与ChunkServer进行数据交互
能够被多个用户同时访问
数据缓存:
对Master中元数据进行缓存
数据一致性
负载均衡
数据恢复
备注:
不完全适应海量小文件存储
3.2.5数据库服务DataStore
概述:
分布式存储数据库,随着应用程序访问量的增加而增加
系统结构:
Model—实体组—实体三级模式
查询语言:
GQL
数据类型:
结构化和半结构化数据
可扩展性:
无限扩展
查询功能:
查询结果以Model类的实例形式来返回实体
返回的结果不能超过1000条
事务功能:
经过乐观锁定实现事务的并发控制
一个事务操作一个实体组,同一组内的实体存储在一起(应用程序能够在实体创立时将实体分配到组)
数据库在一个事务中执行多种操作,有一个操作失败则回滚整个事务
数据更新时间:
有延迟,但不是常态
3.3Mirosoft云计算方案
3.3.1介绍
”云+端”云计算构想
最新的WindowsServer被设计成可让应用在数据中心和云之间迁移,可是只有在两者是非常相似的WindowsServer环境下才能够实现。
技术特性:
整合其所用软件及数据服务
核心技术:
大型应用软件开发技术
企业服务:
Azure平台
开源情况:
不开源
3.3.2WindowsAzure
平台类型:
PaaS
虚拟化技术:
Hyper-V
支持语言:
C#,.NET平台,PHP,Python等多种语言
运行环境:
支持在云中和本地系统中的应用程序
服务类型:
能够任意选择服务组合,耦合度低
应用程序间的隔离:
不同的应用在不同的虚拟机上
开发限制:
较少
计费方式:
按实际使用量付费
存储与计算分开计费
定价机制过于僵硬,成本过高
可扩展性:
需要手动或者编程自动增加所需要的虚拟机数量
用户也能够选择增加虚拟机的功率
实现功能:
较多
3.3.3计算服务
服务类型:
PaaS
虚拟机的使用:
根据用户上传的配置文件XML,系统自动分配、配置虚拟机
虚拟机分为Web和Worker角色
模型:
若干Web(提供Wen服务,与用户交互)+若干Worker(类似于Windows服务)
运行环境:
程序运行在系统自动为用户生成的装有WindowsServer的虚拟机上
负载均衡:
当有用户请求时,根据需决定是否运行新的Web角色
根据负载大小自动扩展或减少Worker上实例运行的数量
灵活性:
较好
易用性:
较好
适用的应用程序:
任意可在WindowsServer上运行的程序
特别支持运行有大量并行用户的大型应用程序
3.3.4存储服务Blob/Table存储
概述:
用来存储大型数据对象
结构:
容器—Blob两级模式(Blob中的数据再分成Block)
Table—Partition(分区)—Row(实体)
扩展性:
增加容器中的Blob数量进行扩充
手动或编程自动扩容
容错性:
冗余备份
只传输出错的Block
访问效率:
Blob访问控制策略
Table分成多个分区,存储在多个服务器,提高访问效率
存储限制:
Blob的大小有限制(<50GB)
对容器和Blob的数量没有限制
数据交互:
用户从获得授权的Blob中取得数据
数据缓存:
Table相同分区的实体存储在一起进行高效缓存
数据一致性:
Timestamp(时间戳)
单表一致性(事务性的快照隔离)跨表一致性
负载均衡:
数据恢复
备注:
Blob适宜存储无结构数据
Table适宜存储结构性很强的数据
另有:
Queue存储应用程序各个部分之间的交互信息(例如Web和Worker的通信)
3.3.5数据库SQL服务(SDS)
概述:
非传统的关系模型
系统结构:
Authority—容器—实体三级模式(ACE模型)
查询语言:
SQL
数据类型:
结构化、半结构化和非结构化数据
可扩展性:
全球可扩展性
查询功能:
查询对象为容器
查询结果返回若干数量的实体
返回的结果不能超过500页
安全策略:
每一个容器数据在微软数据中心有多个备份
数据更新时间:
没有延迟
其它功能:
很多
3.4IBM蓝云
3.4.1概述
高端服务器战略(X86刀片服务器)
为用户在自己已有的IT环境中建立自己的私有云,并提供与公有云的无缝连接;同时,IBM也提供可供用户及合作伙伴直接使用的云服务和软件
技术特性:
整合其所有软件及硬件服务
核心技术:
网格技术、分布式存储、动态负载
企业服务:
虚拟资源池提供,企业云计算整合方案
开源情况:
不开源
3.4.2云计算架构
3.4.3云计算相关产品
①IBMWebSphereCloudBurst
云环境管理工具,以物理器件形式发布,即插即用,WebSphereCloudBurst使用户能够在”私有云”中轻松的创立、安全的部署和管理应用环境,同时让用户将自己在SOA方面的投资无缝的扩展到云服务环境。
②WebSphereVirtualEnterprise
软件解决方案,对中间件和应用栈进行虚拟化,为应用创立一个共享的应用云或是共享的资源池而不必考虑特定的应用容器,并实行负载均衡和资源调度。
③XIV
IBM的新一代云存储产品,基于网格技术,具有海量存储设备+大容量文件系统+高吞吐量互联网数据访问接口+管理系统的设计特征。
内置虚拟化技术,快照功能,瞬间克隆数据卷。
帮助用户部署可靠、多用途、可用的信息基础结构,同时可提升存储管理、配置,以及改进的资产利用率。
3.5Platform云计算方案
3.5.1介绍
在HPC方面有很强的技术力量,建立在网格计算管理软件的基础上
3.5.2PlatformISF(InfrastructureSharingFacility)计算服务
平台类型:
IaaS
端到端的私有云管理软件
主要特点:
可配置程度高
资源整合:
将分布式和异构IT资源整合
从众多异构服务器、存储设备以及互联中创立一台共享计算机
支持主要行业的标准硬件
支持的操作系统:
LinuxWindows
虚拟技术:
VMwareESX,Xen,CitrixXenServer,MicrosoftHyper-V和RedHatKVM
服务类型:
很多即开即用的第三方工具(目录服务、安全、监控和报警)
交付服务:
自主入口——用户在几分钟(<=15min)之内请求和获得物理服务器和虚拟机
应用程序编程接口(API),自动调配资源
为多级商业应用程序配置模板,实现其生命周期管理的自动化
允许启动多级应用程序的各个部分,添加或者去除一个资源,监控和恢复故障
负载调度:
支持负载调度软件(比如AutoSys和PlatformLSF)
付费方式:
PlatformISF收集全部资源使用数据,提供报告和生成帐单信息
云管理员能够选择将使用数据反馈到特定场所的生成报告和索回工具之中
资源分配:
单位的资源共享优先权
资源均衡和应用程序均衡
主要方式:
1预约主要针对关键业务请求
2按需分配①时间顺序相应用户请求
②用户的请求,按每次使用付费的模式分配资源
安全性:
分角色用户身份认证
审查跟踪(AuditTrail)
支持LDAP(轻量目录访问协议)和活动目录
存储支持:
Operatingsystemimage/Extradisks/SharedNFS
/Post-Provision/NetApp/AmazonS3/EMC/EqualLogic
3.6VMware(EMC)云计算方案
3.6.1介绍
EMC——自动化网络存储解决方案
VMware——虚拟化技术
技术特性:
信息存储系统及虚拟化技术
核心技术:
VMware的虚拟化技术,一流存储技术
企业服务:
Atoms云存储系统,私有云解决方案
开源情况:
不开源
3.6.2VMwarevSphere
业界第一个云计算操作系统
能够帮助企业构建实现数据中心资源的管理,同时实现内部云和外部云之间的无缝连接
电源管理:
利用DPM
集群需要的资源减少时,将工作负载整合到较少的服务器上
保证服务级别的同时最大限度的减少电力消耗
资源调度:
分布式资源调度程序DRS
动态负载均衡——跨资源池动态调整计算资源
连续智能优化——基于预定义的规则智能分配资源
访问速率:
>30万次IPOS\每秒
延迟:
<20微秒
数据备份:
支持虚拟机集中式脱离主机备份
支持虚拟机的增量、差异和完整映像备份和恢复
为Windows和linux虚拟机提供文件级备份支持
可用性:
拥有经济有效的适用于所有应用的高可用解决方案
当服务器故障时,自动重新启动虚拟机
容错性:
使用DRS和VMotion(在线迁移虚拟机)消除计划内宕机
在不同的主机上同步运行相同的虚拟机
出现硬件故障,所有虚拟机均可实现零宕机时间、零数据损失故障切换
数据恢复:
经过vCenter实现集中式管理
虚拟机的无代理、基于磁盘的备份和恢复
支持虚拟机、文件级别的恢复
安全性:
API经过检查与管理程序一起使用的虚拟组件来保护虚拟机
动态防火墙策略
动态安全容量
安全策略自动适应网络重新配置或升级
可扩展性:
根据需要和优先级调整容量
热添加CPU和内存
热添加和删除存储设备和网络设备
热扩展虚拟磁盘
以零宕机时间横向扩展虚拟机
3.6.3云存储服务EMCAtoms
特色:
采用基于策略的管理系统来创立不同层次的云存储
——重要数据,多份复制,分布存储
——不常见数据,复制份数和存储地点较少
——不再使用的数据,压缩,复制备份在更少的地方
为非付费用户和付费用户创立不同的服务级别
多样的管理服务:
复制,版本控制,压缩,重复数据删除,磁盘休眠等
可用性:
应用程序接口包括Rest和Soap,能够整合所有的应用程序
多租户:
支持多客户共享功能,同一基础架构执行多种应用程序,并被安全隔离
现有版本:
120TB240TB360TB
基于X86服务器并支持千兆或10GbE以太网连接
4国内云存储产品
4.1美地森
概述:
分布式存储,网络容错,集群存储
结构:
元数据服务器MDS+块数据服务器CDS
文件分块存储(每一块大小固定在50MB)
服务器:
低成本、符合工业标准的通用硬件设备(Linux系统)
扩展性:
动态插入节点,无需复杂配置
自动在线扩容(几秒)
容量与节点成线性增长关系
容错性:
CDS冗余备份(3份)
存在3~5台MDS,保存相同元数据,同一时间只有一台工作,一旦瘫痪,备用的立即替补
通用性:
经过NAS集群网关的方式为Windows、Linux、Unix、Mac等操作系统提供NFS协议访问接口
兼容所有操作系统平台
易用性:
单一名字命名空间
所有应用服务器看到所有的文件
访问效率:
每秒数十万个文件查询
同时多条数据通道读写数据
存储限制:
PB级存储空间
数据交互:
用户与CDS进行数据交互
数据缓存:
对MDS中元数据进行缓存
负载均衡:
自动进行负载均衡
数据恢复:
本地数据存储两份,自动恢复
2TB数据恢复时间<15min
备注:
不完全适应海量小文件存储
实时性?
局域网内,100台服务器左右,异地备份?
WSS?
4.2友友系统
4.2.1DataCell介绍
DataCell能够有效地解决业务系统在运营过程中收集和产生的大量实时数据以及企业在长期的业务发展过程中积累下来的海量数据的存储和处理系列问题,特别面对PB数量级的数据容量和上亿个存储文件的处理需求时,在降低整体成本提高系统整体可用性上能够发挥突出作用。
虚拟技术:
采用
扩容性:
在新加入的硬件上安装DataCell,即可加入虚拟存储机
可移植性:
DataCell软件具有高度的可移植性,没有实际系统软硬件的限制
数据传输:
结合数流平台(Bitsflow),高效
4.2.2DataCellFS
非结构化存储系统——针对非结构化数据
架构:
1个控制节点(存储元数据等)+若干的存储节点(细分为各存储块)
可扩展性:
热部署(TB—PB—更高级别的平滑扩展),性能线性增长
灵活性:
基于业务策略自动切分数据进行存储(存储块的大小是不固定的)
用户能够经过定义策略来实现让适当的数据在适当的时间自动保存在适当的位置
虚拟技术:
将用户所使用的各类存储硬件无缝虚拟化
多租户:
同一存储结构服务于多个应用程序,数据分区隔离
容错性:
冗余备份
热备控制节点
数据恢复:
自动检测故障节点自动恢复
访问效率:
支持并发访问
用户可为云服务构建自定义查询
负载均衡:
所有系统节点间透明地移动数据
自动动态调整数据备份数
安全性:
访问控制权限
应用程序访问机制:
支持NFS、HTTP、WebDAV、FTP及FUSE等多种接口
应用程序能够不做修改即可迁移数据平台
4.2.3DataCellDB
结构化数据存储系统——针对结构化和半结构化数据
解决了当前通用关系型数据库在面对multi-TB或PB量级结构化数据的存储和处理需求时出现的性能和容量瓶颈问题
不完全支持关系数据库,但支持常见的关系操作(select、insert、delete、update)
架构:
完全无中心节点的分布式系统
逻辑环
容错性:
相邻节点互为热备份
简单快捷的数据导出工具
自定义冗余策略
可扩展性:
热部署
存储机制:
支持用户自定义的各种数据格式
同时支持内存和磁盘数据库
访问效率:
在内存存储模式下,多进程并发随机读写支持超过20万次/秒
特别适用于海量小文件存储与访问的应用场景
支持语言:
C++、Java
其它功能:
●支持包括哈希表、树、数组在内的多种内部结构
●支持包含内存、硬盘、网络存储等多种不同存储机制
●基于策略的的数据存取方式,支持包括冗余数和存储位置等在内的自定义策略
●支持数据表操作类似的查询机制和简单的条件查询
●支持用户定义的记录类型和数据字典
●支持事务处理
●支持复杂的索引规则
●异步存储拷贝,支持snapshot
●提供binarylog,支持服务器热备和冗余
●完全支持多进程、多线程的高并发访问
●支持分布式事务
●远程图形化管理界面
4.2.4其它相关产品
①数流平台(Bitsflow)
高容错、高性能的数据传输中间层工具
②DataCellEcho
有效实现跨区域、异构分布式数据库的实时数据同步。
它能够同时处理同一系统内的多个异构数据库系统之间的数据交换和同步。
经过对各个数据库系统内数据的动态划分和管理,Echo还可在一个或多个数据库中支持多个Master和Slave并存