课后作业答案云计算与大数据.docx
《课后作业答案云计算与大数据.docx》由会员分享,可在线阅读,更多相关《课后作业答案云计算与大数据.docx(14页珍藏版)》请在冰豆网上搜索。
课后作业答案云计算与大数据
课后作业答案云计算与大数据
第一章
1.硬件驱动力网络驱动力
2.西摩·克雷(SeymourCray)
3.约翰·麦卡锡
4.蒂姆·博纳斯·李
5.吉姆·格雷
6.Java
7.基础设施即服务平台即服务软件即服务
8.
(1)超大规模
“云”具有相当的规模,Google云计算已经拥有100多万台服务器,Amazon、IBM、微软、Yahoo等的“云”均拥有几十万台服务器。
企业私有云一般拥有数百上千台服务器。
“云”能赋予用户前所未有的计算能力。
(2)虚拟化
云计算支持用户在任意位置、使用各种终端获取应用服务。
所请求的资源来自“云”,而不是固定的有形的实体。
应用在“云”中某处运行,但实际上用户无需了解、也不用担心应用运行的具体位置。
只需要一台笔记本或者一个手机,就可以通过网络服务来实现我们需要的一切,甚至包括超级计算这样的任务。
(3)高可靠性
“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机可靠。
不可避免地让这些私人机构以“数据(信息)”的重要性挟制整个社会。
对于信息社会而言,“信息”是至关重要的。
另一方面,云计算中的数据对于数据所有者以外的其他用户云计算用户是保密的,但是对于提供云计算的商业机构而言确实毫无秘密可言。
所有这些潜在的危险,是商业机构和政府机构选择云计算服务、特别是国外机构提供的云计算服务时,不得不考虑的一个重要的前提。
9.MPI、Hadoop、HPCC、Storm
KVM、VMware
10.
(1)数据查询分析计算系统HBase:
开源、分布式、面向列的非关系型数据库模型,是Apache的Hadoop项目的子项目,实现了压缩算法、内存操作和布隆过滤器。
(2)批处理系统:
MapReduce是被广泛使用的批处理计算模式。
MapReduce对具有简单数据关系、易于划分的大数据采用“分而治之”的并行处理思想,讲数据记录的处理分为Map和Reduce两个简单的抽象操作,提供了一个统一的并行计算框架。
(3)流式计算机系统:
流式计算机具有很强的实时性,需要对应用源源不断产生的数据实时进行处理,是数据不积压、不丢失,常用于处理电信、电力等行业应用以及互联网行业的访问日志等。
(4)迭代计算系统:
针对MapReduce不支持迭代计算的缺陷,人民对Hadoop进行了大量改进。
(5)图计算系统:
社交网络、网页链接等包含具有复杂关系的图数据,这些图数据规模巨大,可包含数十亿顶点和上百亿条边,图数据需要有专门的系统进行存储和计算。
(6)内存计算系统:
随着内存价格的不断下降、服务器可配置内存容量的不断增长,使用内存计算完成高速的大数据处理已成为大数据处理的重要发展方向。
11.大数据处理需要有三个基本的环节和五个方面的工作。
首先要有“数据采集”的方法和途径(采集);其次要用符合教育原理的数据处理方法(建模);另外,还要有“数据还原现象”综合方法(还原)。
其中,还有“数据清理”、“数据汇聚”等技术处理工作。
在整个大数据处理过程中,还需要考虑“数据安全”和“隐私保护”等问题。
第二章
1.对key值首先用MD5算法将其变换为一个长度32位的十六进制数值,再用这个数值对2的32次方取值,将其映射到2的32次方个值构成的环状哈希空间,对节点也以相同的方法映射到环状哈希空间中找到大于它的最小节点值作为路由值。
2.思辨研究范式
批判研究范式
行动研究范式
实证研究范式
3.物联网产业链可细分为标识、感知、处理和信息传送4个环节
4.Column-Oriented、Key-Value、Document-Oriented
第三章
1.统一性高效性受控性
2.指令集架构级虚拟化硬件抽象层虚拟化操作系统性虚拟化编程语言上的虚拟化库函数层的虚拟化
3.VirtualBoxVMwareWorkstationKVM
4.硬件无关性隔离线多实例特权功能
5.服务虚拟化桌面虚拟化网络虚拟化
6.CPU虚拟化内存虚拟化I/O虚拟化
7.虚拟化技术就是一种逻辑简化技术,实现物理层向逻辑层的变化。
采用虚拟化技术能实现对物理层运动复杂性的屏蔽,使系统对运行呈现出简单的逻辑运行状态。
8.虚拟化技术的优势:
虚拟化技术可以提高资源利用率
提供相互隔离、高效的应用执行环境
虚拟化技术可以简化资源和资源的管理
虚拟化技术实现软件和硬件的分离
虚拟化技术的劣势:
可能会使物理计算机负载过重
升级和维护引起的安全问题
物理计算机的影响
第六章
1.GFSMapReduce大表(BigTable)
2.1)Client(客户端)使用固定大小的块(GFS中文件分块大小为64MB)将应用程序指定的文件名和字节偏移转换成文件的一个块索引(ChunkIndex),Client缓存文件名和块索引信息,并向Master发送一个包含文件名和块索引的请求。
2)Master收到客户端发来的请求,Master向Chunkserver发出指示,并实时监控众多Chunkserver的状态。
Chunkserver缓存Master从客户端收到的文件名和块索引等信息。
3)Master通过与Chunkserver的交互,向客户端发送chunk-handle(块句柄)和副本位置。
其中文件被分成若干个块,而每个块都是由一个不变的、全局唯一的64位的chunk-handle标识。
chunk-handle是由Master在块创建时分配的。
为了保证数据的可靠性,每一个文件块都要被复制到多个Chunkserver上。
默认情况下,保存3个副本,但这可以由用户指定。
4)客户端向其中的一个副本发出请求,很可能是最近的一个副本。
请求指定了chunk-handle和块内的一个字节区间。
5)若是读取数据,客户端从Chunkserver获得块数据,任务完成。
3.
图片完整版: