ImageVerifierCode 换一换
格式:DOCX , 页数:13 ,大小:54.45KB ,
资源ID:27719127      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/27719127.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(Hadoop题库第138章.docx)为本站会员(b****8)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

Hadoop题库第138章.docx

1、Hadoop题库第138章题库(第一、三、八章)第一章单选题1、大数据的数据量现在已经达到了哪个级别?( C )A、GBB、TBC、PBD、ZB2、2003年,Google公司发表了主要讲解海量数据的可靠存储方法的论文是?( A )A、“The Google File System”B、“MapReduce: Simplified Data Processing on Large Clusters”C、“Bigtable: A Distributed Storage System for Structured Data”D、“The Hadoop File System”3、2004年,Goo

2、gle公司发表了主要讲解海量数据的高效计算方法的论文是?( B )A、“The Google File System”B、“MapReduce: Simplified Data Processing on Large Clusters”C、“Bigtable: A Distributed Storage System for Structured Data”D、“The Hadoop File System”4、2006年,Google公司发表了用来处理海量数据的一种非关系型数据库的论文是?( C )A、“The Google File System”B、“MapReduce: Simplif

3、ied Data Processing on Large Clusters”C、“Bigtable: A Distributed Storage System for Structured Data”D、“The Hadoop File System”5、对于GFS架构,下面哪个说法是错误的?( A )A、GFS Master节点管理所有的文件系统所有数据块。B、GFS存储的文件都被分割成固定大小的块,每个块都会被复制到多个块服务器上(可靠性)。块的冗余度默认为3。C、GFS Master还管理着系统范围内的活动,比如块服务器之间的数据迁移等D、GFS Master与每个块服务器通信(发送心跳

4、包),发送指令,获取状态6、下面哪个选项不是HDFS架构的组成部分?( D )A、NameNodeB、DataNodeC、SecondaryNameNodeD、GFS7、狭义的Hadoop是一个适合大数据分布式存储和分布式计算的平台,不包括下面哪个组件?( D )A、HDFSB、MapReduce C、Yarn D、HBase8、与Hadoop 1.x相比,Hadoop 2.x采用全新的架构,最明显的变化就是增加了哪个组件?( D )A、MapReduceB、PigC、HBaseD、Yarn9、建立在Hadoop文件系统之上的分布式的列式数据库?( A )A、HBaseB、HiveC、YARN

5、D、Mahout10、下面哪个选项不属于Google的三驾马车?( A )A、HDFSB、MapReduceC、BigTableD、GFS多选题1、下面哪些是大数据的基本特征?( ABCD )A、数据体量大B、数据类型多C、处理速度快D、价值密度低2、Hadoop能够使用户轻松开发和运行处理大数据的应用程序,那它主要有下面哪些特点( ABCD )A、高可靠性B、高扩展性C、高效性D、高容错性判断题( ) 1、Google的在大数据解决方案是开源的。( ) 2、GFS分布式文件系统有两个基本组成部分,一个是客户端(Client),一个是服务端(Server)( ) 3、上传的数据块保存在GFS上

6、,在保存过程中需要水平复制,水平复制需要考虑两个要求:可靠性、可用性( ) 4、HDFS的采用了“分而治之”的思想。( ) 5、MapReduce是的最早提出是Google为了解决PageRank的问题( ) 6、Hbase是非关系型数据库,是面向列的。第三章单选题1、HDFS首先把大数据文件切分成若干个小的数据块,再把这些数据块分别写入不同的节点,这些负责保存文件数据的节点被称为?( B )A、NameNodeB、DataNodeC、SecondaryNameNodeD、Block2、名称节点(NameNode)是HDFS的管理者,它的职责有3个方面,下面哪个选项不是NamdeNode的职责

7、?( D )A、负责管理和维护HDFS的命名空间(NameSpace)B、管理DataNode上的数据块(Block)C、接收客户端的请求D、负责保存数据块3、数据节点(DataNode)负责存储数据,一个数据块会在多个DataNode中进行冗余备份,那么HDFS默认存储几份?( C )A、1B、2C、3D、54、下面哪个选项不属于DataNode的职责?( C )A、保存数据块B、启动DataNode线程,向NameNode定期汇报数据块信息C、管理数据块D、定期向NameNode发送心跳信息保持联系5、向HDFS上传文件,正确的shell命令是?( B )A、hdfs dfs -getB、

8、hdfs dfs -putC、hdfs dfs -appendToFileD、hdfs dfs -copyToLocal6、对于HDFS文件读取过程,描述不正确的是?( A )A、HDFS客户端通过Configuration对象的open()方法打开要读取的文件B、DistributedFileSystem负责向远程的名称节点(NameNode)发起RPC调用,得到文件的数据块信息,返回数据块列表C、通过对数据流反复调用read()方法,把数据从数据节点传输到客户端D、当客户端读取完数据时,调用FSDataInputStream对象的close()方法关闭输入流7、HDFS能够在出错的情况下保

9、证数据存储的可靠性,常见的出错情况不包括?( D )A、数据节点(DataNode)出错B、名称节点(NameNode)出错C、数据本身出错D、以上选项都不包括8、考虑到安全和效率,Hadoop设计了机架感知(rack-aware)功能,下面关于机架感知说法正确的是?( C )A、三个冗余备份可在同一个机架上B、三个冗余备份在不同的机架上C、三个冗余备份其中有两个在同一个架构上,另外一个备份在不同的机架上D、上述说法都不对9、Hadoop类库中最终面向用户提供的接口类是_。该类是个抽象类,只能通过类的get方法得到具体类?( B )A、Configuration类B、FileSystem类C、

10、Path类D、URI类10、使用HDFS Federation的优点不包括下面哪个选项?( B )A、NameSpace具有可扩展性B、DataNode具有可扩展性C、性能提升。多个NameNode可以提高读写时的数据吞吐量D、隔离性。使用联邦可隔离不同类型的程序,一定程度上可控制资源的分配11、当NameNode出错时,下面哪个方案描述正确,且是最佳故障恢复和容错方案?( B )A、采用SecondaryName定时备份NameNode的fsimage和editsB、采用NameNode HA,当一个NameNode出错时,另一个NameNode接管它的工作。C、采用NameNode Fed

11、aration,多个Namenode一起工作。D、多增加DataNode12、关于HDFS回收站描述正确的是?( C )A、HDFS回收站默认开启B、HDFS回收站中的文件文件像Windows回收站一样,如果不清空回收站,文件会一直保留在回收站。C、HDFS为每一个用户都创建了回收站,这个类似操作系统的回收站。位置是/user/用户名/.Trash/D、用户不能手动清空回收站中的内容13、关于 SecondaryNameNode的描述,哪项是正确的? ( C )A、它是NameNode的热备 B、它对内存没有要求C、它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间D、S

12、econdaryNameNode应与NameNode部署到一个节点14、HDFS的是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是:( C )A、一次写入,少次读写 B、多次写入,少次读写 C、一次写入,多次读写 D、多次写入,多次读写多选题1、下面属于HDFS的优点的是(ABC)A、处理超大文件。HDFS能够处理TB级甚至PB级的数据。B、支持流式数据访问。C、低成本运行。HDFS可运行在低廉的商用硬件集群上。D、适合处理低延迟的数据访问E、适合处理大量的小文件F、支持多用户写入及任意修改文件判断题( ) 1、HDFS是整个

13、Hadoop生态圈中的基石( ) 2、在HDFS HA集群中,两个NameNode都处于活跃状态,这样其中一个NameNode故障时,集群仍然可用( ) 3、DataNode一旦发生故障将导致整个集群不可用( ) 4、上传到HDFS的一个数据块是1M,那么它在HDFS上占用的内存是1M( ) 5、NameNode管理了两个文件,其中fsimage体现了其最新的状态( ) 6、安全模式(Safemode)是HDFS所处的一种特殊状态。处于这种状态时,HDFS只接受读数据请求,不能对文件进行写、删除等操作( ) 7、HDFS为每一个用户都创建了类似操作系统的回收站(Trash),当用户删除文件时,

14、文件马上就会被永久性删除( ) 8、hdfs dfsadmin -disallowSnapshot是开启HDFS快照的命令( ) 9、HDFS提供了如下两种配额(Quota)命令(这两种命令是管理命令hdfs dfsadmin)简答题1、根据要求写出对应的HDFS shell命令(1)在HDFS上创建名为test的目录hdfs dfs -mkdir test(2)将本地的文件file上传至test目录下hdfs dfs -put file test或hdfs dfs -copyFromLocal file test(3)将本地的文件file1内容追加至test目录下的file中hdfs dfs

15、 -appendToFile file1 test/file(4)查看test的目录信息hdfs dfs -ls test(5)将test下的file文件下载至本地hdfs dfs -get file test或hdfs dfs -copyToLocal file test2、HDFS编程:创建文件 public static void main(String args) throws Exception Configuration conf=new Configuration(); URI uri=new URI(hdfs:/XXXXX:XX); FileSystem fs=FileSyst

16、em.get(uri,conf,hadoop); Path dfs=new Path(/mydir/test2.txt); FSDataOutputStream os=fs.create(dfs,true); newFile.writeBytes(hello,hdfs!); os.close(); fs.close(); 3、请描述HDFS文件读取过程文字描述:(1)HDFS客户端通过DistributedFileSystem对象的open()方法打开要读取的文件。(2)DistributedFileSystem负责向远程的名称节点(NameNode)发起RPC调用,得到文件的数据块信息,返回

17、数据块列表。对于每个数据块,NameNode返回该数据块的DataNode地址。(3)DistributedFileSystem返回一个FSDataInputStream对象给客户端,客户端调用FSDataInputStream对象的read()方法开始读取数据。(4)通过对数据流反复调用read()方法,把数据从数据节点传输到客户端。(5)当一个节点的数据读取完毕时,DFSInputStream对象会关闭与此数据节点的连接,连接此文件下一个数据块的最近数据节点。(6)当客户端读取完数据时,调用FSDataInputStream对象的close()方法关闭输入流。4、请描述HDFS文件写入的过

18、程文字描述:(1)客户端调用DistributedFileSystem对象的create()方法创建一个文件输出流对象。(2)DistributedFileSystem对象向远程的NameNode节点发起一次RPC调用,NameNode检查该文件是否已经存在,以及客户端是否有权限新建文件。(3)客户端调用FSDataOutputStream对象的write()方法写数据,数据先被写入缓冲区,再被切分为一个个数据包。(4)每个数据包被发送到由NameNode节点分配的一组数据节点的一个节点上,在这组数据节点组成的管道上依次传输数据包。(5)管道上的数据节点按反向顺序返回确认信息,最终由管道中的第

19、一个数据节点将整条管道的确认信息发送给客户端。(6)客户端完成写入,调用close()方法关闭文件输出流。(7)通知NameNode文件写入成功。第八章单选题1、以前在传统数据库与Hadoop之间,数据传输没有专门的工具,两者数据的互导是比较困难的,_的出现解决了这个问题?( C )A、HiveB、FlumeC、SqoopD、Zookeeper2、Sqoop的底层实现是_?( B )A、HDFSB、MapReduceC、HBaseD、Hadoop3、将数据从关系型数据库中导出到HDFS上,应当使用命令_?( A )A、importB、exportC、listD、以上都不对4、关于Sqoop数据

20、的导入导出描述不正确的是?( B )A、实现从MySQL到Hive的导入导出B、实现从MySQL到Oracle的导入导出C、实现从HDFS到Oracle的导入导出D、实现从HDFS到MySQL的导入导出5、列出mysql数据库中的所有数据库sqoop命令是?(A)A、sqoop list-databases connectB、sqoop list-tables connectC、sqoop create-hive-table connect D、sqoop import connect6、对Sqoop描述不正确的是?( C )A、Sqoop的底层实现是MapReduceB、Sqoop主要采集关

21、系型数据库中数据,常用于离线计算批量处理C、Sqoop只支持从关系型数据库导入到HDFS,不支持从HDFS导入到关系型数据库。D、Sqoop脚本最终会变成提交到YARN上的一个个map任务判断题( ) 1、Sqoop充分利用了MapReduce的并行特点,以批处理的方式加快数据的传输,同时也借助MapReduce实现了容错( ) 2、用户的Sqoop脚本最终会变成提交到YARN上的一个个reduce任务( ) 3、Sqoop中的export命令是将数据导入到集群中( ) 4、import-all-tables命令的功能是导入某个数据库下所有表到HDFS中( ) 5、将MySql数据导入到Hadoop集群中不需要任务依赖jar包

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1