《大数据技术原理与操作应用》第6章习题答案.docx

资源描述

《大数据技术原理与操作应用》第6章习题答案.docx

《《大数据技术原理与操作应用》第6章习题答案.docx》由会员分享，可在线阅读，更多相关《《大数据技术原理与操作应用》第6章习题答案.docx（16页珍藏版）》请在冰豆网上搜索。

《大数据技术原理与操作应用》第6章习题答案.docx

《大数据技术原理与操作应用》第6章习题答案

第六章

单选题

1、Hadoop2.0集群服务启动进程中，下列选项不包含的是（）。

∙A、NameNode

∙B、JobTracker

∙C、DataNode

∙D、ResourceManager

参考答案:

答案解析:

暂无解析

2、关于SecondaryNameNode哪项是正确的？

∙A、它是NameNode的热备

∙B、它对内存没有要求

∙C、它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间

∙D、SecondaryNameNode应与NameNode部署到一个节点

参考答案:

答案解析:

暂无解析

3、HDFS中的Block默认保存（）份。

∙A、3份

∙B、2份

∙C、1份

∙D、不确定

参考答案:

答案解析:

HDFS中的Block默认保存3份。

4、一个gzip文件大小75MB，客户端设置Block大小为64MB，占用Block的个数是（）。

∙A、1

∙B、2

∙C、3

∙D、4

参考答案:

答案解析:

暂无解析

5、下列选项中，Hadoop2.x版本独有的进程是（）。

∙A、JobTracker

∙B、TaskTracker

∙C、NodeManager

∙D、NameNode

参考答案:

答案解析:

暂无解析

6、下列哪项通常是集群的最主要的性能瓶颈？

∙A、CPU

∙B、网络

∙C、磁盘

∙D、内存

参考答案:

答案解析:

暂无解析

判断题

1、NameNode的WebUI端口是50030，它通过jetty启动的Web服务。

∙对

∙错

参考答案:

错

答案解析:

端口号为50070

2、NodeManager会定时的向ResourceManager汇报所在节点的资源使用情况，并接受处理来自ApplicationMaster的容器启动、停止等各种请求

∙对

∙错

3、HadoopHA是集群中启动两台或两台以上机器充当NameNode，避免一台NameNode节点发生故障导致整个集群不可用的情况。

∙对

∙错

参考答案:

对

答案解析:

HadoopHA是集群中启动两台或两台以上机器充当NameNode，避免一台NameNode节点发生故障导致整个集群不可用的情况。

4、写入数据的时候会写到不同机架的DataNode中

∙对

∙错

参考答案:

对

答案解析:

写入数据的时候会写到不同机架的DataNode中

5、MapReduce任务会根据机架获取离自己比较近的网络数据。

∙对

∙错

参考答案:

对

答案解析:

MapReduce任务会根据机架获取离自己比较近的网络数据。

6、ResourceManager负责监控ApplicationMaster，并在ApplicationMaster运行失败的时候重启它，因此ResouceManager负责ApplicationMaster内部任务的容错。

∙对

∙错

参考答案:

错

答案解析:

暂无解析

7、启动HadoopHA后，可通过端口号50070查看当前节点的NameNode状态。

∙对

∙错

参考答案:

对

答案解析:

暂无解析

8、NodeManager是每个节点上的资源和任务管理器。

∙对

∙错

参考答案:

对

答案解析:

NodeManager是每个节点上的资源和任务管理器。

9、Slave节点要存储数据，所以它的磁盘越大越好。

∙对

∙错

参考答案:

错

答案解析:

一旦Slave节点宕机，数据恢复是一个难题

10、Hadooop2.0版本中，引入了一个资源管理调度框架Yarn。

∙对

∙错

参考答案:

对

答案解析:

暂无解析

11、Hadoop自身具有严格的权限管理和安全措施保障集群正常运行。

∙对

∙错

参考答案:

错

答案解析:

暂无解析

12、搭建HadoopHA集群时，必须首先部署Zookeeper集群服务。

∙对

∙错

参考答案:

对

答案解析:

搭建HadoopHA集群时，必须首先部署Zookeeper集群服务。

13、HadoopHA集群中，存在SecondaryNameNode进程，协调NameNode并保持同步状态。

∙对

∙错

参考答案:

错

答案解析:

暂无解析

14、客户端上传文件的时候会先将文件切分为多个Block，依次上传。

∙对

∙错

参考答案:

对

答案解析:

暂无解析

15、如果一个机架出问题，Hadoop集群服务不会影响数据读写功能

∙对

∙错

参考答案:

对

答案解析:

如果一个机架出问题，Hadoop集群服务不会影响数据读写功能

16、HDFS上传时，数据会经过NameNode然后再传递给DataNode。

∙对

∙错

参考答案:

错

答案解析:

暂无解析

17、Hadoop1.0和2.0都具备完善的HDFSHA策略

∙对

∙错

参考答案:

错

答案解析:

暂无解析

18、因为HDFS有多个副本，所以NameNode是不存在单点问题的。

∙对

∙错

参考答案:

错

答案解析:

因为HDFS有多个副本，NameNode依旧存在单点问题的。

19、如果NameNode意外终止，SecondaryNameNode会接替它使集群继续工作。

∙对

∙错

参考答案:

错

答案解析:

暂无解析

20、Hadoop1.x版本中，可以搭建高可用集群，解决单点故障问题。

∙对

∙错

参考答案:

错

答案解析:

暂无解析

21、hadoopdfsadmin–report命令用于检测HDFS损坏块。

∙对

∙错

参考答案:

错

答案解析:

暂无解析

参考答案:

对

答案解析:

NodeManager会定时的向ResourceManager汇报所在节点的资源使用情况，并接受处理来自ApplicationMaster的容器启动、停止等各种请求。

22、HadoopHA是两台NameNode同时执行NameNode角色的工作。

∙对

∙错

参考答案:

错

答案解析:

暂无解析

23、NameNode不需要从磁盘读取元数据，所有数据都在内存中存储，硬盘上的只是序列化的结果，只有NameNode启动的时候才会读取元数据。

∙对

∙错

参考答案:

对

答案解析:

NameNode不需要从磁盘读取元数据，所有数据都在内存中存储，硬盘上的只是序列化的结果，只有NameNode启动的时候才会读取元数据。

24、NameNode本地磁盘保存了Block的位置信息。

∙对

∙错

参考答案:

对

答案解析:

NameNode本地磁盘保存了Block的位置信息。

填空题

1、Yarn的核心组件包含ResourceManager、【】、ApplicationMaster。

参考答案:

【NodeManager】

答案解析:

Yarn的核心组件包含ResourceManager、NodeManager、ApplicationMaster。

2、ResourceManager内部包含了两个组件，分别是调度器和【】。

参考答案:

【应用程序管理器】

答案解析:

暂无解析

3、ApplicationMaster的主要功能是资源的【】、监控、【】。

参考答案:

【调度】【容错】

答案解析:

ApplicationMaster的主要功能是资源的调度、监控、容错。

4、在HDFS的高可用集群中，通常有两台或两台以上的的机器充当NameNode，在任意时间，保证有一台机器处于【】状态，一台机器处于【】状态。

参考答案:

【活动】【备用】

答案解析:

暂无解析

5、Zookeeper为Hadoop高可用集群提供故障自动转移的功能服务，它为每个NameNode都分配了一个【】，用于监控NameNode的健康状态。

参考答案:

【故障恢复控制器】

答案解析:

暂无解析

6、Hadoop2.0中，HDfS中的Block大小是【】。

参考答案:

【128M】

答案解析:

在Hadoop1.0中，Block大小默认为64M，在Hadoop2.0中，Block大小默认为128M

简答题

1、简述如何检查Namenode是否正常运行。

参考答案:

如果要检查Namenode是否正常工作，使用Jps命令即可。

答案解析:

暂无解析

2、HDFS的客户端，复制到第三个副本时宕机，此时HDFS怎么恢复，保证下次写入第三副本?

参考答案:

DataNode会定时上报Block块的信息给NameNode，NameNode就会得知该副本缺失，然后NameNode就会启动副本复制流程以保证数据块的备份！

答案解析:

暂无解析

3、请简述初次启动HadoopHA集群的操作方式。

参考答案:

（1）在每台机器上启动Zookeeper服务。

（2）手动启动Journalnode。

（3）格式化NameNode，并且把格式化后生成的目录拷贝到另外一台NameNode上。

（4）格式化zkfc，在Active节点上执行即可。

（5）启动HDFS服务。

（6）启动Yarn服务。

答案解析:

（1）在每台机器上启动Zookeeper服务。

（2）手动启动Journalnode。

（3）格式化NameNode，并且把格式化后生成的目录拷贝到另外一台NameNode上。

（4）格式化zkfc，在Active节点上执行即可。

（5）启动HDFS服务。

（6）启动Yarn服务。

4、Linux系统如何退出编辑模式？

参考答案:

1，按ESC

2，键入:

q（如果你没有输入任何当下）或者键入:

wq按下Enter。

答案解析:

1，按ESC

2，键入:

q（如果你没有输入任何当下）或者键入:

wq按下Enter。

5、当Hadoop高可用集群中的NameNode节点发生故障时，简述工作流程。

参考答案:

一旦ActiveNameNode挂掉后，StandbyNameNode就会在它成为Active状态之前读取所有的JournalNodes里的日志信息，这样就能够保证与挂掉的NameNode的目录镜像树一致，然后无缝的接替它的职责，维护来自客户端请求。

答案解析:

6、简述Yarn集群的工作流程。

参考答案:

（1）用户通过客户端Client向YARN提交应用程序Applicastion，提交的内容包含Application的必备信息，例如ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。

（2）YARN中的ResourceManager接收到客户端应用程序的请求后，ResourceManager中的调度器（Scheduler）会为应用程序分配一个容器，用于运行本次程序对应的ApplicationMaster。

图6-2中的MRAppMstr表示的是MapReduce程序的ApplicationMaster。

（3）ApplicationMaster被创建后，首先向ResourceManager注册信息，这样用户可以通过ResourceManager查看应用程序的运行状态。

接下来的第（4）~（7）步是应用程序的具体执行步骤。

（4）ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请资源。

（5）ResourceManager向提出申请的ApplicationMaster分配资源。

一旦ApplicationMaster申请到资源后，便与对应的NodeManager通信，要求它启动任务。

（6）NodeManager为任务设置好运行环境（包括环境变量、JAR包、二进制程序等）后，将任务启动命令写到一个脚本中，并通过运行该脚本启动任务。

（7）各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度，以让ApplicationMaster随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务。

（8）应用运行结束后，ApplicationMaster向ResourceManager注销自己，并关闭自己。

如果ApplicationMaster因为发生故障导致任务失败，那么ResourceManager中的应用程序管理器会将其重新启动，直到所有任务执行完毕。

答案解析:

暂无解析

7、hadoop-env.sh文件是用于做什么的？

参考答案:

hadoop-env.sh提供了Hadoop中的JAVA_HOME运行环境变量。

答案解析:

hadoop-env.sh提供了Hadoop中的JAVA_HOME运行环境变量。

8、简述Hadoop集群可以运行的3个模式。

参考答案:

1.单机（本地）模式

2.伪分布式模式

3.全分布式模式

答案解析:

1.单机（本地）模式

2.伪分布式模式

3.全分布式模式

9、Slaves文件需要填写什么内容。

参考答案:

Slaves由主机的列表组成，每台1行，用于说明数据节点。

答案解析:

Slaves由主机的列表组成，每台1行，用于说明数据节点。

10、简述HDFS的体系结构？

参考答案:

HDFS采用了主从（Master/Slave）结构模型，一个HDFS集群是由一个NameNode和若干个DataNode组成的。

答案解析:

暂无解析

展开阅读全文