《大数据技术原理与操作应用》第3章习题答案Word格式文档下载.docx

资源描述

《大数据技术原理与操作应用》第3章习题答案Word格式文档下载.docx

《《大数据技术原理与操作应用》第3章习题答案Word格式文档下载.docx》由会员分享，可在线阅读，更多相关《《大数据技术原理与操作应用》第3章习题答案Word格式文档下载.docx（14页珍藏版）》请在冰豆网上搜索。

《大数据技术原理与操作应用》第3章习题答案Word格式文档下载.docx

3、下列选项中，用于检验数据完整性的信息的是（）。

∙A、心跳机制

∙B、ACK机制

∙C、选举机制

∙D、垃圾回收机制

4、下列选项中，关于HDFS说法错误的是（）。

∙A、HDFS是Hadoop的核心之一

∙B、HDFS源于Google的GFS论文

∙C、HDFS用于存储海量大数据

∙D、HDFS是用于计算海量大数据

5、下列选项中，用于存放部署Hadoop集群服务器的是（）。

∙C、rack

∙D、metadata

Rack是用来存放部署Hadoop集群服务器的机架。

6、下列选项中，用于删除HDFS上文件夹的方法是（）。

∙A、delete（）

∙B、rename（）

∙C、mkdirs（）

∙D、copyToLocalFile（）

FileSystem对象调用delete（）方法可以删除文件夹，delete（）方法接收两个参数，第一个参数表示要删除的文件夹路径，第二个参数用于设置是否递归删除目录。

7、下列选项中，关于HDFS的架构说法正确的是（）。

∙A、HDFS采用的是主备架构

∙B、HDFS采用的是主从架构

∙C、HDFS采用的是从备架构

∙D、以上说法均错误

HDFS采用主从架构（Master/Slave架构）。

8、下列选项中，用于上传文件的Shell命令是（）。

∙A、-ls

∙B、-mv

∙C、-cp

∙D、-put

多选题

1、下列选项中，关于数据块说法正确的是（）。

∙A、磁盘进行数据读/写的最大单位

∙B、磁盘进行数据读/写的最小单位

∙C、数据块是抽象的块

∙D、DataNode是按block对数据进行存储。

B,C,D

2、下列说法中，关于crontab表达式说法正确的是（）。

∙A、通过执行crontab表达式可以执行定时任务

∙B、crontab表达式是由6个参数决定

∙C、Crontab表达式是由5个参数决定

∙D、以上说法均正确

A,B

3、下列说法中，关于使用JavaAPI操作HDFS说法正确的是（）。

∙A、需要引入hadoop-common依赖

∙B、需要引入hadoop-hdfs依赖

∙C、需要引入hadoop-client依赖

A,B,C

4、下列选项中，关于Metadata元数据说法正确的是（）。

∙A、元数据维护HDFS文件系统中文件和目录的信息

∙B、元数据记录与文件内容存储相关的信息

∙C、元数据用来记录HDFS中所有DataNode的信息

∙D、元数据用于维护文件系统名称并管理客户端对文件的访问

NameNode用于维护文件系统名称并管理客户端对文件的访问。

判断题

1、HDFS目前不支持并发多用户的写操作，写操作只能在文件末尾追加数据。

∙对

∙错

对

HDFS目前不支持并发多用户的写操作，写操作只能在文件末尾追加数据。

2、HDFS中提供SecondaryNameNode节点，是为了取代掉NameNode节点。

错

3、在Windows平台开发HDFS项目时，若不设置Hadoop开发环境，也是没问题的。

在Windows平台开发HDFS项目时，若不设置Hadoop开发环境，则会报以下的错误：

java.io.IOException:

（null）entryincommandstring:

nullchmod0644。

4、传统文件系统存储数据时，若文件太大，会导致上传和下载非常耗时。

传统文件系统存储数据时，若文件太大，会导致上传和下载非常耗时。

5、Hadoop在设计时考虑到数据的安全与高效，数据文件默认在HDFS上存放一份。

Hadoop在设计时考虑到数据的安全与高效，数据文件默认在HDFS上存放三份。

6、在采集数据的过程中，通过在滚动完文件的名称后添加一个标识的策略，不能避免因日志文件过大而导致上传效率低的问题。

为了避免因日志文件过大而导致上传效率低，可以采取在滚动完文件的名称后添加一个标识的策略来解决这个问题。

7、DataNode在客户端或者NameNode的调度下，存储并检索数据块，对数据块进行创建、删除等操作。

8、Namenode存储的是元数据信息，元数据信息并不是真正的数据，真正的数据是存储在DataNode中。

9、在安装配置windows平台hadoop，配置后直接运行是没有问题的。

10、DataNode是HDFS集群的主节点，NameNode是HDFS集群的从节点。

NameNode是HDFS集群的主节点，DataNode是HDFS集群的从节点。

11、在Linux中，mkdir命令主要用于在指定路径下创建子目录。

mkdir命令主要用于在指定路径下创建子目录。

12、在Hadoop2.x版本下，Block数据块的默认大小是64M。

在Hadoop2.x版本下，Block数据块的默认大小是128M。

13、由于Hadoop是使用Java语言编写的，因此可以使用JavaAPI操作Hadoop文件系统。

由于Hadoop是使用Java语言编写的，因此可以使用JavaAPI操作Hadoop文件系统。

14、HDFS适用于低延迟数据访问的场景，例如毫秒级实时查询。

15、由于Hadoop的设计对硬件要求低，因此无需构建在昂贵的高可用性机器上，导致无法保证数据的可靠性、安全性和高可用性。

16、通过扩容的方式，解决不了传统文件系统遇到存储瓶颈的问题。

通过扩容的方式，可以解决传统文件系统遇到存储瓶颈的问题。

17、SecondaryNameNode可以有效解决Hadoop集群单点故障问题。

填空题

1、HDFS是可以由【】组成，每个服务器机器存储文件系统数据的一部分。

【成百上千台服务器机器】

HDFS是可以由成百上千台服务器机器组成，每个服务器机器存储文件系统数据的一部分。

2、DataNode中的数据块是以文件的类型存储在磁盘中，其中包含两个文件，一是【】，二是每个数据块对应的一个元数据文件。

【数据本身】

3、DataNode之间需要建立【】通道，用于传输数据包。

【Pipeline】

DataNode之间需要建立Pipeline通道，用于传输数据包。

4、在HDFS写数据的流程中，数据是以【】的形式进行发送。

【数据包】

在HDFS写数据的流程中，数据是以数据包的形式进行发送。

5、传统的文件系统对海量数据的处理方式是将数据文件直接存储在【】台服务器上。

【一】

6、在NameNode内部是以元数据的形式，维护着两个文件，分别是FsImage镜像文件和【】文件。

【EditLog日志】

7、【】会自动加载HDFS的配置文件core-site.xml，从中获取Hadoop集群的配置信息。

【Configuration实例】

8、【】节点，负责记录文件系统名称空间或其属性的任何更改操作，并存储配置文件中设置备份的数量。

【NameNode】

NameNode节点，负责记录文件系统名称空间或其属性的任何更改操作，并存储配置文件中设置备份的数量。

9、NameNode和DataNode通过【】，可以检测DataNode是否工作。

【心跳检测机制】

10、一般关于日志文件产生都是根据【】而决定。

【业务】

一般日志文件产生是由业务决定

11、一个元数据文件包括数据长度、【】以及时间戳。

【块数据校验和】

12、HDFS采用的是【】的数据一致性模型。

【一次写入，多次读取】

HDFS采用的是“一次写入，多次读取”的数据一致性模型。

13、客户端从HDFS中查找数据，即为【】数据；

Client从HDFS中存储数据，即为Write（写）数据。

【Read（读）】

14、扩容的方式有两种，分别是【】和横向扩容。

【纵向扩容】

15、HDFS与现有的分布式文件系统的主要区别是HDFS具有【】能力。

【高度容错】

16、NameNode主要以【】的形式对数据进行管理和存储。

【元数据】

NameNode主要以元数据的形式对数据进行管理和存储。

17、文件系统对象FileSystem提供的方法【】用于从HDFS复制文件到本地磁盘。

【copyToLocalFile（）】

18、客户端发起文件上传请求，通过【】协议与NameNode建立通讯。

【RPC】

19、在HDFS中，通过执行【】命令查看HDFS根目录下的所有文件及文件夹。

【hadoopfs-ls】

在HDFS中，通过执行“hadoopfs-ls”命令查看HDFS根目录下的所有文件及文件夹。

简答题

1、简述单点故障的产生。

当存储数据块的服务器中突然有一台机器宕机，我们就无法正常的获取文件了，这个问题被称为单点故障

2、简述HDFS的优点和缺点。

HDFS分布式文件系统具有优点和缺点。

优点有高容错、流式数据访问、支持超大文件、高数据吞吐量以及可构建在廉价的机器上；

缺点有高延迟、不适合小文件存取场景以及不适合并发写入。

3、简述FsImage镜像文件和EditLog日志文件。

FsImage镜像文件用于存储整个文件系统命名空间的信息，EditLog日志文件用于持久化记录文件系统元数据发生的变化。

4、简述NameNode管理分布式文件系统的命名空间。

在NameNode内部是以元数据的形式，维护着两个文件，分别是FsImage镜像文件和EditLog日志文件。

其中，FsImage镜像文件用于存储整个文件系统命名空间的信息，EditLog日志文件用于持久化记录文件系统元数据发生的变化。

当NameNode启动的时候，FsImage镜像文件就会被加载到内存中，然后对内存里的数据执行记录的操作，以确保内存所保留的数据处于最新的状态，这样就加快了元数据的读取和更新操作。

5、简述HDFS中提供了SecondaryNameNode节点的职责。

SecondaryNameNode节点主要是周期性的把NameNode中的EditLog日志文件合并到FsImage镜像文件中，从而减小EditLog日志文件的大小，缩短集群重启时间，并且也保证了HDFS系统的完整性。

6、简述HDFS读数据的原理。

（1）客户端向NameNode发起RPC请求，来获取请求文件Block数据块所在的位置。

（2）NameNode检测元数据文件，会视情况返回Block块信息或者全部Block块信息，对于每个Block块，NameNode都会返回含有该Block副本的DataNode地址。

（3）客户端会选取排序靠前的DataNode来依次读取Block块（如果客户端本身就是DataNode，那么将从本地直接获取数据），每一个Block都会进行CheckSum（完整性验证），若文件不完整，则客户端会继续向NameNode获取下一批的Block列表，直到验证读取出来文件是完整的，则Block读取完毕。

（4）客户端会把最终读取出来所有的Block块合并成一个完整的最终文件

展开阅读全文