Hadoop期中考试测试.docx

资源描述

Hadoop期中考试测试.docx

《Hadoop期中考试测试.docx》由会员分享，可在线阅读，更多相关《Hadoop期中考试测试.docx（9页珍藏版）》请在冰豆网上搜索。

Hadoop期中考试测试.docx

Hadoop期中考试测试

Hadoop期中考试

1．单项选择题〔每个1.5分，共20分〕

〔1〕Mapreduce擅长哪个领域的计算〔A〕。

A.离线批处理

B.DAG计算

C.流式计算

D.实时计算

〔2〕关于MapReduce®理，下面说法错误的选项是〔D〕。

A.分为Map和Reduce两个阶段

B.Map阶段由一系列Map任务组成

C.Reduce阶段由一系列Reduce任务组成

D.Map阶段与Reduce阶段没有任何依赖关系

〔3〕HDFS默认副本数是〔C〕。

A.1

B.2

C.3

D.4

〔4〕不属于HDFS^构组成局部是〔D〕。

A.NameNode

B.SecondaryNameNode

C.DataNode

D.TaskTracker〔HadoopMapReduce1.0的组件〕

★〔5〕关于Block和Split两个概念，下面说法错误的选项是〔C〕

A.Block是HDFS^最小的数据存储单位

B.Split是MapReduce中最小的计算单元

C.Block是Split是一一对应关系〔默认是一一对应的〕

D.Block和Split之间对应关系是任意的，可由用户控制

〔6〕以下不属于Hadoop内核的组成局部的是〔C〕。

A.HDFS

B.MapReduce

C.HBase

D.YARN

（7）不属于HBase中的术语的是（D）。

A.Column

B.ColumnFamily

C.RowKey

D.Meta

（8）下面关于Hive，说法错误的选项是（A）。

A.Hive支持所有标准SQL语法

Tez等〕

Zookeeper实例个数不可

Hive底层采用的计算引擎是MapReduce（目前支持Spark、

C.Hive提供的HQL语法，与传统SQL很类似

D.HiveServer可采用MySQL#储元数据信息

（9）通常而言，一个标准的生产环境（考虑本钱、效益等）中，

能是（B）。

A.3

B.4

C.5

D.7

10〕Flume的主要作用是〔C〕

A.数据处理和分析

B.数据存储

C.数据收集

D.网络爬虫

〔11〕HBase支持多语言〔比方C++、Python等〕访问，为实现该功能，它采用的开源软件是〔C〕。

A.protobuf

B.自定义网络协议

C.thrift

D.avro

〔12〕关于HDF番口HBase说法错误的选项是〔D〕。

A.HDFS不能随机读写，HBase可以

B.HDFS适合存储大文件，HBase可以存储小文件

C.HBase底层采用了HDFS

D.HDFS和HBase无直接关系

（13）YARF和MapReduct勺关系是（A）。

A.MapReduce是一个计算框架，可运行在YARN之上

B.YARN是一个计算框架，可运行在MapReduce之上

C.MapReduce和YARNS直接关系

D.以上答复均不正确

★★★〔14〕关于MapReduce^的数据本地性，下面方法正确的选项是〔AB〕。

A.MapTask和ReduceTask都会考虑数据本地性

B.只有MapTask会考虑数据本地性〔Reduce阶段是从Map阶段拉取Shuffle数据的〕

C.只有ReduceTask会考虑数据本地性

D.MapTask和ReduceTask都不考虑数据本地性

〔15〕与Hive相比，Presto主要优势是〔C〕。

A.利用MapReduce进行分布式计算，更加高效

B•完全分布式计算，可以充分利用集群资源

C.MPP架构，全内存计算

D.有很强的容错性

〔16〕下面哪种存储格式是Hive中常用的列式存储格式〔D〕

A.TextFile

B.SequeneeFile

C.Parquet

D.ORC

★〔17〕下面哪个信息不会存储在HBase的一个cell〔EC〕。

A.rowkey

B.columnfamily名称

C.表名

D.列名

E.版本号

F.cell值

数据存储冗余，非常消耗空间

maptask

〔18〕默认情况下，一个MapReduce作业〔处理的数据HDFS上的一个目录〕

个数是由〔B〕决定的。

A.目录中文件个数

B.目录对应的block数目

C.默认个数是1

D.用户自己指定

HDFSBlock默认大小为128MB

一个Block文件只能来自于一个文件。

查看一个文件有多少个Block的命令：

hdfsfsck/input-files-blocks-locations

〔19〕Hive和Presto支持标准SQL吗？

〔BD〕

A.都支持

B.都不支持

C.Hive支持，Presto不支持

D.Hive不支持，Presto支持

〔20〕既然有了Hive，还需要用MapReduce编写程序处理数据吗？

〔B〕

A.不需要

-需要

2•多项选择题〔每个4分，共20分〕

〔1〕关于HDFS说法正确的选项是〔ABC〕

A.不存在NameNod单点故障问题

B.—个集群可存在多个NameNod对外提供效劳

C.HDFSH/和Federation是它的两大特色

D.不能存储小文件

〔2〕关于Kafka，说法正确的选项是〔BCD〕

A.是一个分布式key/value存储系统

B.由producer、broker和consumer等角色构成

C.通过zookeeper进行效劳协调

D.消息可以存成多个副本以到达容错的目标

〔3〕关于MapReduce说法正确的选项是〔ACD〕

A.MapReduce具有容错性，一台节点挂掉不会导致整个应用程序运行失败

B.所有MapReduct序公用一个ApplicationMaster

C.MapReduces序可以运行在YARN之上〔也可以运行在本地〕

D.MapReduce是Hive默认的计算引擎

〔4〕用户可使用哪几种语言开发MapReduce应用程序〔ABCD〕

A.C++

B.Java

C.PHP

D.Go

〔5〕下面哪几个属于YARN自带的资源调度器〔BCD〕

A．DeadlineScheduler

B．FIFO〔先进先出〕

C．CapacityScheduler〔容错调度系统〕

D．FairScheduler〔公平调度系统〕

3．简答题〔每个5分，共10分〕

1，步骤

〔1〕描述MapReduce乍业从提交到YARN上，到运行结束的整个过程，请用步骤

2,…，描述。

答：

步骤1，客户端提交请求到Yarn的ResourceManager

步骤2,RM确定一个AppMaster

步骤3,AppMaster向RM申请NodeManager

步骤4,AppMaster将Task发送给NodeManage仅限执行

步骤5,AppMaster负责收集NodeManage的运行结果

步骤6，AppMaster将结果返回给客户端〔2〕★试描述如何对HadoopStreaming程序进行调试？

并举出一个例子答：

？

单机运行，本地测试：

1.txt：

cat，管道输入

Mapper，sort

〔3〕试写出以下操作的shell命令：

1〕在HDFSt创立目录/home/test

答：

hdfsdfs-mkdir/home

hdfsdfs-mkdir/home/test

或

hdfsdfs-mkdir-p/home/test

2〕将正在运行的ID为的应用程序杀死

答：

3〕查看HDFSt文件/home/test/1.txt的大小

答：

hdfsdfs-ls/home/test/1.txt

4〕在Hive中创立一个parquet表，采用gzip压缩格式，该表名为test，包含两

列：

int类型名为id的列和string类型名为namename勺列。

如何在Presto中

创立这个表，有何不同？

答：

createtableifnotexiststest〔

idint,

namenamestring

〕

gzip

storedasparquet;

4．编程题〔40分〕

〔1〕有一批文件，格式如下：

每行有4列，每一列均是一个整数，列之间采用“.〞作为分隔符，将数据按照第二列和第三列分组，每组中第四列所有数之和。

注：

如果第二列相同，那么按照第三列分组，比方上述结果为：

12.13

14.25

11.41

结果中，key为“第二列和第三列〞值，value是对应的第四列累加和，key和value之间使用\t分割。

要求：

使用任意语言实现以上功能，写出Mapper和Reducer，并给出相应的作业提交命令（或脚

本）。

答：

（根据WordCount实例进行改造）

Mapper:

String[]values=value.toString（）.split（“.〞）;

TextoutputKey=newText（values[1]+'.'+values[2]）;

IntWritableoutputValue=newIntWritable（Integer.parsetInt（values[3]））;

Context.write（outputKey,outputValue）;

Reducer:

无需调整

（2）编写MapReduces序实现以下功能：

1）在Kafka上创立topic，名为“aura〞，包含5个partition2〕编写producer，将1~100000依次写入该topic，每个数字作为一条消息写入

3〕用Java语言实现一个consumer,读取aura中的数据，并写入到HDFS的/data/aura目

录下

4〕如何使用MapReduc〔实现3〕中的功能？

展开阅读全文