Hadoop期中考试测试.docx

上传人:b****6 文档编号:9048556 上传时间:2023-02-02 格式:DOCX 页数:9 大小:18.54KB
下载 相关 举报
Hadoop期中考试测试.docx_第1页
第1页 / 共9页
Hadoop期中考试测试.docx_第2页
第2页 / 共9页
Hadoop期中考试测试.docx_第3页
第3页 / 共9页
Hadoop期中考试测试.docx_第4页
第4页 / 共9页
Hadoop期中考试测试.docx_第5页
第5页 / 共9页
点击查看更多>>
下载资源
资源描述

Hadoop期中考试测试.docx

《Hadoop期中考试测试.docx》由会员分享,可在线阅读,更多相关《Hadoop期中考试测试.docx(9页珍藏版)》请在冰豆网上搜索。

Hadoop期中考试测试.docx

Hadoop期中考试测试

Hadoop期中考试

1.单项选择题〔每个1.5分,共20分〕

〔1〕Mapreduce擅长哪个领域的计算〔A〕。

A.离线批处理

B.DAG计算

C.流式计算

D.实时计算

〔2〕关于MapReduce®理,下面说法错误的选项是〔D〕。

A.分为Map和Reduce两个阶段

B.Map阶段由一系列Map任务组成

C.Reduce阶段由一系列Reduce任务组成

D.Map阶段与Reduce阶段没有任何依赖关系

〔3〕HDFS默认副本数是〔C〕。

A.1

B.2

C.3

D.4

〔4〕不属于HDFS^构组成局部是〔D〕。

A.NameNode

B.SecondaryNameNode

C.DataNode

D.TaskTracker〔HadoopMapReduce1.0的组件〕

★〔5〕关于Block和Split两个概念,下面说法错误的选项是〔C〕

A.Block是HDFS^最小的数据存储单位

B.Split是MapReduce中最小的计算单元

C.Block是Split是一一对应关系〔默认是一一对应的〕

D.Block和Split之间对应关系是任意的,可由用户控制

〔6〕以下不属于Hadoop内核的组成局部的是〔C〕。

A.HDFS

B.MapReduce

C.HBase

D.YARN

(7)不属于HBase中的术语的是(D)。

A.Column

B.ColumnFamily

C.RowKey

D.Meta

(8)下面关于Hive,说法错误的选项是(A)。

A.Hive支持所有标准SQL语法

B.

Tez等〕

Zookeeper实例个数不可

Hive底层采用的计算引擎是MapReduce(目前支持Spark、

C.Hive提供的HQL语法,与传统SQL很类似

D.HiveServer可采用MySQL#储元数据信息

(9)通常而言,一个标准的生产环境(考虑本钱、效益等)中,

能是(B)。

A.3

B.4

C.5

D.7

10〕Flume的主要作用是〔C〕

A.数据处理和分析

B.数据存储

C.数据收集

D.网络爬虫

〔11〕HBase支持多语言〔比方C++、Python等〕访问,为实现该功能,它采用的开源软件是〔C〕。

A.protobuf

B.自定义网络协议

C.thrift

D.avro

〔12〕关于HDF番口HBase说法错误的选项是〔D〕。

A.HDFS不能随机读写,HBase可以

B.HDFS适合存储大文件,HBase可以存储小文件

C.HBase底层采用了HDFS

D.HDFS和HBase无直接关系

(13)YARF和MapReduct勺关系是(A)。

A.MapReduce是一个计算框架,可运行在YARN之上

B.YARN是一个计算框架,可运行在MapReduce之上

C.MapReduce和YARNS直接关系

D.以上答复均不正确

★★★〔14〕关于MapReduce^的数据本地性,下面方法正确的选项是〔AB〕。

A.MapTask和ReduceTask都会考虑数据本地性

B.只有MapTask会考虑数据本地性〔Reduce阶段是从Map阶段拉取Shuffle数据的〕

C.只有ReduceTask会考虑数据本地性

D.MapTask和ReduceTask都不考虑数据本地性

〔15〕与Hive相比,Presto主要优势是〔C〕。

A.利用MapReduce进行分布式计算,更加高效

B•完全分布式计算,可以充分利用集群资源

C.MPP架构,全内存计算

D.有很强的容错性

〔16〕下面哪种存储格式是Hive中常用的列式存储格式〔D〕

A.TextFile

B.SequeneeFile

C.Parquet

D.ORC

★〔17〕下面哪个信息不会存储在HBase的一个cell〔EC〕。

A.rowkey

B.columnfamily名称

C.表名

D.列名

E.版本号

F.cell值

数据存储冗余,非常消耗空间

maptask

〔18〕默认情况下,一个MapReduce作业〔处理的数据HDFS上的一个目录〕

个数是由〔B〕决定的。

A.目录中文件个数

B.目录对应的block数目

C.默认个数是1

D.用户自己指定

HDFSBlock默认大小为128MB

一个Block文件只能来自于一个文件。

查看一个文件有多少个Block的命令:

hdfsfsck/input-files-blocks-locations

〔19〕Hive和Presto支持标准SQL吗?

〔BD〕

A.都支持

B.都不支持

C.Hive支持,Presto不支持

D.Hive不支持,Presto支持

〔20〕既然有了Hive,还需要用MapReduce编写程序处理数据吗?

〔B〕

A.不需要

B

g

-需要

2•多项选择题〔每个4分,共20分〕

〔1〕关于HDFS说法正确的选项是〔ABC〕

A.不存在NameNod单点故障问题

B.—个集群可存在多个NameNod对外提供效劳

C.HDFSH/和Federation是它的两大特色

D.不能存储小文件

〔2〕关于Kafka,说法正确的选项是〔BCD〕

A.是一个分布式key/value存储系统

B.由producer、broker和consumer等角色构成

C.通过zookeeper进行效劳协调

D.消息可以存成多个副本以到达容错的目标

〔3〕关于MapReduce说法正确的选项是〔ACD〕

A.MapReduce具有容错性,一台节点挂掉不会导致整个应用程序运行失败

B.所有MapReduct序公用一个ApplicationMaster

C.MapReduces序可以运行在YARN之上〔也可以运行在本地〕

D.MapReduce是Hive默认的计算引擎

〔4〕用户可使用哪几种语言开发MapReduce应用程序〔ABCD〕

A.C++

B.Java

C.PHP

D.Go

〔5〕下面哪几个属于YARN自带的资源调度器〔BCD〕

A.DeadlineScheduler

B.FIFO〔先进先出〕

C.CapacityScheduler〔容错调度系统〕

D.FairScheduler〔公平调度系统〕

3.简答题〔每个5分,共10分〕

1,步骤

〔1〕描述MapReduce乍业从提交到YARN上,到运行结束的整个过程,请用步骤

2,…,描述。

答:

步骤1,客户端提交请求到Yarn的ResourceManager

步骤2,RM确定一个AppMaster

步骤3,AppMaster向RM申请NodeManager

步骤4,AppMaster将Task发送给NodeManage仅限执行

步骤5,AppMaster负责收集NodeManage的运行结果

步骤6,AppMaster将结果返回给客户端〔2〕★试描述如何对HadoopStreaming程序进行调试?

并举出一个例子答:

单机运行,本地测试:

1.txt:

cat,管道输入

Mapper,sort

〔3〕试写出以下操作的shell命令:

1〕在HDFSt创立目录/home/test

答:

hdfsdfs-mkdir/home

hdfsdfs-mkdir/home/test

hdfsdfs-mkdir-p/home/test

2〕将正在运行的ID为的应用程序杀死

答:

3〕查看HDFSt文件/home/test/1.txt的大小

答:

hdfsdfs-ls/home/test/1.txt

4〕在Hive中创立一个parquet表,采用gzip压缩格式,该表名为test,包含两

列:

int类型名为id的列和string类型名为namename勺列。

如何在Presto中

创立这个表,有何不同?

答:

createtableifnotexiststest〔

idint,

namenamestring

gzip

storedasparquet;

4.编程题〔40分〕

〔1〕有一批文件,格式如下:

每行有4列,每一列均是一个整数,列之间采用“.〞作为分隔符,将数据按照第二列和第三列分组,每组中第四列所有数之和。

注:

如果第二列相同,那么按照第三列分组,比方上述结果为:

12.13

14.25

11.41

结果中,key为“第二列和第三列〞值,value是对应的第四列累加和,key和value之间使用\t分割。

要求:

使用任意语言实现以上功能,写出Mapper和Reducer,并给出相应的作业提交命令(或脚

本)。

答:

(根据WordCount实例进行改造)

Mapper:

String[]values=value.toString().split(“.〞);

TextoutputKey=newText(values[1]+'.'+values[2]);

IntWritableoutputValue=newIntWritable(Integer.parsetInt(values[3]));

Context.write(outputKey,outputValue);

Reducer:

无需调整

(2)编写MapReduces序实现以下功能:

1)在Kafka上创立topic,名为“aura〞,包含5个partition2〕编写producer,将1~100000依次写入该topic,每个数字作为一条消息写入

3〕用Java语言实现一个consumer,读取aura中的数据,并写入到HDFS的/data/aura目

录下

4〕如何使用MapReduc〔实现3〕中的功能?

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 医学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1