华为数据中台运维题库444道Word下载.docx

资源描述

华为数据中台运维题库444道Word下载.docx

《华为数据中台运维题库444道Word下载.docx》由会员分享，可在线阅读，更多相关《华为数据中台运维题库444道Word下载.docx（108页珍藏版）》请在冰豆网上搜索。

华为数据中台运维题库444道Word下载.docx

Bbinary-file

Ctext-file

Dsequence-file

7、关于Kafka磁盘容量不足的告警，对于可能的原因以下分析不正确的是:

A业务规划不合理，导致数据分配不均，使部分磁盘达到使用率上限

BBroker节点故障导致

C数据保存时间配置过长，数据累计达到磁盘使用率达到上限

D用于存储Kafka数据的磁盘配置，无法满足当前业务数据流量，导致磁盘使用率达到上限

8、HDFS中的主备仲裁，是由:

（　　）组件控制的。

AZookeeperFailoverController

BNodeManager

CResourceManager

DHDFSClient

9、以下关于Zookeeper的Leader节点在接收到数据变更请求后的读写流程说法正确的是:

A仅写入内存

B同时写入硬盘和内存

C先写入内存再写入硬盘

D先写入硬盘再写入内存

10、Flink中的（　　）接口属于流数据处理，（　　）接口用于批处理。

ADataBatchAPI，DataStreamAPI

BStreamAPI，BatchAPI

CDataStreamAPI，DataSetAPI

DBatchAPI，StreamAPI

11、以下关于HiveSQL基本操作描述正确的是:

A加载数据到Hive时数据必须是HDFS的一个路径

B创建外部表必须要指定location信息

C创建外部表使用external关键字，创建普通表需要指定internal关键字

D创建表时可以指定列分隔符

12、如果需要由数据生产者决定数据发送给目标Blot的某一个确定的Task，应该选择以下（　　）消息发布策略。

A局部字段分组

B广播分组

C直接分组

D全局分组

13、为保证流应用的快照存储的可靠性，快照主要存储在:

A本地文件系统中

BJobManager的内存中

CHDFS中

D可靠性高的单击数据库中

14、下列（　　）不属于创建Loader作业时必须项。

A优先级

B名称

C连接

D类型

15、以下关于Zookeeper关键特性中的原子性说法正确的是:

A客户端发送的更新会按照他们发送的顺序进行应用

B鞥新只能全部完成或失败，不会部分完成

C一条消息被一个server接受，将会被所有的server接受

D集群中无论那台服务器，对外展示的均是统一视图

16、查看Kafka某Topic的partition详细信息时，使用如下（　　）命令。

Abin/kafka-topic.sh--create

Bbin/kafka-topic.sh--delete

Cbin/kafka-topic.sh--list

Dbin/kafka-topic.sh--describe

17、以下关于Kafka的描述错误的是:

A使用java、scala语言实现

B用作活动流和运营数据处理管道的基础

C由ApacheHadoop开发，并于2011年开源

D具有消息持久化、高吞吐、实时等特性

18、在很多小文件场景下，Spark会起很多Task，当SQL逻辑中存在shuffle操作时，会大大增加hash分桶数，严重影响性能，FusionInsight中，针对小文件的场景通常采用（　　）算子来对Table中的小文件生成的Partition进行合并，减少partition数，从而避免在shuffle的时候，生成过多的hash分桶，提升形成。

Agroupby

Bcoalosce

Cconnect

Djoin

19、FusionInsightHD中Hbase默认使用（　　）组件作为其底层文件存储系统。

AFile

BKafka

CHDFS

DMemory

20、以下关于Kafka消息消费者Consumer读取消息描述错误的是:

Aconsumer使用offset来记录读取位置

BKafka的一个Topic可以理解为一个队列，即一个消息

C生产者产生的消息逐条放到Topic尾部

D消费者从右至左读取消息

21、FusionInsightHD系统中，下面（　　）方法不能查看到Loader作业的执行结果。

A通过LoaderUI界面查看

B通过YARN任务管理查看

C通过NodeManager查看

D通过Manager的告警查看

22、部署FusionInsightHD时，同一集群内的FlumeServer节点建议至少部署（　　）个。

23、YARN中默认的资源调度器是:

AFIFO调度器

B容量调度器

CFair调度器

D以上全部是

24、下列选项中，关于Zookeeper可靠性含义说法正确的是:

A可靠性通过主备部署模式实现

B可靠性是指更新只能成功或者失败，没有中间状态

C可靠性是指无论哪一个server，对外展示的均是同一个视图

D可靠性是指一个消息被一个server接受，它将被所有的server接受

25、在FusionInsight产品中，关于创建Kafka的Topic，以下描述正确的是:

A在创建Kafka的Topic时，必须设置Partition

B在创建Kafka的Topic时，必须设置Partition副本数

C设置多副本可以增强Kafka服务的容灾能力

26、对于Hive中关于普通标和外部表描述不正确的是:

A默认创建普通表

B删除外部表时，只删除外部表数据而不删除元数据

C外部表实质上是将已存在的HDFS文件路径与表关联起来

D删除普通表时，元数据和数据同时被删除

27、YARN的基于标准调度，是对下列选项中的（　　）进行标签化。

AAppMaster

BResourceManager

CNodeManager

DContainer

28、关于Hive与传统数据仓库的对比，下列描述错误的是:

AHive元数据存储独立于数据存储之外，从而解耦合元数据和数据，灵活性高，二传统数据仓库数据应用单一，灵活性低

BHive基于HDFS存储，理论上存储可以无限扩容，而传统数据仓库存储量有上限

C由于Hive的数据存储在HDFS上，所以可以保证数据的高容错，高可靠

D由于Hive基于大数据平台，所以查询效率比传统数据仓库快

29、Hbase元数据MetaRegion路由器信息存放在（　　）。

AZookeeper

BMeta表

CHMaster

DRoot表

30、下列（　　）命令是删除文件。

Adfs-clear

Bdfs-ls

Cdfs-rm

Ddfs-del

31、传统处理数据的数据规模的单位是:

ATB

BEB

CPB

DGB

32、FusionInsightHD系统中，Flume数据流在节点内不需要（　　）组件。

ASource

BSink

CTopic

DChannel

33、Flume用于收集数据，其传输的数据基本单位是（　　）。

ASplit

BBlock

CEvent

DPacket

34、在FusionInsightHD中，创建Loader作业的进行数据转换正确步骤是（　　）。

A设置输入-转换-输出

B抽取-转换-输出

C加载-转换-输出

D加载-转换-抽取

35、在Flink的运行过程中，负责申请资源的角色是:

AResourceManager

BJobManager

CClient

DTaskManager

36、关于Hive建表基本操作，描述正确的是:

A一旦表建好，不可再修改表名

B一旦表建好，不可再增加新列

C创建外表时需要指定external关键字

D一旦表建好，不可再修改列名

37、Hadoop框架是用下面（　　）语言写的。

APytyon

BJava

CC++

DScala

38、Hive常被用来处理（　　）场景。

A事务性处理

B批量计算

C实时性计算

D流计算

39、大数据最显著的特征是:

A数据规模大

B数据类型多样

C数据处理速度快

D数据价值密度高

40、使用Hbase客户端批量写入10条数据，某个HRegionServer节点上包含两个Region，分别是A和B，10条数据中有6条属于A，4条属于B，请问写入这10条数据需要向HRegionServer发送（　　）次RPC请求。

A10

41、关于DataSet，下列说法不正确的是:

ADataSet不需要反序列化就可以执行大部分操作

BDataSet是一个由特定域的对象组成的强类型集合

CDataSet与RDD高度类似，性能比RDD好

DDataSet执行sort，filter，shuffle登录需要进行反序列化

42、Kafka集群中，Kafka服务端的角色是:

ABroker

BConsumer

CZookeeper

DProducer

43、创建Loader作业时，可以在以下（　　）步骤中设置Map数。

A输出

B输入设置

C转换

D基本信息

44、Hive中的这条命令“ALTERTABLEEMPLOYEELADDCOLUMNS（columnsstring）”,是:

（　　）含义。

A创建表

B删除表

C添加列

D修改文件格式

45、下列（　　）选项属于Hive的数据存储模型。

A桶

B数据库

C分区

D以上全都正确

46、YARN中设置队列QueueA的最大使用资源量，需要配置（　　）参数。

Ayarn.scheduler.capacity.root.QueueA.minimum-user-limit-percent

Byarn.scheduler.capacity.root.QueueA.maximum-capacity

Cyarn.scheduler.capacity.root.QueueA.minimum-user-limit-factor

Dyarn.scheduler.capacity.root.QueueA.state

47、以下关于FusionInsightCTBase的描述不正确的是:

ACTBase的读写接口，统一封装了行定义的接口，自动进行冷字段的合并和解析，不需要在应用程序中进行合并和解析

BCTBase是基于Hbase的聚簇表开发框架

CCTBase提供了一套WebUI进行元数据定义，提供了只管医用的表设计工具，降低表设计的难度

DCTBase的javaAPI提供了一套Hbase连接池管理的接口，内部连接共享，减少客户端应用开发的难度

48、Flume数据采集过程中，下列选项中能对数据进行过滤和修饰的是:

ASink

BChannel

CChannelSelector

DInterceptor

49、关于HIVE的描述不正确的是:

AHive最佳使用场景是大数据集的批处理作业

BHive可以实现在大规模集群上实现低延迟快速查询

CHive构建在基于静态批量处理的Hadoop之上，Hadoop通常有较高的延迟并且在提交作业和调度的时候需要大量的开销

DHive查询操作过程严格遵循HadoopMapReduce的作用执行模型，Hive将用户的HiveSQL语句通过解释器转换为MapReduceHadoop集群上

50、硬件故障被认为是常态，为了解决这个问题，HDFS设计了副本机制，默认情况下，一份文件，HDFS会存放（　　）份。

51、Hbase的底层以（　　）形式存在。

Akeyvalue

B列存储

C行存储

D实时存储

52、华为FusionInsightHD是国内首家符合国家金融等级保护的大数据平台，其安全性体现在以下（　　）方面。

A系统安全

B权限认证

C数据安全

53、在Flink框架中，下列（　　）是流处理和批处理的计算引擎。

Astandalone

BRuntime

CFlinkCore

DDataStream

54、在WebHCat架构中，用户能够通过安全的HTTPS协议执行以下（　　）操作。

A执行HiveDDL操作

B运行MapReduce任务

C运行HiveSQL任务

55、关于FusionInsightmanager界面Hive日志收集的描述中不正确的是:

A可以指定实例进行日志收集

B可以指定节点IP进行收集

C可以指定用户进行日志收集

D可以指定时间段进行日志收集

56、Kafka集群在运行期间，直接依赖于下列（　　）组件。

Aspark

Bzookeeper

Chdfs

Dhbase

57、Hbase的某张表的RowKey划分Splitkey为9.E.a.z.请问表里面有（　　）个Region。

58、YARN调度器分配资源的顺序是:

A任意机器--本地资源--同机架

B任意机器--同机架--本地资源

C本地资源--同机架--任意机器

D同机架--任意机器--本地资源

59、FusionInsightManager用户权限管理不支持（　　）配置。

A给用户配置角色

B给用户组配置角色

C给角色配置权限

D给用户组配置权限

60、当zookeeper集群节点数为5时，请问集群的容灾能力和（　　）节点时等价的。

D以上全不正确

61、在HBase写数据的业务逻辑实现过程中，如下（　　）接口或类是不需要涉及的。

APut

BHTable

CHBaseAdmin

DPutList

62、在MapReduce的应用程序开发中，下列（　　）JAVA类负责管理和运行一个计算任务。

Alob

BContext

CFileSystem

DConfiguration

63、HDFS客户端所在节点的系统时间与FusioninsightHD集群的系统时间要保持一致，若有时间差,那么时间差应小于（　　）分钟。

B10

C20

D30

64、关于Streaming的拓扑（Topology）,下面描述错误的是:

A一个Topology是由一组Spout组件和Bolt组件通过StreamGroupings进行连接的有向无环图

（DAG）

Topology会一直运行,直到它被显式kill

C业务逻辑都被封装Topology中

D一个Topology只可以指定启动一个Worker进程

65、对于运行在MapReduce平台上的应用程序，此应用程序所依赖的jar包会被放到（　　）。

AHIVE

BHBASE

DDB

66、FusionlnsihtHD中，Oozie客户端的JAVAAPI在运行任务时会调用OozieClient类的（　　）方法。

Asuspend

BgetJobInfo

Csubmit

Drun

67、将数据块存储大小设置为128M,HDFS客户端在写文件时，当写入一个100M大小的文件，实际占用储存空间为:

A128M

B100M

C64M

D50M

68、当一个MapReduce应用程序被执行时，如下（　　）动作是map阶段之前发生的。

Asplit

Bcombine

Cpartition

Dsort

69、在FusioninsightHD的客户端，执行kinit｛账号｝命令是为了得到KDC的（　　）内容。

AKrb5.conf

BTGT

CST

Djaas.conf

70、HDFS集群跟目录下存在一个文件text.txt,下列（　　）命令可以查到此文件所存储的DatNode节点信息。

Ahdfsfsck/test.txt-files

Bhdfsfsck/text.txt-locations

Chdfsfsck/test.txt-blocks

Dhdfsfsck/test.txt-list-corruptfileblocks

71、在FusioninsightHD中，可以在（　　）查看MapReduce应用程序的运行结果。

AFusioninsightManager的web界面

BLoaderWeb界面

CSolrweb界面

DYamWeb界面

72、MapReduce任务最终是在下列（　　）中被执行的。

ANodeManager

Bcontainer

DAppMaster

73、Yam中（　　）角色是管理单个节点资源（CPU/Memory）的。

BResourceManager

CDataNode

DNameNode

74、下来（　　）Redis命令属于原子操作。

AINCR（将储存的数字值增一）

BHINCRBY（为哈希表key中的域field的值加上增量increment）

CLPUSH（对链表的push操作）

D以上都是

75、在Spark中，假设lines是一个DStream对象，filter语句可以过滤掉80%的数据，针对以下两个语句说法正确的是：

lines.filter（...）.groupByKey（...）

lines.groupByKey（...）.filter（...）

展开阅读全文