华为数据中台运维题库444道Word下载.docx
《华为数据中台运维题库444道Word下载.docx》由会员分享,可在线阅读,更多相关《华为数据中台运维题库444道Word下载.docx(108页珍藏版)》请在冰豆网上搜索。
Bbinary-file
Ctext-file
Dsequence-file
B
7、关于Kafka磁盘容量不足的告警,对于可能的原因以下分析不正确的是:
A业务规划不合理,导致数据分配不均,使部分磁盘达到使用率上限
BBroker节点故障导致
C数据保存时间配置过长,数据累计达到磁盘使用率达到上限
D用于存储Kafka数据的磁盘配置,无法满足当前业务数据流量,导致磁盘使用率达到上限
8、HDFS中的主备仲裁,是由:
( )组件控制的。
AZookeeperFailoverController
BNodeManager
CResourceManager
DHDFSClient
9、以下关于Zookeeper的Leader节点在接收到数据变更请求后的读写流程说法正确的是:
A仅写入内存
B同时写入硬盘和内存
C先写入内存再写入硬盘
D先写入硬盘再写入内存
10、Flink中的( )接口属于流数据处理,( )接口用于批处理。
ADataBatchAPI,DataStreamAPI
BStreamAPI,BatchAPI
CDataStreamAPI,DataSetAPI
DBatchAPI,StreamAPI
11、以下关于HiveSQL基本操作描述正确的是:
A加载数据到Hive时数据必须是HDFS的一个路径
B创建外部表必须要指定location信息
C创建外部表使用external关键字,创建普通表需要指定internal关键字
D创建表时可以指定列分隔符
12、如果需要由数据生产者决定数据发送给目标Blot的某一个确定的Task,应该选择以下( )消息发布策略。
A局部字段分组
B广播分组
C直接分组
D全局分组
13、为保证流应用的快照存储的可靠性,快照主要存储在:
A本地文件系统中
BJobManager的内存中
CHDFS中
D可靠性高的单击数据库中
14、下列( )不属于创建Loader作业时必须项。
A优先级
B名称
C连接
D类型
15、以下关于Zookeeper关键特性中的原子性说法正确的是:
A客户端发送的更新会按照他们发送的顺序进行应用
B鞥新只能全部完成或失败,不会部分完成
C一条消息被一个server接受,将会被所有的server接受
D集群中无论那台服务器,对外展示的均是统一视图
16、查看Kafka某Topic的partition详细信息时,使用如下( )命令。
Abin/kafka-topic.sh--create
Bbin/kafka-topic.sh--delete
Cbin/kafka-topic.sh--list
Dbin/kafka-topic.sh--describe
17、以下关于Kafka的描述错误的是:
A使用java、scala语言实现
B用作活动流和运营数据处理管道的基础
C由ApacheHadoop开发,并于2011年开源
D具有消息持久化、高吞吐、实时等特性
18、在很多小文件场景下,Spark会起很多Task,当SQL逻辑中存在shuffle操作时,会大大增加hash分桶数,严重影响性能,FusionInsight中,针对小文件的场景通常采用( )算子来对Table中的小文件生成的Partition进行合并,减少partition数,从而避免在shuffle的时候,生成过多的hash分桶,提升形成。
Agroupby
Bcoalosce
Cconnect
Djoin
19、FusionInsightHD中Hbase默认使用( )组件作为其底层文件存储系统。
AFile
BKafka
CHDFS
DMemory
20、以下关于Kafka消息消费者Consumer读取消息描述错误的是:
Aconsumer使用offset来记录读取位置
BKafka的一个Topic可以理解为一个队列,即一个消息
C生产者产生的消息逐条放到Topic尾部
D消费者从右至左读取消息
21、FusionInsightHD系统中,下面( )方法不能查看到Loader作业的执行结果。
A通过LoaderUI界面查看
B通过YARN任务管理查看
C通过NodeManager查看
D通过Manager的告警查看
22、部署FusionInsightHD时,同一集群内的FlumeServer节点建议至少部署( )个。
A1
B3
C4
D2
23、YARN中默认的资源调度器是:
AFIFO调度器
B容量调度器
CFair调度器
D以上全部是
24、下列选项中,关于Zookeeper可靠性含义说法正确的是:
A可靠性通过主备部署模式实现
B可靠性是指更新只能成功或者失败,没有中间状态
C可靠性是指无论哪一个server,对外展示的均是同一个视图
D可靠性是指一个消息被一个server接受,它将被所有的server接受
25、在FusionInsight产品中,关于创建Kafka的Topic,以下描述正确的是:
A在创建Kafka的Topic时,必须设置Partition
B在创建Kafka的Topic时,必须设置Partition副本数
C设置多副本可以增强Kafka服务的容灾能力
26、对于Hive中关于普通标和外部表描述不正确的是:
A默认创建普通表
B删除外部表时,只删除外部表数据而不删除元数据
C外部表实质上是将已存在的HDFS文件路径与表关联起来
D删除普通表时,元数据和数据同时被删除
27、YARN的基于标准调度,是对下列选项中的( )进行标签化。
AAppMaster
BResourceManager
CNodeManager
DContainer
28、关于Hive与传统数据仓库的对比,下列描述错误的是:
AHive元数据存储独立于数据存储之外,从而解耦合元数据和数据,灵活性高,二传统数据仓库数据应用单一,灵活性低
BHive基于HDFS存储,理论上存储可以无限扩容,而传统数据仓库存储量有上限
C由于Hive的数据存储在HDFS上,所以可以保证数据的高容错,高可靠
D由于Hive基于大数据平台,所以查询效率比传统数据仓库快
29、Hbase元数据MetaRegion路由器信息存放在( )。
AZookeeper
BMeta表
CHMaster
DRoot表
30、下列( )命令是删除文件。
Adfs-clear
Bdfs-ls
Cdfs-rm
Ddfs-del
31、传统处理数据的数据规模的单位是:
ATB
BEB
CPB
DGB
32、FusionInsightHD系统中,Flume数据流在节点内不需要( )组件。
ASource
BSink
CTopic
DChannel
33、Flume用于收集数据,其传输的数据基本单位是( )。
ASplit
BBlock
CEvent
DPacket
34、在FusionInsightHD中,创建Loader作业的进行数据转换正确步骤是( )。
A设置输入-转换-输出
B抽取-转换-输出
C加载-转换-输出
D加载-转换-抽取
35、在Flink的运行过程中,负责申请资源的角色是:
AResourceManager
BJobManager
CClient
DTaskManager
36、关于Hive建表基本操作,描述正确的是:
A一旦表建好,不可再修改表名
B一旦表建好,不可再增加新列
C创建外表时需要指定external关键字
D一旦表建好,不可再修改列名
37、Hadoop框架是用下面( )语言写的。
APytyon
BJava
CC++
DScala
38、Hive常被用来处理( )场景。
A事务性处理
B批量计算
C实时性计算
D流计算
39、大数据最显著的特征是:
A数据规模大
B数据类型多样
C数据处理速度快
D数据价值密度高
40、使用Hbase客户端批量写入10条数据,某个HRegionServer节点上包含两个Region,分别是A和B,10条数据中有6条属于A,4条属于B,请问写入这10条数据需要向HRegionServer发送( )次RPC请求。
A10
B6
C2
D1
41、关于DataSet,下列说法不正确的是:
ADataSet不需要反序列化就可以执行大部分操作
BDataSet是一个由特定域的对象组成的强类型集合
CDataSet与RDD高度类似,性能比RDD好
DDataSet执行sort,filter,shuffle登录需要进行反序列化
42、Kafka集群中,Kafka服务端的角色是:
ABroker
BConsumer
CZookeeper
DProducer
43、创建Loader作业时,可以在以下( )步骤中设置Map数。
A输出
B输入设置
C转换
D基本信息
44、Hive中的这条命令“ALTERTABLEEMPLOYEELADDCOLUMNS(columnsstring)”,是:
( )含义。
A创建表
B删除表
C添加列
D修改文件格式
45、下列( )选项属于Hive的数据存储模型。
A桶
B数据库
C分区
D以上全都正确
46、YARN中设置队列QueueA的最大使用资源量,需要配置( )参数。
Ayarn.scheduler.capacity.root.QueueA.minimum-user-limit-percent
Byarn.scheduler.capacity.root.QueueA.maximum-capacity
Cyarn.scheduler.capacity.root.QueueA.minimum-user-limit-factor
Dyarn.scheduler.capacity.root.QueueA.state
47、以下关于FusionInsightCTBase的描述不正确的是:
ACTBase的读写接口,统一封装了行定义的接口,自动进行冷字段的合并和解析,不需要在应用程序中进行合并和解析
BCTBase是基于Hbase的聚簇表开发框架
CCTBase提供了一套WebUI进行元数据定义,提供了只管医用的表设计工具,降低表设计的难度
DCTBase的javaAPI提供了一套Hbase连接池管理的接口,内部连接共享,减少客户端应用开发的难度
48、Flume数据采集过程中,下列选项中能对数据进行过滤和修饰的是:
ASink
BChannel
CChannelSelector
DInterceptor
49、关于HIVE的描述不正确的是:
AHive最佳使用场景是大数据集的批处理作业
BHive可以实现在大规模集群上实现低延迟快速查询
CHive构建在基于静态批量处理的Hadoop之上,Hadoop通常有较高的延迟并且在提交作业和调度的时候需要大量的开销
DHive查询操作过程严格遵循HadoopMapReduce的作用执行模型,Hive将用户的HiveSQL语句通过解释器转换为MapReduceHadoop集群上
50、硬件故障被认为是常态,为了解决这个问题,HDFS设计了副本机制,默认情况下,一份文件,HDFS会存放( )份。
A3
B5
51、Hbase的底层以( )形式存在。
Akeyvalue
B列存储
C行存储
D实时存储
52、华为FusionInsightHD是国内首家符合国家金融等级保护的大数据平台,其安全性体现在以下( )方面。
A系统安全
B权限认证
C数据安全
53、在Flink框架中,下列( )是流处理和批处理的计算引擎。
Astandalone
BRuntime
CFlinkCore
DDataStream
54、在WebHCat架构中,用户能够通过安全的HTTPS协议执行以下( )操作。
A执行HiveDDL操作
B运行MapReduce任务
C运行HiveSQL任务
55、关于FusionInsightmanager界面Hive日志收集的描述中不正确的是:
A可以指定实例进行日志收集
B可以指定节点IP进行收集
C可以指定用户进行日志收集
D可以指定时间段进行日志收集
56、Kafka集群在运行期间,直接依赖于下列( )组件。
Aspark
Bzookeeper
Chdfs
Dhbase
57、Hbase的某张表的RowKey划分Splitkey为9.E.a.z.请问表里面有( )个Region。
A6
D3
58、YARN调度器分配资源的顺序是:
A任意机器--本地资源--同机架
B任意机器--同机架--本地资源
C本地资源--同机架--任意机器
D同机架--任意机器--本地资源
59、FusionInsightManager用户权限管理不支持( )配置。
A给用户配置角色
B给用户组配置角色
C给角色配置权限
D给用户组配置权限
60、当zookeeper集群节点数为5时,请问集群的容灾能力和( )节点时等价的。
B4
C5
D以上全不正确
61、在HBase写数据的业务逻辑实现过程中,如下( )接口或类是不需要涉及的。
APut
BHTable
CHBaseAdmin
DPutList
62、在MapReduce的应用程序开发中,下列( )JAVA类负责管理和运行一个计算任务。
Alob
BContext
CFileSystem
DConfiguration
63、HDFS客户端所在节点的系统时间与FusioninsightHD集群的系统时间要保持一致,若有时间差,那么时间差应小于( )分钟。
A5
B10
C20
D30
64、关于Streaming的拓扑(Topology),下面描述错误的是:
A一个Topology是由一组Spout组件和Bolt组件通过StreamGroupings进行连接的有向无环图
(DAG)
B
Topology会一直运行,直到它被显式kill
C业务逻辑都被封装Topology中
D一个Topology只可以指定启动一个Worker进程
65、对于运行在MapReduce平台上的应用程序,此应用程序所依赖的jar包会被放到( )。
AHIVE
BHBASE
DDB
66、FusionlnsihtHD中,Oozie客户端的JAVAAPI在运行任务时会调用OozieClient类的( )方法。
Asuspend
BgetJobInfo
Csubmit
Drun
67、将数据块存储大小设置为128M,HDFS客户端在写文件时,当写入一个100M大小的文件,实际占用储存空间为:
A128M
B100M
C64M
D50M
68、当一个MapReduce应用程序被执行时,如下( )动作是map阶段之前发生的。
Asplit
Bcombine
Cpartition
Dsort
69、在FusioninsightHD的客户端,执行kinit{账号}命令是为了得到KDC的( )内容。
AKrb5.conf
BTGT
CST
Djaas.conf
70、HDFS集群跟目录下存在一个文件text.txt,下列( )命令可以查到此文件所存储的DatNode节点信息。
Ahdfsfsck/test.txt-files
Bhdfsfsck/text.txt-locations
Chdfsfsck/test.txt-blocks
Dhdfsfsck/test.txt-list-corruptfileblocks
71、在FusioninsightHD中,可以在( )查看MapReduce应用程序的运行结果。
AFusioninsightManager的web界面
BLoaderWeb界面
CSolrweb界面
DYamWeb界面
72、MapReduce任务最终是在下列( )中被执行的。
ANodeManager
Bcontainer
DAppMaster
73、Yam中( )角色是管理单个节点资源(CPU/Memory)的。
BResourceManager
CDataNode
DNameNode
74、下来( )Redis命令属于原子操作。
AINCR(将储存的数字值增一)
BHINCRBY(为哈希表key中的域field的值加上增量increment)
CLPUSH(对链表的push操作)
D以上都是
75、在Spark中,假设lines是一个DStream对象,filter语句可以过滤掉80%的数据,针对以下两个语句说法正确的是:
X:
lines.filter(...).groupByKey(...)
Y:
lines.groupByKey(...).filter(...)