HCIA大数据试题与答案.docx

资源描述

HCIA大数据试题与答案.docx

《HCIA大数据试题与答案.docx》由会员分享，可在线阅读，更多相关《HCIA大数据试题与答案.docx（83页珍藏版）》请在冰豆网上搜索。

HCIA大数据试题与答案.docx

HCIA大数据试题与答案

HCIA-大数据试题与答案

1.下列选项中无法通过大数据技术实现的是？

（）*[单选题]*

A.商业模式发现

B.信用评估

C.商品推荐

D.运营分析

（正确答案）

2.FusionInsightManager的主要功能有以下哪些？

（）*[单选题]*

A.数据集成

B.系统管理

C.安全管理（正确答案）

D.服务治理（正确答案）

（正确答案）

3.假设每个用户最低资源保障设置为yarn，scheduler，capacity，

root，QueueA.minimum-user-limit-percent=24。

则以下说法错误的是？

（）*[单选

A.第3个用户提交任务时，每个用户最多获得33.33%的资源

B.第2个用户提交任务时，每个用户最多获得50%的资源

C.第4个用户提交任务时，每个用户最多获得25%的资源

D.第5个用户提交任务时，每个用户最多获得

20%的资源

（正确答案）

4.华为大数据解决方案中平台架构包括以下哪些组成部分？

（）

A.Hadoop层

B.FusioInghtManager（正确答案）

C.GaussDB200

D.DataFram（正确答案）

（正确答案）

5.Spark自带的资源管理框架是？

（）*［单选题］

A.Stand

alone

B.Mesos

C.YARN

D.Docker

（正确答案）

6.关于RDD，下列说法错误的是？

（）*［单选题］*

A.RDD具有血统机制（Lineage）

B.RDD默认存储在磁盘

C.RDD是一个只读的，可分区的分布式数据集

D.RDD是Spark对基础数据的抽象

（正确答案）

7.关于SparkSQL&Hive区别与联系，下列说法正确的是？

（）

A.SparkSQL依赖Hive的元数据

B.SparkSQL的执行引擎为Sparkcore，Hive默认执行引擎为MapReduce

C.SparkSQL不可以使用Hive的自定义函数（正确答案）

D.SparkSQL兼容绝大部分Hive的语法和函数（正确答案）（正确答案）

8.在FusionInsight集群中，Spark主要与以下哪些组件进行交互？

A.HDFS

［单选题］

）*［单选题］

YARN（正确答案）

C.Hive

D.ZooKeeper（正确答

案）

（正确答案）

9.关于Hive在FusionInsightHD中的架构描述错误的是？

（）*[单选题]*

A.只要有一个HiveServer不可用，整个Hive集群便不可用

B.MotaStore用于提供元数据服务，依赖于DBService

C.在同一时间点，HiveServer只要一个处于Active状态，另一个则处于Standby状态

D.HiveServer负责接收客户端请求.解析.执行HQL命令并返回查询结果

（正确答案）

10.通常情况下，Hive以文本文件存储的表会以回车作为其行分隔符，在华为

FusionInsightHive中，可以指定表数据的输入和输出格式处理。

（）*[单选题]

A.TRUE

B.FALS

（正确答案）

11.以下关于HBase中HMaster的功能描述哪些是正确的？

（）*[单选题]*

A.Region负载均衡，Region分裂以及分裂后的

Region分配

B.负责建表/修改表/删除表（正确答案）

C.负责RegionServer的负载均衡（正确答案）

D.RegionServer失效后的Region迁移（正确答案）（正确答案）

12.Nimbus在Streaming架构中的功能包括？

（）*[单选题]*

A.监控任务执行

状态

B.任务调度（正确

答案）

C.启动/关闭工作

进程

D.资源分配（正确答案）（正确答案）

13.Topology在任务完成后会自动结束运行。

（）*［单选题］*

A.TRUE

B.FALS

（正确答案）

14.下面关于flink窗口的描述错误的是（）*［单选题］*

A.滚动窗口在时间上是重叠的

B.滚动窗口在时间上是不重叠的

C.滑动动窗口之间时间点不存在重叠（正确答案）

D.滑动窗口之间时间点存在重叠（正确答案）

15.在FusionInsightManager界面中，对Loader的操作不包括下列哪个选项？

（）

*［单选题］*

A.切换Loader主备节点

B.启动Loader实例

C.配置Loader参数

D.查看Loader服务状态（正确答案）

16.创建Loader作业中，可以在以下哪个步骤中设置过滤器类型？

（）*［单选题］

A.输入设置

B.转换

C.基本

信息

D.输出（正确答案）

17.以下哪些数据源可以通过Loader实现与FusionInghtHD的数据交换？

（）［单选题］*

A.NoSQL

B.FTPServer（正确答

案）

C.SFTPServer（正确答

案）

D.MySQL（正确答案）

（正确答案）

18.Kafka日志的清理方式有两种：

delete和compact。

默认值是delete。

（）*［单选题］*

A.TRUE

B.FALS

（正确答案）

19.kafka-clustermirroring工具可以实现以下那些功能？

（）*［单选题］*

A.kafka集群数据同

步方案

B.kafka单集群内数据

备份

C.kafka单集群内数据

恢复

D.以全部不对

（正确答案）

20.fusioninsightHD产品中，一个典型的kafka集群包含若干个producer若干个

consummer和一个zookeeper集群?

（）*［单选题］

A.true

B.false（正确答案）

21.ZKFC进程部署在hdfs中的以下那个节点上？

（）*［单选题］

A.activenamenode

B.standbynamenode正（确答

案）

C.datanode

D.以上全部不对

（正确答案）

22.以下关于KafkaPartition偏移量的描述不正确的是？

（）*［单选题］*

A.每条消息在文件中的位置称为offset

（偏移量）

B.消费者通过（offset.partition.topic）跟

踪记录

C.唯一标记一条消息

D.Offset是一个String型字符串

（正确答案）

23.Channel的作用类似队列，用于临时缓存进来的数据，当Sink成功地将数据发送到下一跳的Channel或最终目的，数据会从Channel移除（）*［单选题］*

A.TRUE

B.FALS

（正确答案）

24.Zookeeper中的数据节点znode分为哪几种类型？

（）*［单选题］*

A.semi-persistent

B.ephemeral

C.temporary

D.persistent（正确答（正确答案）

25.HDFS联邦环境下，NameSpace命（名空间）包含以下哪些内容？

（）*［单选题］*

A.目录

B.文件（正确

答案）

C.块（正确答

案）

D.以上全不正

确

（正确答案）

26.HDFS存储数据时，关键数据根据实际业务需要保存在具有高度可靠性的节点中，通过修改DataNode的存储策略，系统可以将数据强制保存在指定的节点组中。

（）*［单选题］*

A.TRUE

B.FALS

（正确答案）

27.RDD有Transformation和Action算子，下列属于Action算子的是？

（）*［单选题］*

A.map

B.saveAsTextFil

C.Filter

D.reduceByKey

（正确答案）

28.SparkonYarn-client适合用于生产环境是因为可以更快的看到APP的输出。

（）*［单选题］*

A.TRUE

B.FALS

（正确答案）

29.以下关于HiveSQL基本操作描述正确的是？

（）*［单选题］

A.创建外部表必须要指定location信息

B.创建外部表使用external关键字，创建普通表需要指定internal关键字

C.加载数据到Hive时源数据必须是HDFS的一个路径

D.创建表时可以指定列分割符

（正确答案）

30.在Streaming中，消息可靠性级别中精确一次是通过ACK机制来实现的。

（）*［单选题］*

A.TRUE

B.FALS

（正确答案）

31.Flume适用于以下哪些场景的数据收集？

（）*［单选题］*

A.Thrift，Avro，Syslog，Kafka等数据源上收

集数据

B.本地文件数据采集（正确答案）

C.应用系统产生的日志采集（正确答案）

D.大量数据的实时数据采集

（正确答案）

32.在Zookeeper和Yarn的协同工作中，当ActiveResourceManager产生故障时，StandbyResourceManager会从以下哪些目录中获取Application相关信息？

（）［单选题］*

A.metastore

B.Statestore

C.Storeage

D.Warehous

（正确答案）

A.TRUE

B.FALS

（正确答案）

34.

［单选题］

HDFS的副本放置策略中，同一机架不同的服务器之间的距离是（）

4（正确答案）

35.下列哪些措施是为了保障数据的完整性（）*［单选题］

A.元数据可靠性保证

B.重建失效数据盘的副本数据（正确答案）

C.安全模式（正确答案）

D.集群数据均衡（正确答案）（正确答案）

36.Zookeeper的Scheme认证方式不包括以下哪项？

（）*［单选题］

A.digest

B.sasl

C.auth

D.worl

（正确答案）

37.MapReduce过程中，以下属于Shuffle机制的是？

（）*［单选题］

A.Copy

B.Partition

C.Combine

D.Sort/Merge（正确答

案）

（正确答案）

38.FusionInsightManager可以对哪些项目进行健康检查？

（）*[单选题]

A.角色

B.主机（正确

答案）

C.服务（正确

答案）

D.实例（正确

答案）

（正确答案）

39.

[单选题]

FusionInsightManager与外部管理平台对接时，支持哪些接口？

（）

A.VPN

B.Syslog

C.FTP（正确答案）

D.SNMP（正确答案）（正确答案）

40.下列选项中适合MapReduce的场景有？

（）*[单选题]

A.实时交互计算

B.迭代计算

C.流式计算

D.离线计算（正确答案）

41.以下关于FusionInsight中CarbonData说法正确的有？

（）*[单选题]

A.使用Carbon的目的是对大数据即席查询提供超快速响应。

B.Carbon使用轻量级压缩和重量级压缩的组合压缩算法压缩数据，可以减少60%-80%数据存储空间，大大节省硬件存储成本。

（正确答案）

C.Carbon是一种新型的ApacheHadoop本地文件格式，使用先进的列式存储.索引.压缩和编码技术，以提高计算效率，有助于加速超过PB数量级的数据查询，可用于更换的交互查询。

（正确答案）

D.Carbon也是一种将数据源与Spark集成的高性能分析引擎。

（正确答案）

42.HDFS联邦机制下，各NameNode间元数据是不共享的。

（）*[单选题]*

A.TRUE

B.FALS

（正确答案）

43.ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请和领

取资源。

（）*[单选题]*

A.TRUE

B.FALS

（正确答案）

44.在YARN的任务调度中，一旦ApplicationMaster申请到资源后，使与对应的

ResourceManager通信，要求它启动任务（）*[单选题]*

A.TRUE

B.FALS

（正确答案）

45.如图所示，下列哪些选项属于宽依赖（）

A.groupby：

A->B

B.map:

C->D

C.union：

D&E->F

D.join：

B&F->G（正确答案）

（正确答案）

46.

同时也

HFS的出现解决了需要在HDFS中存储大量的小文件（10MB以下）要存储一些大文件（10MB以上）的混合的场景（）*［单选题］*

A.TRUE

B.FALS

（正确答案）

47.下列哪个命令是从HDFS下载目录/文件到本地的？

（）*［单选题］

A.dfs-put

B.dfs-cat

C.dfs-get

D.dfs-

mkdir

（正确答案）

48.以下选项中，属于HDFS架构关键特性的是？

（）*［单选题］

A.HA高可靠性

B.健壮机制（正确答案）

C.元数据持久化机制（正确答案）

D.多方式访问机制（正确答案）

（正确答案）

49.HBase的主HMaster是如何选举的？

（）*［单选题］*

A.由RegionServer进行裁决

B.HMaster为双主模式，不需要进行裁决

C.通过ZooKeeper进行裁决

D.随机选举

（正确答案）

50.

［单选题］

关于Hive与Hadoop其他组件的关系。

以下描述错误的是？

（）A.Hive最终将数据存储在HDFS

中

B.Hive是Hadoop平台的数据仓库工具

C.HQL可以通过MapReduce执

行任务

D.Hive对HBase有强依赖

（正确答案）

51.Hive不支持超时重试机制。

（）*［单选题］*A.TRUE

B.FALS

（正确答案）

52.FusionInsight中，HiveServer将用户提交的HQL语句进行编译，解析成对应的Yarn任务.Spark任务或者HDFS操作，从而完成数据转换，分析。

（）*［单选题］

A.true

B.False（正确答案）

53.HBase的Region是由哪个服务进程来管理的？

（）*［单选题］

A.HRegionServe

B.ZooKeeper

C.HMaster

D.DataNode

（正确答案）

54.

［单选题］

Flume节点故

*［单选题］*

Streaming的处理节点Bolt中，可以完成以下哪些操作？

（）

A.连接运算

B.过滤（Filter）（正确答案）

C.连接数据库（正确答案）

D.业务处理（正确答案）

（正确答案）

55.Flume传输的可靠性是指Flume在传输数据过程中，当下一跳的障或者数据接收异常时，可以自动切换到另外一路上继续传输？

（）

A.True

B.Fals（正确答案）

56.FusionInsightHD集群中包含了多种服务，每种服务又由若干角色组成，下面哪些是服务的角色？

（）*［单选题］*

A.HDFS

B.NameNode

C.DataNode（正确答

案）

D.HBase

（正确答案）

57.FusionInsightHD系统中使用Streaming客户端Shell命令提交了拓扑之后，使用StormUI查看发现该拓扑长时间没有处理数据，可能原因有？

（）*[单选题]*

A.查看客户端异常堆栈，判断是否客户端使用问题

B.查看主Nimbus的运行日志，判断是否Nimbus服务端异

常（正确答案）

C.查看Supervisor运行日志，判断是否Supervisor异常（正

确答案）

D.查看Worker运行日志（正确答案）

（正确答案）

58.假设HDFS在写入数据是只存2份，那么在写入过程中，HDFSClient先将数据写入DataNode1，再将数据写入DataNode2。

（）*[单选题]*

A.Tru

B.Fals

（正确答案）

59.容力量调度器在尽心资源分配，现有同级的2个队列Q1和Q2，他们的容量均为30，期中Q1已使用8.Q2已使用14，则会优先将资源分配Q1。

（）*[单选题]

A.TrueB.False（正确答案）

A.SingleColumnValueFilte

B.FilterList（正确答案）

C.RowFilter（正确答案）

D.KeyOnlyFilter（正确答

案）

（正确答案）

61.Flink流式处理的数据源类型包括？

（）*[单选题]*

A.Collections

B.JDBC（正确答案）

C.Socketstreams正（确答

案）

D.Files（正确答案）

（正确答案）

62.server.channels.ch1.transactionCapacit表y示事务大小，即当前channel支持事务处理的事件个数，可和source的batchsize设置为同样大小，但不能小于batchsize。

（）*[单选题]*

A.Tru

B.Fals

（正确答案）

63.Flume架构中，一个sink可以连接多个channel。

（）*[单选题]*

A.Tru

B.Fals

（正确答案）

64.以下关于Flink关键特性描述不正确的是？

（）[单选题]*

A.SparkStreaming与Flink相比，时延更低*（正确答案）

B.Flink流式处理引擎能够同时提供支持流处

理和批处理应用的功能

C.与FusionInghtHD中的Streaming相比，D.checkpoint实现了

Flink具有更高的吞吐量Flink的容错

65.FusionInsight是华为企业级大数据存储，查询，分析的统一平台，能够帮助企业快速构建海量数据信息处理系统，通过对海量信息数据实时与非实时的分析挖掘，发现全新价值点和企业商机。

（）*［单选题］*

A.Tru

B.Fals

（正确答案）

66.KafkaClusterMirroring工具可以实现以下哪项功能？

（）*［单选题］*

A.Kafka跨集群数据同

步方式

B.Kafka单集群内数据

备份

C.Kafka单集群内数据

恢复

D.以上全不正确

（正确答案）

67.FusionInsightTool是为技术支持工程师和维护工程师提供的一套健康检查工具，能够检查集群相关节点，服务的健康状态，中潜在的问题。

并生成健康检查报告。

方便技术支持工程和维护工程师快速了解系统的健康状况。

（）*［单选题］

A.TRUE

B.FALS

（正确答案）

68.FusionInsight产品中，关于Kafka说法不正确的是？

（）*［单选题］*

A.Kafka强依赖于ZooKeeper

B.Kafka的服务端可以产生消息

C.Kafka部署的实例个数不得小于2

D.Consumer作为kafka的客户端角色专门进行消息的消费。

（正确答案）

69.为了提高Kafka的容错性，Kafka支持Partition的复制策略，以下关于Leader

Partition和FollowerPartition的描述错误的是（）*［单选题］*

A.Kafka针对Partition的复制需要选出一个Leader。

由该Leader负责Partition的读写操作。

其他的副本节点只是负责数据同步

B.由于LeaderServer承载了全部的请求压力。

因此从集群的整体考虑，Kafka会将Leader均衡的分散在每个实例上，来确保数据均衡

C.一个Kafka集群各个节点间不可能互为Leader和Flower

D.如果Leader失效。

那么将会有其他follower来接管（成为新的Leader）（正确答案）

70.Kafka是一个高吞吐.分布式.基于发布订阅的消息系统，利用Kafka技术可在廉价PCServer上搭建起大规模消息系统。

（）*［单选题］*

A.TRUE

B.FALS

E（正确答案）

71.flink是一个批处理和流处理结合的统一计算框架，其核心是一个数据分发以及并行计算的流数据处理引擎（）*［单选题］*

A.True

B.False（正确答案）

72.HBase集群定时执行Compaction的目的是什么？

（）*［单选题］*

A.减少同一个Region同一个ColumnFamily下的文件数目

B.减少同一个Region的文件数目

C.提升数据读取性能（正确答案）

D.提升数据写入能力（正确答案）（正确答案）

73.下列关于Flinkbarrier描述错误的是？

（）*[单选题]

A.一个barrier将本周期快照的数据与下一个周期快照的数据分隔开来

B.barrier是Flink快照的核心

C.在插入barrier的时候，会暂时阻断数据流

D.barrier周期性插入到数据流中，并作为数据流的一部分随之流动

（正确答案）

74.Flume进程级联时，以下哪些Sink类型用于接收上一跳Flume发送过来的数据？

（）*[单选题]*

A.NullSink

B.thriftsink

C.Hivesink

D.avrosink（正确答案）（正确答案）

75.Flink可以基于以下哪些窗口进行统计？

（）*[单选题]

A.时间窗口

B.滑动窗口（正确答案）

C.会话窗口（正确答案）

D.countWindow（正确答案）

（正确答案）

76.关于FusionInsightHDStr

展开阅读全文