华为大数据测试题及答案.docx

资源描述

华为大数据测试题及答案.docx

《华为大数据测试题及答案.docx》由会员分享，可在线阅读，更多相关《华为大数据测试题及答案.docx（14页珍藏版）》请在冰豆网上搜索。

华为大数据测试题及答案.docx

华为大数据测试题及答案

下列关于GaussDB200的局部聚簇技术说法正确的是（）?

A、局部聚簇技术可以应用在GaussDB200的所有表中

B、局部聚簇在某些场景下可以提交检索效率，所以在创建表时根据业务场景应创建多个PCK

C、PCK对应的列尽量不要为空值

D、PCK通过min/max稀疏索引实现事实表快速过滤扫描（正确答案）

从数据库架构设计来看，主要有以下哪些设计思路?

A、Shard-Disk

B、Shard-Everying

C、Shard-Nothing

D、以上都是（正确答案）

关于Schema和Database，下面说法正确的是（）。

A、二者都能实现资源隔离

B、schema和用户强相关的，通过权限控制语法可以实现不同用户对各Schema的权限（正确答案）

C、Database之间无法直接访问，但通过权限授予可以访问数据

D、相比于Database，Schema的隔离更加的彻底

下面哪个数据类型不是GaussDB200支持的数据类型（）。

A、XML类型（正确答案）

B、数值类型

C、JSON类型

D、货币类型

GaussDB200在创建表时，需要注意以下哪个事项（）?

A、创建列存表时压缩级别默认为LOW（正确答案）

B、创建列存表时压缩级别默认为HIGH

C、创建列存表时压缩级别默认为NO

D、创建列存表之后，后续可以修改为行存表

下列关于存储过程的特点说法正确的是（）?

A、编写的SQL存储在数据库中，因此执行速度快

B、创建时编译，执行时调用，因此开发效率高

C、用户创建的存储过程或自定义函数可以重复调用，因此数据传输量少

D、通过指定存储过程的访问权限，因此安全系数高（正确答案）

语句number=0的意思是（）?

A、修改变量number的值为0

B、判断number的值是否为0

C、比较number和0的大小

D、声明一个变量number，并初始化值为0（正确答案）

GaussDB200支持几种数据并行导入策略?

A、4

B、3（正确答案）

C、2

D、1

ElasticSearch架构中包含哪些？

A、A.以上说法全都正确（正确答案）

B、Client

C、ESMaster

D、ESNode

.以下哪个不是RDD的创建方式？

A、从子的RDD转换到新的RDD（正确答案）

B、从数据集合转换而来

C、从HDFS输入创建

D、从父的RDD转换的到新的RDD

以下哪个不是SparkSQL的使用场景？

A、A.需要处理PB级的大容量数据

B、对数据处理的实时性要求不高的场景

C、实时数据查询（正确答案）

D、结构化数据处理

以下哪个不是离线批处理的核心诉求？

A、处理数据量巨大

B、处理数据格式多样

C、处理时间要求不高（正确答案）

D、支持SQL类作业和自定义作业

HBase架构中包含哪些？

A、Zookeeper

B、以上说法全都正确（正确答案）

C、Hmaster

D、HRegionServer

某项目小组接到一个大数据实时分析项目，且对实时性要求很高。

请问以下哪种大数据计算框架最合适？

A、Hbase

B、MapReduce

C、Spark

D、Flink（正确答案）

以下关于Hive内置函数描述正确的是？

A、descfunctionsupper：

查看系统自带的函数

B、trim（）：

去除空字符串（正确答案）

C、to_date（）：

获取当前日期

D、substr（）：

求字符串长度

Gremlin中查询单个点的信息该用什么命令？

A、g.V（13464736）.valueMap（）（正确答案）

B、g.V（）.hasLabel（"test"）.values（"age"）

C、g.V（）.hasLabel（"test"）

D、g.V（）.hasLabel（"test"）.valueMap（"String_list","age"）

考虑以下场景，当公安人员需要根据某犯罪人员发现其犯罪同伙时，最适合使用下列哪个工具？

A、ElasticSearch

B、GraphBase（正确答案）

C、Hbase

D、HDFS

HBase使用get方法读取数据时，下列哪个选项是需要的？

A、Deletedelete=newDelete（rowKey）

B、scan.setCaching（1000）

C、byte[]rowKey=Bytes.toBytes（"012005000201"）（正确答案）

D、Listputs=newArrayList（）

Flink不包含以下哪些数据处理场景？

A、高并发

B、毫秒级低时延

C、高可靠性

D、图形分析（正确答案）

关于GaussDB200的逻辑架构，下列说法正确的是（）？

A、DN是实际数据节点，所以只负责存储数据。

B、CM是集群的管理模块，那么负责集群的日常管理和运维。

C、CN是协调节点，协助CM管理整个集群。

D、GTM是全局事务控制器，负责生成和维护全局事务ID等全局唯一信息。

（正确答案）

用户Region和RegionServer之间的路由信息,保存在哪个模块中?

A、Zookeeper

B、BHDFS

C、Master

D、Meta表（正确答案）

Hbase的物理存储单元是什么?

A、Region

B、Columnfamily（正确答案）

C、Column

D、Row

Redis中适合存储对象的数据类型是?

A、Hash（正确答案）

B、List

C、String

D、Set

GAUSSDB200数据并行导入Shared策略支持的数据格式是?

A、CSV

B、Text（正确答案）

C、FIXED

D、seq

Flume支持第三方过滤器对数据进行过滤操作。

[判断题]

对（正确答案）

错

多个Flume可以连接起来从部署节点上采集数据。

[判断题]

对（正确答案）

错

Flume传输数据时，sink如果出现下一跳故障，可以将数据发给其他的下一跳。

[判断题]

对（正确答案）

错

Kafka集群中，Kafka服务端角色是Consumer。

[判断题]

对

错（正确答案）

Kafka集群中，Kafka部署的实例个数不得小于2。

[判断题]

对（正确答案）

错

Checkpoint机制是Flink运行过程中容错的重要手段。

[判断题]

对（正确答案）

错

Flink程序是由DataSet和DataStream组成。

[判断题]

对

错（正确答案）

StructuredStreaming的外部存储系统的AppendMode方式表示只有在ResultTable中被更新的数据才会被写入到外部存储系统。

[判断题]

对

错（正确答案）

Redis可以做排行榜的应用场景。

[判断题]

对（正确答案）

错

Redis的flushall命令表示清空Redis实例下所有数据库的数据。

[判断题]

对（正确答案）

错

数据库架构设计Shard-Everying是指服务器的所有资源（包括磁盘、CPU、显卡、网络）都共享。

[判断题]

对

错（正确答案）

CTID的值是增量增加的。

[判断题]

对（正确答案）

错

物理集群包含逻辑集群。

[判断题]

对（正确答案）

错

SQLonAnywhere的意思是SQL可以在任何地方使用。

[判断题]

对

错（正确答案）

GaussDB200的自适应调度和大数据的Yarn调度是类似的，都是根据作业的所耗资源，按照作业优先级，并优先满足损耗资源少的作业，保证资源的充分利用。

[判断题]

对

错（正确答案）

创建数据库时默认支持的字符集是UTF-8。

[判断题]

对

错（正确答案）

Flink程序是由DataSet和DataStream组成。

[判断题]

对

错（正确答案）

StructuredStreaming的外部存储系统的AppendMode方式表示只有在ResultTable中被更新的数据才会被写入到外部存储系统。

[判断题]

对

错（正确答案）

.Hive从本地加载数据需要加关键字：

“local”。

[判断题]

对（正确答案）

错

大数据技术，是指伴随大数据的采集、存储、处理和分析的相关技术[判断题]

对（正确答案）

错

针对不同的数据来源，需要先分析其数据特征，例如一般网站产生的日志特点是数据量大，价值密度高，数据的业务种类多且涵盖之前的数据。

[判断题]

对

错（正确答案）

Kafka中的Broker在收到新消息后会立即存入磁盘。

[判断题]

对

错（正确答案）

GaussDB200的自适应调度和大数据的YARN调度是类似的，都是根据作业的所耗资源，按照作业优先级，并优先满足损耗资源少的作业，保证资源的充分利用。

[判断题]

对

错（正确答案）

Hbase是一种分布式数据库,不依赖HDFS也可以运行。

[判断题]

对（正确答案）

错

GAUSSDB200在内部使用行标识符（CTID）记录数据在表中的逻辑位置。

[判断题]

对

错（正确答案）

Redis默认支持14个数据库。

[判断题]

对

错（正确答案）

关于Kafka组件说法正确的是?

A、删除topic时，必须确保kafka的服务配置delete.topic.enable配置为true（正确答案）

B、Kafka安装及运行日志保存路径为/srv/Bigdata/kafka/

C、ZooKeeper服务不可用会导致Kafka服务不可用（正确答案）

D、必须使用admin用户或者kafkaadmin组用户进行创建topic（正确答案）

下面哪些是Flume的sink支持的类型?

A、KafkaSink（正确答案）

B、StormSink

C、HbaseSink（正确答案）

D、SparkSink（正确答案）

Redis的写命令同步的时机有哪几种?

A、appendfsyncyes

B、appendfsyncalways（正确答案）

C、appendfsynceverysec（正确答案）

D、appendfsyncno（正确答案）

关于Redis的描述，下列正确的是?

A、Redis支持多数据库（正确答案）

B、可以使用existskey判断键是否存在（正确答案）

C、Redis可以为任何键增减字段而不影响其他键

D、Redis的命令区分大小写（正确答案）

下面哪些是属于Flink的窗口类型?

A、TumblingWindow（正确答案）

B、countWindow（正确答案）

C、SlidingWindow（正确答案）

D、timeWindow（正确答案）

以下哪些情况下采用Replication方式存储数据（）?

A、存储的表的数据量较小（正确答案）

B、需要较高的并发分析能力（正确答案）

C、对数据的完整性要求较高

D、以上都是

一般在什么时候会采用数据分区（）?

A、当表中数据量比较多（千万级别以上）的时候（正确答案）

B、需要执行大量的数据删除操作的时候（正确答案）

C、需要执行大量的热点数据查询操作的时候（正确答案）

D、需要执行大量的数据更新操作的时候（正确答案）

GaussDB200的高可靠主要体现在（）?

A、提供集群管理和数据节点HA（正确答案）

B、事务支持ACID特性（正确答案）

C、支持故障切换、单节点故障恢复（正确答案）

D、支持标准SQL和标准JDBC特性

下面关于GaussDB200的逻辑集群说法正确的是（）?

A、逻辑集群的意思就是通过物理服务器的隔离来达到数据的分离处理

B、在逻辑集群上实现多租户管理，达到CPU、内存等计算资源的控制隔离（正确答案）

C、逻辑集群的最终目的是实现资源隔离及资源弹性能力（正确答案）

D、一个物理节点对应一个逻辑集群（正确答案）

对于Gremlin描述正确的是？

A、支持客户端操作和JavaAPI操作（正确答案）

B、每一步操作都在数据流（datastream）上执行一个原子操作（正确答案）

C、语句比较复杂

D、函数式数据流语言（正确答案）

HDFS的系统结构中包含哪些模块？

A、DataNode（正确答案）

B、Client（正确答案）

C、RegionServer

D、NameNode（正确答案）

以下哪些是Hive自带的系统函数？

A、sum（正确答案）

B、count（正确答案）

C、like（正确答案）

D、Dwg

大数据场景化解决方案包含以下哪些选项？

A、离线检索

B、离线批处理（正确答案）

C、实时检索（正确答案）

D、实时流处理（正确答案）

在金融领域的大数据批量离线处理平台中，以下描述准确的是？

A、在数据集成模块，可以分为数据采集、数据操控和数据加载3个阶段。

（正确答案）

B、金融领域的外部数据来源可以是征信信息、社交网络和电商等。

（正确答案）

C、金融领域的内部数据来源均是结构化数据，包括信贷数据、信用卡数据和收单数据等。

D、金融领域的数据应用层面均是面向金融机构内部的，如监管报表系统，精准营销、BI应用等，完全不对外或对其他下属机构开放。

大数据离线批处理场景中常见的数据源包括？

A、流式数据Socket流（正确答案）

B、网页日志流（正确答案）

C、批量文件数据（正确答案）

D、数据库（正确答案）

以下哪些选项是实时检索适用的场景？

A、高并发的场景（正确答案）

B、查询速度要求高的场景（正确答案）

C、图片查询场景（正确答案）

D、查询条件比较复杂的场景

下列哪些措施，可以显著提升ElasticSearch的性能？

A、减少EsMaster

B、禁用swap（正确答案）

C、修改副本数量（正确答案）

D、增加EsMaster

Flink中的计算时间包含以下哪几种？

A、IngestionTime（正确答案）

B、EventTime（正确答案）

C、DelayTime

D、ProcessingTime（正确答案）

StructuredStreaming中通过什么机制，解决数据的无序和滞后问题？

A、持续查询

B、事件时间（正确答案）

C、watermark机制（正确答案）

D、流连接

下列关于GaussDB200的TOAST机制说法正确的是（）？

A、支持变长（varlena）表现形式的数据类型。

（正确答案）

B、存储超过2KB的字段时，会触发TOAST机制。

（正确答案）

C、存储超过1KB的字段时，会触发TOAST机制。

D、存储超过1/2KB的字段时，会触发TOAST机制。

数据仓库数据分层的优点包括？

A、把复杂问题简单化（正确答案）

B、减少数据仓库存储空间

C、隔离原始数据（正确答案）

D、减少重复开发（正确答案）

GaussDB200的高可靠主要体现在（）？

A、提供集群管理和数据节点HA。

（正确答案）

B、GTM采用Active-Standby模式。

（正确答案）

C、CN支持多CNActive-Active模式HA。

（正确答案）

D、支持标准SQL和标准JDBC特性。

对HbaseBloomfilter描述不正确的是?

A、判断结果一定正确（正确答案）

B、用于优化随机写的场景（正确答案）

C、用于优化Scan场景（正确答案）

D、误判率由哈希函数个数k、位数组大小m、数据量n共同确定

实时场景的典型特点是?

A、数据格式多（正确答案）

B、交互式查询（正确答案）

C、数据量大

D、时延要求高（正确答案）

实时检索解决方案支持的数据采集有哪些?

A、Loader（正确答案）

B、Spark（正确答案）

C、Sparkstreaming（正确答案）

D、Graphbase导入工具（正确答案）

Kafka的应用场景有哪些?

A、行为监控（正确答案）

B、数据处理

C、元信息监控（正确答案）

D、流处理（正确答案）

Flume支持采集静态目录下数据的source类型是?

A、httpsource

B、spoolingdirectorysource（正确答案）

C、execsource

D、syslogsource

关于Kafka磁盘容量不足的告警，对于可能的原因以下不正确的是?

A、用于存储Kafka数据的磁盘配置（如磁盘数目磁盘大小等），无法满足当前业务数据流量，导致磁盘使用率达到上限

B、数据保存时间配置过长，数据累积达到磁盘使用率上限

C、业务规划不合理，导致数据分配不均，使部分磁盘达到使用率上限

D、Broker节点故障导致（正确答案）

查看Kafka某Topic的Partition详细信息时，使用如下哪个命令?

A、bin/kafka-topics.sh--create

B、bin/kafka-topics.sh–list

C、bin/kafka-topics.sh–delete

D、bin/kafka-topics.sh–describe（正确答案）

关于Kafka组件部署说法不正确的是?

A、Kafka强依赖于ZooKeeper，安装Kafka必须安装ZooKeeper

B、Kafka部署的实例个数不得小于2

C、Kafka服务端可以产生消息（正确答案）

D、Consumer作为Kafka的客户端角色专门进行消息的消费

在redis中，下面哪个是操作Hash数据类型的命令?

A、strlen

B、hexists（正确答案）

C、smembers

D、Ltrim

展开阅读全文