《大数据技术原理与操作应用》习题解答六.docx

资源描述

《大数据技术原理与操作应用》习题解答六.docx

《《大数据技术原理与操作应用》习题解答六.docx》由会员分享，可在线阅读，更多相关《《大数据技术原理与操作应用》习题解答六.docx（9页珍藏版）》请在冰豆网上搜索。

《大数据技术原理与操作应用》习题解答六.docx

《大数据技术原理与操作应用》习题解答六

《大数据技术原理与操作应用》习题解答（六）

第八章

一、单选题

1．当服务器突然宕机，下列Channels选项中，哪一个可以保证数据不会丢失。

A、MemoryChannel

B、FileChannel

C、JDBCChannel

D、KafkaChannel

参考答案:

2．、以下关于flume的说法正确的是

AEvent是Flume数据传输的基本单元

BSink是Flume数据传输的基本单元

CChannel是Flume数据传输的基本单元

DSource是Flume数据传输的基本单元

参考答案:

二、多选题

1、下列选项中，说法错误的是（）。

A、在一个Agent中，同一个source可以有多个channel

B、在一个Agent中，同一个sink可以有多个channel

C、在一个Agent中，同一个source只能多1个channel

D、在一个Agent中，同一个sink只能有1个channel

参考答案:

A,D

2、下列说法中，关于配置参数说法错误的是（）。

A、a1.sources.r1.channels=c1

B、a1.sinks.k1.channel=c1

C、a1.source.r1.channels=c1

D、a1.sinks.k1.channels=c1

参考答案:

C,D

三、判断题

1、在一个POST请求发送的所有的events数据，可以在多个事务中插入channel。

对

错

参考答案:

错

答案解析:

在一个POST请求发送的所有的events都被认为是一个批次，会在一个事务中插入channel。

2、Flume负载均衡接收器处理器能够在多个Sink上进行均衡流量的功能。

对

错

参考答案:

对

3、查询和替换拦截器基于Java正则表达式提供了简单的用于字符串的搜索和替换功能，同时还具有进行回溯/群组捕捉功能。

对

错

参考答案:

对

4、采集方案中的sources、channels、sinks是在具体编写时根据业务需求进行配置的，可以随意设置。

对

错

参考答案:

错

5、SpoolingDirectorySource对指定磁盘上的文件目录进行监控并提取数据，但是不能查看新增文件数据。

对

错

参考答案:

错

答案解析:

SpoolingDirectorySource对指定磁盘上的文件目录进行监控并提取数据，可以查看新增文件数据。

6、FlumeAgent是一个JVM进程，它承载着数据从外部源流向下一个目标的三个核心组件是Source、Channel和Sink。

对

错

参考答案:

对

答案解析:

FlumeAgent是一个JVM进程，它承载着数据从外部源流向下一个目标的三个核心组件是Source、Channel和Sink。

7、Channel组件对采集到的数据进行缓存，可以存放在Memory或File中。

对

错

参考答案:

对

答案解析:

Channel组件对采集到的数据进行缓存，可以存放在Memory或File中。

8、在整个数据传输的过程中，Flume将流动的数据封装到一个event（事件）中，它是Flume内部数据传输的基本单元。

对

错

参考答案:

对

答案解析:

在整个数据传输的过程中，Flume将流动的数据封装到一个event（事件）中，它是Flume内部数据传输的基本单元。

9、Source组件是专门用来收集数据的，可以处理各种类型、各种格式的日志数据，包括avro、thrift、exec等。

对

错

参考答案:

对

10、TimestampInterceptor能够过滤掉数据中的时间戳。

对

错

参考答案:

错

答案解析:

TimestampInterceptor（时间戳拦截器）会将流程执行的时间插入到event的header头部。

此拦截器插入带有timestamp键（或由header属性指定键名）的标头，其值为对应时间戳。

如果配置中已存在时间戳时，此拦截器可以保留现有的时间戳。

11、StaticInterceptor（静态拦截器）允许用户将具有静态值的静态头附加到所有event。

对

错参考答案:

对

12、TaildirSource用于观察指定的文件，可以实时监测到添加到每个文件的新行，如果文件正在写入新行，则此采集器将重试采集它们以等待写入完成。

对

错

参考答案:

对

答案解析:

TaildirSource用于观察指定的文件，可以实时监测到添加到每个文件的新行，如果文件正在写入新行，则此采集器将重试采集它们以等待写入完成。

13、LoggerSink通常用于调试，LoggerSink接收器的不同处是它不需要在记录原始数据部分中说明额外的配置。

对

错

参考答案:

对

答案解析:

LoggerSink通常用于调试，LoggerSink接收器的不同处是它不需要在记录原始数据部分中说明额外的配置。

14、关于静态拦截器，用户可以定义多个静态拦截器来为每一个拦截器都追加一个header。

对

错

参考答案:

对

答案解析:

关于静态拦截器，用户可以定义多个静态拦截器来为每一个拦截器都追加一个header。

15、Flume-og与Flume-ng两个版本基本相同，开发者可以使用任意一款工具。

对

错

参考答案:

错

16、禁用backoff功能的情况下，在round_robin机制下，所有失败的sink将被传递到sink队列中的下一个sink后，因此不再均衡。

对

错

参考答案:

对

17、HDFSSink将event写入Hadoop分布式文件系统（HDFS），它目前支持创建文本和序列文件，以及两种类型的压缩文件。

对

错

参考答案:

对

18、AvroSource用来监听Avro端口并从外部Avro客户端流中接收event数据，当与另一个FlumeAgent上的AvroSink配对时，它可以创建分层集合拓扑，利用AvroSource可以实现多级流动、扇出流、扇入流等效果。

对

错

参考答案:

对

19、一个完整的event包含headers和body，其中body中包含了数据标识信息。

对

错

参考答案:

错

20、Flume将流动的数据封装到一个event（事件）中，它是Flume内部数据传输的基本单元。

对

错

参考答案:

对

答案解析:

Flume将流动的数据封装到一个event（事件）中，它是Flume内部数据传输的基本单元。

21、设计Flume采集系统架构时，Sink组件数据可以流向一个新的Agent的Source组件。

对

错

参考答案:

对

答案解析:

设计Flume采集系统架构时，Sink组件数据可以流向一个新的Agent的Source组件。

22、HTTPSource可以通过HTTPPOST和GET请求方式接收event数据。

对

错

参考答案:

对

23、processor.backoff属性默认值为true，表示sink处理器会将失败的sink列入黑名单。

对

错

参考答案:

错

答案解析:

processor.backoff属性默认值为false

24、Sink组件是用于把数据发送到目的地的组件，目的地包括Hdfs、Logger、avro、thrift、ipc、file、Hbase、solr、自定义。

对

错

参考答案:

对

25、Flume采集方案的名称、位置、以及sources、channels、sinks参数配置信息可以任意定义。

对

错

参考答案:

错

四、填空题

1、Flume的核心是把数据从数据源通过数据采集器（Source）收集过来，再将收集的数据通过【】汇集到指定的接收器（Sink）。

参考答案:

【缓冲通道（Channel）】

2、Flume采用三层架构，分别为agent、【】、storage，每一层均可以水平扩展。

参考答案:

【collector】

答案解析:

Flume采用三层架构，分别为agent、collector、storage，每一层均可以水平扩展。

3、解压Flume后，需要在【】配置文件中添加JDK环境变量参数。

参考答案:

【flume-env.sh】

4、Flume的负载均衡接收器处理器支持使用【】、random（随机）机制进行流量分配，其默认选择机制为【】。

参考答案:

【round_robin（轮询）】【round_robin】

5、Flume分为两个版本，分别是Flume-og、【】。

参考答案:

【Flume-ng】

答案解析:

Flume分为两个版本，分别是Flume-og和Flume-ng。

6、要想使用Flume系统，需要在当前操作系统中安装【】环境变量。

参考答案:

【JDK】

7、Flume的负载均衡接收器处理器支持使用【】、random（随机）机制进行流量分配。

参考答案:

【round_robin（轮询）】

8、FileChannel的配置属性，必备参数为【】、checkpointDir和useDualCheckpoints。

参考答案:

【type】

9、Flume是Cloudera提供的一个【】、可靠、和【】的海量日志采集、聚合和传输的系统。

参考答案:

【分布式】【高可用】

答案解析:

Flume是Cloudera提供的一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。

10、FailoverSinkProcessor配置属性必备的参数是【】、processor.type和processor.priority.。

参考答案:

【sinks】

五、简答题

1、简述故障转移接收器处理器的工作原理。

参考答案:

将故障的sink降级到故障池中，在池中为它们分配一个冷却期，在重试之前冷却时间会增加，当sink成功发送event后，它将恢复到活跃池中。

sink具有与之相关的优先级，数值越大，优先级越高。

如果在发送event时sink发生故障，则会尝试下一个具有最高优先级的sink来继续发送event。

如果未指定优先级，则根据配置文件中指定sink的顺序确定优先级。

2、简述tail-F与-f的区别。

参考答案:

小f根据文件描述符进行追踪，当文件改名或被删除，追踪结束，-F按照文件名进行追踪，并保持重试，即文件被删除或改名后，如果创建相同的文件名，则继续追踪。

3、简述Flume负载均衡接收器处理器和故障转移接收器处理器的区别。

参考答案:

负载均衡接收器处理器中会让每一个活跃的sink轮流/随机的处理event；而故障转移接收器处理器只允许一个活跃的且优先级高的sink来处理event，只有在当前sink故障后才会向下继续选择另一个活跃的且优先级高的sink来处理event。

4、Flume采集数据会丢失吗？

参考答案:

不会，Channel中的数据可以存储在File中，数据传输自身有事务。

5、什么是Flume拦截器。

参考答案:

FlumeInterceptors（拦截器）主要用于实现对Flume系统数据流中event的操作。

6、简述flume-ngagent的作用。

参考答案:

表示使用flume-ng启动一个agent

7、编写一个采集类型是netcat的采集方案。

参考答案:

a1.sources=r1

a1.sinks=k1

a1.channels=c1

a1.sources.r1.type=netcat

a1.sources.r1.bind=localhost

a1.sources.r1.port=44444

a1.sinks.k1.type=logger

a1.channels.c1.type=memory

a1.channels.c1.capacity=1000

a1.channels.c1.transactionCapacity=100

a1.sources.r1.channels=c1

a1.sinks.k1.channel=c1

8、编写收集/root/logs/access.log文件的配置参数。

参考答案:

mand=tail-F/root/logs/access.log

9、选择Channel类型时，分别说明memory、和file的优缺点。

参考答案:

选择MemoryChannel时Channel的性能最好，但是如果Flume进程意外挂掉可能会丢失数据。

当选择FileChannel时Channel的容错性更好，Channel性能相比MemoryChannel较低。

10、简述MemoryChannel特点。

参考答案:

读写速度快，但是存储数据量小，Flume进程挂掉、服务器停机或者重启都会导致数据丢失。

资源充足、不关心数据丢失的场景下可以用。

展开阅读全文