大数据技术与应用基础-第章事件流OLAP之Druid事件数据流引擎FlinkPPT推荐.pptx

上传人:b****1 文档编号:14648245 上传时间:2022-10-23 格式:PPTX 页数:32 大小:1.11MB
下载 相关 举报
大数据技术与应用基础-第章事件流OLAP之Druid事件数据流引擎FlinkPPT推荐.pptx_第1页
第1页 / 共32页
大数据技术与应用基础-第章事件流OLAP之Druid事件数据流引擎FlinkPPT推荐.pptx_第2页
第2页 / 共32页
大数据技术与应用基础-第章事件流OLAP之Druid事件数据流引擎FlinkPPT推荐.pptx_第3页
第3页 / 共32页
大数据技术与应用基础-第章事件流OLAP之Druid事件数据流引擎FlinkPPT推荐.pptx_第4页
第4页 / 共32页
大数据技术与应用基础-第章事件流OLAP之Druid事件数据流引擎FlinkPPT推荐.pptx_第5页
第5页 / 共32页
点击查看更多>>
下载资源
资源描述

大数据技术与应用基础-第章事件流OLAP之Druid事件数据流引擎FlinkPPT推荐.pptx

《大数据技术与应用基础-第章事件流OLAP之Druid事件数据流引擎FlinkPPT推荐.pptx》由会员分享,可在线阅读,更多相关《大数据技术与应用基础-第章事件流OLAP之Druid事件数据流引擎FlinkPPT推荐.pptx(32页珍藏版)》请在冰豆网上搜索。

大数据技术与应用基础-第章事件流OLAP之Druid事件数据流引擎FlinkPPT推荐.pptx

Druid既可以运行在商业的硬件上,也可以运行在云上。

它可以从多种数据系统中注入数据,包括Hadoop,Spark,Kafka,Storm和Samza等。

丰富的社区。

Druid简介,Druid集群,Druid单机环境,Druid应用场所,二、Druid应用场所,应用场所,Druid应用最多的是类似于广告分析创业公司Metamarkets中的应用场景,如广告分析、互联网广告系统监控以及网络监控等。

当业务中出现以下情况时,Druid是一个很好的技术方案选择:

需要交互式聚合和快速探究大量数据时;

需要实时查询分析时;

具有大量数据时,如每天数亿事件的新增、每天数10T数据的增加;

对数据尤其是大数据进行实时分析时;

需要一个高可用、高容错、高性能数据库时。

Druid应用场所,Druid简介,Druid单机环境,Druid集群,三、Druid集群,Druid集群是由很多功能不同的节点组成的。

三、Druid集群,Druid集群是由很多功能不同的节点组成的。

HistoricalNodes:

HistoricalNodes可以看做是Druid集群的脊椎,它将segment固化到本地,供集群查询时使用。

BrokerNodes:

BrokerNodes是客户端和相关应用从Druid集群上查询数据的节点,它的职责是对客户端过来的查询做负载,聚集和合并查询结果。

CoordinatorNodes:

CoordinatorNodes用来管理Druid集群放在HistoricalNodes上的segment。

Real-timeProcessing:

实时数据处理可以在单点实时节点或者索引服务(indexingservice)完成OverloadNodes:

主要是用于批量索引服务。

ZooKeeper:

用于集群内部通讯。

MetadataStorage:

用户存储segment,configuration等的metadata信息,三、Druid集群,Druid集群是由很多功能不同的节点组成的。

Druid应用场所,Druid集群,Druid简介,Druid单机环境,四、Druid单机环境,安装Druid,下载并安装Druid,命令如下:

curl-Ohttp:

/static.druid.io/artifacts/releases/druid-0.9.1.1-bin.tar.gztar-xzvfdruid-0.9.1.1-bin.tar.gzC/hadoop/cd/hadoop/druid-0.9.1.1,安装ZooKeerper前几章以讲过,此处不赘述。

启动Druid:

首先进入到Druid的根目录,执行bin/init。

Druid会自动创建一个var目录,内含两个目录。

一个是druid,用于存放本地环境下Hadoop的临时文件、缓存和任务的临时文件等。

另一个是tmp用于存放其他临时文件。

四、Druid单机环境,启动Druid服务,在单机情况下,我们可以在一台机器上启动所有的Druid服务进程,分5个终端在Druid根目录下进行。

1.javacatconf-quickstart/druid/historical/jvm.config|xargs-cpconf-quickstart/druid/_common:

conf-quickstart/druid/historical:

lib/*io.druid.cli.Mainserverhistorical2.javacatconf-quickstart/druid/broker/jvm.config|xargs-cpconf-quickstart/druid/_common:

conf-quickstart/druid/broker:

lib/*io.druid.cli.Mainserverbroker3.javacatconf-quickstart/druid/coordinator/jvm.config|xargs-cpconf-quickstart/druid/_common:

conf-quickstart/druid/coordinator:

lib/*io.druid.cli.Mainservercoordinator4.javacatconf-quickstart/druid/overlord/jvm.config|xargs-cpconf-quickstart/druid/_common:

conf-quickstart/druid/overlord:

lib/*io.druid.cli.Mainserveroverlord5.javacatconf-quickstart/druid/middleManager/jvm.config|xargs-cpconf-quickstart/druid/_common:

conf-quickstart/druid/middleManager:

lib/*io.druid.cli.MainservermiddleManager,四、Druid单机环境,批量加载数据,服务启动之后,我们就可以将数据load到druid中进行查询了。

向Druid提交一个注入数据的任务,并将目录指向我们需要加载的数据文件:

wikiticker-2015-09-12-sampled.json在Druid根目录下执行如下命令:

curl-XPOST-HContent-Type:

application/jsondquickstart/wikiticker-index.jsonlocalhost:

8090/druid/indexer/v1/task此时,可以在overload控制台http:

/localhost:

8090/console.html来查看任务的运行情况,当状态为“SUCCESS”时,说明任务执行成功。

四、Druid单机环境,加载流数据,下载并安装tranquility:

/static.druid.io/tranquility/releases/tranquility-distribution-0.8.0.tgztar-xzvftranquility-distribution-0.8.0.tgzcdtranquility-distribution-0.8.0Druid根目录中自带了一个配置文件conf-quickstart/tranquility/server.json启动tranquility服务进程,就可以向druid的metricsdatasource推送实时数据。

bin/tranquilityserver-configFile/conf-quickstart/tranquility/server.json在linux上具体执行如下命令:

hadoopmaster:

/hadoop/tranquility-distribution-0.8.0/bin$./tranquilityserver-configFile/hadoop/druid-0.9.1.1/conf-quickstart/tranquility/server.json,四、Druid单机环境,数据查询,1、直接通过Druid查询Druid提供基于json的富文本查询方式。

提供的示例中quickstart/wikiticker-top-pages.json是一个topN的查询实例。

通过curl命令向http:

8082/druid/v2/请求服务,请求头设置参数Content-Type:

application/json,post方式提交数据quickstart/wikiticker-top-pages.json返回数据格式显示为美化(pretty)的格式。

/hadoop/druid-0.9.1.1$curl-L-HContent-Type:

application/json-XPOST-data-binaryquickstart/wikiticker-top-pages.jsonhttp:

8082/druid/v2/?

pretty2、数据可视化Druid是面向用户分析应用的完美方案,有很多开源的应用支持Druid的数据可视化,如pivot,caravel和metabase等。

3、查询组件有许多查询组件供我们使用,如SQL引擎,还有其他各种语言提供的组件,如Python和Ruby。

大数据技术与应用基础,21世纪高等院校“云计算和大数据”人才培养规划教材,第12章,事件数据流引擎Flink,人民邮电出版社,能力,CAPACITY,要求,了解Flink系统中包含的主要进程间的作用。

熟悉Flink的简单操作。

Flink基本架构,Flink概述,单机安装Flink,Flink运行第一个例子,Flink集群部署,一、Flink概述,ApacheFlink是一个开源的分布式批数据以及流数据处理平台。

目前已经升级为Apache顶级开源项目。

无论是Spark还是Flink,他们的主要优势都是基于内存运行机器学习算法,运行速度非常快,而且Flink支持迭代计算。

Flink概述,单机安装Flink,Flink运行第一个例子,Flink集群部署,Flink基本架构,二、Flink基本架构,Flink系统的架构与Spark类似,是一个基于Master-Slave风格的架构。

Flink系统主要包含如上3个主要的进程:

JobManager,TaskManager,Client,

(1)JobManager是Flink系统的协调者,它负责接收FlinkJob,调度组成Job的多个Task的执行。

它还负责收集Job的状态信息,并管理Flink集群中从节点TaskManager。

(2)TaskManager也是一个Actor,它是实际负责执行计算的Worker,在其上执行FlinkJob的一组Task。

(3)Client需要从用户提交的Flink程序配置中获取JobManager的地址,并建立到JobManager的连接,将FlinkJob提交给JobManager。

Flink基本架构,Flink概述,Flink运行第一个例子,Flink集群部署,单机安装Flink,三、单机安装Flink,安装Flink,

(1)安装Jdk1.7.X或者以上的版本。

(2)进入Flink官网下载页面选择一个与你的Hadoop版本相匹配的Flink包。

下载并解压。

(3)单机本地启动Flink。

在Flink目录中执行bin/start-local.sh启动local模式。

bin/start-local.sh通过查看logs文件夹下的相关日志来检查Flink系统是否在正确的运行。

taillog/flink-*-jobmanager-*.log在浏览器中输入:

http:

8081/,Flink默认监听8081端口,防止其他进程占用此端口。

此时出现下面的管理界面如下图所示。

三、单机安装Flink,安装Flink,到这里Flink已启动成功,接下来可以运行实例。

Flink基本架构,单机安装Flink,Flink概述,Flink集群部署,Flink运行第一个例子,四、Flink运行第一个例子,实例:

Word

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工作范文 > 演讲主持

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1