spark入门及实践.pptx

资源描述

spark入门及实践.pptx

《spark入门及实践.pptx》由会员分享，可在线阅读，更多相关《spark入门及实践.pptx（72页珍藏版）》请在冰豆网上搜索。

spark入门及实践.pptx

之Spark,胡楠http:

/计算机学院,云计算技术和大数据,纲要,Spark架构,3,BDAS简介,4,函数式编程简介,7,Spark应用实例,6,Spark安装部署,5,一、Spark综述,Spark是基于内存计算的大数据并行计算框架。

Spark基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量廉价硬件之上，形成集群。

Spark于2009年诞生于加州大学伯克利分校AMPLab。

并且于2010年开源。

2013年6月Spark进入Apache孵化器。

目前，已经成为Apache软件基金会旗下的顶级开源项目。

http:

/people.csail.mit.edu/matei/,Mataizaharia,一、Spark综述,Spark相比HadoopMapRedue的优势如下：

1、中间结果输出基于MapReduce的计算模型会将中间结果序列化到磁盘上。

而Spark将执行模型抽象为通用的有向无环图执行计划。

且可以将中间结果缓存内存中。

2、数据格式和内存布局Spark抽象出分布式内存存储结构RDD，进行数据存储。

Spark能够控制数据在不同节点上的分区，用户可以自定义分区策略。

一、Spark综述,3、执行策略MapReduce在数据shuffle之前总是花费大量时间来排序。

Spark支持基于Hash的分布式聚合，在需要的时候再进行实际排序。

4、任务调度的开销MapReduce上的不同作业在同一个节点运行时，会各自启动一个JVM。

而Spark同一节点的所有任务都可以在一个JVM上运行。

一、Spark综述,Spark生态随着BDAS的完善，已经成型。

Spark全面兼容Hadoop的数据持久层。

从而让把计算任务从原来的MapReduce计算任务迁移到Spark中更加简单。

目前Spark的工业应用在国内已经大范围落地。

包括BAT在内的一众互联网公司都建立了自己的Spark集群,纲要,Spark架构,3,BDAS简介,4,函数式编程简介,7,Spark应用实例,6,Spark安装部署,5,二、Spark关键技术,RDD的全称是弹性分布式数据集（resilientdistributeddataset）是Spark的核心数据模型，RDD是Spark中待处理的数据的抽象，它是逻辑中的实体。

对于使用者来说，你得到的数据操作接口就是RDD，在对RDD进行处理的时候不需要考虑底层的分布式集群，就像在单机上一样即可，这也正是Spark的优势之一。

二、Spark关键技术,从Hadoop文件系统输入（比如HDFS）创建。

从父RDD转换得到新的RDD。

将数组或者集合这样的数据结构并行化，转化成RDD。

通过cache（）函数将计算后的RDD缓存到内存中。

二、Spark关键技术,从逻辑上来看，RDD就是数据。

而实际上，从物理上来看，RDD是一种分布式内存的抽象。

Spark中的数据实际上是像HDFS那样分块存储,二、Spark关键技术,分区列表计算每个分片的函数对父RDD的依赖对“键值对”数据类型RDD的分区器，控制分区策略和分区数。

每个数据分区的地址列表。

所以RDD实际上只是一个元数据对象，用于将对数据集的操作映射到物理存储之上。

RDD的重要内部属性如下：

二、Spark关键技术,RDD中的依赖关系RDD之间的依赖关系可以分为两类：

窄依赖：

每个父RDD的分区都至多被一个子RDD的分区使用；窄依赖允许在单个集群节点上流水线式执行，这个节点可以计算所有父级分区。

在窄依赖中，节点失败后的恢复更加高效。

因为只有丢失的父级分区需要重新计算，并且这些丢失的父级分区可以并行地在不同节点上重新计算。

宽依赖：

多个子RDD的分区依赖一个父RDD的分区。

宽依赖需要所有的父RDD数据可用并且数据已经通过类MapReduce的操作shuffle完成。

在宽依赖的继承关系中，单个失败的节点可能导致一个RDD的所有先祖RDD中的一些分区丢失，导致计算的重新执行。

二、Spark关键技术,宽依赖和窄依赖的样例。

每一个方框表示一个RDD，其内的阴影矩形表示RDD的分区。

二、Spark关键技术,TransformationTransformation操作是延迟计算的，也就是说从一个RDD转换生成另一个RDD的转换操作不是立即执行的，而是需要等到Action操作是才真正出发运算。

ActionAction算子会触发Spark提交作业，并将数据输出到Spark系统。

RDD操作算子，RDD中的操作算子可以分为两类：

Transformation（变换）算子与Action（行动）算子。

二、Spark关键技术,RDD算子操作举例如下：

Valline=sc.textFile（Test.txt）line.map（n=Integer.parseInt（n）*Integer.parseInt（n）.reduce（_+_）,二、Spark关键技术,二、Spark关键技术,基于血统的容错机制（lineage）：

在spark中RDD具有不变性，在数据处理过程中，spark通过lineage图记录了各个RDD之间的变换关系，一旦某个数据处理过程出现错误，spark可以根据lineage图快速进行容错恢复。

特别是对于map操作来说，当某个节点的任务失败，spark只需要重新计算相应分区的数据，而不必将整个任务重新计算。

在很多分布式数据处理系统中通过备份来进行容错，相比于这种会导致巨大存储消耗的容错方式，spark的lineage图只需要十几kb的存储空间。

Spark允许用户将数据cache下来，对于将来可能频繁使用的某个计算结果，将这个RDDcache下来是明智的选择。

二、Spark关键技术,检查点支持：

虽然lineage可用于错误后RDD的恢复，但对于很长的lineage的RDD来说，这样的恢复耗时较长。

由此，可以考虑将某些RDD进行检查点操作（Checkpoint）保存到稳定存储上。

Spark当前提供了为RDD设置检查点操作的API,让用户自行决定需要为哪些数据设置检查点操作。

由于RDD的只读特性使得比常用的共享内存更容易做checkpoint.由于不需要关心一致性的问题，RDD的写出可在后台进行，而不需要程序暂停或进行分布式快照,纲要,BDAS简介,4,Scala简介,7,Spark应用实例,6,Spark安装部署,5,三、Spark体系架构,MasterWorker,三、Spark体系架构,三、Spark体系架构,Master进程和Worker进程，对整个集群进行控制。

Driver程序是应用逻辑执行的起点，负责作业的调度，即Task任务的分发Worker用来管理计算节点和创建Executor并行处理任务。

Executor对相应数据分区的任务进行处理。

三、Spark体系架构,Client提交应用，Master找到一个Worker启动DriverDriver向Master或者资源管理器申请资源，之后将应用转化为RDDGraphDAGScheduler将RDDGraph转化为Stage的有向无环图提交给TaskSchedulerTaskScheduler提交任务给Executor执行。

纲要,Spark架构,3,Scala简介,7,Spark应用实例,6,Spark安装部署,5,四、BDAS简介,目前，Spark已经发展成为包含众多子项目的大数据计算平台。

伯克利将Spark的整个生态系统称为伯克利数据分析栈（BDAS），目前包含四个已经比较成熟的组件。

四、BDAS简介,谈到SparkSQL：

首先需要从Shark说起。

四、BDAS简介,为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，Hive应运而生，它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。

但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O，降低的运行效率，为了提高SQL-on-Hadoop的效率，大量的SQL-on-Hadoop工具开始产生。

其中就包括Shark,四、BDAS简介,Shark基于Hive修改了内存管理、物理计划、执行三个模块，并使之能运行在Spark引擎上，从而使得SQL查询的速度得到10-100倍的提升,四、BDAS简介,Shark缺陷：

Shark对于Hive的太多依赖，制约了Spark的OneStackRuleThemAll的既定方针，制约了Spark各个组件的相互集成SparkSQL抛弃原有Shark的代码，汲取了Shark的一些优点，如内存列存储（In-MemoryColumnarStorage）、Hive兼容性等，重新开发了SparkSQL代码；由于摆脱了对Hive的依赖性，SparkSQL无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便,四、BDAS简介,*数据兼容方面不但兼容Hive，还可以从RDD、JSON文件中获取数据*性能优化方面采取In-MemoryColumnarStorage、byte-codegeneration等优化技术*组件扩展方面无论是SQL的语法解析器、分析器还是优化器都可以重新定义，进行扩展。

四、BDAS简介,SparkSQL是一个用于结构化的数据处理的模块。

SparkSQL和SparkRDDAPI的区别如下：

1、SparkSQL的接口提供更多的关于数据以及操作的结构方面的信息。

2、SparkSQL会利用这些信息对数据操作进行额外的优化。

可以通过三种方式与SparkSQL进行交互：

SQL、DataFramesAPI、DatasetsAPI这三种API/语言最终都同一个执行引擎完成操作。

所以你可以选择任何一种舒服的方式来书写自己的数据处理逻辑。

四、BDAS简介,SparkSQL的使用方式之一是用来执行SQL查询。

特性如下：

同时支持标准的SQL语句和HiveQL能够从Hive表中读取数据（需要进行配置）查询结果将返回一个DataFrame支持在交互式环境中使用SQL语句,四、BDAS简介,DataFrame用来描述结构化的数据。

Spark官方给出的定义为：

ADataFrameisadistributedcollectionofdataorganizedintonamedcolumns.DataFrame概念上等同于关系型数据库中的一个表或者R/Python语言中的dataframe，不同的是Spark提供更丰富的优化。

DataFrame可从多种资源中构建：

结构化的数据文件、hive中的表、外部数据库、现有的RDD等。

DataFrame提供了丰富的API。

四、BDAS简介,SparkStreaming是建立在Spark上的实时计算框架，通过它提供的丰富的API、基于内存的高速执行引擎，用户可以结合流式、批处理和交互试查询应用。

SparkStreaming通过将流数据按指定时间片累积为RDD，然后将每个RDD进行批处理，进而实现大规模的流数据处理。

其吞吐量能够超越现有主流流处理框架Storm，并提供丰富的API用于流数据计算。

四、BDAS简介,SparkStreaming是将流式计算分解成一系列短小的批处理作业。

把SparkStreaming的输入数据按照batchsize（如1秒）分成一段一段的数据，每一段数据都转换成Spark中的RDD将SparkStreaming中对DStream的Transformation操作变为针对Spark中对RDD的Transformation操作将RDD经过操作变成中间结果保存在内存中。

整个流式计算根据业务的需求可以对中间的结果进行叠加，或者存储到外部设备。

四、BDAS简介,四、BDAS简介,处理模型,延迟：

Storm处理的是每次传入的一个事件，而SparkStreaming是处理某个时间段窗口内的事件流。

容错、数据保证：

展开阅读全文