Hadoop---介绍.pptx

资源描述

Hadoop---介绍.pptx

《Hadoop---介绍.pptx》由会员分享，可在线阅读，更多相关《Hadoop---介绍.pptx（52页珍藏版）》请在冰豆网上搜索。

Hadoop---介绍.pptx

引言,古代，人们用牛来拉重物。

当一头牛拉不动一根圆木时，他们不曾想过培育更大更壮的牛。

同样，我们也不需要尝试开发超级计算机，而应试着结合使用更多的计算机系统。

-格蕾霍珀,Hadoop介绍,大数据技术需要解决的难题什么是Hadoop及其由来Hadoop生态坏境介绍HadoopYARN基本构架Hadoop的实际应用不同Hadoop版本间的比较,一、大数据技术需要解决的难题,海量数据如何存储？

海量数据如何处理？

1.海量数据如何存储？

海量数据的存储问题也不是今天才有的，很早以前就出现了，一些行业或者部门因为历史的积累，数据量也达到了一定的级别，当一台电脑无法存储这么庞大的数据时，采用的解决方案是使用NFS（网络文件系统）将数据分开存储,D:

software,E:

aabb,F:

ddcc,E:

images,Software,Tools,Film,Music,I.localpublic,I.localpublic,Software,Tools,Film,Music,NFS系统构架,缺点：

海量数据分析方面不能够充分利用多台计算机同时进行分析,2.海量数据如何计算？

对日志中的每一个用户的流量进行汇总就和，如下图所示：

一个实际的需求场景日志分析,对于这样的一个日志文件，如果只有这么几行数据，我们一般会采用这样的处理方式：

1、读取一行日志2、抽取手机号和流量字段3、累加到HashMap中4、遍历输出结果那么问题来了，如果数据量变得很大呢，比如一个日志文件里面有几个GB数据。

1、如果仍然一行一行去读，那么就会因为磁盘的IO瓶颈导致效率太低，速度太慢。

2、如果一次性加载到内存，那么就会因为单台计算机的内存空间有限而导致内存溢出。

3、如果将中间结果全部缓存到HashMap中，那么也会因为单台计算机的内存空间有限而导致内存溢出。

4、可以选择采用多线程处理，但是依然无法改变资源瓶颈的现实，因为一台计算器的CPU资源，内存资源，磁盘IO瓶颈是定，创建再多的线程也无法改变这个现实。

解决思路一,优点：

简单易行缺点：

1、单台计算机的扩展空间有限，CPU、内存、磁盘再怎么扩展也是有限的，无法无限扩展。

2、成本高（高端服务器非常昂贵，几百万甚至上千万一台，一般的小公司承受不起这样高昂的成本）,纵向扩展：

也就是升级硬件，提高单机性能（增加内存，增强CPU、用更高性能的磁盘（如固态硬盘），比如可以购买IBM的高端服务器。

解决思路二,横向扩展:

用多台节点分布式集群处理（通过增加节点数量提高处理能力，这里说的节点指的就是一台计算机）,核心思想：

任务分摊，通过协作来实现单节点无法实现的任务。

优点：

1、成本相对低（可采用普通机器）2、易于线性扩展缺点：

系统复杂度增加，我们要将我们的web应用部署到每一个节点上面，而多个节点协同工作时就要考虑以下几个问题1、如何调度资源2、任务如何监控3、中间结果如何调度4、系统如何容错5、如何实现众多节点间的协调分布式计算的复杂性就体现在这样的5个问题里面。

Hadoop介绍,大数据技术需要解决的难题什么是Hadoop及其由来Hadoop生态坏境介绍HadoopYARN基本构架Hadoop的实际应用不同Hadoop版本间的比较,二、什么是Hadoop？

Hadoop是一个开源的可运行于大规模集群上的分布式文件系统和运行处理基础框架。

Hadoop擅长于在廉价机器搭建的集群上进行海量数据（结构化与非结构化）的存储与离线处理。

Hadoop就是一门用来处理大数据的技术，就是用来解决上述提到的分布式计算里面的5个技术难题的。

Hadoop的由来,Google云计算,GFS,MapReduce,BigTable,Chubby,GFSHDFSMapReduceHadoopBigTableHBase,Hadoop由ApacheSoftwareFoundation公司于2005年秋天作为Lucene的子项目Nutch的一部分正式引入。

它受到最先由GoogleLab开发的MapReduce和GoogleFileSystem的启发。

2006年3月份，MapReduce和NutchDistributedFileSystem（NDFS）分别被纳入称为Hadoop的项目中。

Hadoop是最受欢迎的在Internet上对搜索关键字进行内容分类的工具，但它也可以解决许多要求极大伸缩性的问题。

例如，如果您要grep一个10TB的巨型文件，会出现什么情况？

在传统的系统上，这将需要很长的时间。

但是Hadoop在设计时就考虑到这些问题，因此能大大提高效率。

Hadoop可以做什么？

案例1：

我想知道过去100年中每年的最高温度分别是多少？

这是一个非常典型的代表，该问题里边包含了大量的信息数据。

针对于气象数据来说，全球会有非常多的数据采集点，每个采集点在24小时中会以不同的频率进行采样，并且以每年持续365天这样的过程，一直要收集100年的数据信息。

然后在这100年的所有数据中，抽取出每年最高的温度值，最终生成结果。

该过程会伴随着大量的数据分析工作，并且会有大量的半结构化数据作为基础研究对象。

如果使用高配大型主机（Unix环境）计算，完成时间是以几十分钟或小时为单位的数量级，而通过Hadoop完成，在合理的节点和架构下，只需要“秒”级。

案例3：

Wal-Mart采用Hadoop来分析顾客搜寻商品的行为，即客户是通过哪些商品的关键字搜索到Wal-Mart的网站的，从而可以规划下一季度的商品促销策略。

案例2：

通用电气通过hadoop集群分析在市场营销活动中，外界对公司的所持看法（正面，中立看法或负面看法）,Hadoop介绍,大数据技术需要解决的难题什么是Hadoop及其由来Hadoop生态坏境介绍HadoopYARN基本构架Hadoop的实际应用不同Hadoop版本间的比较,三、Hadoop生态坏境介绍,Hadoop是一个能够对大量数据进行分布式处理的软件框架。

具有可靠、高效、可伸缩的特点。

Hadoop的核心是HDFS和Mapreduce，hadoop2.0还包括YARN。

右图为hadoop的生态系统：

1.HDFS（Hadoop分布式文件系统）,HDFS：

源自于Google的GFS论文，发表于2003年10月，HDFS是GFS克隆版。

是Hadoop体系中数据存储管理的基础。

它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。

HDFS简化了文件的一致性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序。

Client：

切分文件；访问HDFS；与NameNode交互，获取文件位置信息；与DataNode交互，读取和写入数据。

NameNode：

Master节点，在hadoop1.X中只有一个，管理HDFS的名称空间和数据块映射信息，配置副本策略，处理客户端请求。

DataNode：

Slave节点，存储实际的数据，汇报存储信息给NameNode。

SecondaryNameNode：

辅助NameNode，分担其工作量；定期合并fsimage和fsedits，推送给NameNode；紧急情况下，可辅助恢复NameNode，但SecondaryNameNode并非NameNode的热备。

2.Mapreduce（分布式计算框架）,HadoopMapReduce是googleMapReduce克隆版。

MapReduce是一种计算模型，用以进行大数据量的计算。

其中Map对数据集上的独立元素进行指定的操作，生成键-值对形式中间结果。

Reduce则对中间结果中相同“键”的所有“值”进行规约，以得到最终结果。

MapReduce这样的功能划分，非常适合在大量计算机组成的分布式并行环境里进行数据处理。

JobTracker：

Master节点，只有一个，管理所有作业，作业/任务的监控、错误处理等；将任务分解成一系列任务，并分派给TaskTracker。

TaskTracker：

Slave节点，运行MapTask和ReduceTask；并与JobTracker交互，汇报任务状态。

MapTask：

解析每条数据记录，传递给用户编写的map（）,并执行，将输出结果写入本地磁盘（如果为map-only作业，直接写入HDFS）。

ReducerTask：

从MapTask的执行结果中，远程读取输入数据，对数据进行排序，将数据按照分组传递给用户编写的reduce函数执行,Mapreduce处理流程,3、Hive（基于Hadoop的数据仓库）,Hive由facebook开源，最初用于解决海量结构化的日志数据统计问题。

Hive定义了一种类似SQL的查询语言（HQL）,将SQL转化为MapReduce任务在Hadoop上执行。

通常用于离线分析。

4、Hbase（分布式列存数据库）,Hbae源自Google的Bigtable论文，发表于2006年11月，HBase是GoogleBigtable克隆版HBase是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。

和传统关系数据库不同，HBase采用了BigTable的数据模型：

增强的稀疏排序映射表（Key/Value），其中，键由行关键字、列关键字和时间戳构成。

HBase提供了对大规模数据的随机、实时读写访问，同时，HBase中保存的数据可以使用MapReduce来处理，它将数据存储和并行计算完美地结合在一起。

数据模型：

Schema-Table-ColumnFamily-Column-RowKey-TimeStamp-Value,其他组件1,5、Zookeeper（分布式协作服务）源自Google的Chubby论文，发表于2006年11月，Zookeeper是Chubby克隆版解决分布式环境下的数据管理问题：

统一命名，状态同步，集群管理，配置同步等。

6、Sqoop（数据同步工具）Sqoop是SQL-to-Hadoop的缩写，主要用于传统数据库和Hadoop之前传输数据。

数据的导入和导出本质上是Mapreduce程序，充分利用了MR的并行化和容错性。

7、Pig（基于Hadoop的数据流系统）由yahoo!

开源，设计动机是提供一种基于MapReduce的ad-hoc（计算在query时发生）数据分析工具定义了一种数据流语言PigLatin，将脚本转换为MapReduce任务在Hadoop上执行。

通常用于进行离线分析。

其他组件2,8、Mahout（数据挖掘算法库）Mahout起源于2008年，最初是ApacheLucent的子项目，它在极短的时间内取得了长足的发展，现在是Apache的顶级项目。

Mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。

Mahout现在已经包含了聚类、分类、推荐引擎（协同过滤）和频繁集挖掘等广泛使用的数据挖掘方法。

除了算法，Mahout还包含数据的输入/输出工具、与其他存储系统（如数据库、MongoDB或Cassandra）集成等数据挖掘支持架构。

9、Flume（日志收集工具）Cloudera开源的日志收集系统，具有分布式、高可靠、高容错、易于定制和扩展的特点。

它将数据从产生、传输、处理并最终写入目标的路径的过程抽象为数据流，在具体的数据流中，数据源支持在Flume中定制数据发送方，从而支持收集各种不同协议数据。

同时，Flume数据流提供对日志数据进行简单处理的能力，如过滤、格式转换等。

此外，Flume还具有能够将日志写往各种数据目标（可定制）的能力。

总的来说，Flume是一个可扩展、适合复杂环境的海量日志收集系统。

Hadoop介绍,大数据技术需要解决的难题什么是Hadoop及其由来Hadoop生态坏境介绍HadoopYARN基本构架Hadoop的实际应用不同Hadoop版本间的比较,四、HadoopYARN基本构架,HadoopYARN产生背景HadoopYARN基本

展开阅读全文