大数据技术原理及应用Word格式.docx

资源描述

大数据技术原理及应用Word格式.docx

《大数据技术原理及应用Word格式.docx》由会员分享，可在线阅读，更多相关《大数据技术原理及应用Word格式.docx（8页珍藏版）》请在冰豆网上搜索。

大数据技术原理及应用Word格式.docx

这样就可以减少写入数据的开销，提高序列化的速度并缩减其大小。

Avro可以将数据结构或对象转化成便于存储和传输的格式，节约数据存储空间和网络传输带宽，Hadoop的其他子项目（如HBase和Hive）的客户端和服务端之间的数据传输。

HDFS

HDFS是一个分布式文件系统，为Hadoop项目两大核心之一，是

Googlefilesystem（GFS的开源实现。

由于HDFS具有高容错性

（fault-tolerant）的特点，所以可以设计部署在低廉（low-cost）的硬件上。

它可以通过提供高吞吐率（highthroughput）来访问应用程序的数据，适合那些有着超大数据集的应用程序。

HDFS放宽了可

移植操作系统接口（POSIXPortableOperatingSystemInterface）

的要求，这样就可以实现以流的形式访问文件系统中的数据。

MapReduce

HadoopMapReduc是针对谷歌MapReduc啲开源实现，它是一种编程模型，用于大规模数据集（大于1TB的并行运算。

“映射”（map、

“化简”（reduce）等概念和它们的主要思想都是从函数式编程语言中借来的。

它使得编程人员在不了解分布式并行编程的情况下也能方便地将自己的程序运行在分布式系统上。

MapReduce在执行时先指定

一个map（映射）函数，把输入键值对映射成一组新的键值对，经过一定的处理后交给reduce，reduce对相同key下的所有value进行处理后再输出键值对作为最终的结果。

核心思想就是“分而治之”。

HBase

HBase是一个分布式的、面向列的开源数据库，该技术来源于Google的论文“Bigtable:

一个结构化数据的分布式存储系统”。

如同Bigtable利用了Google文件系统（GoogleFileSystem）提供的分布式数据存储方式一样，HBase在Hadoop之上提供了类似于Bigtable的能力。

HBase不同于一般的关系数据库，其一，HBase是一个适合

于存储非结构化数据的数据库；

其二，HBase是基于列而不是基于行的模式。

HBase和Bigtable使用相同的数据模型。

用户将数据存储在一个表里，一个数据行拥有一个可选择的键和任意数量的列。

由于

HBase表示疏松的，用户可以给行定义各种不同的列。

HBase主要用

于需要随机访问、实时读写的大数据。

Hive

Hive最早是由Facebook设计的，是一个建立在Hadoop基础之上的数据仓库，它提供了一些用于数据整理、特殊查询和分析存储在Hadoop文件中的数据集的工具。

Hive提供的是一种结构化数据的机制，它支持类似于传统RDBM中的SQL语言来帮助那些熟悉SQL的用户查询Hadoop中的数据，该查询语言称为HiveQL。

与此同时，那些传统的MapReduce编程人员也可以在Mapper或Reducer中通过

HiveQL查询数据。

Hive编译器会把HiveQL编译成一组MapReduc^S务，从而方便MapReducd编程人员进行Hadoop应用的开发。

Pig

Pig是一个对大型数据集进行分析和评估的平台。

Pig最突出的优势

是它的结构能够经受住高度并行化的检验，这个特性让它能够处理大

型的数据集。

目前，Pig的底层由一个编译器组成，它在运行的时候会产生一些MapReduce程序序列，Pig的语言层由一种叫做PigLatin的正文型语言组成。

Chukwa

Chukwa是开源的数据收集系统，用于监控和分析大型分布式系统的

数据。

Chukwa是在Hadoop的HDFS和MapReduce匡架之上搭建的，它同时继承了Hadoop的可扩展性和健壮性。

Chukwa通过HDFS来存储数据，并依赖于MapReduce^务处理数据。

Chukwa中也附带了灵活且强大的工具，用于显示、监视和分析数据结果，以便更好地利用所收集的数据。

大数据存储

存储的讲解分为四部分：

HDFS,HBase,NoSQ和云数据库

分布式文件系统简介

相对于传统的本地文件系统而言，分布式文件系统是一种通过网

络实现文件在多台计算机上进行分布式存储的文件系统。

分布式文件

系统的设计一般采用“客户机/服务器”（client/server）模式，客户端以特定的通信协议通过网络与服务器建立连接，提出文件访问请

求，客户端和服务器可以通过设置访问权来限制请求方对底层数据存储快的访问。

在我们所熟悉的WindowsLinux操作系统中，文件系统一般会把磁盘空间划分为每512字节一组，称为“磁盘块”，它是文件系统读写操作的最小单位，文件系统的块（block）通常是磁盘块的整数倍，即每次读写的数据量必须是磁盘块大小的整数倍。

分布式文件系统也采用了块的概念，HDFS默认的一个块的大小为64MB与普通文件不同的是，在分布式文件系统中，如果一个文件小于一个数据块的大小，它并不占用整个数据块的存储空间。

分布式文件系统在物理结构上由计算机群中的多个节点构成，这些节点分为两类，一类叫“主节点”（masternode）或者也称为“名

称节点”（namenode，另一类叫“从节点”（slavenode）或者也被称为“数据节点”（datanode）。

名称节点负责文件和目录的创建、删除和重命名等，同时管理着数据节点和文件块的映射关系，因此客户端只有访问名称节点才能找到请求的文件块所在的位置。

数据节点负责数据的存储和读取，在存储时，由名称节点分配存储位置，然后由客户端把数据直接写入相应的数据节点；

在读取时，客户端从名称节点获得数据节点和文件块的映射关系，然后就可以到相应位置访问文件块。

计算机集群中的节点可能发生故障，因此，为了保障数据的完整性，分布式文件系统通常采用多副本存储。

文件块会被复制为多个副

本，存储在不同的节点上，而且，存储同一文件块的不同副本节点，会分布在不同机架上。

HDFS简介

在HDFS中，名称节点（namenode负责管理分布式文件系统的命名空间，保存了两个核心的数据结构，即FsImage和EditLog。

名称节点

Fslmage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据，操作日志文件EditLog中记录了所有针对文件的创建、删除、重命名等操作。

名称节点记录了每个文件中各个块所在的数据节点的位置信息。

Fslmage文件包含文件系统中所有目录和文件inode的序列化形式。

每个inode是一个文件或目录的元数据的内部表示，并包含此类

信息：

文件的复制等级、修改和访问时间、访问权限、块大小以及组成文件的块。

对于目录，则存储修改时间、权限和配额元数据。

Fslmage文件没有记录块存储在哪个数据节点。

而是由名称节点把这些映射保留在内存中，当数据节点加入HDFS集群时，数据节点

会把自己所包含的块列表告知给名称节点，此后会定期执行这种告。

在名称节点启动的时候，它会将Fslmage文件中的内容加载到内存中，之后再执行EditLog文件中的各项操作，使得内存中的元数据和实际的同步，存在内存中的元数据支持客户端的读操作。

一旦在内存中成功建立文件系统元数据的映射，则创建一个新的Fslmage文件和一个空的EditLog文件。

名称节点起来之后，HDFS中的更新操作会重新写到EditLog文件中，因为Fslmage文件一般都很大（GB级别的很常见），如果所有的更新操作都往Fslmage文件中添加，这样会导致系统运行的十分缓慢，但是，如果往EditLog文件里面写就不会这样，因为EditLog要小很多。

每次执行写操作之后，且在向客户端发送成功代码之前，edits文件都需要同步更新。

名称节点运行期间EditLog不断变大的问题

在名称节点运行期间，HDFS的所有更新操作都是直接写到

EditLog中，久而久之，EditLog文件将会变得很大。

虽然这对名称节点运行时候是没有什么明显影响的，但是，当名称节点重启的时候，名称节点需要先将Fslmage里面的所有内容映像到内存中，然后再一条一条地执行EditLog中的记录，当EditLog文件非常大的时候，会导致名称节点启动操作非常慢，而在这段时间内HDFS系统处于安全

模式，一直无法对外提供写操作，影响了用户的使用。

如何解决？

答案是：

SecondaryNameNod第二名称节点

第二名称节点

第二名称节点是HDFS架构中的一个组成部分，它是用来保存名称节点中对HDF阮数据信息的备份，并减少名称节点重启的时间。

SecondaryNameNod一般是单独运行在一台机器上。

数据节点（DataNode）

数据节点是分布式文件系统HDFS的工作节点，负责数据的存储和读取，会根据客户端或者是名称节点的调度来进行数据的存储和检索，并且向名称节点定期发送自己所存储的块的列表。

每个数据节点

中的数据会被保存在各自节点的本地Linux文件系统中。

HDFS体系结构

HDFS采用了主从（Master/Slave）结构模型，一个HDFS集群包括一个名称节点（NameNod）和若干个数据节点（DataNode）（如图3-4所示）。

名称节点作为中心服务器，负责管理文件系统的命名空

间及客户端对文件的访问。

集群中的数据节点一般是一个节点运行一个数据节点进程，负责处理文件系统客户端的读/写请求，在名称节点的统一调度下进行数据块的创建、删除和复制等操作。

每个数据节

点的数据实际上是保存在本地Linux文件系统中的。

HDFS勺命名空间包含目录、文件和块。

在HDFS1.0体系结构中，在整个HDFS集群中只有一个命名空间，并且只有唯一一个名称节点，该节点负责对这个命名空间进行管理。

HDFS使用的是传统的分级文

件体系，因此，用户可以像使用普通文件系统一样，创建、删除目录和文件，在目录间转移文件，重命名文件等。

HDFS是一个部署在集群上的分布式文件系统，因此，很多数据需要通过网络进行传输，所有的HDFS1信协议都是构建在TCP/IP协议基础之上的，客户端通过一个可配置的端口向名称节点主动发起TCP

连接，并使用客户端协议与名称节点进行交互，名称节点和数据节点之间则使用数据节点协议进行交互，客户端与数据节点的交互是通过RPC（RemoteProcedureCall）来实现的。

在设计上，名称节点不会主动发起RPC而是响应来自客户端和数据节点的RPC#求。

客户端是用户操作HDFS最常用的方式，HDFS在部署时都提供了客户端。

HDFS客户端是一个库，暴露了HDFS文件系统接口，这些接口隐藏了HDFS实现中的大部分复杂性。

严格来说，

展开阅读全文