大数据介绍课件.pptx

资源描述

大数据介绍课件.pptx

《大数据介绍课件.pptx》由会员分享，可在线阅读，更多相关《大数据介绍课件.pptx（71页珍藏版）》请在冰豆网上搜索。

大数据介绍课件.pptx

大数据时代的背景,“大数据”的诞生：

半个世纪以来，随着计算机技术全面融入社会生活，信息爆炸已经累积到了开始引发变革的程度。

它不仅使世界充斥着比以往更多的信息，而且其增长速度也在加快。

如今，这个概念几乎应用到了所有人类智力与发展的领域中。

21世纪是数据信息大发展的时代，移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围，各种数据正在迅速膨胀并变大互联网（社交、搜索、电商）、移动互联网（微博）、物联网（传感器、智慧地球）、车联网、GPS、医学影像、安全监控、金融（银行、股市、保险）、电信（通话、短信）,大数据的定义,大数据（Bigdata或Megadata），或称巨量数据、海量数据、大资料，指的是所涉及的数据量规模巨大到无法通过人工在合理时间内截取、管理、处理、并整理成为人类所能解读的形式的信息。

数据大爆炸,EB,ZB,地球上至今总共的数据量：

在2006年，个人用户才刚刚迈进TB时代，全球一共新产生了约180EB的数据；在2011年，这个数字达到1.8ZB.到2020年，整个世界的数据总量会增长44倍，达到35ZB,想要驾驭着庞大的数据必须先了解大数据的特征,多样性（Variety）,大数据具有4V特征,速度（Velocity）,价值（Value）,容量（Volume）,海量数据处理，难以集中存储和计算TBPBEB,快速地数据传输流模式实时准实时批量,多种多样的数据类型结构化半结构化非结构化,巨大的数据价值高价值低密度碎片化高离散化,传统数据与大数据对比,相关技术,分析技术：

数据处理：

自然语言处理技术统计和分析：

A/Btest；topN排行榜数据挖掘：

关联规则分析；分类；聚类,大数据技术：

数据采集：

ETL工具数据存取：

关系数据库；NoSQL；SQL等基础架构支持：

云存储；分布式文件系统等计算结果展现：

云计算；标签云；关系图等,存储：

结构化数据：

海量数据的查询、统计、更新等操作效率低非结构化数据：

图片、视频、word等文件存储不利于检索、查询和存储半结构化数据：

转换为结构化存储按照非结构化存储解决方案：

Hadoop流计算,Hbase的优劣,1、动态可扩展的，创建表的时候不需要知道有几列，只需要指定有几个columnfamily，并且列为空就不存储数据,节省存储空间。

为什么列是动态的？

统计淘宝访问量和购买量，新平台的统计，传统关系型数据库需要停机维护，而Hbase支持动态增加2、多版本数据根据Rowkey和Columnkey定位到的Value可以有任意数量的版本值，因此对于需要存储变动历史记录的数据，用HBase就非常方便了。

3、支持事务较弱，所以有事务支持的时候都会选择传统的关系型数据库，Hbase事务仅仅是针对某一行的一系列Put/Delete操作。

不同行、不同表间一系列操作是无法放在一个事务中的。

对一张多Region表来说，还是无法保证每次修改都能封装为一个事务。

计算框架,批处理：

mapreduce实时性：

（毫秒级）storm交互式分析：

（秒级）spark,例：

报表例：

信用卡欺诈,数据挖掘,数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程数据挖掘,数据可视化,大数据主要应用技术-Hadoop,Hadoop是一个由Apache基金会所开发的分布式系统基础架构Hadoop的框架最核心的设计就是：

HDFS和MapReduce。

HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

运行平台：

Linux、MacOS/X，Solaris，Windows,Hadoop优点,1、高可靠性：

hadoop按位存储和处理数据的能力值得人们信赖。

2、高扩展性：

hadoop是在可用的计算机集簇之间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。

3、高效性：

能够在节点之间动态地移动数据，并保证各个节点之间的动态平衡，因此处理速度非常快。

4、高容错性：

hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。

5、低成本：

hadoop本身是运行在普通PC服务器组成的集群中进行大数据的分发及处理工作的，这些服务器集群是可以支持数千个节点的。

Hadoop核心设计,MapReduce,HDFS,Map：

任务的分解Reduce：

结果的汇总,NameNode：

文件管理DataNode：

文件存储Client：

文件获取,HDFS架构,主从（Master/Slave）体系结构只含有一二NameNode主服务节点这个节点管理文件系统中的命名空间和调度客服端对文件的访问通常一个机器就是一个DataNode数据节点，DataNode管理本节点上数据的存储在HDFS内部，一个文件被分割为一个货多个数据块，并且这些数据块被存储在一批DataNode中NameNode执行文件系统中命名空间的操作（打开、关闭、重命名文件和目录），NameNode需要执行数据块到DataNode映射的决策DataNode负责响应来自客户端的文件读写要求，也要负责执行来自NameNode的关于数据块创建、删除和冗余存储的指令,Map/Reduce处理过程,一次Map/Reduce任务过程。

用户提交给JobTracer，JobTracer把对应的用户程序中的Map操作和Reduce操作映射至TaskTracer节点中；输入模块负责把输入数据分成小数据块。

然后把他们传给Map节点；Map节点得到每一个key/value对，处理后产生一个或多个key/value对，然后写入文件；Reduce节点获取临时文件中的数据，对代用相同key的数据进行迭代计算，然后把最终结果写入文件。

我们要数图书馆中的所有书。

你数1号书架，我数2号书架。

这就是“Map”。

我们人越多，数书就更快。

现在我们到一起，把所有人的统计数加在一起。

这就是“Reduce”。

Hadoop体系架构,Pig,Hive,Avro,Mahout,MapReduce/YARN,Cassandra,HBase,HDFS,ApacheAmbari是一个基于Web的工具，用于配置、管理和监视ApacheHadoop集群，支持HadoopHDFS、HadoopMapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop。

ApacheAmbari,ApachePig是一个用于大型数据集分析的平台，它包含了一个用于数据分析应用的高级语言以及评估这些应用的基础设施。

Pig应用的闪光特性在于它们的结构经得起大量的并行，也就是说让它们支撑起非常大的数据集。

Pig的基础设施层包含了产生Map-Reduce任务的编译器,ApachePig,ApacheHive是Hadoop的一个数据仓库系统，促进了数据的综述（将结构化的数据文件映射为一张数据库表）、即席查询以及存储在Hadoop兼容系统中的大型数据集分析。

Hive提供完整的SQL查询功能HiveQL语言，同时当使用这个语言表达一个逻辑变得低效和繁琐时，HiveQL还允许传统的Map/Reduce程序员使用自己定制的Mapper和Reducer。

Hive类似CloudBase，基于hadoop分布式计算平台上的提供datawarehouse的sql功能的一套软件。

使得存储在hadoop里面的海量数据的汇总，即席查询简单化。

ApacheHive,HBase是一个分布式的、面向列的开源数据库，该技术来源于FayChang所撰写的Google论文“Bigtable：

一个结构化数据的分布式存储系统”。

就像Bigtable利用了Google文件系统（FileSystem）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。

HBase是Apache的Hadoop项目的子项目。

HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

另一个不同的是HBase基于列的而不是基于行的模式。

ApacheHBase,ApacheCassandra是一个高性能、可线性扩展、高有效性数据库，可以运行在商用硬件或云基础设施上打造完美的任务关键性数据平台。

在横跨数据中心的复制中，Cassandra同类最佳，为用户提供更低的延时以及更可靠的灾难备份。

通过log-structuredupdate、反规范化和物化视图的强支持以及强大的内置缓存，Cassandra的数据模型提供了方便的二级索引（columnindex）,ApacheCassandra,Avro是一个数据系列化系统；Avro是dougcutting主持的RPC项目，有点类似Google的protobuf和Facebook的thrift。

Avro用来做以后hadoop的RPC，使hadoop的RPC模块通信速度更快、数据结构更紧凑ApacheMahout是个可扩展的机器学习和数据挖掘库，当前Mahout支持主要的4个用例：

推荐挖掘：

搜集用户动作并以此给用户推荐可能喜欢的事物。

聚集：

收集文件并进行相关文件分组。

分类：

从现有的分类文档中学习，寻找文档中的相似特征，并为无标签的文档进行正确的归类。

频繁项集挖掘：

将一组项分组，并识别哪些个别项会经常一起出现。

Zookeeper是Google的Chubby一个开源的实现。

它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：

配置维护、名字服务、分布式同步、组服务等。

ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。

ApacheChukwa是个开源的数据收集系统，用以监视大型分布系统。

建立于HDFS和Map/Reduce框架之上，继承了Hadoop的可扩展性和稳定性。

Chukwa同样包含了一个灵活和强大的工具包，用以显示、监视和分析结果，以保证数据的使用达到最佳效果。

Hadoop平台的安装配置,Hadoop安装配置参考如下：

http:

/,Zookeeper从程序员的角度来讲可以理解为Hadoop的整体监控系统。

如果namenode,HMaster宕机后，这时候Zookeeper的重新选出leader。

这是它最大的作用所在。

下面详细介绍zookeeper的作用Hadoop有NameNode，HBase有HMaster，为什么还需要zookeeper，下面给大家通过例子给大家介绍。

一个Zookeeper的集群中,3个Zookeeper节点.一个leader,两个follower的情况下,停掉leader,然后两个follower选举出一个leader.获取的数据不变.我想Zookeeper能够帮助Hadoop做到:

Hadoop,使用Zookeeper的事件处理确保整个集群只有一个NameNode,存储配置信息等.HBase,使用Zookeeper的事件处理确保整个集群只有一个HMaster,察觉HRegionServer联机和宕机,存储访问控制列表等.,Hbase是一个分布式的、面向列的数据库。

Hbase利用hadoop的HDFS作为其的文件存储系统，Hbase利用hadoop的MapReduce来处理Hbase中的海量数据，利用Zookeeper作为协同服务HBaseshell的基本用法hbase提供了一个shell的终端给用户交互。

通过执行helpget可以看到命令的帮助信息。

以网上的一个学生成绩表的例子来演示hbase的用法。

这里grad对于表来说是一个列,course对于表来说是一个列族,这个列族由两个列组成math和art,当然我们可以根据我们的需要在course中建立更多的列族,如computer,physics等相应的列添加入course列族。

name,grad,course,mathart97878

展开阅读全文