大数据应用分析(Hadoop)PPT课件下载推荐.ppt
《大数据应用分析(Hadoop)PPT课件下载推荐.ppt》由会员分享,可在线阅读,更多相关《大数据应用分析(Hadoop)PPT课件下载推荐.ppt(45页珍藏版)》请在冰豆网上搜索。
,优点:
可扩展:
不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。
经济:
框架可以运行在任何普通的PC上。
可靠:
分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。
高效:
分布式文件系统的高效数据交互实现以及MapReduce结合LocalData处理的模式,为高效处理海量的信息作了基础准备。
MapReduce,HDFS,HBase,Pig,ChuKwa,Hive,ZooKeeper,Hadoop体系架构,Pig是一个基于Hadoop的大规模数据分析平台,Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口Chukwa是基于Hadoop的集群监控系统,由yahoo贡献hive是基于Hadoop的一个工具,提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行ZooKeeper:
高效的,可扩展的协调系统,存储和协调关键共享状态HBase是一个开源的,基于列存储模型的分布式数据库HDFS是一个分布式文件系统。
有着高容错性的特点,并且设计用来部署在低廉的硬件上,适合那些有着超大数据集的应用程序MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算,MapReduceMap:
任务的分解Reduce:
结果的汇总,两大核心设计,HDFSNameNode:
文件管理DataNode:
文件存储Client:
文件获取,Hadoop核心设计,HDFS分布式文件系统,NameNode可以看作是分布式文件系统中的管理者,存储文件系统的meta-data,主要负责管理文件系统的命名空间,集群配置信息,存储块的复制。
DataNode是文件存储的基本单元。
它存储文件块在本地文件系统中,保存了文件块的meta-data,同时周期性的发送所有存在的文件块的报告给NameNode。
Client就是需要获取分布式文件系统文件的应用程序。
HDFS是一个高度容错性的分布式文件系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
HDFS具体操作,文件写入:
1.Client向NameNode发起文件写入的请求2.NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。
3.Client将文件划分为多个文件块,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。
文件读取:
1.Client向NameNode发起文件读取的请求2.NameNode返回文件存储的DataNode的信息。
3.Client读取文件信息。
MapReduce映射、化简编程模型,1.根据输入数据的大小和参数的设置把数据分成splits,每个split对于一个map线程。
2.Split中的数据作为Map的输入,Map的输出一定在Map端。
3.Map的输出到Reduce的输入的过程(shuffle过程):
第一阶段:
在map端完成内存-排序-写入磁盘-复制第二阶段:
在reduce端完成映射到reduce端分区-合并-排序4.Reduce的输入到Reduce的输出最后排好序的key/value作为Reduce的输入,输出不一定是在reduce端。
MapReduce是一种编程模型,用于大规模数据集的并行运算。
Map(映射)和Reduce(化简),采用分而治之思想,先把任务分发到集群多个节点上,并行计算,然后再把计算结果合并,从而得到最终计算结果。
多节点计算,所涉及的任务调度、负载均衡、容错处理等,都由MapReduce框架完成,不需要编程人员关心这些内容。
HBASE分布式数据存储,HBaseHadoopDatabase,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统;
HBase位于结构化存储层,HDFS为HBase提供了高可靠性的底层存储支持,MapReduce为HBase提供了高性能的计算能力,Zookeeper为HBase提供了稳定服务和failover机制;
Pig和Hive还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的简单。
5.东软基于HADOOP的大数据应用建议,内容提要,1.大数据背景介绍,2.HADOOP体系架构,3.基于HADOOP的大数据产品分析,4.基于HADOOP的大数据行业应用分析,Hadoop主要开发厂商,大型企业和机构在寻求解决棘手的大数据问题时,往往会使用开源软件基础架构Hadoop的服务。
由于Hadoop深受欢迎,许多公司都推出了各自版本的Hadoop,也有一些公司则围绕Hadoop提供解决方案。
Hadoop的发行版除了社区的Apachehadoop外,cloudera,IBM,ORACLE等都提供了自己的商业版本。
商业版主要是提供Hadoop专业的技术支持,这对一些大型企业尤其重要。
Cloudera,EMC,。
IBM,Oracle,Hadoop主要开发厂商CLOUDERA,在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。
2008年成立的Cloudera是最早将Hadoop商用的公司,为合作伙伴提供Hadoop的商用解决方案,主要是包括支持,咨询服务和培训。
Cloudera的客户中倒是有很多知名公司,如AOL、哥伦比亚广播公司、eBay、Expedia、摩根大通、Monsanto、诺基亚、RIM和迪士尼等。
Cloudera企业解决方案包括Hadoop软件发行版、Cloudera管理器。
Hadoop主要开发厂商Hortonworks,2011年成立的Hortonworks是雅虎与硅谷风投公司BenchmarkCapital合资组建的公司。
公司成立之初吸纳了大约25名至30名专门研究Hadoop的雅虎工程师,上述工程师均在2005年开始协助雅虎开发Hadoop,这些工程师贡献了hadoop80%的代码。
Hortonworks的主打产品是HortonworksDataPlatform(HDP),包括稳定版本的ApacheHadoop的所有关键组件。
InfoSphereBigInsights是一个软件平台,旨在帮助企业从大量不同范围的数据中挖掘商机并进行分析,如日志记录、点击流、社会媒体数据、新闻摘要、电子传感器输出,甚至是一些事务数据等。
BigInsights包括ApacheHadoop发行版、面向MapReduce编程的Pig编程语言、针对IBM的DB2数据库的连接件以及IBMBigSheets。
IBM通过其智慧云企业(SmartCloudEnterprise)基础架构,将BigInsights和BigSheets作为一项服务来提供。
客户不必购买支持性硬件,也不需要IT专门知识,就可以学习和试用大数据处理和分析功能。
据IBM称,客户用30分钟就能搭建起Hadoop集群,并能将现有数据转移到集群里面。
Hadoop主要开发厂商IBM,Hadoop主要开发厂商ORACLE,OracleBigData机与OracleExadata数据库云服务器以及新推出的OracleExalytics商务智能云服务器,为客户提供了一个端到端的大数据解决方案,从而为客户在企业内获取、组织、分析大数据以及最大限度地挖掘大数据的价值提供了所需要的一切条件。
OracleBigData机是一款集成设计的系统,并且针对获取、组织以及将非结构化数据加载到Oracle数据库11g之中的整个流程进行优化。
OracleBigData机包括开源ApacheHadoop、OracleNoSQL数据库、Oracle数据集成Hadoop应用适配器、OracleHadoop装载器。
EMC公司于2013年发布了自身的ApacheHadoop发行版PivotalHD,同时发布的还有一个名为HAWQ的技术,通过HAWQ能够将Greenplum分析型数据库与Hadoop分布式架构进行紧密地融合。
PivotalHD对ApacheHadoop进行了全面的改造,同其他一些Hadoop发行版相比,其最大的优势就是能够与Greenplum数据库进行整合,PivotalHD和HAWQ让EMC在Hadoop领域更进一步,同时将成为EMC大数据战略中的一个重要里程碑。
Hadoop主要开发厂商EMC,基于在大数据领域的长期技术积累和应用经验,英特尔推出成熟的企业级Hadoop发行版,为企业和政府部门实现大数据应用提供强有力的平台支持。
英特尔在Hadoop上的改进和功能增强为用户提供了一个高性能、高稳定性和可管理的大数据应用实施平台,并提供全面的专业支持。
在Hadoop软件的英特尔分发版在中国推广的两年多时间里,已经在电信行业、智能交通行业有多个成功应用。
Hadoop主要开发厂商INTEL,5.东软基于HADOOP的大数据应用建议,内容提要,1.大数据背景介绍,2.HADOOP体系架构,3.基于HADOOP的大数据产品分析,4.基于HADOOP的大数据行业应用分析,大数据应用行业分析,应用可能性,电信,政府(公共事业),交通,金融,医疗,教育,能源(电力/石油),纵轴契合度:
表示该用户的IT应用特点与大数据特性的契合程度;
横轴应用可能性:
表示该用户出于主客观因素在短期内投资大数据的可能性;
注:
该位置为分析师访谈的综合印象,为定性分析,图中位置不代表具体数值,High,Mid,Low,Low,Mid,High,优先关注行业用户,应用特点与大数据技术有较高的契合度,在主客观条件上也有较高的应用可能性。
值得关注行业用户应有特点与大数据的契合度及应用可能性综合较高,适当关注行业用户两个维度暂时都不具备优势,可适当给予关注,互联网(电子商务),契合度,流通,零售,制造,金融行业,互联网,医疗行业,能源行业,电信行业,大数据行业应用分析互联网行业,政府行业,互联网行业拥抱大数据的关键因素,互联网大数据技术的应用,会首先带动社会化媒体、电子商务的快速发展,其他的互联网分支也会紧追其后,整个行业在大数据的推动下将会蓬勃发展。
互联网行业大数据需求分析,互联网行业对数据实时