基于 hadoop海量数据分析系统设计与实现毕业论文.docx

资源描述

基于 hadoop海量数据分析系统设计与实现毕业论文.docx

《基于 hadoop海量数据分析系统设计与实现毕业论文.docx》由会员分享，可在线阅读，更多相关《基于 hadoop海量数据分析系统设计与实现毕业论文.docx（60页珍藏版）》请在冰豆网上搜索。

基于 hadoop海量数据分析系统设计与实现毕业论文.docx

西安电子科技大学学位论文创新性声明

秉承学校严谨的学风和优良的科学道德，本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。

尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果；也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。

与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。

申请学位论文与资料若有不实之处，本人承担一切的法律责任。

本人签名：

日期

西安电子科技大学关于论文使用授权的说明

本人完全了解西安电子科技大学有关保留和使用学位论文的规定，即：

研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。

学校有权保留送交论文的复印件，允许查阅和借阅论文；学校可以公布论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存论文。

同时本人保证，毕业后结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。

（保密的论文在解密后遵守此规定）

本学位论文属于保密，在本人签名：

导师签名：

年解密后适用本授权书。

日期日期

摘要

随着互联网的不断发展，国内大型互联网公司业务的不断复杂化，分析核心数据成为了公司发展的关键点，但是公司内部的核心数据原始文件庞大，目前大部分是通过人工分析得出结论，因此分析处理海量数据成为亟待解决的问题。

本文研究了海量数据处理的国内外现状，阐述了分布式MapReduce的编程思想，介绍了Hadoop的相关技术和HDFS文件系统，分析了企业的需求，使用了spring-mvc和hibernate等Web开发框架对系统进行了分层设计，将系统分成了展现层、业务逻辑层、数据对象实体层、底层数据层和原始资源层。

然后对系统结

构展开设计和实现，结合实际业务设计了分布式Hadoop计算模块、数据结果存储模块和业务系统逻辑模块三个模块，最后对各个模块进行了测试，实现海量数据分析系统。

本文所做工作被用于大型互联网公司系统的开发。

实践表明，采用本文所设计的系统后，提高了数据分析的效率，改变了人工计算海量数据的情况，实现了数据分析统计的高效性和集中性。

关键词：

HadoopMapReduce数据分析

Abstract

WiththecontinuousdevelopmentoftheInternet,businessofalargedomesticcompanyisgoingtobemoreandmorecomplex.Analysisofcoredatabecomesakeypointofthedevelopmentofthecompany,buttheinternalcorerawdatafilesarehuge.

Theygettheconclusionbymanualanalysis.Therefore,analysisandprocessingmassivedatabecomeproblemstobesolved.

Inthispaper,weresearchthehomeandabroadstatusformassivedataprocessing.TheMapReducedistributedprogrammingideaiselaborated.WeintroducetechnologiesaboutHadoopandtheHDFSfilesystem,analysisoftheneedsofenterprises.Spirng-MvcandHibernatewebdevelopmentframeworkareappliedtohierarchicaldesigninginthesystem.Thesystemisdividedintofivelayers:

viewlayer，businesslogiclayer，dataobjectlayer，underlyingdatalayerandoriginalresourcelayer.Thenweexpandthedesignandimplementationofthesystemstructure.Hadoopcalculationmodule,datastoragemoduleandbusinesssystemmodulearedesignedwithactualbusiness.Finally,eachmoduleistested,Massdataanalysissystemisfinished.

TheworkinthispapermakesuseofthedevelopmentofasystemofalargeInternetcompany.Practiceshowsthatthesystemdesignedinthispaperimprovestheefficiencyofdataanalysis，itchangesthestatusofartificiallycalculatingthemassdataandmakesthestatisticaldataanalysisefficientandcentralized.

Keyword:

Hadoop MapReduce DataAnalysis

第一章绪论 1

1.1论文背景及意义 1

1.2国内外研究现状 2

1.3本文研究内容 3

1.4章节安排 3

第二章基于Hadoop的分布式技术 5

2.1分布式计算的思想 5

2.2分布式计算的技术 7

2.2.1Hadoop原理 7

2.2.2Hadoop应用 8

2.3本章小结 9

第三章基于Hadoop的海量数据分析系统的目标应用 11

3.1目标应用的需求分析 11

3.2目标应用的设计架构 12

3.2.1目标应用的总体架构 12

3.2.2目标应用的流程分析 17

3.3本章小结 18

第四章基于Hadoop的海量数据分析系统的设计实现 21

4.1总体设计 21

4.2数据结构设计 23

4.3模块详细设计 29

4.3.1分布式Hadoop计算模块 29

4.3.2数据结果存储模块 32

4.3.3业务系统逻辑模块 33

4.4本章小结 39

第五章基于Hadoop的海量数据系统的部署和测试 41

5.1项目部署 41

5.1.1文件命名规范 41

5.1.2代码工程文件部署 42

5.2系统测试 43

5.2.1分布式Hadoop计算模块的测试 43

5.2.2核心数据文件存储模块测试 43

5.2.3业务逻辑系统模块测试 43

5.3结果分析 45

5.4本章小结 46

第六章结束语 47

6.1本文工作 47

6.2存在问题 47

致谢 49

参考文献 51

第一章绪论

本章首先阐述课题的背景和研究意义，接着介绍分布式技术的国内外研究现状，最后给出本文研究内容及章节安排。

1.1论文背景及意义

随着计算机技术以及互联网的快速发展,特别是网络的普及,金融、通信等大众行业对信息的需求越来越高,亟待处理的数据量也越来越大。

与此同时,人们对复杂查询操作能力的需求以及高性能联机事务处理能力也在不断提高。

因此,如何存储计算海量数据成为当今的研究热点。

当前单一节点服务器的计算能力已经达到了瓶颈，而现代大型企业的数据的异构性、复杂性和关联性非常强，数据量非常大，这样对服务器存储资源、计算资源都提出了较高的要求，因此，利用云计算的分布式技术获取网络中强大的计算存储资源，将消耗大量计算资源的复杂计算通过网络分布到多节点上进行计算，是当前一种高效的解决方案。

国内大型互联网公司，随着它的业务一步一步增大拓宽，所采用的系统也越来越多，相应的，开发和维护这些系统的团队也就越来越复杂，甚至出现了几个团队共同维护一个系统的局面。

由于公司内部的许多核心数据是必须要产生并且加以分析的，而众多的公司系统则对产生和分析数据造成了相当大的困难，一方面，大规模的数据需要强大的运算能力才能够加以分析，传统的单机处理已经不能够满足当前业务发展的需求，另一方面，众多的业务系统，使得众多数据的处理和分析更加困难，公司内部存在着手工分析分布式系统数据结果的现状不能够得到改善，工作效率严重受到影响。

因此，企业迫切的需要一个可以大规模集中处理和分析展现数据的系统模式，统筹规划庞大的数据,实现高效处理。

大规模数据的分析和计算,首要的问题就是庞大的计算量,分布式计算的通用的解决方案,用多个机器承载计算任务，优化任务的运算效率。

但是分布式计算任务的实现中存在着一些问题,比如输入文件的优化处理和分布式任务的运行管理。

所以,一种优化且良好封装的分布式框架,由底层封装文件调度、并行计算、容错处理等功能，用户进行分布式计算逻辑的设计，这样就可以优化传统的分布式任务流程。

由谷歌公司研发的Map/Reduce编程模型应运而生。

同时,Hadoop分布式框架实现了这个模型,有力的支持了这种新兴的分布式编程思想。

另一方面，随着Web技术的飞速发展，基于Web的数据分析和管理系统能够集中统一的分析数据，并且在互联网上通过浏览器进行数据分析结果

的良好展现。

这样就解决了人工分析大规模数据结果的弊端，为高效统一的数据分析展现提供了很好的解决途径。

基于Hadoop的海量数据分析系统的意义在于：

1.避免重复性的工作。

Web数据分析系统可以通过规范可复用的流程对数据进行分析展现，它可以避免人工分析数据结果的弊端，从而节省人力物力、提高企业工作效率。

2提高大规模数据的处理能力，基于Hadoop的数据分析和计算可以应对海量数据级别的任务，通过快速高效的运算能力，使得企业迅速得到数据分析的结果，为今后的发展提供了保障。

1.2国内外研究现状

首先介绍一下目前流行的分布式技术，MapReduce编程模型。

它的思想来源于一种函数式编程语言，名字叫做Lisp，这种编程语言由谷歌公司提出并首先应用于计算机集群。

Hadoop框架的核心思想就是Map/Reduce。

谷歌研发出了GFS等硬件模型来承载MapReduce模型。

Map/Reduce是一个用于海量数据运算的编程模型，于此同时它也是一种高效的任务调度模型[1]。

在2007年，谷歌对这个模型进行了更加深入的研发。

谷歌公司以这种分布式编程规范作为基础，在互联网公司中渐渐地居于主导地位。

Hadoop是在DougCutting等人带领下进行设计研发的，同时他被Apache基金会认可，并成为了其旗下的一个著名的开源项目，它基于Lucene和Nutch等早前开源框架，基本上实现了谷歌自己的文件系统和最新的分布式编程思想。

在

2004年，他们完成了Hadoop分布式文件系统并发布了最早的版本；2005年，他们进一步研发不断增大Hadoop集群的数量，最终使得Hadoop集群的稳定数量达到了20；2

展开阅读全文