1、西安电子科技大学学位论文创新性声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切的法律责任。本人签名:日期西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知
2、识产权单位属西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。(保密的论文在解密后遵守此规定)本学位论文属于保密,在本人签名:导师签名:年解密后适用本授权书。日期日期摘要随着互联网的不断发展,国内大型互联网公司业务的不断复杂化,分析核心数据成为了公司发展的关键点,但是公司内部的核心数据原始文件庞大,目前大部分是通过人工分析得出结论,因此分析处理海量数据成为亟待解决的问题。本文研究了海量数据处理的国内外现状,阐述了分
3、布式 MapReduce 的编程思想,介绍了 Hadoop 的相关技术和 HDFS 文件系统,分析了企业的需求,使用了spring- mvc 和 hibernate 等 Web 开发框架对系统进行了分层设计,将系统分成了展现层、业务逻辑层、数据对象实体层、底层数据层和原始资源层。然后对系统结构展开设计和实现,结合实际业务设计了分布式 Hadoop 计算模块、数据结果存储模块和业务系统逻辑模块三个模块,最后对各个模块进行了测试,实现海量数据分析系统。本文所做工作被用于大型互联网公司系统的开发。实践表明,采用本文所设计的系统后,提高了数据分析的效率,改变了人工计算海量数据的情况,实现了数据分析统计
4、的高效性和集中性。关键词:Hadoop MapReduce 数据分析AbstractWith the continuous development of the Internet, business of a large domesticcompany is going to be more and more complex. Analysis of core data becomes a keypoint of the development of the company, but the internal core raw data files are huge.They get the
5、conclusion by manual analysis. Therefore, analysis and processingmassive data become problems to be solved.In this paper, we research the home and ab road status for massive dataprocessing. The MapReduce distributed programming idea is elaborated. Weintroduce technologies about Hadoop and the HDFS f
6、ile system, analysis of the needsof enterprises. Spirng-Mvc and Hibernate web development framework are applied tohierarchical designing in the system. The system is divided into five layers : viewlayer,business logic layer,data object layer,underlying data layer and originalresource layer. Then we
7、expand the design and implementation of the systemstructure. Hadoop calculation module, data storage module and business systemmodule are designed with actual business. Finally, each module is tested , Mass dataanalysis system is finished.The work in this paper makes use of the development of a syst
8、em of a largeInternet company. Practice shows that the system designed in this paper improves theefficiency of data analysis, it changes the status of artificially calculating the massdata and makes the statistical data analysis efficient and centralized.Keyword:HadoopMapReduceData Analysis目录第一章绪论 .
9、 11.1 论文背景及意义. 11.2 国内外研究现状. 21.3 本文研究内容. 31.4 章节安排. 3第二章基于 Hadoop 的分布式技术 . 52.1 分布式计算的思想. 52.2 分布式计算的技术. 72.2.1 Hadoop 原理 . 72.2.2 Hadoop 应用 . 82.3 本章小结. 9第三章基于 Hadoop 的海量数据分析系统的目标应用 . 113.1 目标应用的需求分析. 113.2 目标应用的设计架构. 123.2.1 目标应用的总体架构.123.2.2 目标应用的流程分析.173.3 本章小结.18第四章基于 Hadoop 的海量数据分析系统的设计实现 . 214.1 总体设计.214.2 数据结构设计. 234.3 模块详细设计. 294.3.1 分布式 Hadoop 计算模块 . 294.3.2 数据结果存储模块. 324.3.3 业务系统逻辑模块.
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1