基于hadoop平台的海量数据处理应用硕士学位论文.docx
《基于hadoop平台的海量数据处理应用硕士学位论文.docx》由会员分享,可在线阅读,更多相关《基于hadoop平台的海量数据处理应用硕士学位论文.docx(48页珍藏版)》请在冰豆网上搜索。
基于hadoop平台的海量数据处理应用硕士学位论文
LDEE-DGA:
基于双目标遗传算法的低延迟能量有效WSN路
由协议研究
孙宏宇
吉林大学
分类号:
TP393单位代码:
10183
研究生学号:
200953H202密级:
公开
吉林大学
硕士学位论文
基于Hadoop平台的海量数据处理应用
MassiveDataProcessingApplicationBasedonHadoop
基于Hadoop平台的海量数据处理应用
MassiveDataProcessingApplicationBasedonHadoop
作者姓名:
专业名称:
软件工程
指导教师:
副教授
学位类别:
工程硕士
答辩日期:
2012年6月日
吉林大学硕士学位论文原创性声明
本人郑重声明:
所呈交的硕士学位论文,是本人在指导教师的指导下,独立进行研究工作所取得的成果。
除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。
对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。
本人完全意识到本声明的法律结果由本人承担。
学位论文作者签名:
日期:
2012年月日
《中国优秀博硕士学位论文全文数据库》投稿声明
研究生院:
本人同意《中国优秀博硕士学位论文全文数据库》出版章程的内容,愿意将本人的学位论文委托研究生院向中国学术期刊(光盘版)电子杂志社的《中国优秀博硕士学位论文全文数据库》投稿,希望《中国优秀博硕士学位论文全文数据库》给予出版,并同意在《中国博硕士学位论文评价数据库》和CNKI系列数据库中使用,同意按章程规定享受相关权益。
论文级别:
■硕士□博士
学科专业:
计算机系统结构
论文题目:
基于Hadoop平台的海量数据处理应用
作者签名:
指导教师签名:
2012年月日
作者联系地址(邮编):
吉林大学计算机科学与技术学院130012
毕业设计(论文)原创性声明和使用授权说明
原创性声明
本人郑重承诺:
所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。
尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。
对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。
作者签名:
日 期:
指导教师签名:
日 期:
使用授权说明
本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:
按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。
作者签名:
日 期:
学位论文原创性声明
本人郑重声明:
所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。
除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。
对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。
本人完全意识到本声明的法律后果由本人承担。
作者签名:
日期:
年月日
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。
本人授权 大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
涉密论文按学校规定处理。
作者签名:
日期:
年月日
导师签名:
日期:
年月日
指导教师评阅书
指导教师评价:
一、撰写(设计)过程
1、学生在论文(设计)过程中的治学态度、工作精神
□优□良□中□及格□不及格
2、学生掌握专业知识、技能的扎实程度
□优□良□中□及格□不及格
3、学生综合运用所学知识和专业技能分析和解决问题的能力
□优□良□中□及格□不及格
4、研究方法的科学性;技术线路的可行性;设计方案的合理性
□优□良□中□及格□不及格
5、完成毕业论文(设计)期间的出勤情况
□优□良□中□及格□不及格
二、论文(设计)质量
1、论文(设计)的整体结构是否符合撰写规范?
□优□良□中□及格□不及格
2、是否完成指定的论文(设计)任务(包括装订及附件)?
□优□良□中□及格□不及格
三、论文(设计)水平
1、论文(设计)的理论意义或对解决实际问题的指导意义
□优□良□中□及格□不及格
2、论文的观念是否有新意?
设计是否有创意?
□优□良□中□及格□不及格
3、论文(设计说明书)所体现的整体水平
□优□良□中□及格□不及格
建议成绩:
□优□良□中□及格□不及格
(在所选等级前的□内画“√”)
指导教师:
(签名)单位:
(盖章)
年月日
评阅教师评阅书
评阅教师评价:
一、论文(设计)质量
1、论文(设计)的整体结构是否符合撰写规范?
□优□良□中□及格□不及格
2、是否完成指定的论文(设计)任务(包括装订及附件)?
□优□良□中□及格□不及格
二、论文(设计)水平
1、论文(设计)的理论意义或对解决实际问题的指导意义
□优□良□中□及格□不及格
2、论文的观念是否有新意?
设计是否有创意?
□优□良□中□及格□不及格
3、论文(设计说明书)所体现的整体水平
□优□良□中□及格□不及格
建议成绩:
□优□良□中□及格□不及格
(在所选等级前的□内画“√”)
评阅教师:
(签名)单位:
(盖章)
年月日
教研室(或答辩小组)及教学系意见
教研室(或答辩小组)评价:
一、答辩过程
1、毕业论文(设计)的基本要点和见解的叙述情况
□优□良□中□及格□不及格
2、对答辩问题的反应、理解、表达情况
□优□良□中□及格□不及格
3、学生答辩过程中的精神状态
□优□良□中□及格□不及格
二、论文(设计)质量
1、论文(设计)的整体结构是否符合撰写规范?
□优□良□中□及格□不及格
2、是否完成指定的论文(设计)任务(包括装订及附件)?
□优□良□中□及格□不及格
三、论文(设计)水平
1、论文(设计)的理论意义或对解决实际问题的指导意义
□优□良□中□及格□不及格
2、论文的观念是否有新意?
设计是否有创意?
□优□良□中□及格□不及格
3、论文(设计说明书)所体现的整体水平
□优□良□中□及格□不及格
评定成绩:
□优□良□中□及格□不及格
(在所选等级前的□内画“√”)
教研室主任(或答辩小组组长):
(签名)
年月日
教学系意见:
系主任:
(签名)
年月日
摘要
基于Hadoop平台的海量数据处理应用
面对互联网数据爆炸式的增长,传统单机处理方式已经慢慢落伍,新式的分布式并行处理日益成熟,将替代原有的处理方式。
时下有关数据的海量处理和存储成为研究的热潮。
在这其中,由DongCutting等人开发的Hadoop平台脱颖而出,成为分布式处理的宠儿。
Hadoop基础分布式架构主要由HDFS分布式文件系统和MapReduce计算模型组成。
HDFS主要负责海量数据的存储,而MapReduce主要负责在海量数据上的计算。
传统的日志处理一般都采用单机式的shell脚本处理,在面对今天海量数据处理中有些力不从心。
而随着互联网社交网络的发展,社交人际关系的处理也成为当今互联网研究的热点。
本文针对社交网络的海量日志处理,由传统shell处理方式,转向的Hadoop平台下的MapReduce处理方式。
提供更加快速的处理速度,更方便、快捷和人性化的处理界面,以及更加细致分析功能。
并在此基础上,应用和改进单源最短路径Dijkstra算法,将其分布式化,利用它分析社交网络中的人际关系。
在实验部分,通过搭建1个4台机器小集群,对比shell脚本处理,验证了hadoop在海量日志处理方面的优势。
同时利用分布式Dijkstra算法,分析了陌生人之间的人际关系。
最后本文还针对Hadoop平台运行作业提出了一些配置参数优化方式,这些参数都是通过对Hadoop源码的分析以及在大量作业运行的基础上分析获得的。
关键词:
Hadoop,MapReduce,海量日志处理,分布式Dijkstra算法
Abstract
MassiveDataProcessingApplicationBasedonHadoop
FacedwithexplosivegrowthofInternetdata,thetraditionalstand-aloneapproachhasbeenslowlyfallingbehind,andthenewformdistributedparallelprocessinghasbecomemoresophisticatedwhichwillreplacetheoriginalapproach.Nowadays,processingandstorageofmassivedatahasbecomeahotresearch.HadoopplatformdevelopedbyDongCuttingandothersstandsoutandbecomeanmostimportantresearchdirectionofdistributedprocessing.
HadoopbasisdistributedarchitectureiscomposedofHDFSdistributedfilesystemandMapReducecomputationmodel.TheHDFSisprimarilyresponsibleforthestorageofmassivedata,andMapReduceismainlyresponsibleforthecalculationofthemassivedata.Thetraditionallogprocessinggenerallyusesstand-aloneshellscriptprocessing,whenfaceingthemassivedataprocessing,thismethodlooksbloated.WiththedevelopmentoftheInternetsocialnetworking,social-interpersonaltreatmenthasalsobecomeahottopicoftoday'sInternetresearch.Onthi