基于Hadoop平台的教育资源垂直搜索系统的设计与实现毕业论文Word文件下载.docx
《基于Hadoop平台的教育资源垂直搜索系统的设计与实现毕业论文Word文件下载.docx》由会员分享,可在线阅读,更多相关《基于Hadoop平台的教育资源垂直搜索系统的设计与实现毕业论文Word文件下载.docx(74页珍藏版)》请在冰豆网上搜索。
编号:
ImplementationofEducationResourceVerticalSearchingSystemBasedonHadoop
学科专业:
计算机应用技术
计算机科学与通信工程学院
2011年04月
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。
本人授权江苏大学可以将本学位论文的全部内容或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
保密,在年解密后适用本授权书。
本学位论文属于
不保密。
学位论文作者签名:
指导教师签名:
年月日年月日
毕业设计(论文)原创性声明和使用授权说明
原创性声明
本人郑重承诺:
所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。
尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。
对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。
作者签名:
日 期:
指导教师签名:
日 期:
使用授权说明
本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:
按照学校要求提交毕业设计(论文)的印刷本和电子版本;
学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;
学校可以采用影印、缩印、数字化或其它复制手段保存论文;
在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。
作者签名:
日 期:
学位论文原创性声明
本人郑重声明:
所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。
除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。
对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。
本人完全意识到本声明的法律后果由本人承担。
日期:
年月日
本人授权 大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
涉密论文按学校规定处理。
日期:
导师签名:
日期:
指导教师评阅书
指导教师评价:
一、撰写(设计)过程
1、学生在论文(设计)过程中的治学态度、工作精神
□优□良□中□及格□不及格
2、学生掌握专业知识、技能的扎实程度
3、学生综合运用所学知识和专业技能分析和解决问题的能力
4、研究方法的科学性;
技术线路的可行性;
设计方案的合理性
5、完成毕业论文(设计)期间的出勤情况
二、论文(设计)质量
1、论文(设计)的整体结构是否符合撰写规范?
2、是否完成指定的论文(设计)任务(包括装订及附件)?
三、论文(设计)水平
1、论文(设计)的理论意义或对解决实际问题的指导意义
2、论文的观念是否有新意?
设计是否有创意?
3、论文(设计说明书)所体现的整体水平
建议成绩:
(在所选等级前的□内画“√”)
指导教师:
(签名)单位:
(盖章)
年月日
评阅教师评阅书
评阅教师评价:
一、论文(设计)质量
二、论文(设计)水平
评阅教师:
教研室(或答辩小组)及教学系意见
教研室(或答辩小组)评价:
一、答辩过程
1、毕业论文(设计)的基本要点和见解的叙述情况
2、对答辩问题的反应、理解、表达情况
3、学生答辩过程中的精神状态
评定成绩:
教研室主任(或答辩小组组长):
(签名)
教学系意见:
系主任:
摘要
互联网的出现改变了我们的生活、工作、学习乃至娱乐的方式。
网上丰富的基础教育资源为广大基础教育工作者、学生以及学生家长提供了充足的参考资料和教育信息,然而由于缺乏行之有效的整合标准和手段,目前这些资源的分布呈现高度分散状态,内容庞杂无序,结构化程度低,用户往往难以快速准确地获取到自己需要的信息。
所以我们必须研究和设计出针对教育资源搜索的网络平台,以提高用户获取教育资源信息的速度和准确度。
本文通过对现有的互联网搜索平台的分析,借鉴其他应用领域的垂直搜索平台所采用的架构和设计方法,通过使用Hadoop平台的分层分布的架构和聚焦蜘蛛的爬行技术,提出基于Hadoop平台的B/S多层分布式架构系统模型,给出提高搜索运行效率的若干关键技术,并基于该架构的设计实现了系统。
本文的主要工作包括:
(1)通过对Hadoop平台的基本原理和架构以及Hadoop平台的两个核心组件HDFS与Map/Reduce的分析,选择Hbase对系统的数据进行管理,并对可视化系统的Hbase数据模型的设计以及条件查询的改进进行阐述。
(2)基于抽样调查和教育经验,进行MDVSP的软件需求分析,设计基于Hadoop平台的教育资源垂直搜索(MDVSP)架构模型。
该架构模型把业务处理服务器与Web服务器分开,采用并行计算提高业务处理能力,使得基于该架构模型下的系统具有良好的可伸缩性、可扩展性、可维护性和更高的安全性。
(3)研究基于Hadoop平台的教育资源搜索系统所采用的关键技术,包括聚焦蜘蛛的爬行技术、网页信息结构化提取技术、远程过程调用(RPC)技术、基于Hadoop的Map/Reduce技术和基于Hadoop的负载均衡技术。
(4)以Hadoop为基础架构,采用Java开发语言,设计并实现Hadoop平台的教育资源搜索系统。
经过详细的系统测试,系统在实现效率、搜索的准确率和可扩展性等方面较有代表性的垂直搜索平台先进。
关键词:
垂直搜索引擎;
Hadoop;
网页信息抽取;
抽取规则;
索引库
Abstract
TheWWWhasbeenatremendousimpactonthewayofhumanbeingslives,works,andstudies,evenentertainments.Especiallyineducationrealm,educators,studentsandtheirparentscangetmoreandmorereferencesandeducationresourceswiththehelpofinternet.However,there’sstillanunresolvedaproblem,forlackingofsuitablestandardsandfilteringmethods,actually,itwillspendmoretimetogettheresourceyoureallywant.Tosolvethisissue,weneedtodosomeresearchanddesignabetterplatformtoextractinterestinginformationconveniently,accuratelyandefficiently.
OnthebasisofcomparingtheframeworksanddesigningmethodsadoptedbycurrentSearchingEngines,andlearningfromotherapplicationsusedinverticalsearchingplatformarchitectureanddesignmethod,bymeansofthehierarchicalstructureandthefocused-spidercreepingtechnology,thisdissertationpresentsanewmodelofMulti-tierDistributedVerticalSearchingPlatform(MDVSP)forEducationalRealmbasedonHadoop,whichisamixedB/Sframework.Thethesisalsoamplydemonstratesthekeytechniquesofimprovingtheope