基于Hadoop平台的教育资源垂直搜索系统的设计与实现毕业论文 精品推荐.docx

上传人:b****7 文档编号:10857074 上传时间:2023-02-23 格式:DOCX 页数:87 大小:802.73KB
下载 相关 举报
基于Hadoop平台的教育资源垂直搜索系统的设计与实现毕业论文 精品推荐.docx_第1页
第1页 / 共87页
基于Hadoop平台的教育资源垂直搜索系统的设计与实现毕业论文 精品推荐.docx_第2页
第2页 / 共87页
基于Hadoop平台的教育资源垂直搜索系统的设计与实现毕业论文 精品推荐.docx_第3页
第3页 / 共87页
基于Hadoop平台的教育资源垂直搜索系统的设计与实现毕业论文 精品推荐.docx_第4页
第4页 / 共87页
基于Hadoop平台的教育资源垂直搜索系统的设计与实现毕业论文 精品推荐.docx_第5页
第5页 / 共87页
点击查看更多>>
下载资源
资源描述

基于Hadoop平台的教育资源垂直搜索系统的设计与实现毕业论文 精品推荐.docx

《基于Hadoop平台的教育资源垂直搜索系统的设计与实现毕业论文 精品推荐.docx》由会员分享,可在线阅读,更多相关《基于Hadoop平台的教育资源垂直搜索系统的设计与实现毕业论文 精品推荐.docx(87页珍藏版)》请在冰豆网上搜索。

基于Hadoop平台的教育资源垂直搜索系统的设计与实现毕业论文 精品推荐.docx

基于Hadoop平台的教育资源垂直搜索系统的设计与实现毕业论文精品推荐

分类号密级

UDC编号

学位论文

基于Hadoop平台的教育资源垂直搜索系统的设计与实现

ImplementationofEducationResourceVerticalSearchingSystemBasedonHadoop

 

分类号:

密级:

UDC:

编号:

 

学位论文

基于Hadoop平台的教育资源垂直搜索系统的设计与实现

ImplementationofEducationResourceVerticalSearchingSystemBasedonHadoop

 

学科专业:

 计算机应用技术

 

计算机科学与通信工程学院

2011年04月

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。

本人授权江苏大学可以将本学位论文的全部内容或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

 

保密,在年解密后适用本授权书。

本学位论文属于

不保密。

 

学位论文作者签名:

指导教师签名:

年月日年月日

 

毕业设计(论文)原创性声明和使用授权说明

原创性声明

本人郑重承诺:

所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。

尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。

对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。

作者签名:

     日 期:

     

指导教师签名:

     日  期:

     

使用授权说明

本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:

按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。

作者签名:

     日 期:

     

学位论文原创性声明

本人郑重声明:

所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。

除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。

对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。

本人完全意识到本声明的法律后果由本人承担。

作者签名:

日期:

年月日

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。

本人授权    大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

涉密论文按学校规定处理。

作者签名:

日期:

年月日

导师签名:

日期:

年月日

 

指导教师评阅书

指导教师评价:

一、撰写(设计)过程

1、学生在论文(设计)过程中的治学态度、工作精神

□优□良□中□及格□不及格

2、学生掌握专业知识、技能的扎实程度

□优□良□中□及格□不及格

3、学生综合运用所学知识和专业技能分析和解决问题的能力

□优□良□中□及格□不及格

4、研究方法的科学性;技术线路的可行性;设计方案的合理性

□优□良□中□及格□不及格

5、完成毕业论文(设计)期间的出勤情况

□优□良□中□及格□不及格

二、论文(设计)质量

1、论文(设计)的整体结构是否符合撰写规范?

□优□良□中□及格□不及格

2、是否完成指定的论文(设计)任务(包括装订及附件)?

□优□良□中□及格□不及格

三、论文(设计)水平

1、论文(设计)的理论意义或对解决实际问题的指导意义

□优□良□中□及格□不及格

2、论文的观念是否有新意?

设计是否有创意?

□优□良□中□及格□不及格

3、论文(设计说明书)所体现的整体水平

□优□良□中□及格□不及格

建议成绩:

□优□良□中□及格□不及格

(在所选等级前的□内画“√”)

指导教师:

(签名)单位:

(盖章)

年月日

评阅教师评阅书

评阅教师评价:

一、论文(设计)质量

1、论文(设计)的整体结构是否符合撰写规范?

□优□良□中□及格□不及格

2、是否完成指定的论文(设计)任务(包括装订及附件)?

□优□良□中□及格□不及格

二、论文(设计)水平

1、论文(设计)的理论意义或对解决实际问题的指导意义

□优□良□中□及格□不及格

2、论文的观念是否有新意?

设计是否有创意?

□优□良□中□及格□不及格

3、论文(设计说明书)所体现的整体水平

□优□良□中□及格□不及格

建议成绩:

□优□良□中□及格□不及格

(在所选等级前的□内画“√”)

评阅教师:

(签名)单位:

(盖章)

年月日

教研室(或答辩小组)及教学系意见

教研室(或答辩小组)评价:

一、答辩过程

1、毕业论文(设计)的基本要点和见解的叙述情况

□优□良□中□及格□不及格

2、对答辩问题的反应、理解、表达情况

□优□良□中□及格□不及格

3、学生答辩过程中的精神状态

□优□良□中□及格□不及格

二、论文(设计)质量

1、论文(设计)的整体结构是否符合撰写规范?

□优□良□中□及格□不及格

2、是否完成指定的论文(设计)任务(包括装订及附件)?

□优□良□中□及格□不及格

三、论文(设计)水平

1、论文(设计)的理论意义或对解决实际问题的指导意义

□优□良□中□及格□不及格

2、论文的观念是否有新意?

设计是否有创意?

□优□良□中□及格□不及格

3、论文(设计说明书)所体现的整体水平

□优□良□中□及格□不及格

评定成绩:

□优□良□中□及格□不及格

(在所选等级前的□内画“√”)

教研室主任(或答辩小组组长):

(签名)

年月日

教学系意见:

系主任:

(签名)

年月日

摘要

互联网的出现改变了我们的生活、工作、学习乃至娱乐的方式。

网上丰富的基础教育资源为广大基础教育工作者、学生以及学生家长提供了充足的参考资料和教育信息,然而由于缺乏行之有效的整合标准和手段,目前这些资源的分布呈现高度分散状态,内容庞杂无序,结构化程度低,用户往往难以快速准确地获取到自己需要的信息。

所以我们必须研究和设计出针对教育资源搜索的网络平台,以提高用户获取教育资源信息的速度和准确度。

本文通过对现有的互联网搜索平台的分析,借鉴其他应用领域的垂直搜索平台所采用的架构和设计方法,通过使用Hadoop平台的分层分布的架构和聚焦蜘蛛的爬行技术,提出基于Hadoop平台的B/S多层分布式架构系统模型,给出提高搜索运行效率的若干关键技术,并基于该架构的设计实现了系统。

本文的主要工作包括:

(1)通过对Hadoop平台的基本原理和架构以及Hadoop平台的两个核心组件HDFS与Map/Reduce的分析,选择Hbase对系统的数据进行管理,并对可视化系统的Hbase数据模型的设计以及条件查询的改进进行阐述。

(2)基于抽样调查和教育经验,进行MDVSP的软件需求分析,设计基于Hadoop平台的教育资源垂直搜索(MDVSP)架构模型。

该架构模型把业务处理服务器与Web服务器分开,采用并行计算提高业务处理能力,使得基于该架构模型下的系统具有良好的可伸缩性、可扩展性、可维护性和更高的安全性。

(3)研究基于Hadoop平台的教育资源搜索系统所采用的关键技术,包括聚焦蜘蛛的爬行技术、网页信息结构化提取技术、远程过程调用(RPC)技术、基于Hadoop的Map/Reduce技术和基于Hadoop的负载均衡技术。

(4)以Hadoop为基础架构,采用Java开发语言,设计并实现Hadoop平台的教育资源搜索系统。

经过详细的系统测试,系统在实现效率、搜索的准确率和可扩展性等方面较有代表性的垂直搜索平台先进。

关键词:

垂直搜索引擎;Hadoop;网页信息抽取;抽取规则;索引库

Abstract

TheWWWhasbeenatremendousimpactonthewayofhumanbeingslives,works,andstudies,evenentertainments.Especiallyineducationrealm,educators,studentsandtheirparentscangetmoreandmorereferencesandeducationresourceswiththehelpofinternet.However,there’sstillanunresolvedaproblem,forlackingofsuitablestandardsandfilteringmethods,actually,itwillspendmoretimetogettheresourceyoureallywant.Tosolvethisissue,weneedtodosomeresearchanddesignabetterplatformtoextractinterestinginformationconveniently,accuratelyandefficiently.

OnthebasisofcomparingtheframeworksanddesigningmethodsadoptedbycurrentSearchingEngines,andlearningfromotherapplicationsusedinverticalsearchingplatformarchitectureanddesignmethod,bymeansofthehierarchicalstructureandthefocused-spidercreepingtechnology,thisdissertationpresentsanewmodelofMulti-tierDistributedVerticalSearchingPlatform(MDVSP)forEducationalRealmbasedonHadoop,whichisamixedB/Sframework.ThethesisalsoamplydemonstratesthekeytechniquesofimprovingtheoperatingefficiencyoftheMDVSP.Moreover,basedonthenewmixedframeworkofMDVSP,thedissertationsucceedsindesigningthePrototypeSystemofMDVSP.Thedissertationmainlyconcernsthefollowingfouraspects:

1.ThisdissertationpresentsthebasicprinciplesandframeworkoftheHadoopplatform,andintroducesthetwocorecomponentsofHadoopHDFSandMap/Reducealgorithm.TomanagedataontheHadoopplatformbetter,theMDVSPchoosesHbaseasdatabasestorage,whichisamajorcomponentofHadoop.ThisthesisalsousesseveralsectionstodescribetheHbase’sdatestructuremodeldesignandthequeryimprovements.

2.MDVSPsoftwarerequirementanalysisisbasedonsamplingsurveyresultsandeducationexperiences.MDVSPischosenbasedontheanalysisresult.TheadvantageofthismodelistoprocessthebusinessandWebseparately,anditcanparallelcomputeMap/Reduce.WhichprovideMDVSPbettercondensability,expendability,maintainabilityandhighersecurity.

3.ThekeytechnologiesthatMDVSPhasbeenusedincludesfocused-spidercreepingtechnology,structuredwebinformationextractiontechnology,remoteprocedurecall(RPC)technology,Map/ReducetechnologybasedonHadoopandloadbalancingtechnologybasedonHadoop.

4.Withthekeytechnologiesresearching,anddetailedanalyzingtherequirementoftheMDVSP,thisdissertationaccomplishesthedesignofthePrototypeSystemofM-Disem,whichusesJavaprogramminglanguageandstructuresonHadoopplatform.AfteradetailedsystemtestingandcomparedwithotherVerticalSearchingSystems,theMDVSPachieveshighefficiency,accuracysearchingandgoodscalability.

KeywordsVertical;SearchingEngine;Hadoop;WebInformationExtraction;Extractionrules;IndexDatabase

第一章绪论

1.1课题研究背景及意义

1.1.1背景及意义

随着网络与通信技术的迅速发展,Web信息爆炸性的增长,互联网已经成为一个巨大的海量信息空间。

如何迅速、准确、方便的从如此庞大的信息库获取自己需要的信息,是互联网用户面临的一个重要问题。

搜索引擎的出现,整合了众多网站信息,极快的查询起到了信息导航的作用,信息的价值得到众多商家的普遍认可,成为互联网中最有价值的领域。

大家熟知的搜索引擎Google、XX、雅虎等都是搜索引擎的杰出代表,为互联网的发展做出了重要的贡献。

我国互联网络信息中心CNNIC于2006年1月发布的《第17次中国互联网络发展统计报告》显示:

搜索引擎以65.7%的使用率成为第二大网络服务[1]。

互联网的信息量呈爆炸趋势增长,几年前全球式搜索引擎收录的网页量只有几千万页,而现在已经达到几十亿页,数量增加带来的是搜索服务的品质下降,查询的结果集就是海量的,经常是几十万笔的资料,结果里存在大量的重复信息和垃圾信息,用户越来越难迅速找到符合的信息,现在经常使用搜索引擎可以感觉到很难在短时间内准确的筛选出需要的内容。

因此,如何对通用搜索引擎技术进行改进,使查询的结果更加贴近用户的要求,成为搜索引擎行业近期的研究热点。

对于基础教育领域的广大教师、学生、家长以及其他教育工作者,互联网已经成为他们获取基础教育资源和信息的重要工具,网上大量的试卷、教学研究论文、课件、课外阅读材料、招生信息等基础教育资源信息可以使教师提高自己的工作效率和水平,使学生扩大自己的知识面,使家长掌握最新的教育信息。

那么对教育资源用户来讲,目前的信息服务能否满足他们的需求?

他们更倾向于什么样的信息服务形式?

1.1.2目前现状

1.获取基础教育资源最常用的方式是搜索引擎[2]

用户获取基础教育资源的较经常使用的方式为搜索引擎、学科专题网站、基础教育综合网站。

其中使用最多的是搜索引擎。

2.目前的搜索引擎还不能完全满足用户需求[2]

综合性通用搜索引擎在一定程度上方便了用户查找利用网上信息,但由于它面向的是大众,强调通用性,搜索结果中有很多杂乱信息,信息的准确度较低,不能完全满足基础教育用户的需求。

3.倾向简单的检索方式[2]

大多数人通常使用关键词查询,一部分人使用诸如“+(and)”、“-(or)”等检索技巧,使用高级检索的人很少,用合适的关键词检索是被所有用户认为是比较容易的,所有用户都倾向于简单易用的检索方式。

4.通常输入的检索内容包含不同层次的信息

大多数用户输入单个或多个关键词,而多个关键词的查询往往包含有两类信息——主题描述信息和资源的类别限制信息。

比如说,一位教师输入“《阿Q正传》教案”,关键词“阿Q正传”是主题信息,关键词“教案”,是类别限制信息,再如一个学生查找“八年级(上)生物学试题”为学段(年级)、学科和资源类型的组合。

最常见的主题描述信息是学科内知识点、语文课文标题等,常见的类别限制信息是学科、学段(或年级)、资源类型。

总体上,用户使用通用搜索引擎获取基础教育资源存在的问题可归为以下两个方面:

1.教育资源的关键词不能被搜索引擎正确识别,导致检索结果的信息杂乱与过量,即使搜索出来也与可能是与教育无关的资源信息。

2.由于在通过关键词检索方式中,关键词与类别词的混杂使用导致信息准确度较低。

往往要搜索的信息排序靠后或漏检。

1.2教育资源搜索存在的问题

根据以上分析,用户获取网上教育资源主要存在以下问题:

1、信息过量。

网上资源内容广泛,通用搜索引擎返回的大量信息过多过杂,专业性不强.使用户淹没在海量信息里,筛选信息需要耗费大量的精力。

2、信息准确度低。

由于通用搜索引擎强调通用性,检索范围广,对资源没有筛选分类,资源索引库十分庞杂,很难满足特定用户群的特定需求。

3、信息服务缺乏针对性,缺少用户交互。

通用搜索引擎检索结果完全依赖于用户的关键词,即对于不同的用户,同一个关键词返回的结果相同,没有与用户联系起来,难以满足用户的个性化需求。

1.3本文主要工作

本人通过对现有教育领域搜索引擎的技术分析,结合问卷抽样调查反馈,对用户的需求进行鉴别、综合和建模,清除用户需求的模糊性、歧义性和不一致性,定义了本系统的功能和性能需求,在对Hadoop平台的框架研究基础之上,提出了基于Hadoop平台的MDVSP(Multi-tierDistributedVerticalSearchingPlatform)模型,详细阐述了MDVSP系统在设计和实现过程中应用到的一些关键技术,并基于该模型实现了MDVSP原型。

本文的工作包括:

(1)提出了基于Hadoop平台的教育资源垂直搜索系统(MDVSP)模型。

包括切合本系统的分布式的集群整体框架和HDFS存放结构。

(2)阐述了MDVSP中应用的关键技术,包括聚焦蜘蛛的原理和爬行算法。

(3)设计了Map/Reduce的逻辑结构和数据流。

(4)设计和封装了RPC远程调用协议。

给出了设计思想和数据表示设计。

(5)设计了MDVSP的HA。

包括框架、原理和详细实现。

(6)以JAVA和PERL为工具实现了MDVSP系统原型。

最后对全文的内容进行了总结,分析了系统现有的不足,并提出了进一步完善的目标和基本方法。

1.4本文的组织结构

本论文共分为七章,各章内容具体安排如下:

第一章绪论。

主要论述课题的研究背景,垂直搜索引擎发展现状、存在的问题。

第二章Hadoop平台架构。

介绍Hadoop的概念和Hadoop的优点,Hadoop平台架构。

第三章MDVSP平台需求分析。

给出MDVSP平台的使用用户群,并基于抽样调查和多年的教育经验,对用户的需求进行鉴别、清除用户需求的模糊性、歧义性和不一致性,将原始问题的理解与软件开发经验结合,深入描述软件的功能和性能需求。

第四章基于Hadoop平台的MDVSP模型。

叙述基于Hadoop平台的教育资源垂直搜索模型(MDVSP),并阐述这种架构的优点,提出使用这种架构可以解决目前现有搜索平台在教育领域搜索中存在的一些问题。

对MDVSP系统进行了逻辑结构设计和物理结构设计。

第五章基于Hadoop平台的MDVSP的关键技术。

阐述基于Hadoop平台模型下构建教育资源垂直搜索系统(MDVSP)中用到的关键技术。

主要包括聚焦蜘蛛的爬行技术、基于Hadoop平台下Map/Reduce的逻辑结构和数据流设计和系统采用的MDVSP-RPC远程调用的封装技术。

第六章MDVSP平台的实现。

以JAVA和PERL为开发工具,通过Hadoop平台框架实现基于上述架构模型的MDVSP系统的各层设计,并列出相关功能的关键性JAVA和PERL代码。

通过试验,并与有代表性的垂直搜索平台的搜索结果进行性能对比,分析MDVSP平台在教育资源领域的搜索效率和准确度都有所提高。

第七章总结与展望。

对本文的工作进行总结,并从系统功能和理论研究两个方面对以后的工作进行规划和展望。

第二章Hadoop平台架构

2.1Hadoop的产生

自从Google工程师JeffreyDean提出MapReduce编程思想,MapReduce便在Google的各种Web应用中释放着魔力。

然而,也许出于技术保密的目的,Google公司并没有透露其MapReduce的实现细节。

幸运的是,DougCutting开发Hadoop作为MapReduce[5-6]开源实现,让MapReduce这么平易近人地走到了我们面前。

2006年1月,DougCutting因其在开源项目Nutch和Lucene的卓越表现受邀加入Yahoo公司,专职在Ha

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 历史学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1