网络爬虫开题报告doc.docx

资源描述

网络爬虫开题报告doc.docx

《网络爬虫开题报告doc.docx》由会员分享，可在线阅读，更多相关《网络爬虫开题报告doc.docx（6页珍藏版）》请在冰豆网上搜索。

网络爬虫开题报告doc.docx

网络爬虫开题报告doc

网络爬虫开题报告

篇一：

毕设开题报告及开题报告分析

　　开题报告如何写

　　注意点

　　1.一、对指导教师下达的课题任务的学习与理解

　　这部分主要是阐述做本课题的重要意义

　　2.二、阅读文献资料进行调研的综述

　　这部分就是对课题相关的研究的综述落脚于本课题解决了那些关键问题

　　3.三、根据任务书的任务及文件调研结果，初步拟定执行实施的方案（含具体进度计划）

　　这部分重点写具体实现的技术路线方案的具体实施方法和步骤了，具体进度计划只是附在后面的东西不是重点

　　南京邮电大学通达学院毕业设计（论文）开题报告

　　文献[5]基于信息数据分析的微博研究综述[J]；研究微博信息数据的分析，在这类研究中，大多数以微博消息传播的三大构件---微博消息、用户、用户关系为研究对象。

以微博消息传播和微博成员组织为主要研究内容，目的在于发祥微博中用户、消息传博、热点话题、用户关系网络等的规律。

基于微博信息数据分析的研究近年来在国内外都取得了很多成果，掌握了微博中的大量特征。

该文献从微博消息传播三大构件的角度，对当前基于信息数据分析的微博研究进行系统梳理,提出微博信息传播三大构件的概念,归纳了此类研究的主要研究内容及方法。

　　对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。

为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究。

文献[6]综述了聚焦爬虫技术的研究。

其中介绍并分析了聚焦爬虫中的关键技术：

抓取目标定义与描述，网页分析算法和网页分析策略，并根据网络拓扑、网页数据内容、用户行为等方面将各种网页分析算法做了分类和比较。

聚焦爬虫能够克服通用爬虫的不足之处。

　　文献[7]首先介绍了网络爬虫工作原理,传统网络爬虫的实现过程,并对网络爬虫中使用的关键技术进行了研究,包括网页搜索策略、URL去重算法、网页分析技术、更新策略等。

然后针对微博的特点和Ajax技术的实现方法,指出传统网络爬虫的不足,以及信息抓取的技术难点,深入分析了现有的基于Ajax的网络爬虫的最新技术——通过模拟浏览器行为,触发JavaScript事件（如click,onmouseover等）,解析JavaScript脚本,动态更新网页DOM树,抽取网页中的有效信息。

最后,详细论述了面向SNS网络爬虫系统的设计方案,整（转载自：

www.xiaocaOfaNW小草范文网:

网络爬虫开题报告）体构架,以及各功能模块的具体实现。

面向微博的网络爬虫系统的实现是以新浪微博作为抓取的目标网站。

结合新浪微博网页的特点,通过模拟用户行为,解析JavaScript,建立DOM树来获取网页动态信息,并按照一定的规则提取出网页中的URL和有效信息,并将有效信息存入数据库。

本系统成功的实现了基于Ajax技术的网页信息的提取。

　　文献[8]引入网页页面分析技术和主题相关性分析技术，解决各大网站微博相继提供了抓取微博的API，这些API都有访问次数的限制，无法满足获取大量微博数据的要求，同时抓取的数据往往很杂乱的问题。

展开基于主题的微博网页爬虫的研究与设计。

本文的主要工作有研究分析网页页面分析技术，根据微博页面特点选择微博页面信息获取方法；重点描述基于“剪枝”的广度优先搜索策略的思考以及设计的详细过程，着重解决URL的去重、URL地址集合动态变化等问题；研究分析短文本主题抽取技术以及多关键匹配技术，确定微博主题相关性分析的设计方案；最后设计实现基于主题的微博网页爬虫的原型系统，实时抓取和存储微博数据。

本文研究的核心问题是，根据微博数据的特点设计一种基于“剪枝”的广度优先搜索策略，并将其应用到微博爬虫中；同时使用微博页面分析技术使得爬虫不受微博平台API限制，从而让用户尽可能准确地抓取主题相关的微博数据。

通过多次反复实验获取原型系统实验结果，将实验结果同基于API微博爬虫和基于网页微博爬虫的抓取效果进行对比分析得出结论：

本文提出的爬行策略能够抓取主题相关的微博数据，虽然在效率上有所降低，但在抓取的微博数据具有较好的主题相关性。

这实验结果证明本论文研究的实现方案是可行的。

　　文献[9]阐述了基于ajax的web应用程序的爬虫和用户界面状态改变的动态分析的过程和思路。

文献[10]对于全球社交网络Twitter，设计并实现了，一个爬虫系统，从另一个角度阐明了Python在编写爬虫这个方面的强大和快速。

仅仅用少量的代码就能实现爬虫系统，并且再强大的社交网站也可以利

篇二：

毕业论文,网络爬虫在信息获取领域的应用户

　　题目网络爬虫技术在信息获取领域的应用专业学生姓名班级学号指导教师指导单位

　　摘要

　　现在，大多数人们获取信息的途径已经不再是报纸和电视，而是互联网，一个曾被人们所漠视的领域，突然成为了人们获取信息的主要途径。

人们等车前不会拿着报纸埋头读报，而是拿着手机翻看着网页，新闻；人们回到家也不会迫切的打开电视收看新闻，而是打开电脑查看这一天的新闻趣事。

这一切的一切都要归功于搜索引擎，而一个搜索引擎的核心就是网络爬虫。

这篇论文就为大家介绍并实现一个简单的网络爬虫。

　　本论文一共分为四章，第一章介绍了课题的背景和网络爬虫的现状；第二章介绍了网络爬虫的原理和构架；第三章说明了实现网络爬虫的基本构思和一些需要注意的协议算法；第四章展示了我的制作过程，结果，java代码。

　　本篇论文向大家展示了爬虫的重要性和实用性，在现代网络中发挥的不可或缺的意义，并向大家展示了亲手实现一个网络爬虫应注意的问题和方法。

向大家充分的说明了网络爬虫的原理和构架。

　　本文中的爬虫是实用java语言在JDK软件上实现的，具有一定的功能，能较好的从实践上证明之前阐述的原理以及算法。

　　关键词：

网络爬虫，spider，java，JDK

　　ABSTRACT

　　Now,mostpeoplegettheirinformationapproachisnolongerthenewspapersandtelevision,buttheInternet,ahadbeenpeopleignorefield,suddenlybecamethemainwaypeoplegetinformation.Peoplewon'ttakenewspaperssuchasinfront,buttookcellphonenewspaperleafingthroughtheweb,news;Thepeoplebacktohomealsowon'turgentopentelevisionnews,butopencomputercheckthisdaythenewsfun.Theyallshouldbeattributedtothesearchengine,butasearchenginecoreiswebcrawlers.Thispaperistointroduceandimplementasimplewebcrawlers.

　　Thisthesisissplitintofourchapters,thefirstchapterpresentsthebackgroundandthesubjectstatusofwebcrawlers;Thesecondchapterpresentstheprincipleandthenetworkcrawlerframe;Thethirdchapterillustratesthebasicconceptionrealizethewebcrawlerandsomenoteagreementalgorithms;Thefourthchapterdemonstratesmymanufactureprocess,results,Javacode.

　　Thispapertoshowyoutheimportanceofreptilesinthemodernnetworkandpracticability,playessentialmeaning,toshowyouthehandimplementawebcrawlersproblemsshouldbepaidattentiontoandmethods.Toeveryonefullyillustratestheprincipleandwebcrawlersframe.

　　InthispaperthecrawlerispracticalinJDKsoftwareJavalanguageonimplementation,hasacertainfunction,andcanbetterfrompracticebeforetheprincipleandthepaperprovedalgorithmispresented.

　　Keywords:

Webcrawlers,spider,java,JDK

　　引言............................................................................................-1-

　　第1章绪论.........................................................................................-2-

　　1.1课题来源及意义.......................................................................................-2-

　　1.1.1搜索引擎的分类和整体结构.....................................................................-2-

　　1.2网络爬虫研究现状....................................................................................-4-

　　1.3小结............................................................................................................-6-

　　第二章网络爬虫基本构架.................................................................-7-

　　2.1聚焦爬虫的工作原理................................................................................-7-

　　2.2抓取目标描述............................................................................................-7-

　　2.3内容的提取................................................................................................-8-

　　2.4爬虫的工作过程中索引器的应用............................................................-9-

　　2.5散列函数的构造法..................................................................................-10-

　　2.6小结..........................................................................................................-11-

　　第三章爬虫构思.............................................................................-12-

　　3.1网络爬虫流程设计..................................................................................-12-

　　3.2解析Html文件........................................................................................-13-

　　3.3分析Html文件........................................................................................-13-

　　3.4相关协议的介绍......................................................................................-15-

　　3.4.1Socket套接字协议.................................................................................-15-

　　3.4.2HTTP/HTTPS协议.................................................................................-16-

　　3.4.3多线程与线程同步.................................................................................-16-

　　3.5小结........................................................................................................-17-

　　第四章软件实现................................................................................-18-

　　4.1开发环境..................................................................................................-18-

　　4.11硬件环境..................................................................................................-18-

　　4.12应用软件..................................................................................................-18-

　　4.2编译爬虫程序..........................................................................................-20-

　　4.3小结..........................................................................................................-23-

　　结束语..................................................................................................-25-致谢.......................................................................................................-26-参考文献..............................................................................................-27-附录.........................................................................................-28-

篇三：

机器爬虫运动步态策略研究开题报告

　　XX年3月10日

　　一、选题背景、研究意义及文献综述

　　1、选题背景

　　根据美国陆军1967年调查，地球上近一半的地面不能为传统的轮式车辆或履带车辆到达，而多足式动物却可以在这些地面上行走自如。

从中得到启示：

轮式车辆在平地运输中有不可替代的作用，履带车辆被广泛应用于沙地和泥泞，然而人们没能找到合适的方法用于山地和多障碍地面，足式步进车辆就解决了这些问题，能跨越沟、坎等障碍，并且步进车辆足部落脚点的离散性和面积小的特点使其对坑洼山地的机动性和适应性更强，机器人能够在足尖点可达范围内灵活调整行走姿态，并选择合理的支撑点，使得机器人具有更高的避障和越障能力，同时其运行足部也较轮式车辆和履带车辆更加轻便。

足式移动机器人的立足点是离散的，跟地面接触面积较小。

可以在可达到的地面上选择最优支撑点，即使在表面极度不规则的情况下，通过严格选择足的支撑点，也能够行走自如，因此，足式步行机器人的研究已成为机器人学中一个引人注目的研究领域。

六足仿生机器人便是这种机器人的典型代表，而六足仿生机器人的步态研究对其的行走方式更是具有重要意义。

　　2、研究意义

　　独立驱动多足步行机器人运动学研究较多的集中在步态规划方面。

步态是步行机器人的一种迈步方式，是步行机器人各腿协调运行的规律，即各腿的抬腿和放腿顺序，它是研究步行机构的一个很重要的参数，是确保步行机构稳定运行的非常重要的因素。

轮子或履带移动方式在移动机器人中已经普遍应用，但这种移动方式适应地形的能力较差，因此根据仿生学原理设计出一种具有较好适应性的移动方式已成为机器人研究的一个重要部分。

采用足作为移动系统的机器人和采用其它方式作为移动系统的机器人相比，具有以下优点：

①可以穿过不规整的地形而保持机体水平，从而不破坏其稳定性；②具有跨越障碍物、壕沟和楼梯的移动能力；⑧能够穿过松软的地形；④具有全方位移动性；⑤相比轮子、履带移动机器人能较多地避免外部环境的破坏作用。

　　3、文献综述

　　“六足纲”昆虫（蟑螂，蚂蚁等）在步行时把六条足分为两组，以一边的前足，

　　后足与另一边的中足为一组，形成一个三角架支撑虫体，因此在同一时间只有一组的三条足起行走作用：

前足用爪固定物体后拉动虫体前进，中足用以支撑并举起所属一边的身体，后足则推动虫体前进，同时使虫体转向，行走时虫体向前并稍向外转，三条足同时行动，然后再与另一组三条足交替进行，这样行走的轨迹线是一条锯齿状曲线。

则是相对缓慢的一种步态，每一时刻都有4条腿在地面支撑，而每侧各有一条腿向前摆动，这种步态由于支撑时间较长，可以承受比较大的载荷

　　二、研究的基本内容，拟解决的主要问题

　　六足步行机器人的步态是多样的。

三角步行是六足机器人行走的典型步态。

该步态是将机器人的6条腿分为2组，左侧前后两条腿和右侧中腿为A组，右侧前后腿和左侧中腿为B组。

步行过程2组腿交替地摆起、放下。

四足步态是每一交替时刻有四条腿同时支撑在地面，左右各有一条腿轮流抬起。

由于三足步态每一时刻有三条腿交替，所以行走比较快速，四足步态相对其来说侧比较慢。

但是四足步态每一交替时刻有四条腿支撑在地面上，所以其负重能力比较好。

通过对控制程序的设计可以完成上述两种步态，在实际环境中进行实验，可以发现两种步态的行走的特点，从而验证上述理论的正确性。

　　三、研究步骤、方法

　　1.调研、查资料，翻译外文资料，掌握六足机器人的步态特点2.掌握六足仿生三角步态原理。

　　3.对六足仿生机器人的三角步态、四足步态进行设计。

4.软件实现和实验。

　　5.对六足仿生机器人稳定性进行分析。

6.实际行走轨迹与规划行走轨迹比较。

7.通过实验得出结果并分析

　　通过理论与实验相结合，对六足仿生机器人进行其步态研究，针对其行走的三角步态、四足步态的特点，对其转弯以及抗干扰等方面进行重点研究在软件或硬件上进行补充、修正以期找出最优控制方案。

　　四、研究工作进度

　　五、主要参考文献

　　[1]徐小云,颜国正.六足移动式微型仿生机器人的研究[J].机器人.XX,5:

427—429[2]徐小云,颜国正,丁国清．微型六足仿生机器人及其三角步态的研究[J].光学精密工程，XX,lO：

392-396

　　[3]苏军,陈学东,李小清.六足步行机器人分级控制及通信[J].机械技术,XX,3:

53-54[4]白丽平,基于ADAMS的机器人动力学仿真分析[J].机电工程.XX:

24（7）.[5]白井良明.机器人工程[M].北京：

科学出版社,XX．

　　[6]宗光华.机器人的创意设计与实践[M].北京：

北京航空航天大学出版社,XX.[7]韩建海,赵书尚,李济顺．六足机器人行走步态的协调控[J].机电工程,XX,1:

8-10[8]战卫侠.形状一记忆合金驱动六足步行机器人的研究[D].阜新:

辽宁工程技术大学，XX，12:

18-19

　　[9]韩宝玲,王丽秋,罗庆生.六足仿生步行机器人足端工作空间和灵活度研究[J].机械设计和研究,XX,22（4）.

　　[10]漆向军,陈霖,刘明月一控制六足仿生机器人三角步态的研究[J].四川农业大学信息与工程技术学院:

XX（4）.

　　[11]冯巍,杨洋.慧鱼六足仿生机器人步态研究与实现[J].机械设计与研究.XX,3:

35-37[12]MargritBetke,LeonidGurvits.MobileRobotLoealizationUsingLandmarks[J].IEEETransaetionsonRoboticsandAutomation.1997,5:

251-263

　　六、系（教研室）评议意见

　　评议人：

　　年月日

展开阅读全文