ImageVerifierCode 换一换
格式:DOCX , 页数:74 ,大小:1.58MB ,
资源ID:24722707      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/24722707.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(聚焦搜索引擎的设计与开发查询系统设计与实现设计.docx)为本站会员(b****3)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

聚焦搜索引擎的设计与开发查询系统设计与实现设计.docx

1、聚焦搜索引擎的设计与开发查询系统设计与实现设计(此文档为word格式,下载后您可任意编辑修改!)毕业设计(论文) 题目 聚焦搜索引擎的设计与开发 查询系统设计与实现 前言随着Internet的迅速发展,人们的工作、学习和生活都已经离不开网络,网上信息正以爆炸性的速度增长,其资源内容几乎涉及所有领域,已经成为知识、信息的集合体,是人们获取信息的基本工具。发展到现在,我们可以通过计算机在网上进行点餐、逛街、娱乐、购物、聊天等等,这些都是面对个人层面而言的计算机技术所带来的便利。对企业而言,许多公司都有着属于自己的网站用来介绍公司信息以及产品介绍,或者公司的业务也会放在网站上以便与其它公司进行合作。

2、总而言之,网络的迅猛发展给社会带来了极大的便利。在Internet网上进行浏览和搜索自己想要的资讯,就好比进入了世界上最大的图书馆,而这个图书馆里的书刊、杂志、广告、新闻及各种形式的文献信息全都没有规律地排放着,没有1个中心目录将这些信息组织起来。正是因为Internet资源既丰富又分散且处于无序状态,使得人们在网上查找自己所需的信息并非易事。这时为满足人众信息检索的需求,搜索引擎便应运而生。搜索引擎是指使用某些自动索引软件来发现、收集网络上的信息,然后对收集的网页进行标引,建立1个可供查询的大型数据库。开发搜索引擎便是解决用户对网络上杂乱无章的信息进行筛选得出用户想要的信息的当下的最好办法。

3、 本篇论文中开发的中文搜索引擎的原理为:首先是用爬虫进行全网搜索,抓取网页;然后将抓取到的网页进行索引,同时也会记录该网页相关的属性;最后后台获取前台的查询请求并调用中科院ICTCLA2013进行分词提取关键字,然后运用关键字检索索引文件并按照各种参数进行复杂的计算,产生结果并返回给用户。此搜索引擎的功能为:在页面上可显示当地的天气情况,包括本地温度、PM2.5、污染情况、地理位置、天气信息;显示当日的热点新闻,即热搜榜;将新闻的种类进行分类(“热点”、“推荐”、“社会”),用户可根据类别查看自己喜欢的新闻;用户可在页面上的输入框输入自己想要查询的问题并得到解答。结合当下,各种搜索引擎的出现,

4、流氓插件的盛行,大多搜索引擎包含了大多用户不需要的功能,导致加载缓慢,而此系统的推出,能在一定程度上满足用户快速的查询的问题。 目录 摘 要作为从浩瀚的网络信息资源中获取有价值的知识的一种有效技术,搜索引擎技术正悄然兴起,备受关注。经过几年的发展和探索,越来越贴近人们的需求,搜索引擎的技术也得到了很大的发展,如今搜索引擎已经是互联网应用中最重要的部分之一。本文首先介绍了聚焦搜索引擎的研究背景和现状,设计了一个可根据用户需求从网上查询到有价值的信息的搜索引擎模型,再而介绍此次开发的互联网搜索引擎的运行环境及语言等与之关联的相关技术,着重分析了此搜索引擎查询系统的设计、分析和实现情况,主要包括页面

5、的天气查询和新闻分类和用户普通查询方面等内容,并对实现各个功能的模块的技术进行了研究探讨。本系统基于浏览器服务器(BrowseServer)结构,使用Java作为开发语言,Myeclipse8.0作为开发工具,MySQL作为数据库,并在Tomcat7.0上进行发布。由于JAVA语言具有可移植、安全性、解释执行、高性能、动态性,以及稍做修改后就具有跨平台性的优点,使得本系统操作方便、快捷。关键词:聚焦搜索,BS架构,新闻,分词ABSTRACTAs an effective technology to discover potential and valuable knowledge from t

6、he vast Web information resources, search engine technology is quietly rising, concern. After several years of development and exploration, more and more close to peoples needs, the search engine technology a great development, now the search engine Internet applications is an indispensable part of.

7、In this paper, we first introduce the research background and the present situation of search engine, design a according to the needs of the users from the Internet to query the data models of search engine, and then introduce the related technology of associated with the development of the Internet

8、 search engine, the running environment and language, focuses on the analysis of the search engine to obtain the technical principle of the foreground user demand and the backstage database interaction, and the technical realization of each function module are discussed.The system based on Browser s

9、erver structure using Java as the development language, MyEclipse 2013 as development tools, MySQL as the database, and in the Tomcat 7.0 on the post. Because JAVA language , performance, .Keywords: Focus search, BS architecture, NEWS, Word Wegmentation第1章 绪 论1.1 引言本章首先介绍课题研究背景、聚焦搜索系统相关研究现状,然后阐述本文主要

10、研究内容和组织结构设计。1.2 什么是搜索引擎搜索引擎1的英文为Search Engine。搜索引擎是一个对互联网信息资源进行搜索整理和分类,并储存在网络数据库中供用户查询的系统,包括信息搜集、信息分类、用户查询三部分。从使用者的角度看,搜索引擎提供一个包含搜索框的页面,在搜索框输入词语,通过浏览器提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息列表。其实,搜索引擎涉及多领域的理论和技术:数字图书馆、数据库、信息检索、信息提取、人工智能、机器学习、自然语言处理、计算机语言学、统计数据分析、数据挖掘、计算机网络、分布式处理等,具有综合性和挑战性。搜索引擎的用途,对普通网民而言,搜索引

11、擎则仅仅是一种查询工具,作为工具,使用者要了解搜索引擎的功用、性能,探讨并掌握其使用方法和技巧。对商家来说,搜索引擎是一种赢利的产品或服务,而作为产品,搜索引擎商要研制、改进和创新其搜索技术;作为服务,搜索引擎营销商要研究搜索引擎优化和推广。利用搜索引擎的目的不同,构成了搜索引擎研究的不同群体和对搜索引擎不同角度不同侧重的研究。1.3 聚焦搜索引擎提出的背景如今,在信息爆炸的互联网时代,人们如何在海量的互联网信息资源中尽快找到自己真正想要的信息?人们当然会选择网络搜索服务。伴随着互联网的不断发展和网络信息资源的爆炸性式的增长,网络搜索已经成为人们从互联网“海量”信息中获得有效信息十分便捷的途径

12、,成为仅次于电子邮件的最成功的业务应用。面对搜索引擎这块金矿,诸如Google、XX、雅虎等互联网巨头纷纷跑马圈地,相继推出了音乐、图片、新闻、本地搜索等服务。作为互联网搜索技术与移动通信技术相结合的产物,近两年来,移动搜索技术在日益走向成熟,应用前景十分看好。移动搜索服务的最大优势在于它打破了电脑的线缆约束,让用户能通过随身携带的手机即时获取所需的信息。从实际应用的角度看,手机搜索和PC搜索采用的基本原理相似,但手机搜索并不是网络搜索的简单翻版,其不同之处体现在两个方面:首先,PC搜索强调的是“海量”,搜索结果多多益善;而手机屏幕小,因此需要对多余的图片、超级链接、Flash等内容进行过滤,

13、为用户提供最精确、最有价值的内容。其次,手机搜索可以随时随地进行,这决定了搜索内容和搜索过程具有更强的人性化色彩。从全球来看,近三年来,诸如Google、雅虎等传统互联网搜索引擎提供商加快进军移动搜索领域,相继推出了基于短信和WAP的移动搜索引擎,开始提供移动搜索服务。从欧洲到北美和亚洲,一些主流的移动运营商也逐步推出了移动搜索服务。移动搜索已经成移动运营商大理推广的热点业务应用。移动搜索市场发展迅速,随着移动搜索逐渐走出市场培育期以及未来4G商用带来的增值应用的丰富,移动和互联网融合的发展趋势注定了移动搜索是未来的发展方向,而且这个搜索技术的出现已经开始引发一场新的竞争硝烟。1.3.1 国内

14、外的研究现状随着互联网技术的快速发展,我们可以在网络中获取自己想要的信息,但与此同时,面对浩瀚无边的信息也给我们带来了困扰,我们往往不能精确地、快速的定位信息,即遭受着“信息过载”和“信息迷航”的困扰。在这样的背景下,聚焦搜索引擎应运而生,且聚焦搜索引擎的研究热点正逐渐由过去的通用搜索引擎向聚焦搜索引擎转变。聚焦搜索引擎技术最先是在国外开始进行研究和应用的。目前,聚焦搜索引擎已经得到了广泛的研究和应用,涉及到很多领域,例如:购物、旅游、求职等领域,较为有代表性的聚焦搜索引擎有:(1)伯克利大学(Berkeley)的 Focused Project 系统是由科学家 S.Charkrabarti

15、带头从事开发的。其主要是通过两个程序来指导主题网络蜘蛛工作,一个程序是专门用来计算下载的网页文档与预定主题的相关程度,这个程序叫做主题分类器(Classifier);另一个程序是用来确定哪些链接指向了主题相关的网页信息,这个程序称之为净化器(Distiller)。(2)美国国家科学数字图书馆的 CBP(即 Collection Building Program),这个项目的目的是为科学、技术、数学和工程建设一个超大规模的在线数字图书馆,并试图研究在某一主题领域上信息资源自动建设的可能性。CBP 由于只面向教学和教育,因而,它具有主题精确度高的特点,同时,其只提供 URL 并不存储资源原文。该系

16、统还可以根据少量的输入自动将有限数量的与该主题最相关的 URL 列表返回给用户。(3)Elsevier 公司的 Scirus 系统,Scirus 是一个面向科学领域的聚焦搜索引擎,其搜索出来的科学信息具有较高主题相关度。目前,Scirus 系统被认为是互联网上综合性最强且最全面的科技文献门户网站,它只检索有关科学内容的网站,且过滤掉与科学无关的信息,将与科学内容相关的信息呈现给用户。(4)LIBClient-IRISWeb,该系统由 The American Association of Law Libraries (AALL)在 1997 年 2 月发布,是美国北卡罗莱纳州大学信息与图书学院

17、的 Bert Dempsey 和南卡罗莱纳州法学院的 Robert Vreeland 共同开发的一个在互联网上专门搜索与法律相关的信息系统。该系统很大幅度提高了法律工作者在互联网上搜索与法律相关的专业信息的效率。(5)经济类专业搜索引擎(Wall Street Research Network),该搜索引擎是由美国 WSRN公司开发的,其主要用于检索工商企业、投资中介商、市场新闻、经济研究以及经济研究出版物等各类与经济财经类相关的信息。(6)Zillow是于 2006 年开发的服务于房地产领域的搜索引擎,是为房产拥有者、房产买卖方、租赁者、房产经纪人等提供的一个虚拟的信息平台。这些用户可以通过

18、 Zillow 来搜索了解当地房地产相关信息。国外技术相对先进,很早就有了比较成熟的产品,国内技术相对落后,但是近年来随着对搜索技术的不断探索,涌现出了很多可喜的成果,具有代表性的面向特定主题的聚焦搜索引擎系统主要有以下一些应用。赛迪网的“IT 罗盘”是国内最具有代表性聚焦搜索引擎,目前收录了 2 万多条 IT网址和数百万 IT 网页数据,涵盖了 IT 领域的绝大多数网络信息资源。赛迪“IT 罗盘”为用户提供经过人工处理和筛选的网页搜索服务,其网站目录也都经过人工分类和整理,收录了大量经过严格过滤和人工加工的网站。其有很多优点:分类精确合理,查询便捷;使用人性化的设计,为用户提供开放的接口;支

19、持包括 GBK、GB2312、BIG5 等主流的中文编码标准,并且可以在不同的编码之间进行转换;支持布尔逻辑搜索模式;搜索速度快,平均响应时间低于 0.15 秒。奇虎问答主要专注于 BBS 信息领域,其独创的社区搜索技术(PeopleRank)主要用来抓取和识别论坛和博客中的信息,最终以利于人们阅读的方式展现给搜索用户。基于这一强大的社区搜索技术,目前,奇虎问答已成为国内答案数量最多最全的问答网站。酷讯搜索是专业的旅游搜索引擎,专注于为国内旅行者提供机票、火车票、酒店、旅游和度假等领域的搜索服务。酷讯搜索采用领先的数据挖掘和智能推荐等技术,对海量旅行产品数据进行实时整合、辨识以及处理,为旅行者

20、提供最新最准确的旅行产品价格和相关信息,以达到可以帮助旅行者对旅行产品进行高效地比较,并选择适合自己的旅行产品的目的。酷讯最初只专注于火车票领域的搜索服务,与XX、谷歌等通用搜索引擎不同,是一款以实时的生活信息为搜索对象的聚焦搜索引擎,能够对全部航空公司官方网站进行实时搜索,目前,其搜索范围已超过 2000 家专业机票、火车票、酒店、以及度假产品等供应商网站,用户可以一站式获取全面的旅游产品相关信息。目前,酷讯搜索月访问记录已突破 5,500 万。房老大是 2006 年 5 月正式上线的中国首个房地产行业的聚焦搜索引擎。其搜集了 100 个城市的房源信息,包括新房、别墅、二手房、写字楼、租房、

21、商铺以及厂房等七种不同的房源信息。由于全部房源信息都是由房源供应方进行填写,信息内容包含地理位置、面积、户型、价格等基本信息,因而,其搜索结果与通用的搜索引擎相比,房老大的搜索结果更精确、实用、全面,搜索用户可以在短时间内查找到自己想要的真实房源信息。“去哪儿”是 2005 年 5 月上线的全球最大的中文旅行平台,且是目前旅游行业被人们所熟知的聚焦搜索引擎代表。其通过网站及移动客户端的全平台覆盖,随时随地为游客提供国内外机票、旅游团购、度假、酒店和旅行等信息的聚焦搜索,帮助他们找到性价比最高的旅行产品和最优质的信息,聪明地安排旅行。凭借其便捷、先进的智能搜索技术对互联网上的旅行信息进行整合,为

22、用户提供实时、可靠、全面的旅游产品查询和信息比较服务。综上,尽管国内的聚焦搜索引擎发展速度相对较快,但与国外相比,在数据挖掘、信息共享、开放接口等技术层面以及行业经验上都还存在着很多差距,从而阻碍了聚焦搜索引擎的快速发展,而且中文词汇组合变化是非常复杂的,也在一定程度上限制了中文搜索引擎的发展速度,因此,国内的聚焦搜索引擎的发展潜力是很大的,存在着很大的发展空间。1.3.2 目前研究工作中存在的问题(1)建立索引是检索的根本,索引技术是检索系统性能的重中之重。不同的数据库存储量都是巨大的,良好的索引对提高检索效率非常的重要,对中文来说尤其如此。但如何建一个最优秀的索引仍是现在研究工作中需要去研

23、究的。(2)相比较英文,英文只有24个字母,但是中文拥有上千个字,就体现到中文索引面临一个分词问题,如何按字按词自动索引,一直是目前情报界与语言界研究的热点,当然最后应该走的还是计算机自动分词之路。其次,如何实现自动跟踪索引,是又一个难题。(3)凡是发布到网上的系统,都会考虑到一个信息安全的问题,在系统处理能力提高的同时,系统的连接能力也在不断的提高。但在连接能力信息、流通能力提高的同时,基于网络连接的安全问题也日益突出,如何保证此系统的网络安全也是研究工作中一大难题。1.4 系统开发的意义此次开发的系统是聚焦搜索引擎系统。系统的功能包括:天气查询,新闻查询,用户中文语句查询。所有查询都是系统

24、的前台服务,即面向用户的,方便乘客了解自己想要的信息。对于尚在象牙塔中的莘莘学子,搜索正在悄无声息地改变他们的学习方式。Internet与全球电信的迅猛发展使信息资源的“生产”“传播”与“消费”出现了新的格局,信息在网络上的传播速度迅速提升,这使得上网用户获取真正有用的信息越来越难,而开发此搜索引擎就能帮助用户解决从目前种类繁多的信息中找到用户真正有用的信息。1.5 本文主要研究内容和组织结构 本文的主要研究内容是聚焦搜索引擎查询系统的设计、分析和实现情况,主要包括页面的天气查询和新闻分类和用户普通查询方面等内容,并对实现各个功能的模块的技术进行了研究探讨。论文内容按以下结构安排:(1)开发环

25、境和相关技术介绍(第2章)(2)系统需求分析(第3章)(3)查询系统的设计(第4章)(4)系统编码(第5章)(5)测试(第6章)(6)结论与展望(第7章)其中第2章对与课题研究相关的技术作了简要介绍,包括系统开发的集成环境、Servlet技术、JDBC数据库连接技术等,本章是后面各章的铺垫。第3章对于系统进行了完整的需求分析。第4章是系统设计部分,包括系统逻辑思路设计、系统逻辑结构设计、物理结构设计、系统各功能模块设计以及数据库设计。第5章为系统的关键编码。第6章为系统实现后的测试,对系统各个模块和整体进行功能测试。第2章 相关技术概述本文研究的聚焦搜索引擎系统基于BS模式,利用MyEclip

26、se集成开发环境和MySQL数据库管理系统,采用的技术有:Java Servlet API技术,JDBC数据库连接技术,汉语分词技术。2.1 MyEclipse集成开发环境作为一套完整的开发工具集,MyEclipse4(MyEclipse Enterprise Workbench ,简称MyEclipse)企业级工作平台是对Eclipse IDE的扩展,利用它我们就可以在数据库和J2EE的开发、发布,以及应用程序服务器的整合方面极大的提高工作效率。它是功能丰富的J2EE集成开发环境,包括了完备的编码、调试、测试和发布功能,完整支持HTML, Struts, JSF, CSS, JavaScri

27、pt, SQL, Hibernate。在结构上,MyEclipse的特征可以被分为7类:1. J2EE模型2. WEB开发工具3. EJB开发工具4. 应用程序服务器的连接器5. J2EE项目部署服务6. 数据库服务7. MyEclipse整合帮助对于以上每一种功能上的类别,在Eclipse中都有相应的功能部件,并通过一系列的插件来实现它们。MyEclipse结构上的这种模块化,可以让我们在不影响其他模块的情况下,对任一模块进行单独的扩展和升级。简单而言,MyEclipse是Eclipse的插件,也是一款功能强大的J2EE集成开发环境,支持代码编写、配置、测试以及除错,MyEclipse6.0

28、以前版本需先安装Eclipse。MyEclipse6.0以后版本安装时不需安装Eclipse。2.2 JDBC数据库连接JDBC6(Java Data Base Connectivity,Java数据库连接)是一种用于执行SQL语句的Java API,可以为多种关系数据库提供统一访问,它由一组用Java语言编写的类和接口组成。JDBC提供了一种基准,据此可以构建更高级的工具和接口,使数据库开发人员能够编写数据库应用程序,同时,JDBC也是个商标名。有了JDBC,向各种关系数据发送SQL语句就是一件很容易的事。它可向相应数据库发送SQL调用,将Java语言和JDBC结合起来使程序员只须写一遍程序

29、就可以让它在任何平台上运行。Java数据库连接体系结构是用于Java应用程序连接数据库的标准方法。JDBC对Java程序员而言是API,对实现与数据库连接的服务提供商而言是接口模型。作为API,JDBC为程序开发提供标准的接口,并为数据库厂商及第三方中间件厂商实现与数据库的连接提供了标准方法。JDBC使用已有的 SQL标准并支持与其它数据库连接标准。JDBC实现了所有这些面向标准的目标并且具有简单、严格类型定义且高性能实现的接口。JDBC 主要做三件事:与数据库建立连接、发送 SQL 语句并处理结果10。2.3 Servlet2.4 MySQLMySQL5是一个小型关系型数据库管理系统,开发者

30、为瑞典MySQL AB公司。在2008年1月16号被Sun公司收购。而2009年,SUN又被Oracle收购.对于Mysql的前途,没有任何人抱乐观的态度.目前MySQL被广泛地应用在Internet上的中小型网站中。由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,许多中小型网站为了降低网站总体拥有成本而选择了MySQL作为网站数据库。与其他的大型数据库例如Oracle、DB2、SQL Server等相比,MySQL自有它的不足之处,如规模小、功能有限(MySQL Cluster的功能和效率都相对比较差)等,但是这丝毫也没有减少它受欢迎的程度。对于一般的个人使用者和中小型企业来说

31、,MySQL提供的功能已经绰绰有余,而且由于MySQL是开放源码软件,因此可以大大降低总体拥有成本5。本系统中用的是MySQL 5.6.24版本。2.5 汉语分词NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。在各位ICTCLAS用户强烈的要求下,张华平博士正式发布ICTCLAS2013 版本,为了与以前工作进行大的区隔,并推广NLPIR自然语言处理与信息检索共享平台,从本版本开始,系统名称调整为NLPI

32、R汉语分词系统。张博士先后倾力打造十余年,内核升级10次,全球用户突破20万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名。 NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;全球用户突破20万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名。本系统需要对用户输入的查询语句进行分词,所以采用了网上免费提供的中科院分词系统,本系统使用的版本为:2013年UTF8编码版。2.6 开放API平台API8(Application Programming Interface,应用程序编程接口)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1