毕业设计WEB音乐搜索软件的设计与实现论文.docx

资源描述

毕业设计WEB音乐搜索软件的设计与实现论文.docx

《毕业设计WEB音乐搜索软件的设计与实现论文.docx》由会员分享，可在线阅读，更多相关《毕业设计WEB音乐搜索软件的设计与实现论文.docx（31页珍藏版）》请在冰豆网上搜索。

毕业设计WEB音乐搜索软件的设计与实现论文.docx

毕业设计（论文）

Web音乐搜索软件的设计与实现

论文作者姓名：

申请学位专业：

申请学位类别：

指导教师姓名（职称

：

论文提交日期：

Web音乐搜索软件的设计与实现

摘要

当前，面对浩瀚的网络资源，搜索引擎为所有网上冲浪的用户提供了一个入口，毫不夸张的说，所有的用户都可以借助于搜索引擎到达自己想去的网上任何一个地方。

因此它也成为除了电子邮件以外人们使用最多的网上服务。

随

着Internet的快速发展，海量信息和人们获取所需信息能力之间的矛盾日益明显，在信息海洋里查找信息，如同大海捞针一样,搜索引擎恰好解决了这一难题。

Web音乐搜索软件是采用Java语言开发的简易的互联网音乐搜索引擎，它是集网络爬虫（采用java内置的多线程及Socket技术）和基于B/S结构的Web查询（Struts框架）为一体的搜索软件。

该系统能完成对互联网的音乐信息的采集、分析、分类、保存和查询等功能；经过测试与分析，说明本系统运行稳定、可靠，具有一定的实用价值。

关键字：

音乐；搜索软件；网络爬虫；Socket技术；Struts框架；多线程

DesignandImplementationofWebMusicSearchSoftware

Abstract

Atpresent,inthevastnetworkresource,searchengineforallInternetsurfingusersprovidestheoneentrance.NoexaggerationtosaythatalluserscanbereachedanyoneplaceontheInternetbytheaidofsearchengines.SoithasbecomethemostusingonlineservicesforpeopleexceptE-mail.However,withtherapiddevelopmentoftheInternet,thecontradictionsbetweenmassiveinformationandobtainingthecapacityofrequiredinformationisobviousdaybyday.Searchingforinformationinvastnetworkresourcesislikelookingforneedlesinahaystack,butsearchenginejustsolvesthisproblem.

Thesoftwareisaboutwebmusicsearch.ItusesjavatodevelopasimpleInternetmusicsearchengine,andalsogathersthenet-reptile（intra-builderjavamulti-threadandsockettechnology）andwebsearchbasedonB/Sconstruction（strutsframework）asawholesearchsoftware.Itcanachievethecollection,analysis,classification,storageandsearchofInternetmusicinformation.Throughthetestandanalysis,itshowsthissystemisstable,reliable,andhassomepracticalvalues.

Keywords:

Music;SearchSoftware;Crawl;SocketTechnology;StrutsStructure;Multi-thread

论文总页数：

21页

1引言 1

1.1课题背景 1

1.2国内外研究现状 1

1.3本课题研究的意义 2

1.4本文的主要工作 2

2Web音乐搜索软件的需求分析 2

2.1搜集信息 2

2.2整理信息 2

2.3接受查询 3

3Web音乐搜索软件的设计 3

3.1系统总体流程 3

3.2系统部件介绍 4

4Web音乐搜索软件的具体实现 5

4.1数据设计 5

4.2网络爬虫设计 5

4.2.1遍历算法 6

4.2.2模拟浏览器 8

4.2.3正则表达式 9

4.2.4数据分析 12

4.3采用java多线程技术 13

4.4web查询端 14

4.4.1Struts框架 14

4.4.2Struts包内容 14

4.4.3Struts体系结构 15

5运行测试与分析 17

5.1软件试运行 17

5.2软件分析 19

结论 19

参考文献 19

致谢 20

声明 21

1引言

1.1课题背景

面对浩瀚的网络资源，搜索引擎为所有网上冲浪的用户提供了一个入口，毫不夸张的说，所有的用户都可以从搜索出发到达自己想去的网上任何一个地方。

因此它也成为除了电子邮件以外最多人使用的网上服务。

随着因特网的迅猛发展、WEB信息的增加，用户要在信息海洋里查找信息，就如同大海捞针一样，搜索引擎恰好解决了这一难题（它可以为用户提供信息检索服务）。

但是随着Internet的发展，搜索引擎也面临着海量信息和人们获取所需信息能力的矛盾。

因此，信息的高效搜索显得格外重要。

1.2国内外研究现状

搜索引擎技术伴随着WWW的发展是引人注目的。

搜索引擎大约经历了三代的更新发展：

第一代搜索引擎出现于1994年。

这类搜索引擎一般都索引少于

1，000，000个网页，极少重新搜集网页并去刷新索引。

而且其检索速度非常慢，一般都要等待10秒甚至更长的时间。

在实现技术上也基本沿用较为成熟的IR（InformationRetrieval）、网络、数据库等技术，相当于利用一些已有技术实现的一个WWW上的应用。

在1994年3月到4月，网络爬虫WorldWebWorm

（WWWW）平均每天承受大约1500次查询。

大约在1996年出现的第二代搜索引擎系统大多采用分布式方案（多个微型计算机协同工作）来提高数据规模、响应速度和用户数量，它们一般都保持一个大约50，000，000网页的索引数据库，每天能够响应10，000，000次用户检索请求。

1997年11月，当时最先进的几个搜索引擎号称能建立从

2，000，000到100，000，000的网页索引。

Altavista搜索引擎声称他们每天大概要承受20，000，000次查询。

2000年搜索引擎2000年大会上，按照Google公司总裁LarryPage的演讲，

Google正在用3,000台运行Linux系统的个人电脑在搜集Web上的网页，而且以每天30台的速度向这个微机集群里添加电脑，以保持与网络的发展相同步。

每台微机运行多个爬虫程序搜集网页的峰值速度是每秒100个网页，平均速度是每秒48.5个网页，一天可以搜集超过4，000，000网页。

搜索引擎一词在国内外因特网领域被广泛使用，然而他的含义却不尽相同。

在美国搜索引擎通常指的是基于因特网的搜索引擎，他们通过网络机器人程序收集上千万到几亿个网页，并且每一个词都被搜索引擎索引，也就是我们说的

第1页共21页

全文检索。

著名的因特网搜索引擎包括FirstSearch、Google、HotBot等。

在中国，搜索引擎通常指基于网站目录的搜索服务或是特定网站的搜索服务，本人这里研究的是基于因特网的搜索技术。

1.3本课题研究的意义

搜索引擎自动从英特网搜集信息，经过一定整理以后，提供给用户进行查询的系统。

英特网上的信息浩瀚万千，而且毫无秩序，所有的信息像汪洋上的一个个“小岛”，网页链接是这些“小岛”之间纵横交错的桥梁，而搜索引擎，则为你绘制一幅一目了然的信息地图，供你随时查阅。

搜索技术的意义在此。

1.4本文的主要工作

搜索引擎是根据用户的查询请求，查找信息返回给用户。

为了保证用户查找信息的精度和新鲜度，搜索引擎需要建立并维护一个庞大的索引数据库。

一般的搜索引擎由网络爬虫程序、数据分析,查询数据等部分组成。

本文的各章分配是这样安排的：

第一章介绍系统的开发背景；第二章介绍系统的需求分析；第三章介绍系统的总体结构；第四章介绍系统的详细设计；第五章测试与运行本系统；最后是全文的总结。

2Web音乐搜索软件的需求分析

随着因特网的迅猛发展、WEB信息的增加，用户要在信息海洋里查找信息，就像大海捞针一样，搜索引擎恰好解决了这一难题（它可以为用户提供信息检索服务）。

但是随着Internet的发展，搜索引擎也面临着海量信息和人们获取所需信息能力的矛盾。

一个好的搜索引擎不再仅凭借数据库大小、更新频率、检索速度、对多语言的支持这几个基本特性来衡量，如何从庞大的资料库中精确地找到正确的资料，被公认为是下一代搜索技术的竞争要点，智能化、个性化特色的新型引擎成为未来搜索引擎的发展趋势。

搜索引擎需要实现互联网信息的快速查询,要实现以下功能。

2.1搜集信息

搜索引擎的信息搜集基本都是自动的。

搜索引擎利用称为网络蜘蛛（spider）的自动搜索机器人程序来连上每一个网页上的超连结。

机器人程序根据网页链到其它网页中的超链接，就像日常生活中所说的“一传十，十传百……”一样，从少数几个网页开始，连到数据库上所有到其他网页的链接。

理论上，若网页上有适当的超链接器人便可以遍历绝大部分网页。

2.2整理信息

搜索引擎整理信息的过程称为“建立索引”。

搜索引擎不仅要保存搜集起来

的信息，还要将它们按照一定的规则进行编排。

这样，搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。

想象一下，如果信息是不按任何规则地随意堆放在搜索引擎的数据库中，那么它每次找资料都得把整个资料库完全翻查一遍，如此一来再快的计算机系统也没有用。

2.3接受查询

用户向搜索引擎发出查询，搜索引擎接受查询并向用户返回资料。

搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询，它按照每个用户的要求检查自己的索引，在极短时间内找到用户需要的资料，并返回给用户。

目前，搜索引擎返回主要是以网页链接的形式提供的，这些通过这些链接，用户便能到达含有自己所需资料的网页。

通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息，以帮助用户判断此网页是否含有自己需要的内容。

3Web音乐搜索软件的设计

根据上一章需求分析的情况，结合本软件所要需实现的功能，进行设计。

本章主要介绍该软件的设计流程及步骤。

3.1系统总体流程

图3.1系统结构

图3.1是本系统结构图，该系统分两大模块：

数据获取模块和用户查询模块所示首先通过网络爬虫从Internet上获取信息（模拟浏览器和遍历算法）保存在

第3页共21页

爬虫（crawl）的缓存中进行分析如果存在音乐连接得出音乐的名字和url，然后调用javabean进行把得到的数据写入数据库，客户端过浏览器访问TOM

展开阅读全文