概要设计说明书.docx

资源描述

概要设计说明书.docx

《概要设计说明书.docx》由会员分享，可在线阅读，更多相关《概要设计说明书.docx（18页珍藏版）》请在冰豆网上搜索。

概要设计说明书.docx

概要设计说明书

网上淘宝

——网络资源检索

概要设计说明书

所属学校：

山东省烟台大学文经学院

参赛项目：

网上淘宝—网络资源检索

指导老师：

姜远明

一、引言2

1、编写目的2

2、项目背景3

3、定义3

4、参考资料3

二、任务概述4

1、目标4

2、用户特点4

3、条件与限制5

三、总体设计5

1、系统框架设计5

2、服务器注册与退出模块设计6

3、服务器端检索模块设计7

4、文档异步预览以及视频播放模块设计．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．8

5、基于lucene的中文分词处理模块设计．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．8

6、资源发布与删除模块设计．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．10

7、语义（Semantic）探索模块设计．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．10

8、页面设计．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．12

四、运行设计17

五、出错处理设计18

1、出错输出信息18

2、出错处理对策18

一、引言

1、编写目的

本说明书是网上淘宝—网络资源搜索系统的概要设计说明书，是对系统的一个总体的宏观的设计，本说明书具体对系统的功能，总体设计，接口设计，数据库设计以及运行，出错处理，维护设计进行说明。

2、项目背景说明

“资源共享”是当今社会必不可少的一大需求，Internet也是基于这个客观的社会需求而发展起来的，并自始至终为这一目标而努力。

在Internet上，人们已经创建并提供了一系列的资源共享方式，如：

WWW浏览服务、FTP文件传输服务、E-mail服务、电子公告板、电子商务等等资源共享使身处各地的人们摆脱了地理因素带来的不便与封闭，使他们在网络上能够互相开放，互相拥有信息。

为了实现资源共享，在网络上，存在大量的资源共享服务器。

这些服务器一般存储了一定量的资源，并以web的方式供用户和其它服务器访问但这些资源共享系统往往都是孤立的服务器。

不同服务器的资源组织方式往往不同，有的是通过数据库，有的是通过一些描述文件（如XML），而且数据库的种类和结构也有很大的差别，这就导致不同服务器之间资源共享和资源发现都十分困难。

因此，某些资源只能在登陆该服务器时才能访问，互相之间发现和共享资源都十分困难，形成了许多的“信息孤岛”。

信息孤岛现象导致服务器之间资源不能互相利用，相同的资源会因此被重复开发和存储，限制了资源共享的利用效率。

信息孤岛也给用户访问这些资源造成了困难，用户如果想访问这些资源，就要登陆每一个服务器去检索和下载需要的资源。

由于服务器的分布广泛，数量众多，用户显然需要花费很长的时间去寻找自己需要的资源，这种情况下，用户往往难以检索到自己真正需要的资源。

因此，如何实现不同服务器之间的资源共享，提高资源的利用效率，避免同类资源的重复开发，是目前网络共享需要解决的问题。

而分布式框架资源整合和共检共享的实现很好的解决的这一问题，资源共享和整合的服务器存在的环境具有异构、分布、动态、演化的特点，这主要体现在虚拟组织、资源的异构、分布、动态、演化特性以及共享模式、协同方式的变化上。

用户只需要登陆任意一台服务器，就可以检索到大量所需资源，尽管这些资源来自于不同的服务器，但检索的过程对用户来说是透明的，用户检索和获取这些资源就如同检索和获取所请求的服务器上的资源一样。

3、定义

WebService：

一种新的Web应用程序分支，它们是自包含、自描述、模块化的应用，可以发布、定位、通过web调用。

WebService可以执行从简单的请求到复杂商务处理的任何功能。

一旦部署以后，其他WebService应用程序可以发现并调用它部署的服务。

WebService的主要目标是跨平台的可互操作性。

为了达到这一目标，WebService完全基于XML（可扩展标记语言）、XSD（XMLSchema）等独立于平台、独立于软件供应商的标准，是创建可互操作的、分布式应用程序的新平台。

4、参考资料

（1）Struts应用开发完全手册（附光盘）人民邮电出版社

（2）JSP开发技术大全（附光盘）人民邮电出版社

（3）《Ajax开发技术原理与实践教程》电子工业出版社

（4）XHTML教程（XHTML）

（5）JavaScript权威指南第四版（JavaScript:

TheDefinitiveGuide）

（6）XML高级编程（ProfessionalXML）

（7）网站重构（DesigningwithWebStandards）

二、任务概述

1、目标

1.操作简单，易于使用

简洁明了的操作界面能够使操作人员很快的掌握软件的使用技巧，从而提高工作效率。

因此在开发本系统时力求软件的易用性甚至是智能化，将复杂的控制工作留给计算机，而人只需点击几个按钮就可以控制连接在监控中心的多个设备。

2.可靠性好，系统稳定

本系统有较高的可靠性和系统稳定性。

在每个服务器端应用程序中加入严格的逻辑判断以确保整个系统的可靠性和稳定性。

3.可维护性好

利用WebService的松散耦合的特点可以实现设备之间、设备与监控中心之间是相互独立的。

这样为系统的维护提供了方便，提高了系统的可维护性,降低了系统维护的成本。

4.可扩展性强

各种设备都是通过网络互联起来，增加设备只需要将其接入相应的网络就可以实现多个设备物理上的连接用WebService封装设备控制接口，使设备的控制变成标准的WebService调用，消除了不同设备之间接口的差异性。

多种设备的集成便的更容易。

2、用户特点

本系统面向的是所有需要进行网络资源搜索的用户，网络资源搜索用户的特点是操作简单，搜索速度要快，搜索结果要准确。

3、条件与限制

在确定Web服务时遇到了一些问题，网络上提供的Web服务标准不一致，用不同语言编写的Web服务在调用时可能需要以不同的代码来实现，因此在调用服务的时候可能需要采取多种调用方式。

有些对用户比较实用的Web服务网络上没有，必须自定义这些服务。

三、总体设计

1系统框架设计

【9】

图3-1系统架构图

Struts架构清晰地区分开了视图、控制器以及模型。

模型包含所有必须的业务逻辑，从存储数据仓库中检索数据。

您可以构建一个简单的Web服务层——称为WSManager层——这样的模型可以提供Web服务也可以订购Web服务。

使用这种体系结构的应用程序将基于组件开发的最佳点与Internet结合在了一起

模块的框架结构（见图3-1）是采用WebService将各模块的功能接口统封装，使各模块的接口统一化。

整个系统中的各模块存在很大的异构性。

基于WebService，采用适配器模式，针对不同的应用系统,用WebService适配器将这些功能模块的接口进行封装，这样各个设备或系统的接口对外就表现为标准的WebService接口，从而消除不同平台，系统接口的差异性。

2服务器注册与退出模块设计

图3-2网络拓扑结构图

各台服务器的tomcat根目录下都有自己的Xml文档。

Xml文档的remote主机代表了这个资源服务器要注册发布的服务器ip地址，也就是说这个资源服务器要想和其他资源服务器共享共检，需要向这个remote上注册发布自己的ip地址，并从这个remote服务器上获取其他资源服务器的地址，一旦有一个资源服务器在remote服务器上发布了自己的ip地址，这个remote服务器应该通知其他已发布的资源服务器，以使其他的资源服务器知道又有一个资源服务器加入到了共享共检域中。

这种编程方法是指remote主机首先打开，该服务器首先加载自己本服务器存储的ip，同时服务器上有一个WebService远程方法，可以记录其它主机的ip地址，其它主机开启服务器之后，会调用这个远程方法，把自己的ip地址写入，同时这台新开启的主机也有一个WebService远程方法，可以供remote服务器调用以写入其它已经注册的服务器，这个这台新加入的服务器就知道了其它服务器的ip地址。

同时remote服务器也会把新加入的服务器的地址写到其它已注册的服务器上，使整个网络都知道了其它服务器的信息。

Remote主机还担负着监测局域网内已注册服务器的的工作状况的任务。

当Remote主机启动30分钟后，会根据服务器注册的ip主动的ping已注册的服务器。

若已注册的服务器有非正常退出的情况，则通过一个WebService远程方法通知其他已注册服务器删除这个已非正常退出服务器的ip。

3服务器端检索模块设计

图3-3Webservices检索过程【10】

服务器端检索模块是用于各台服务器检索本机资源的一个模块。

该模块通过两种方式进行检索【完全匹配】和【模糊检索】。

其中【完全匹配】可进行准确的关键字检索，返回的是检索关键字完全包含在Test.xml中的keywords完全匹配的节点信息内容。

【模糊检索】能够根据分词后形成的短语与Test.xml中的keywords进行匹配检索，依次返回完全匹配段，次完全匹配段，分词后的检索的结果段,最后组成一段整链返回到页面。

如上图所示。

每台服务器的检索过程都如此。

每台服务器中的检索，要将其的控制接口以及状态信息等数据以WebService的形式发布。

当其中一台服务器检索其它服务器的资源时，会以WebService的形式调用其它服务器上的检索程序，其中每台服务器把三个检索结果，放在一个链表中,在把这个链表转换为xml的形式，以便于WebService的

网络传输，再以XMl的形式发送给正在检索资源的服务器。

正在检索资源的服务器对传递过来的xml串进行处理，形成linkedlist对象。

每台服务器可进行分类检索，单独对视频，文档，音频，网页进行检索。

4文档异步预览以及视频播放模块设计

对于需求中需要WORD，PPT御览的功能要求，本系统使用POI控件实现对office文件的读取。

借鉴了“有道搜索”引擎中的弹出层形式。

在弹出层的内部对WORD，PPT资源内容利用ajax技术进行异步抽取预览。

对于检索得到的各种视频，音频资源，系统可以实现在线播放。

图3-4文档预览【10】

5基于lucene的中文分词处理模块设计

中文分词是对用户输入的关键字进行按中文文字字义分成各个单词，以便于搜索的方式，是现在搜索引擎中模糊匹配搜索的基础。

本系统使用lucene的中文分词接口，以中科院中文分词算法为基础，借鉴庖丁解牛中文分词技术实现对搜索内容的动态分词功能。

中文分词看似简单，但其实不是一个小课题，国内外许多高校都在对中文分词进行深入研究；截止目前中文分词技术主要可以分为以下三种。

1.基于字符串匹配的分词方法

这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。

按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大（最长）匹配和最小（最短）匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。

常用的几种机械分词方法如下：

a）正向最大匹配法（由左到右的方向）；

b）逆向最大匹配法（由右到左的方向）；

c）最少切分（使每一句中切出的词数最小）。

还可以将上述各种方法相互组合，例如，可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。

由于汉语单字成词的特点，正向最小匹配和逆向最小匹配一般很少使用。

一般说来，逆向匹配的切分精度略高于正向匹配，遇到的歧义现象也较少。

统计结果表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245。

但这种精度还远远不能满足实际的需要。

实际使用的分词系统，都是把机械分词作为一种初分手段，还需通过利用各种其它的语言信息来进一步提高切分的准确率。

一种方法是改进扫描方式，称为特征扫描或标志切分，优先在待分析字符串中识别和切分出一些带有明显特征的词，以这些词作为断点，可将原字符串分为较小的串再来进机械分词，从而减少匹配的错误率。

另一种方法是将分词和词类标注结合起来，利用丰富的词类信息对分词决策提供帮助，并且在标注过程中又反过来对分词结果进行检验、调整，从而极大地提高切分的准确率。

2.基于理解的分词方法

这种分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。

其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。

它通常包括三个部分：

分词子系统、句法语义子系统、总控部分。

在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。

这种分词方法需要使用大量的语言知识和信息。

由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段。

3.基于统计的分词方法

从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。

因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。

可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。

定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率。

互现信息体现了汉字之间结合关系的紧密程度。

当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。

这种方法只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计取词方法。

但这种方法也有一定的局限性，会经常抽出一些共现频度高、但并不是词的常用字组，例如“这一”、“之一”、“有的”、“我的”、“许多的”等，并且对常用词的识别精度差，时空开销大。

实际应用的统计分词系统都要使用一部基本的分词词典（常用词词典）进行串匹配分词，同时使用统计方法识别一些新的词，即将串频统计和串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点【11】。

6资源发布与删除模块设计

资源的发布与删除模块主要作用是解决用户想把某个资源加入或者退出共享系统的问题。

资源的发布模块有三部分组成：

1.实现了commons-fileupload组件文件上传；

2.成功的把发布资源id，title，keywords，kind，describe，date，url，Author，publisher等信息读取出来，并放入与发布资源数目相等的层中；

3.把生成的这些信息写入到Test.xml中。

资源的删除主要有两部分组成：

1.把本服务器Test.xml中描述的资源名称全部抽取出来并显示在一个页面中；

2.实现资源的删除。

包括Test.xml中相关节点的删除与tomcat根目录下资源的删除。

7语义（Semantic）探索模块设计

随着Web的迅速发展，其应用范围变得更广，规模变得更大。

传统的Web技术已经不能满足现在Web发展的需要。

语义网汲取多个学科的研究成果，力图对Web上信息的表示和获取方式进行重大的改进，通过增加一些语义信息使得计算机能够参与Web信息的自动处理，从而更有效地利用Web信息。

语义Web中，各种资源被人为地赋予了各种明确的语义信息，计算机可以分辨和识别这些语义信息，并对其自动进行解释、交换和处理。

语义web对现有的Web进行了语义扩展，从而使其能被计算机做一定的理解和处理，从功能上看它将是一个能够“理解”人类信息的智能网络。

将语义Web融入现在Web结构的初步努力已经在进行中了。

不久的将来，当机器有更强的能力去处理和“理解”数据时，我们将看到很多重要的新功能。

在其体系结构中,第一层是Unicode和URI，它是整个语义Web的基础，Unicode（统一编码）处理资源的编码，URI（统一资源定位器）负责标识资源；第二层是XML＋名空间＋XML模式，用于表示数据的内容和结构；第三层是RDF＋RDF模式，用于描述资源及其类型；第四层是本体词汇，用于描述各种资源之间的联系；第五层是逻辑，在下面四层的基础上进行逻辑推理操作；第六层是验证，根据逻辑陈述进行验证以得出结论；第七层是信任，在用户间建立信任关系。

第二、三、四层是语义Web的关键层，用于表示Web信息的语义，也是现在语义Web研究的热点所在。

可扩展标记语言XML（eXtensibleMarkupLanguage）让每个人都能创建自己的标签，来对网页或页面的部分文字进行注释。

脚本，或者说是程序，可以将这些标签运用到复杂的应用中，不过程序编写者必须知道网页作者是如何使用每一个标签的。

简而言之，XML允许用户在文档中加入任意的结构。

资源描述框架RDF（ResourceDescriptionFramework）的基本结构是对象-属性-值三元组，也就相当于句子中的主语、动词和宾语。

这些三元组可以用XML语法来表示。

用这种结构描述由机器处理的大量数据，是非常自然的方法。

RDF模式是一个描述RDF资源的属性（Property）和类（Class）的词汇表，提供了关于这些属性和类的层次结构的语义。

因为两个系统可能采用不同的标识符表示同一概念，也可能用一个标识符表示不同的含义，程序若要在两个数据库之间进行信息的比较和合并，就必须了解某些标识符表示的是否是同一事物。

对该问题的一个解决方法就是本体论（Ontology）。

本体是概念化的显式说明，包括分类和一套推理规则。

分类定义对象的类别及其之间的关系，使我们能够表达实体之间的大量关系，而根据推理规则，程序可以进行自动推理。

简单地说，就是在不同的系统间定义一本字典或者度量表，使它们对实体及其之间的关系达成共识，以便交流和共享。

语义Web需要能够对Web文档中的术语含义进行形式化描述。

DAML+OIL（即DARPA代理标记语言+本体推论语言），OWL（Web本体语言），它们是W3C规范的重要扩充和改进，都是建立在人工智能知识表示基础之上的本体语言，提供了一种自然方式来描述在Web词间的类与子类之间的关系，以及在类与类之间（或子类与子类之间）关系上的限制。

它们比RDF模式添加了更多的用于描述属性和类的词汇，例如类之间的不相交性（Disjointness）、等价性、更丰富的属性类型、属性特征等。

当然，要实现语义Web是远远不够的，更主要的技术难题还在于要让电脑可以进行更多的“思考”和“推断”。

为使语义Web工作，计算机必须能访问结构化的信息集合以及一套推理规则，据此进行自动推理。

增加逻辑性——使用规则去推理，选择行动的方式以及回答问题的方法——是语义Web组织面临的一个任务。

有了大量富含语义信息的网页，就好像有了一个巨大的全球互联的数据库。

有了语义信息的帮助，人们开发出的软件代理Agent程序的智能和自动化将大大提高，它们从不同的资源中收集网页内容，搜索和处理信息并和其他程序交换信息，真正发挥语义Web的力量。

当出现更多的机器可处理的网页内容和服务（包括更多的代理）时，通过代理之间的信息交换和协同工作，信息处理的效率将呈指数级增长，能更好地满足用户的需求。

图3-5语义Web的概念和体系结构【13】

8页面设计

8.1:

系统首页界面

模块描述：

显示系统首页界面，把控件中的检索关键字信息传给关键字处理业务层，用户鼠标点击后进入显示检索信息的界面。

其中可实现分类搜索，分类搜索分为“视频”“音频”“文本”“图片”四种。

图4-6首页界面效果截图

用户填写需要查询的关键字

单击【完美搜索】或【智能搜索】，首页把检索关键字传给业务处理层，检索xml数据库信息的关键字信息。

回车默认为模糊检索。

8.2:

系统检索信息展示界面

模块描述：

显示检索信息展示界面，首页把检索关键字进行处理查，业务层查询本服务器与其他服务器的资源，后返回到信息展示页面，检索成功后跳到此界面中，每个页面显示10条资源的信息。

图3-7系统检索信息展示界面效果截图

当鼠标滑过WORD，PPT的预览图标时，就会弹出下面的图层。

若资源未找到，则显示“已找到0条记录”。

8.3:

预览界面

WORD，PPT的预览界面如下

图3-8　预览界面效果图

当鼠标滑过WORD，PPT的预览图标时，就会弹出以上的图层。

若资源未找到，则显示“有一个资源文件没有找到”。

8.4:

分类检索界面

模块描述：

此功能主要方便于用户检索特定格式的资源。

其中首页的四个分类为视频，音频，文档，图片。

图3-9分类检索界面效果截图

用户使用分类检索，只能够检索到特定格式的资源。

8.5:

资源发布界面

模块描述：

当用户需要发布资源时，需要点击系统首页的“发布资源”链接。

每次可发布的资源数目最多为五个。

用户通过【浏览】按钮寻找所发布资源的位置，当点击【下一步】按钮时，系统把文件添加到tomcat根目录下的webapps\resource目录下，并会为你展示发布资源的自动生成的默认相关信息，用户可对发布资源的信息进行修该，点击【提交】按钮后，该信息写入Test.xml文档。

图3-10发布资源界面效果截图

用户一次做多可以上传文件个数为五个。

点击【下一步】后，文件自动添加到tomcat根目录下的webapps\resources目录下，并自动生成默认的文件信息

显示的默认的上传文件的全部信息。

其中keywords是用中文分词技术自动形成的关键字。

用户可以对以上默认信息进行修改，点击【提交】后，文件的信息写入Test.xml文档。

页面转到成功页。

用户发布资源成功，可点击【返回首页】，回到首页进行相关的操作

8.6:

删除资源界面

模块描述：

当用户需要删除以前发布的资源时，需要点击系统首页的“删除资源链接。

页面转到删除资源界面，其中展示出所以前所发布的全部资源的名称与相关信息。

用户可选中欲删除的资源前的复选框，点击【删除】按钮，该资源在Test.xml中的节点信息和tomcat根目录下的webapps\resource目录下该资源一起被删除。

图3-13删除资源界面效果截图

用户选择资源前的复选框，选择需要删除的资源。

鼠标点击【删除】，确认删除后，该资源在Test.xml中的节点信息和tomcat根目录下的webapps\resource目录下该资源一起被删除。

用户删除资源成功，可点击【返回首页】，回到首页进行相关的操

四、运行设计

五、出错处理设计

1、出错输出信息

1）无法打开网络连接

2）输入参数不正确导致无法查询到所需内容

3）系统错误

2、出错处理对策

提示用户发生错误的相关信息，对于可恢复的错误则由程序自行处理恢复，对于不可恢复的错误则提示用户相关信息并退出系统。

展开阅读全文