1、软件概要设计报告1. 引言1.1 编写目的经过需求分析的书写,我们已经了解到了我们真正的需求,概要设计这个段使我们正式的进入软件开发的阶段,本阶段大致完成搜索引擎设计并明确系统的数据结构与软件结构。在软件阶段我们主要把软件的需求分析转化为软件表示的过程,这种表示只是描绘出软件的总的概貌。根概要设计说明书的目的就是进一步的细化软件设计阶段得出软件的总体概貌,把它加工成在软件细节上非常的接近于源程序的软件表示。1.2 定义开发工具:Visual Studio 2005开发语言:c#开发框架:APS.NET 2.0数据库: Access系统运行环境: Window server2003 ,Windo
2、ws 旗舰版,IIS6,netFramework 2.01.3 参考资料Web应用程序设计实践转周任务书软件需求分析软件工程导论 张海藩2. 概要设计2.1 限制和约束在概要设计中,要严格遵循需求分析时候多做出的要求。把软件分析转换化为软件表示的过程。3. 总体设计及各个模块设计3.1 总体设计总体设计的目的是概要的实现系统,并且设计软件的结构,确定系统是由哪些模块组成的,以及这些模块相互间的关系。模块化就是把程序划分成独立命名且可独立访问的模块,每个模块完成一个子功能,把这些模块集成起来构成一个整体,可以完成指定的功能满足用户的需求。系统功能模块图。领域元搜索引擎系统包含用户检索模块,资源搜
3、集模块,网页分析模块,结果融合模块,反馈信息模块。图3-1系统模块图一个真正的元搜索引擎由三部分组成,即:检索请求提交机制、检索接口代理机制、检索结果显示机制。请求提交负责实现用户个性化的检索设置要求,包括调用哪些搜索引擎、检索时间限制、结果数量限制等。接口代理负责将用户的检索请求翻译成满足不同搜索引擎本地化要求的格式。结果显示负责所有元搜索引擎检索结果的去重、合并、输出处理等。元搜索引擎的出现,对于那些需要连续地使用不同的搜索引擎重复相同的检索的人来说,是一个福音。使用元搜索引擎同时对几个搜索引擎进行检索,获得分级编排的检索。详细设计的根本目标是确定领域元搜索引擎系统的具体设计方案,得出对系
4、统的精确描述,从逻辑上实现系统每个模块的功能,设计出简明易懂的处理过程,为编码实现奠定基础。3.2 各功能模块设计3.2.1关键字转换格式程序流程图用户登录主页后,输入关键字,然后主页将关键字作为参数传递到后台,后台接收到关键字后,将其转换为各个成员搜索引擎可以识别的格式。图3-1 关键字转换格式程序流程图3.2.2 调度成员搜索引擎程序流程图调度成员搜索引擎主要是面向用户的个性化,用户可以随意选择其喜欢的成员搜索引擎,亦可默认选择,如果不选择,系统将会给出选择提示。图3-2 调度成员搜索引擎程序流程图3.2.3 解析网页内容程序流程图提取网页文本内容的核心思想是从前至后依次循环匹配出每个表格
5、中的网页内容,然后再在匹配出来的每个表格中,循环提取需求的标题、简介和超链接等信息。图3-3 解析网页内容程序流程图3.2.4融合结果程序流程图融合结果的基本思想是按照网页信息与关键字信息的相关度以及用户对该结果的点击率为参照,然后进行综合排序,相关度和点击率越大的,排序越靠前,即:该结果用户可能更为满意。图3-4 融合结果程序流程图3.2.5 信息反馈序流程图信息反馈的主要工作是将已经排序好并且存储在结果数据库中的各个成员搜索引擎提供的信息,依次显示在页面上,供用户浏览,并分页显示。 图3-5 信息反馈程序流程图4.技术设计 4.1 开发技术应用说明4.1.1重复结果的评判标准搜索结果中的链
6、接(hyperlink)、锚记(anchor)、描述(description)等可以用来判断两个结果是否重复。我们基于下面的策略进行判断:1首先判断两个结果的hyperlink是否相同,若相同则认为是同一结果。2比较URL的相似性,如果主机IP地址、路径、文件名完全相同,也认为是同一结果。3比较文档的元信息,比如标题、作者、摘要、大小等信息,超过相似程度阀值的结果认为 是相同的。对于这一条,为了提高系统的响应速度,可以不予实现。4.1.2 结果融合技术从元搜索引擎的工作原理可以看出,结果融合技术是至关重要的,因此人们也提出了很多种方法来实现。较为简单的方法有:将响应速度最快的搜索引擎的结果呈现
7、给用户;分别显示各个搜索引擎的返回结果,不做任何处理。较为复杂一些的就是根据一定的策略来实现结果融合了。根据用户的设定,还可以对检索结果作进一步的处理:检测目标页面是否存在,以消除死链接;取回结果的目标页面,做文本分析,以提供更高的相关度判断和提供网页快照;对处理后的结果进行分类,可以按照领域、主题、站点等进行分类。4.1.3有效信息提取技术在接收到成员搜索引擎的返回结果后,很重要的一个技术就是如何从结果页面中提取所需要的检索结果。由于成员搜索引擎间使用的技术不同,结构也相差很大,能否正确提取结果便是一个十分棘手的问题。基于这样的一个认知:搜索的结果都是动态生成的,因此所需要的结果必定是被包装
8、起来的,也就是可以找到一个头和一个尾,在头和尾之间的内容便是我们所需要的内容。现在的办法是使用人工的方式,寻找这个头和尾,然后在配置信息里面告诉系统,由查询代理负责根据这些信息提取所需要的结果。现在也有这样的实现方法,就是基于统计的方法,使用人工智能技术,让系统具有自学习的功能,这样以来就不用人工的干预,可以自主形成成员搜索引擎的在结果提取方面的信息。现在像Google提供了web services,可以直接提取相应信息(检索结果、响应时间、结果数量、文档相关度等),但是只有作为注册用户才可以无限制使用。这可能是一个更好的解决办法,因为独立搜索服务提供商更清楚自己的系统和使用的技术,也可以更直
9、接的提供我们所需要的结果信息。5.数据库设计5.1系统E-R图E-R图也即实体-联系图(Entity Relationship Diagram),提供了表示实体型、属性和联系的方法,用来描述现实世界的概念模型。本系统的实体有关键字信息、需求(解析后)网页信息。图5-1关键词信息E-R图图5-2网页信息E-R图图5-3总体E-R图5.2数据库设计数据库设计是指根据用户的需求,在某一具体的数据库管理系统上,设计数据库的结构和建立数据库的过程。keyword_table表(关键字信息表)表4-1 关键字信息表字段名数据类型长度是否为空描述Keyword_id自动编号216主键关键字编号Keyword
10、s文本255Not null关键字信息wy_table表(网页信息表)表4-2 网页信息表字段名数据类型长度是否为空描述wangye_id自动编号216主键网页编号wangye_tittle文本255Notnull网页标题wangye_zhaiyao备注Notnull网页简介wangye_lianjie超链接Notnull网页链接wangye_pr文本255Notnull网页权值xw_table表 (新闻信息表)表4-3 新闻信息表字段名类型长度是否为空描述xinwen_id自动编号216主键新闻编号xinwen_tittle文本255Notnull新闻标题xinwen_zhaiyao备注Notnull新闻摘要xinwen_lianjie超链接Notnull新闻链接xinwen_pr文本255Notnull新闻权值tp_table表(图片信息表)表4-3 图片信息表字段名数据类型长度是否为空描述tupian_id自动编号216主键图片编号tupian_tittle文本255Notnull图片标题tupian_lianjie超链接Notnull图片链接tupian_pr文本255Notnull图片权值
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1