软件概要设计报告.docx
《软件概要设计报告.docx》由会员分享,可在线阅读,更多相关《软件概要设计报告.docx(12页珍藏版)》请在冰豆网上搜索。
软件概要设计报告
1.引言
1.1编写目的
经过需求分析的书写,我们已经了解到了我们真正的需求,概要设计这个段使我们正式的进入软件开发的阶段,本阶段大致完成搜索引擎设计并明确系统的数据结构与软件结构。
在软件阶段我们主要把软件的需求分析转化为软件表示的过程,这种表示只是描绘出软件的总的概貌。
根概要设计说明书的目的就是进一步的细化软件设计阶段得出软件的总体概貌,把它加工成在软件细节上非常的接近于源程序的软件表示。
1.2定义
开发工具:
VisualStudio2005
开发语言:
c#
开发框架:
APS.NET2.0
数据库:
Access
系统运行环境:
Windowserver2003,Windows旗舰版,IIS6,netFramework2.0
1.3参考资料
Web应用程序设计实践转周任务书
软件需求分析
软件工程导论张海藩
2.概要设计
2.1限制和约束
在概要设计中,要严格遵循需求分析时候多做出的要求。
把软件分析转换化为软件表示的过程。
3.总体设计及各个模块设计
3.1总体设计
总体设计的目的是概要的实现系统,并且设计软件的结构,确定系统是由哪些模块组成的,以及这些模块相互间的关系。
模块化就是把程序划分成独立命名且可独立访问的模块,每个模块完成一个子功能,把这些模块集成起来构成一个整体,可以完成指定的功能满足用户的需求。
系统功能模块图。
领域元搜索引擎系统包含用户检索模块,资源搜集模块,网页分析模块,结果融合模块,反馈信息模块。
图3-1系统模块图
一个真正的元搜索引擎由三部分组成,即:
检索请求提交机制、检索接口代理机制、检索结果显示机制。
"请求提交"负责实现用户"个性化"的检索设置要求,包括调用哪些搜索引擎、检索时间限制、结果数量限制等。
"接口代理"负责将用户的检索请求"翻译"成满足不同搜索引擎"本地化"要求的格式。
"结果显示"负责所有元搜索引擎检索结果的去重、合并、输出处理等。
元搜索引擎的出现,对于那些需要连续地使用不同的搜索引擎重复相同的检索的人来说,是一个福音。
使用元搜索引擎同时对几个搜索引擎进行检索,获得分级编排的检索。
详细设计的根本目标是确定领域元搜索引擎系统的具体设计方案,得出对系统的精确描述,从逻辑上实现系统每个模块的功能,设计出简明易懂的处理过程,为编码实现奠定基础。
3.2各功能模块设计
3.2.1关键字转换格式程序流程图
用户登录主页后,输入关键字,然后主页将关键字作为参数传递到后台,后台接收到关键字后,将其转换为各个成员搜索引擎可以识别的格式。
图3-1关键字转换格式程序流程图
3.2.2调度成员搜索引擎程序流程图
调度成员搜索引擎主要是面向用户的个性化,用户可以随意选择其喜欢的成员搜索引擎,亦可默认选择,如果不选择,系统将会给出选择提示。
图3-2调度成员搜索引擎程序流程图
3.2.3解析网页内容程序流程图
提取网页文本内容的核心思想是从前至后依次循环匹配出每个表格中的网页内容,然后再在匹配出来的每个表格中,循环提取需求的标题、简介和超链接等信息。
图3-3解析网页内容程序流程图
3.2.4融合结果程序流程图
融合结果的基本思想是按照网页信息与关键字信息的相关度以及用户对该结果的点击率为参照,然后进行综合排序,相关度和点击率越大的,排序越靠前,即:
该结果用户可能更为满意。
图3-4融合结果程序流程图
3.2.5信息反馈序流程图
信息反馈的主要工作是将已经排序好并且存储在结果数据库中的各个成员搜索引擎提供的信息,依次显示在页面上,供用户浏览,并分页显示。
图3-5信息反馈程序流程图
4.技术设计
4.1开发技术应用说明
4.1.1重复结果的评判标准
搜索结果中的链接(hyperlink)、锚记(anchor)、描述(description)等可以用来判断两个结果是否重复。
我们基于下面的策略进行判断:
1.首先判断两个结果的hyperlink是否相同,若相同则认为是同一结果。
2.比较URL的相似性,如果主机IP地址、路径、文件名完全相同,也认为是同一结果。
3.比较文档的元信息,比如标题、作者、摘要、大小等信息,超过相似程度阀值的结果认为是相同的。
对于这一条,为了提高系统的响应速度,可以不予实现。
4.1.2结果融合技术
从元搜索引擎的工作原理可以看出,结果融合技术是至关重要的,因此人们也提出了很多种方法来实现。
较为简单的方法有:
将响应速度最快的搜索引擎的结果呈现给用户;分别显示各个搜索引擎的返回结果,不做任何处理。
较为复杂一些的就是根据一定的策略来实现结果融合了。
根据用户的设定,还可以对检索结果作进一步的处理:
检测目标页面是否存在,以消除死链接;取回结果的目标页面,做文本分析,以提供更高的相关度判断和提供网页快照;对处理后的结果进行分类,可以按照领域、主题、站点等进行分类。
4.1.3有效信息提取技术
在接收到成员搜索引擎的返回结果后,很重要的一个技术就是如何从结果页面中提取所需要的检索结果。
由于成员搜索引擎间使用的技术不同,结构也相差很大,能否正确提取结果便是一个十分棘手的问题。
基于这样的一个认知:
搜索的结果都是动态生成的,因此所需要的结果必定是被包装起来的,也就是可以找到一个头和一个尾,在头和尾之间的内容便是我们所需要的内容。
现在的办法是使用人工的方式,寻找这个头和尾,然后在配置信息里面告诉系统,由查询代理负责根据这些信息提取所需要的结果。
现在也有这样的实现方法,就是基于统计的方法,使用人工智能技术,让系统具有自学习的功能,这样以来就不用人工的干预,可以自主形成成员搜索引擎的在结果提取方面的信息。
现在像Google提供了webservices,可以直接提取相应信息(检索结果、响应时间、结果数量、文档相关度等),但是只有作为注册用户才可以无限制使用。
这可能是一个更好的解决办法,因为独立搜索服务提供商更清楚自己的系统和使用的技术,也可以更直接的提供我们所需要的结果信息。
5.数据库设计
5.1系统E-R图
E-R图也即实体-联系图(EntityRelationshipDiagram),提供了表示实体型、属性和联系的方法,用来描述现实世界的概念模型。
本系统的实体有关键字信息、需求(解析后)网页信息。
图5-1关键词信息E-R图
图5-2网页信息E-R图
图5-3总体E-R图
5.2数据库设计
数据库设计是指根据用户的需求,在某一具体的数据库管理系统上,设计数据库的结构和建立数据库的过程。
keyword_table表(关键字信息表)
表4-1关键字信息表
字段名
数据类型
长度
是否为空
描述
Keyword_id
自动编号
2^16
主键
关键字编号
Keywords
文本
255
Notnull
关键字信息
wy_table表(网页信息表)
表4-2网页信息表
字段名
数据类型
长度
是否为空
描述
wangye_id
自动编号
2^16
主键
网页编号
wangye_tittle
文本
255
Notnull
网页标题
wangye_zhaiyao
备注
Notnull
网页简介
wangye_lianjie
超链接
Notnull
网页链接
wangye_pr
文本
255
Notnull
网页权值
xw_table表(新闻信息表)
表4-3新闻信息表
字段名
类型
长度
是否为空
描述
xinwen_id
自动编号
2^16
主键
新闻编号
xinwen_tittle
文本
255
Notnull
新闻标题
xinwen_zhaiyao
备注
Notnull
新闻摘要
xinwen_lianjie
超链接
Notnull
新闻链接
xinwen_pr
文本
255
Notnull
新闻权值
tp_table表(图片信息表)
表4-3图片信息表
字段名
数据类型
长度
是否为空
描述
tupian_id
自动编号
2^16
主键
图片编号
tupian_tittle
文本
255
Notnull
图片标题
tupian_lianjie
超链接
Notnull
图片链接
tupian_pr
文本
255
Notnull
图片权值