微软针对广东移动企业搜索项目技术方案Version 10.docx

上传人:b****5 文档编号:7506187 上传时间:2023-01-24 格式:DOCX 页数:28 大小:1.19MB
下载 相关 举报
微软针对广东移动企业搜索项目技术方案Version 10.docx_第1页
第1页 / 共28页
微软针对广东移动企业搜索项目技术方案Version 10.docx_第2页
第2页 / 共28页
微软针对广东移动企业搜索项目技术方案Version 10.docx_第3页
第3页 / 共28页
微软针对广东移动企业搜索项目技术方案Version 10.docx_第4页
第4页 / 共28页
微软针对广东移动企业搜索项目技术方案Version 10.docx_第5页
第5页 / 共28页
点击查看更多>>
下载资源
资源描述

微软针对广东移动企业搜索项目技术方案Version 10.docx

《微软针对广东移动企业搜索项目技术方案Version 10.docx》由会员分享,可在线阅读,更多相关《微软针对广东移动企业搜索项目技术方案Version 10.docx(28页珍藏版)》请在冰豆网上搜索。

微软针对广东移动企业搜索项目技术方案Version 10.docx

微软针对广东移动企业搜索项目技术方案Version10

广东移动企业搜索项目

POC报告和技术方案

微软(中国)有限公司

2007-3-20

1POC实施情况报告

广东移动是微软公司在中国的重要客户,非常感谢广东移动过去对微软公司的支持。

为推动中国移动广东移动知识管理进程,加快企业搜索在企业内的应用,广东移动正准备实施企业搜索项目。

为降低本项目的实施风险,为保证我们能够不断给广东移动带来新的价值,在广东移动IT信息部门的配合下,我们从2006年/9/12日起开始对广东移动企业搜索项目进行POC(概念验证)的工作。

前期POC主要验证了微软公司企业搜索产品可以搜索不同数据源的能力,具体数据源包括:

Notes,文件共享目录,Web站点,SQL数据库,Oracle数据库等数据源。

经过POC,已经验证通过全部数据源的搜索工作。

本次POC也是按照广东移动公司企业搜索引擎建设分阶段进行的精神进行。

第一阶段主要实现对全省OA应用的搜索功能,其中POC阶段将以江门市公司OA应用为对象,实现一阶段主要功能要求,然后在此基础上形成项目技术方案,作为选项的一个依据。

因此,后期POC微软公司主要验证了其企业搜索产品在NotesOA的搜索能力,搜索源定在江门公司实际NotesOA数据源,在POC阶段微软公司也验证了基于权限的搜索和属性搜索,相关性搜索等功能。

写本文档的主要目的是:

●汇总POC结果及问题。

●面向客户的业务目标,充分了解广东移动各部门和企业整体的信息搜索、信息展示和知识协作等方面的实施需求.

●根据广东移动之前提供的需求整理企业搜索的目标、方向.

●给出适应当前要求和未来发展需要的总体功能架构,并对重点课题进行技术可行性分析;

●结合广东移动企业搜索项目及客户现阶段情况,提出阶段建设目标。

通过我们的工作,希望能够满足广东移动构建一流的企业搜索引擎项目目标。

到目前止,我们对POC的结果进行了分析,结合我们以往的经验给出这篇POC报告,并给出我们对广东移动企业搜索项目的建议。

我们期望这个报告能作为广东移动搜索项目的参考,用于后续的项目实践。

在此篇报告中,我们根据POC中碰到的问题和结果,对于广东移动搜索引擎的定位和建设方向提出了看法;对于企业搜索项目的投资回报,进行了定性和定量的分析。

并且,我们对广东移动搜索项目中的一些主要技术难点进行了初步的方案探讨,并给出了广东移动搜索的技术框架。

我们对于广东移动搜索项目的阶段计划,建设内容,给出了具体可行的分阶段建设范围建议。

包括:

●第一阶段(2007年)

根据本文所述广东移动搜索的发展方向建议,我们建议广东移动搜索引擎项目第一阶段的重点放在以下几个方面:

Ø全面部署桌面端搜索工具WindowsDesktopSearch;

Ø尽量利用现有产品功能实施企业搜索引擎,根据业务优先级规划好内容源。

通过配置和简单客户化定制完成企业搜索中心的部署。

本期建设的另一个重点是通过对用户使用搜索引擎情况的分析,更加深入地了解用户对于搜索的要求,不断掌握提升搜索结果相关度的方法,提升企业搜索服务的建设经验;

Ø实现基于NotesOA系统权限的搜索过滤功能;

Ø建立信息关联搜索;

Ø实现搜索引擎网站与门户,OA系统的单点登陆;

Ø实现信息分类检索,关键字的简单及高级检索;

通过以上几方面的建设,可以全面提升广东移动的企业级信息搜索能力,对提升最终用户的用户体验和用户满意度,获得立竿见影的效果。

并为企业信息协同框架的形成以及发展奠定良好的基础。

●第二阶段(2008年~)

建立企业级搜索服务,完善企业搜索框架设计,深化搜索服务与信息系统集成以及基于信息的协同和重用

Ø建立企业搜索规则引擎

Ø建立完整信息权限设计模型

Ø建立企业搜索服务,为其他应用系统提供搜索服务

建立企业级别的知识管理系统,逐步实现业务系统的信息整合,提供知识积累的技术手段和平台,完成知识管理平台框架的建设。

微软公司非常感谢广东移动给予我们此次参与贵司企业搜索平台方案选型的机会,并很希望可以就进一步的项目需求以及实施计划与广东移动展开更加深入的探讨。

1.1广东移动企业搜索项目POC情况分析

本次POC微软针对广东移动江门公司的NotesOA系统,进行了POC测试。

测试功能可从用户和系统两个角度进行描述。

1.1.1用户视图

1.关键字检索

●简单检索:

通过定制化的搜索中心网站,输入关键字后,可以查询到相关NotesOA的内容信息。

如下图:

●高级检索:

进入搜索中心网站的高级搜索页面,可以选择不同的NotesOA数据库进行关键字查询,也可以结合收文库和发文库中不同的文档属性进行组合条件的查询。

如下图:

2.关联推荐

●专家推荐:

通过在网站中定义关键字,系统会自动出现专家推荐的搜索信息。

例如输入“广东移动”,即可在网站的右边看到专家推荐的搜索信息,如下图:

定制关键字的设置可以直接在网站设置中找到,所以设置起来非常方便。

如下图:

●上下文关联推荐:

通过用户输入的关键字,自动查找本站点内经常出现的搜索关键字并显示出来,如下图:

●用户行为关联:

可以自动显示该网站其他用户经常搜索排名前十位的关键字并自动显示给当前用户做直接的搜索,如下图:

3.分类检索

提供基于NotesOA文档库的分类树形结构树的分类检索功能,让用户可以按照使用OA文档的习惯去搜索结果。

如下图:

1.1.2系统视图

1.权限控制

采用江门公司“韦伟”账号进入搜索中心,在搜索中心中输入"广东移动",返回的数据一共有2048条。

可以对比其他用户同样搜索“广东移动”返回的数据量即可验证到权限控制的搜索结果。

2.性能指标

微软官方基于SharePointSearchServer进行过性能的测试。

具体可以参考如下连接:

性能测试是基于以下环境进行的:

Computerrole

Hardware

Harddiskcapacity

Queryservers

4dual-coreIntelXeon2.66gigahertz(GHz)processors

32gigabytes(GB)RAM

40GBfortheoperatingsystem(RedundantArrayofIndependentDisks(RAID)5)

956GBforthecontentindexandtheoperatingsystempagingfile(RAID10)

Indexserver

4dual-coreIntelXeon2.66GHzprocessors

32GBRAM

40GBfortheoperatingsystem(RAID5)

956GBforthecontentindexandtheoperatingsystempagingfile(RAID10)

Databaseserver

4dual-coreIntelXeon2.66GHzprocessors

32GBRAM

40GBfortheoperatingsystem(RAID5)

956GBfortheSharedServices_Search_DBdatabasewithdedicatedsmallcomputersysteminterface(SCSI)controller(RAID10)

ThefollowingdiskssharedaSCSIcontroller:

273GBfortheSharedServices_DBdatabase(RAID10)

273GBfortheTempDbdatabase(RAID10)

273GBforlogfiles(RAID10)

136GBfortheSharePoint_Configdatabase(RAID10)

●响应时间(首字节、末字节响应时间)

按照微软官方的测试结果,系统响应时间是与所索引的文档数量呈正比的,具体数字请参考下图:

详细数据可参考:

●索引压缩比

在POC环境中,Index文件大概是占用了2G的空间,如果按照原OA数据库的文件大小是110G来计算,压缩比大概为:

1/55。

可以使用下面的公式对索引压缩效果进行计算:

Indexsize=Averagesizeofdocument*numberofdocuments*4x10-10GB

在测试环境中,爬取数据源的文档大小平均是10kilobytes(KB)到100KB。

具体爬取数据如下:

Typeofdocument

Numberofdocuments

ContentonSharePointsites

10millionitems,includingthefollowing:

420sitecollections

4,000sites

24,200lists

47,780documentlibraries

Contentonfileshares

15millionitems

HTTPcontent

15millionitems

Peopleprofiles

2.5million

Stitch(in-memorytesttoolthatgeneratesdocumentsinmemory)

7.5million

Properties(metadata)

1million

针对以上数据量,位于不同服务器中的磁盘空间占有率为:

Typeofusage

Volume

Indexsizeonqueryserver

100GB*

Indexsizeonindexserver

100GB*

Searchdatabasesize

600GB

●建立索引时间和对OA性能消耗

在以上测试环境中,微软SearchServer可平均每秒索引15篇文档。

在做索引的IndexServer上,CPU的占有率为:

Numberofprocessors

Percentageofimprovementincrawlspeed

1

0.00

2

10.89

4

19.77

8

30.77

3.精准度

●准确性:

首先确保关键字匹配的信息能检索到,比如搜索“SOX法案”,系统自动返回65项结果。

第一页10条结果均为包含“SOX法案”关键字的结果。

●相关性:

对检索结果能根据相关性进行排序、过滤

按照结果相关度排序的结果:

按照结果修改日期排序的结果对比:

4.实时性

●内容实时性:

OA系统更新的信息能在较短时间内检索到(最低要求是一天)

在SharePoint搜索中心,POC阶段已经根据具体实施阶段对内容实时性的要求,设置了增量爬网计划任务。

计划任务会在每天晚上的9点左右开始对NotesOA数据库进行内容的爬取,每个内容源启动的时间均间隔1小时左右,避免了在爬网过程中对NotesOA数据库造成太高的数据压力。

具体设置可参考如下图:

●权限实时性:

跟OA权限保持同步,OA系统权限信息变化能在较短实际内作用于检索结果(最低要求是一天)

与OA权限同步的程序,大概会在每天晚上12点左右通过计划任务运行。

所有权限信息会在几个小时内完成更新。

5.系统集成

用户登陆网站后,在工作台左边的应用系统连接中,直接点击“微软搜索中心程序Microsoft”会打开新窗口,连入http:

//microsoft-网站。

本场景实现了从Portal到搜索中心的单点登陆。

在搜索中心中,输入关键字“移动”,即可搜索出相关结果。

点击搜索结果,系统会打开一个新窗口。

该窗口直接连入NotesOA界面,直接实现了从搜索中心到NotesOA的单点登陆。

1.2附加项:

微软特色实现部分

具有行业标准查询语法的简单、整洁并强大的用户界面。

查询范围与内容来源分离,使得用户能够容易地拓宽或收缩内容搜索范围。

搜索可以基于任意内容属性,例如URL、类型和作者。

可操作的搜索结果可容易地进行筛选和排序、使用和共享。

警报和RSSFeed轻松地为常见查询提供了更新的结果。

微软企业搜索引擎目前可支持超过200种以上的文档格式的全文索引,包括Office文档,PDF文档,HTML文档,zip文档,rar文档等。

并且提供WebServices接口,让其他应用可以直接集成搜索引擎的搜索结果。

可以构建一个独立企业搜索应用,为员工提供一站式搜索,也可以将微软企业搜索作为一项平台服务,为各个独立应用如知识管理服务,提供检索其中数据的服务。

微软搜索解决方案提供了企业搜索数据统计功能,企业搜索中心管理员可以根据企业搜索数据统计进行搜索结果专家推荐的定制。

POC具体数据统计界面如下:

2技术方案及建议

2.1项目范畴

本次企业搜索项目包括全省OA系统(省公司和21个市公司)公文和其他应用功能。

广东移动公司企业搜索引擎建设会分阶段进行。

第一阶段主要实现对全省OA应用的搜索功能,接下来会实现其他应用的搜索功能。

2.2技术原理

2.2.1体系架构

2.2.1.1系统物理、逻辑架构

在物理架构上,微软Search服务器场主要按照服务器功能分为4大角色,分别包括:

Web前端服务器,Query查询服务器,Index索引服务器,数据库服务器。

Web前端服务器担当Web网站服务功能,搜索中心网站的部署服务器,另外多台Web前端可以配置网络负载均衡,应对大用户量的访问需求;

Query查询服务器主要担当查询指令的执行。

从Web前端用户输入的关键字会被发送到Query服务器再执行,然后从后台数据库服务器返回查询的数据结果,再返回Web前端。

所以,Query服务器也可以配置网络负载均衡以应对大用户量请求的环境;

Index索引服务器主要担当搜索外部数据源,把这些数据爬取并保存到本地的操作;

SQL数据库服务器主要提供了数据存取的功能;

按照这些服务器分别担当的角色,我们可以把这些服务器分别部署到同一个服务器场中,其物理架构图可参照如下:

按照微软搜索引擎的工作机理,其逻辑架构为:

在上图中,内容源表示各种存储着信息资料的IT系统,索引引擎模块会根据不同的协议和接口从内容源中爬取信息转换为内容索引。

微软企业搜索默认支持多种常见的内容源(见图中所示),也提供了接口以扩展到更多的内容源。

索引引擎负责爬取内容源的内容,并针对内容源获得的不同格式的文件/数据将其中需要索引的部分提取出来,再使用不同语言(内置对19种语言的支持)处理模块对其进行处理和标准化,生成内容索引。

查询引擎为使用者提供检索服务,它从查询接口(Web页面或WebServices)获得用户提交的搜索请求,到内容索引中进行查找,并按照搜索管理配置模块提供的配置将结果进行优化后再返回给使用者。

搜索管理配置模块提供对整个搜索引擎的控制功能,包括管理内容源的更新,关键词,排序算法等等。

2.2.1.2功能模块划分

1.用户界面

具有行业标准查询语法的简单、整洁并强大的用户界面。

查询范围与内容来源分离,使得用户能够容易地拓宽或收缩内容搜索范围。

搜索可以基于任意内容属性,例如URL、类型和作者。

可操作的搜索结果可容易地进行筛选和排序、使用和共享。

警报和RSSFeed轻松地为常见查询提供了更新的结果。

2.搜索结果

搜索结果呈现得更清楚。

结果进行了安全调整,使得用户只能看到他们能够访问的内容。

结果包括用户友好的功能,包括高亮显示关键词、重复项折叠和同义词建议。

与实时通信工具的可选集成使用户可以容易地联系内容作者和专家。

3.企业内容源

对许多企业内容源中的200多种文件类型执行搜索,包括现成的文件共享、网站、SharePoint站点、Exchange公共文件夹和LotusNotes数据库,以及通过使用协议处理(ProtocolHandler)程序和iFilter来扩展到其他第三方存储库和文件类型的能力。

4.管理和维护

改进的管理用户界面和管理API提供了对各种搜索和索引方案的广泛支持、对资源密集的操作的集中控制以及用于管理和报告的工具。

5.索引控制

用于轻松包含和排除所搜索内容以及立即删除任何站点或项的细粒度索引控制。

连续的索引传播以使信息保持最新。

改进的爬网规则和爬网日志、每个内容源的多个开始地址、新的可浏览、可筛选索引日志提供了优化搜索所必需的信息。

6.安全性

爬行程序不再需要管理员权限。

索引内容爬行权限仅由ACL控制,以便实现遵从性、隐私和IP保护。

经过安全调整的搜索结果仅允许用户看到他们有权访问的内容。

7.人员搜索

人员搜索功能不仅允许用户按部门或职别查找人员,而且还允许按专业技术、社会距离和共同兴趣查找人员。

8.知识网络

增强的人员搜索工具允许用户搜索和联系关键内部和外部联系人和专家、搜索没有文档记录的知识和关系,同时保护个人信息隐私。

充分利用社会网络的强大功能。

9.业务数据搜索

使用BusinessDataCatalog来搜索驻留在行业应用程序中的数据。

可通过Web服务或ADO.NET来访问的结构化内容源以及LOB应用程序数据和报告可以通过BusinessDataCatalog来建立索引,并作为搜索结果检索到SharePoint列表中。

2.2.1.3部署方案

按照广东移动搜索项目目前的情况,我们推荐可以采用分功能,分角色在搜索服务器场中部署微软SharePointSearchServer。

部署图如下:

Web前端服务器3台

配置:

硬件

描述

备注

CPU

IntelPentinum2G以上(2CPU)

内存

2GMemory

硬盘

20G以上空间

Query服务器2台

配置:

硬件

描述

备注

CPU

IntelPentinum2G以上(2CPU)

内存

2GMemory以上

硬盘

20G以上空间

Index服务器1台

配置:

硬件

描述

备注

CPU

IntelPentinum2G以上(4CPU)

内存

4GMemory以上

硬盘

200G以上空间

SQL数据库服务器2台

配置:

硬件

描述

备注

CPU

IntelPentinum2G以上(2CPU)

内存

2GMemory以上

硬盘

200G空间以上

2.2.1.4搜索引擎关键技术

1.用户交互界面关键技术

Ø结果相关度技术

搜索结果相关度主要是如何把用户搜索关键字最相关的连接放在搜索结果页面的第一页的技术。

在这项技术中,最关键的技术是Ranking技术。

在微软企业搜索引擎中,Ranking可以分为动态Ranking和静态Ranking两类。

动态Ranking技术是内置在搜索引擎中的,自动根据企业内部对搜索引擎使用得最多的关键字和搜索命令,还有搜索中数据源的属性信息等,对搜索结果的Ranking进行修改。

另外还有点击频率、元数据提取等等都会影响这些权重。

如果不对搜索引擎做任何调整,系统会自动按照内置的机制对Ranking在索引阶段进行调整。

用户也可以根据自己需要,调用搜索引擎提供的接口来自己定义不同内容的Ranking的权重。

从而调整企业搜索结果的展现相关度。

静态Ranking技术是跟搜索引擎被查询的过程无关的,只发生于搜索引擎索引数据源过程中的Ranking权重定义。

比如企业可以根据企业具体的情况,对文件类型的Ranking进行定义。

把Word文档的Ranking权重定义为最高。

这样在搜索引擎爬网时,系统会自动把Word文档的Ranking提高。

用户在搜索时,就会在搜索结果首页中看到与搜索关键字相关的Word文档。

另外在索引时,URL深度(按照\的数量,连接的关系,超链接锚点文本等参数来定义)也会自动加入Ranking权重。

Ø人员和专家搜索

这些用户界面同样包括了在你企业内部搜索人员和专家的能力。

你可以搜索到与一个已知客户或联系人相关的人员,或者搜索到知道你想要的信息的人——例如,搜索公司的社会网络,找到具有正确信息的正确的人;

搜索返回的结果是可直接操作的,并且包含了丰富的信息(例如与即时通讯技术同时使用时,可直接看到专家的在线状态),因此你可以非常容易的联系和定位到你所感兴趣的相关信息的拥有者。

2.系统管理关键技术

Ø企业快速自定义搜索

搜索是一个平台,通过该索引平台企业可以把需要搜索展现内容并被查询的属性映射为搜索引擎需要搜索的属性。

这个MetaData映射技术,可以让企业更有针对性地来定义企业所关心的,具有企业自身特点的搜索功能。

比如,可以根据广东移动OA现有公文文档属性定义高级搜索时的查询属性,让企业用户更有针对性地查找OA的信息。

可参考POC汇总报告部分的高级搜索功能说明。

另外,微软搜索中心被集成到微软SharePoint服务器产品中,利用SharePoint的WebPart技术,企业用户可以快速定制具有企业特点的搜索应用。

比如POC中的上下文相关搜索,拼音检查搜索等功能,均采用了SharePoint的WebPart技术进行搭建。

而且用户还可以通过简单的拖拽完成搜索中心的界面定制。

在查询页面中,微软提供了大量跟搜索相关的WebPart供客户使用,客户也可以通过编写XSLT对搜索结果的展现方式进行定制。

所以企业在定制这些客户交互界面时,可以非常快速地对用户交互界面进行个性化定制。

另外,对每个跟搜索相关的功能,微软均通过对象模型向企业提供二次编程接口。

Ø搜索结果更新方式和更新时间策略定制

企业用户可以根据需要,针对不同数据源的结果更新采用不同的方式进行更新。

搜索中心一般应该提供完全更新和增量更新两种方式。

并且,可以分别对这两种更新方式配置不同的更新时间计划。

管理员可以根据需要,对不同数据源采用不同的结果更新方式和时间计划策略。

比如:

在OA中,对于一些历史归档库,一般变化都不大,可以采用一次爬取的方式对这部分文档进行索引;对于一些经常变化的公文库,可以采用定时增量爬取的方式进行爬取。

通过这些设置,可以充分发挥机器的性能,同时也可以减轻被爬网服务器的负担。

2.2.1.5权限实现模型

系统直接继承OA现有权限,直接在搜索结果中实现了只有用户有权限操作的内容才能检索到的功能。

与OA集成方式的详细说明如下:

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 法律文书 > 调解书

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1