ImageVerifierCode 换一换
格式:DOCX , 页数:28 ,大小:1.19MB ,
资源ID:20617933      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/20617933.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(微软针对广东移动企业搜索项目技术方案Version 10Word文档下载推荐.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

微软针对广东移动企业搜索项目技术方案Version 10Word文档下载推荐.docx

1、 第一阶段(2007年) 根据本文所述广东移动搜索的发展方向建议,我们建议广东移动搜索引擎项目第一阶段的重点放在以下几个方面: 全面部署桌面端搜索工具Windows Desktop Search; 尽量利用现有产品功能实施企业搜索引擎,根据业务优先级规划好内容源。通过配置和简单客户化定制完成企业搜索中心的部署。本期建设的另一个重点是通过对用户使用搜索引擎情况的分析,更加深入地了解用户对于搜索的要求,不断掌握提升搜索结果相关度的方法,提升企业搜索服务的建设经验; 实现基于Notes OA系统权限的搜索过滤功能; 建立信息关联搜索; 实现搜索引擎网站与门户,OA系统的单点登陆; 实现信息分类检索,

2、关键字的简单及高级检索;通过以上几方面的建设,可以全面提升广东移动的企业级信息搜索能力,对提升最终用户的用户体验和用户满意度,获得立竿见影的效果。并为企业信息协同框架的形成以及发展奠定良好的基础。 第二阶段(2008年) 建立企业级搜索服务,完善企业搜索框架设计,深化搜索服务与信息系统集成以及基于信息的协同和重用 建立企业搜索规则引擎 建立完整信息权限设计模型 建立企业搜索服务,为其他应用系统提供搜索服务建立企业级别的知识管理系统,逐步实现业务系统的信息整合,提供知识积累的技术手段和平台,完成知识管理平台框架的建设。微软公司非常感谢广东移动给予我们此次参与贵司企业搜索平台方案选型的机会,并很希

3、望可以就进一步的项目需求以及实施计划与广东移动展开更加深入的探讨。1.1 广东移动企业搜索项目POC情况分析本次POC微软针对广东移动江门公司的Notes OA系统,进行了POC测试。测试功能可从用户和系统两个角度进行描述。1.1.1 用户视图1. 关键字检索 简单检索:通过定制化的搜索中心网站,输入关键字后,可以查询到相关Notes OA的内容信息。如下图: 高级检索:进入搜索中心网站的高级搜索页面,可以选择不同的Notes OA数据库进行关键字查询,也可以结合收文库和发文库中不同的文档属性进行组合条件的查询。2. 关联推荐 专家推荐:通过在网站中定义关键字,系统会自动出现专家推荐的搜索信息

4、。例如输入“广东移动”,即可在网站的右边看到专家推荐的搜索信息,如下图:定制关键字的设置可以直接在网站设置中找到,所以设置起来非常方便。 上下文关联推荐:通过用户输入的关键字,自动查找本站点内经常出现的搜索关键字并显示出来,如下图: 用户行为关联:可以自动显示该网站其他用户经常搜索排名前十位的关键字并自动显示给当前用户做直接的搜索,如下图:3. 分类检索 提供基于Notes OA文档库的分类树形结构树的分类检索功能,让用户可以按照使用OA文档的习惯去搜索结果。1.1.2 系统视图1. 权限控制采用江门公司“韦伟”账号进入搜索中心,在搜索中心中输入广东移动,返回的数据一共有2048条。可以对比其

5、他用户同样搜索“广东移动”返回的数据量即可验证到权限控制的搜索结果。2. 性能指标微软官方基于SharePoint Search Server进行过性能的测试。具体可以参考如下连接:性能测试是基于以下环境进行的:Computer roleHardware Hard disk capacityQuery servers4 dual-core Intel Xeon 2.66 gigahertz (GHz) processors32 gigabytes (GB) RAM40 GB for the operating system (Redundant Array of Independent Dis

6、ks (RAID) 5)956 GB for the content index and the operating system paging file (RAID 10)Index server4 dual-core Intel Xeon 2.66 GHz processors32 GB RAM40 GB for the operating system (RAID 5)Database server956 GB for the SharedServices_Search_DB database with dedicated small computer system interface

7、(SCSI) controller (RAID 10)The following disks shared a SCSI controller:273 GB for the SharedServices_DB database (RAID 10)273 GB for the TempDb database (RAID 10)273 GB for log files (RAID 10)136 GB for the SharePoint_Config database (RAID 10) 响应时间(首字节、末字节响应时间)按照微软官方的测试结果,系统响应时间是与所索引的文档数量呈正比的,具体数字请

8、参考下图:详细数据可参考: 索引压缩比在POC环境中,Index文件大概是占用了2G的空间,如果按照原OA数据库的文件大小是110G来计算,压缩比大概为:1/55。可以使用下面的公式对索引压缩效果进行计算:Index size = Average size of document * number of documents * 4 x 10-10 GB在测试环境中,爬取数据源的文档大小平均是10 kilobytes (KB) 到100 KB。具体爬取数据如下:Type of documentNumber of documentsContent on SharePoint sites10 mil

9、lion items, including the following:420 site collections4,000 sites24,200 lists47,780 document librariesContent on file shares15 million itemsHTTP contentPeople profiles2.5 millionStitch (in-memory test tool that generates documents in memory)7.5 millionProperties (metadata)1 million针对以上数据量,位于不同服务器中

10、的磁盘空间占有率为:Type of usageVolumeIndex size on query server100 GB*Index size on index serverSearch database size600 GB 建立索引时间和对OA性能消耗在以上测试环境中,微软Search Server可平均每秒索引15篇文档。在做索引的Index Server上,CPU的占有率为:Number of processorsPercentage of improvement in crawl speed1 0.002 10.894 19.778 30.773. 精准度 准确性:首先确保关键字匹

11、配的信息能检索到,比如搜索“SOX法案”,系统自动返回65项结果。第一页10条结果均为包含“SOX法案”关键字的结果。 相关性:对检索结果能根据相关性进行排序、过滤按照结果相关度排序的结果:按照结果修改日期排序的结果对比:4. 实时性 内容实时性:OA系统更新的信息能在较短时间内检索到(最低要求是一天)在SharePoint搜索中心,POC阶段已经根据具体实施阶段对内容实时性的要求,设置了增量爬网计划任务。计划任务会在每天晚上的9点左右开始对Notes OA数据库进行内容的爬取,每个内容源启动的时间均间隔1小时左右,避免了在爬网过程中对Notes OA数据库造成太高的数据压力。具体设置可参考如

12、下图: 权限实时性:跟OA权限保持同步,OA系统权限信息变化能在较短实际内作用于检索结果(最低要求是一天)与OA权限同步的程序,大概会在每天晚上12点左右通过计划任务运行。所有权限信息会在几个小时内完成更新。5. 系统集成用户登陆网站后,在工作台左边的应用系统连接中,直接点击“微软搜索中心程序Microsoft”会打开新窗口,连入http:/microsoft- 网站。本场景实现了从Portal到搜索中心的单点登陆。在搜索中心中,输入关键字“移动”,即可搜索出相关结果。点击搜索结果,系统会打开一个新窗口。该窗口直接连入Notes OA界面,直接实现了从搜索中心到Notes OA的单点登陆。1.

13、2 附加项:微软特色实现部分具有行业标准查询语法的简单、整洁并强大的用户界面。查询范围与内容来源分离,使得用户能够容易地拓宽或收缩内容搜索范围。搜索可以基于任意内容属性,例如 URL、类型和作者。可操作的搜索结果可容易地进行筛选和排序、使用和共享。警报和 RSS Feed 轻松地为常见查询提供了更新的结果。微软企业搜索引擎目前可支持超过200种以上的文档格式的全文索引,包括Office文档,PDF文档,HTML文档,zip文档,rar文档等。并且提供Web Services接口,让其他应用可以直接集成搜索引擎的搜索结果。可以构建一个独立企业搜索应用,为员工提供一站式搜索,也可以将微软企业搜索作

14、为一项平台服务,为各个独立应用如知识管理服务,提供检索其中数据的服务。微软搜索解决方案提供了企业搜索数据统计功能,企业搜索中心管理员可以根据企业搜索数据统计进行搜索结果专家推荐的定制。POC具体数据统计界面如下:2 技术方案及建议2.1 项目范畴本次企业搜索项目包括全省OA系统(省公司和21个市公司)公文和其他应用功能。广东移动公司企业搜索引擎建设会分阶段进行。第一阶段主要实现对全省OA应用的搜索功能,接下来会实现其他应用的搜索功能。2.2 技术原理2.2.1 体系架构2.2.1.1 系统物理、逻辑架构在物理架构上,微软Search服务器场主要按照服务器功能分为4大角色,分别包括:Web前端服

15、务器,Query查询服务器,Index索引服务器,数据库服务器。Web前端服务器担当Web网站服务功能,搜索中心网站的部署服务器,另外多台Web前端可以配置网络负载均衡,应对大用户量的访问需求;Query查询服务器主要担当查询指令的执行。从Web前端用户输入的关键字会被发送到Query服务器再执行,然后从后台数据库服务器返回查询的数据结果,再返回Web前端。所以,Query服务器也可以配置网络负载均衡以应对大用户量请求的环境;Index索引服务器主要担当搜索外部数据源,把这些数据爬取并保存到本地的操作;SQL数据库服务器主要提供了数据存取的功能;按照这些服务器分别担当的角色,我们可以把这些服务

16、器分别部署到同一个服务器场中,其物理架构图可参照如下: 按照微软搜索引擎的工作机理,其逻辑架构为:在上图中,内容源表示各种存储着信息资料的IT系统,索引引擎模块会根据不同的协议和接口从内容源中爬取信息转换为内容索引。微软企业搜索默认支持多种常见的内容源(见图中所示),也提供了接口以扩展到更多的内容源。索引引擎负责爬取内容源的内容,并针对内容源获得的不同格式的文件/数据将其中需要索引的部分提取出来,再使用不同语言(内置对19种语言的支持)处理模块对其进行处理和标准化,生成内容索引。查询引擎为使用者提供检索服务,它从查询接口(Web页面或Web Services)获得用户提交的搜索请求,到内容索引

17、中进行查找,并按照搜索管理配置模块提供的配置将结果进行优化后再返回给使用者。搜索管理配置模块提供对整个搜索引擎的控制功能,包括管理内容源的更新,关键词,排序算法等等。2.2.1.2 功能模块划分1. 用户界面2. 搜索结果 搜索结果呈现得更清楚。结果进行了安全调整,使得用户只能看到他们能够访问的内容。结果包括用户友好的功能,包括高亮显示关键词、重复项折叠和同义词建议。与实时通信工具的可选集成使用户可以容易地联系内容作者和专家。3. 企业内容源对许多企业内容源中的 200 多种文件类型执行搜索,包括现成的文件共享、网站、SharePoint 站点、Exchange 公共文件夹和 Lotus No

18、tes 数据库,以及通过使用协议处理(Protocol Handler)程序和 iFilter 来扩展到其他第三方存储库和文件类型的能力。4. 管理和维护改进的管理用户界面和管理 API 提供了对各种搜索和索引方案的广泛支持、对资源密集的操作的集中控制以及用于管理和报告的工具。5. 索引控制用于轻松包含和排除所搜索内容以及立即删除任何站点或项的细粒度索引控制。连续的索引传播以使信息保持最新。改进的爬网规则和爬网日志、每个内容源的多个开始地址、新的可浏览、可筛选索引日志提供了优化搜索所必需的信息。6. 安全性爬行程序不再需要管理员权限。索引内容爬行权限仅由 ACL 控制,以便实现遵从性、隐私和

19、IP 保护。经过安全调整的搜索结果仅允许用户看到他们有权访问的内容。7. 人员搜索人员搜索功能不仅允许用户按部门或职别查找人员,而且还允许按专业技术、社会距离和共同兴趣查找人员。8. 知识网络增强的人员搜索工具允许用户搜索和联系关键内部和外部联系人和专家、搜索没有文档记录的知识和关系,同时保护个人信息隐私。充分利用社会网络的强大功能。9. 业务数据搜索使用 Business Data Catalog 来搜索驻留在行业应用程序中的数据。可通过 Web 服务或 ADO.NET 来访问的结构化内容源以及 LOB 应用程序数据和报告可以通过 Business Data Catalog 来建立索引,并作

20、为搜索结果检索到 SharePoint 列表中。2.2.1.3 部署方案按照广东移动搜索项目目前的情况,我们推荐可以采用分功能,分角色在搜索服务器场中部署微软SharePoint Search Server。部署图如下:Web前端服务器 3 台配置:硬件描述备注CPUIntel Pentinum 2G以上(2CPU)内存2G Memory硬盘20G以上空间Query服务器 2 台2G Memory以上Index服务器 1 台Intel Pentinum 2G以上(4CPU)4G Memory以上200G以上空间SQL数据库服务器 2 台200G空间以上2.2.1.4 搜索引擎关键技术1. 用户

21、交互界面关键技术 结果相关度技术搜索结果相关度主要是如何把用户搜索关键字最相关的连接放在搜索结果页面的第一页的技术。在这项技术中,最关键的技术是Ranking技术。在微软企业搜索引擎中,Ranking可以分为动态Ranking和静态Ranking两类。动态Ranking技术是内置在搜索引擎中的,自动根据企业内部对搜索引擎使用得最多的关键字和搜索命令,还有搜索中数据源的属性信息等,对搜索结果的Ranking进行修改。另外还有点击频率、元数据提取等等都会影响这些权重。如果不对搜索引擎做任何调整,系统会自动按照内置的机制对Ranking在索引阶段进行调整。用户也可以根据自己需要,调用搜索引擎提供的接

22、口来自己定义不同内容的Ranking的权重。从而调整企业搜索结果的展现相关度。静态Ranking技术是跟搜索引擎被查询的过程无关的,只发生于搜索引擎索引数据源过程中的Ranking权重定义。比如企业可以根据企业具体的情况,对文件类型的Ranking进行定义。把Word文档的Ranking权重定义为最高。这样在搜索引擎爬网时,系统会自动把Word文档的Ranking提高。用户在搜索时,就会在搜索结果首页中看到与搜索关键字相关的Word文档。另外在索引时,URL深度(按照的数量,连接的关系,超链接锚点文本等参数来定义)也会自动加入Ranking权重。 人员和专家搜索这些用户界面同样包括了在你企业内

23、部搜索人员和专家的能力。你可以搜索到与一个已知客户或联系人相关的人员,或者搜索到知道你想要的信息的人例如,搜索公司的社会网络,找到具有正确信息的正确的人;搜索返回的结果是可直接操作的,并且包含了丰富的信息(例如与即时通讯技术同时使用时,可直接看到专家的在线状态),因此你可以非常容易的联系和定位到你所感兴趣的相关信息的拥有者。2. 系统管理关键技术 企业快速自定义搜索搜索是一个平台,通过该索引平台企业可以把需要搜索展现内容并被查询的属性映射为搜索引擎需要搜索的属性。这个MetaData映射技术,可以让企业更有针对性地来定义企业所关心的,具有企业自身特点的搜索功能。比如,可以根据广东移动OA现有公

24、文文档属性定义高级搜索时的查询属性,让企业用户更有针对性地查找OA的信息。可参考POC汇总报告部分的高级搜索功能说明。另外,微软搜索中心被集成到微软SharePoint服务器产品中,利用SharePoint的WebPart技术,企业用户可以快速定制具有企业特点的搜索应用。比如POC中的上下文相关搜索,拼音检查搜索等功能,均采用了SharePoint的WebPart技术进行搭建。而且用户还可以通过简单的拖拽完成搜索中心的界面定制。在查询页面中,微软提供了大量跟搜索相关的WebPart供客户使用,客户也可以通过编写XSLT对搜索结果的展现方式进行定制。所以企业在定制这些客户交互界面时,可以非常快速

25、地对用户交互界面进行个性化定制。另外,对每个跟搜索相关的功能,微软均通过对象模型向企业提供二次编程接口。 搜索结果更新方式和更新时间策略定制企业用户可以根据需要,针对不同数据源的结果更新采用不同的方式进行更新。搜索中心一般应该提供完全更新和增量更新两种方式。并且,可以分别对这两种更新方式配置不同的更新时间计划。管理员可以根据需要,对不同数据源采用不同的结果更新方式和时间计划策略。比如:在OA中,对于一些历史归档库,一般变化都不大,可以采用一次爬取的方式对这部分文档进行索引;对于一些经常变化的公文库,可以采用定时增量爬取的方式进行爬取。通过这些设置,可以充分发挥机器的性能,同时也可以减轻被爬网服务器的负担。2.2.1.5 权限实现模型系统直接继承OA现有权限,直接在搜索结果中实现了只有用户有权限操作的内容才能检索到的功能。与OA集成方式的详细说明如下:

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1