全文检索系统整体方案设计资料讲解Word下载.docx

资源描述

全文检索系统整体方案设计资料讲解Word下载.docx

《全文检索系统整体方案设计资料讲解Word下载.docx》由会员分享，可在线阅读，更多相关《全文检索系统整体方案设计资料讲解Word下载.docx（22页珍藏版）》请在冰豆网上搜索。

全文检索系统整体方案设计资料讲解Word下载.docx

使用者（user）在搜索页面中输入查询字串等搜索条件并提交给本系统后，本系统的全文检索查询引擎（Searcher）会在索引库中进行搜索，并将符合搜索条件的搜索结果返回给使用者；

使用者（user）可于查询结果页面，进一步链接到信息原文查看详细内容。

对于系统管理，管理员可通过相应web方式的管理程序来管理整个系统运行环境及设置文件；

并通过索引引擎（Indexer.exe）实时或定时创建索引，更新索引数据库的内容，使检索信息维持在最新状态。

1.3全文检索系统带来的效益

✓高效率的整合搜索，大幅减少组织成员在取得信息时花费的时间！

本系统和其它搜索系统只针对特定信息源搜索不同，它能对企业内部绝大多数的信息创建索引和搜索，具备强大的信息整合及快速回应能力，让企业成员以单一搜索页面、简易的操作方式，即可在最短时间内，完整、准确、及时地掌握企业内外所有信息，不必再耗费大量时间的找寻信息！

✓信息过量不会造成企业成员的信息焦虑！

通过本系统强大的索引/搜索能力，大量的信息也可在瞬间过滤出符合使用者条件的信息，不必担心迷失在漫漫的信息洪流之中！

✓非结构/非组织的信息，不再是知识管理的盲点！

文件/档案以及非经过分类管理的信息，因为附加信息稀少，往往成为知识利用上难以判断、分析的信息。

本系统直接针对内容全文分析、关联，使这类信息同样可让使用者以检索方式，快速筛选利用！

✓整合容易，使用简易，导入迅速，易于接受！

套装化、模块化的设计及灵活的整合能力，能在企业内迅速的安装设置；

操作方式简单，企业成员易于接受，导入方便。

以最经济的时间、人力及费用成本为企业创建信息流通、充分分享的知识环境。

1.4全文检索系统平台架构

本系统基于组件化和松散耦合架构和设计，系统平台架构示意图如下：

整个系统主要分为信息整合、信息萃取和服务、应用整合三个部分。

✓信息整合

此部分主要作用是将企业内部存储于不同应用系统中的结构化信息、半结构化信息、非结构化信息通过本系统提供的两种数据适配器进行信息提取，形成一个相对结构化的数据虚拟层，以备后期信息萃取和服务。

✓信息萃取和服务

在信息整合层形成的相对结构化的数据虚拟层基础上，本系统将对其中的每笔记录进行中文切分词、索引、文件特征分析、自动分类等各种演算算法处理，形成可以提供搜索服务的索引库。

用户利用本系统的搜索引擎处理提供的强大的搜索功能，如中文同音搜索、简繁体对译、模糊搜索、同义词搜索、文章概念搜索、分类浏览等，快速、准确、完整、及时、有效地搜索到符合自己搜索条件的信息。

✓应用整合

本系统还提供了完整的外部程序整合机制。

所有组件均提供SDK完整开发接口，方便应用整合和应用扩展。

1.4.1信息整合

此部分主要提供对企业内外部非结构性数据信息源建立自动化数据汇入功能。

根据用户实际需求，用户可以选择导入包含Text、MicrosoftOffice、XML、RTF、PDF、HTML、MHT、AutoCAD及E-mail（含附件文件）等格式及文件影音附件（如影片的文件名或摘要、图片的文件名或摘要、及文字）自动化建立索引数据，建立索引数据所处理之文字包括繁体中文、简体中文等；

同时用户可以选择导入数据库数据，如Oracle、Informix、Sybase、MSSQL等。

此外和Notes系统也已经有了无缝整合，可挂载NotesComposer对nsf库中正文及附件信息索引，在做索引的过程中自动把每笔记录的权限键入索引库。

本系统提供可挂载的数据适配器（DataAdapter），将异质的数据来源与数据结构进行汇整与粹取，亦扮演将非结构的信息结构化，可以很容易地分析特殊档案格式和管理复杂的数据源结构（如递归、巢状等）的多功能设计，以方便信息检索与管理。

以e-mail含附件为例，e-mailAdapter可解析e-mail内文，而当选购officeAdapter后，原来的e-mailAdapter即可解析office相关的附件文件，可视需求额外购买PDF、ZIP、RAR、OCR等不同数据适配器，即可交互搭配使用。

搭配使用本系统的TXT、MicrosoftOffice、RTF、PDF、HTML、E-mail及FileMeta资料提取器，将可解析Text、MicrosoftOffice、XML、RTF、PDF、HTML、MHT及E-mail（含附件文件）及文件影音附档（如影片的文件名或摘要、图片的文件名或摘要、及文字）等格式，包括繁体中文、简体中文、英文、Unicode等；

使用数据库数据适配器，将可支持数据库数据汇入处理如Oracle、Informix、Sybase、MSSQL等。

1.4.2信息萃取和服务

此部分须提供对数据提取的内容所包含的信息，进行数据处理分析，包含：

✓分类模式建立自动分类功能。

✓针对非结构性数据建立词库，词库须包含同音词库、同义词库、专业词库。

✓自动分类机制与专业词库须具备自动学习与修正之功能以提升数据处理准确度。

✓可针对不同使用层级、项目进行非结构性数据权限控管。

依照使用者不同等级提供不同权限的查询功能接口。

应用本系统一系列内容分析与索引核心组件群，将汇整的内容进行断词、索引、分类、文件特征等运算与处理，以便满足信息检索与信息管理的应用，提供多功能全面性的数据分析能力，可针对不同情境应用加以整合，快速达到使用者需求。

同时，用户利用本系统的搜索引擎处理提供的强大的搜索功能，如中文同音搜索、简繁体对译、模糊搜索、同义词搜索、文章概念搜索、分类浏览等，快速、准确、完整、及时、有效地搜索到符合自己搜索条件的信息。

1.4.3

应用整合

完整外部程序整合机制—所有组件均提供SDK完整开发接口，方便外部整合。

另外大量提供XML的方法来进行信息源更新时的同步以及权限的导入与检查工作。

1.5全文检索系统功能特点

1.5.1基本检索功能支持

✓支持跨数据源索引与整合搜索。

将分散在FileServer上的文件、远程网站中的网页、群组软件中的资料，以及数据库中的文字与非文字纪录，在一次搜寻条件下，整合搜寻出来。

可以对近线数据、在线数据和离线数据分别建立索引库，到时可以通过索引库的选择来控制对哪些性质的数据进行搜索；

✓支持「万用字符（*、?

）查询」。

使用者可查询部分关键字及*（代表多于一个字）或?

（代表一个字）的组合。

例如：

输入关键词【Chin*】，会找到【China】、【Chine】、【Chinese】等等。

输入关键词【Chin?

】，会找到【China】；

✓搜寻条件具有完整的布尔逻辑运算AND、OR、NOT能力，支持复合式布尔逻辑运算查询，并且可以配合多组左括号"

作关键词查询优先级的设定，方便查询者输入布尔组合之查询条件；

✓内建「智能型快速响应模式」（Smartcache）机制，可以提供同一种查询条件之重复使用率，提高系统资源的效益。

Cache储存目录记录了Cache档案所要放置的地址，经查询过的资料或画面，第二次再进入时，可重复使用第一次查询结果；

✓支持/多字段/多条件检索，提高搜索精确度；

单一字段内，支持AND/OR/NOT逻辑条件，且支持括号方式来提供条件优先权。

多字段条件间，支持AND/OR/NOT逻辑条件；

1.5.2词索引与查询功能

系统中提供了传统的字索引，但是为提高查询检索的准确度，系统采用自然语言断词机制和灵活的词索引开关，用户可根据需要选择词索引或字索引。

具体功能如下：

中文句子将透过智能型自动断词技术以达到词索引的效果，自动分析与断词，并建立词索引；

词索引功能通过开关灵活设置；

检索字串首先通过自动断词，将其断词结果进行组合检索；

提供「词库」编辑器，针对断词用的「词库」进行维护和调整；

使中文切分词更符合使用者的行业特点，提高查询的速度和准确度。

该功能优势如下：

✓提高精确度：

输入「民法」不会找到「人民法院」；

✓更小的索引空间：

–通过词索引的方式，索引数据库相对字索引需要更少的磁盘空间；

同样数据量下，检索时需要的Memory更少；

✓检索性能更高：

配合高效算法，词索引的搜索性能相对字索引平均高出3倍以上；

1.5.3多国语系数据索引与查询

✓系统基于Unicode设计。

✓可支持多国语系（英文、繁简体中文、日文、韩文、Unicode等）混合的文件的建置与查询。

✓可支持多种编码格式的索引，包含Big5、GB2312、Unicode、UTF-8、EUC-JP、Shift-JIS，并支持以Unicode同时输入多国语系条件进行搜寻。

✓

同个数据表或一条数据库记录中可以支持多国语言混排内容；

✓一个索引数据库可以存在多国语言的不同数据；

✓可以输入多国语言的检索条件，并使用AND、OR、NOT逻辑关系；

✓检索结果中可以同时显示多国语言记录；

✓搭配多国语言同义词库，可以通过单一语言条件，得到多国语言检索结果；

1.5.4中英文模糊搜索查询功能

✓内建「中英文容错（Fuzzy）」查询功能。

✓中英文容错功能FuzzySearch，基于文字特性，很多专有名词及词汇依情况不同，也许衍生出通用的简称，或是文字次序对调。

也有可能因为模糊不明确的意象，使用者希望只需要输入一个关键词，就能一并查询性质类似或相关之信息。

比如：

输入「MobileNetwork」可查到「MobileApplianceNetwork」等特定距离的词句、输入「产业研究」可查到「产业结构研究」、「产业….研究」等，扩展搜寻的完整性。

1.5.5近似概念词库辅助查询功能

✓可针对不同的索引库设定同义词组。

如设定「电脑$Computer$计算机」为同义词，则使用者可搜索“电脑”时，可同时查到含有“Computer”或“计算机”的信息。

✓内建18万多组中英文同义词组，具有中英文近似概念与同义词检索，并可提供词库管理工具，使用户可自行修改词库内容。

1.5.6其他检索功能

✓中文同音辅助查询功能，如输入“网骆”，启动中文同音功能后，可以搜索出以“网络”为关键字的记录；

✓英文字根（Stemming）辅助查询功能，输入“computing”，可以搜索出以“computer”为关键字的记录；

✓英文错误字提示功能；

✓简繁对译组件功能，输入“中国”，可以搜索出以繁体字“中国”为关键字的记录；

1.5.7搜索结果显示

✓以Web网页形式呈现查询结果，使用者可指定所欲察看的特定笔数或分页浏览。

支持二次搜索功能。

✓提供「属性字段权重排序机制」，管理者可自订查询结果的排序规则，让搜寻结果按搜索者的意图显示。

✓提供「树形分类目录」，提供查询结果分类，可以让使用者进一步选取下一层目录，以缩小查询范围。

✓具有标示原文关键词功能，可以直接将原文中有关使用者输入得关键词全数标示出来，同时系统管理者可以自行设定关键词标示的颜色、大小、字型….等属性。

✓查询结果可同时显示文件抬头及重要摘要段落或者仅仅显示文件抬头以加快使用者的查询速度。

✓开发搜索接口，用户可根据开发的SDK自己开发特定形式和显示风格的搜索结果页面。

1.5.8自然语言应用组件

利用自然语言的形似相关词功能，可对数据撷取内容进行新词学习，语意分析等，可自动建立新词，提升数据处理准确度。

基于自然语言应用组件，可实现相关文章查询功能、重复文章查询功能、自动摘要功能、语意查询功能、形似相关词建议功能等。

从而能够通过关联组织的方式，把不同档案库中的相似、相关内容一次性的搜索出来。

✓相关文件查询

✓文章自动摘要

1.5.9自动分类应用组件

搭配自动分类组件，可对撷取数据进行分类，并可辅以导览式分类组件与搜寻组件进行整合，即可逐一依类别筛检过滤资料，并显示类别内符合资料。

✓导览式分类

✓自动分类

1.5.10高效数据同步功能（增量索引）

以前的全文搜索引擎在面对大资料量建立索引时，都会限制数据量的多少，而解决这个问题通常都是将资料量分为几个部分分开建索引。

但是这种方法并无法彻底解决资料同步更新或检索的需求。

本系统提供渐进式索引技术，也就是通过增量索引机制可以逐步地分别为数据库建立索引，对于异动的数据或索引，进行实时的更新。

1.5.11高可用性

本全文检索服务可以通过Layer4Switch硬件进行搜寻的负载均衡，提高服务效能。

若某台主机因不明原因无法对外服务，则可实时以另一台主机对外进行正常服务。

索引库可存放于网络存储设备上，让备用机共享其索引数据，使全文检索服务可以正常运行。

1.5.12可扩充性：

本系统可依不同需求扩张，分类，自然语言，数据适配器等组件，更可置换其关键性应用组件，例如：

企业已使用其它分类组件，透过本系统提供之SDK，可取代原本之分类应用组件，且不会影响原本服务机制。

1.6大数据量全文检索解决方案

当需要建立索引的数据量达到上千万条时（大概上百个G），单个服务器检索系统在性能方面是不可能得到保证的，这时候查询一条信息所需要的时间已经远远超出了使用者的容忍范围，所以为保证全文检索系统的高性能特点，使用多台检索服务器机群来实施分布式检索成为当务之急！

1.6.1大数据量全文检索构架图

如图所示，应用系统的所有资料分散的部署到各个索引服务器上建立索引，之后把索引好的数据存储到索引库中，用户发出一个搜索请求后，龙卷风大数据量分布式检索系统通过SOAP机制把搜索请求发送给索引服务器，然后接收到搜索请求的服务器会去到索引库中把搜索者所需资料查找出来并且把所有查询结果合并到一起通过用户设定的排序方式在前端搜索页面上显示出来。

在此期间，用户发送搜索请求后，机群索引调度服务会根据索引服务器状态表把搜索请求发给空闲的服务器，充分利用整个系统的每一分资源。

1.6.2分布式技术优势

●多种数据库信息统一建立索引，支持对数据库的文件附件索引，无需对数据源进行任何改动；

●支持T级总量数据，每天G级的增量数据实现秒级数据检索，并且索引延迟时间保证在1小时以内，即实现用户对每天更新数据能够及时查询，还能保证T级历史数据的快速查询；

●整个系统具有灵活的扩展性，在系统应用过程中，随着用户需检索数据量的增加，可通过扩展索引服务器和查询服务器集群高性价比平滑升级，已经索引过的数据和原有系统的稳定性不受影响；

●高并发用户访问量支持；

1.7搜索的权限控制

IRMS提供的信息搜索并非是指人人皆可随意搜索到任何信息，而是依照组织中的角色，让搜索者只能搜索自己权限范围内的信息，而无权限访问的记录是不会被搜索出来的。

IRMS权限控制主要实现：

✓保证存取信息的安全性

✓有该文件读取权的人或群组,才有可能查询到此一文件

✓无该文件读取权的人或群组,不会知道有哪些无权读取的文件存在

✓如果每个人或群组文件的读取权不同,查询结果集就会不同

1.7.1搜索系统和应用系统权限整合方法

针对不同的应用及特定的权限规则，有多种方式可以实现IRMS搜索系统和应用系统的权限整合。

主要方法包括：

1、分索引库法：

此种方法适用于权限较简单，并且权限可以归为几大类的应用。

如用户组分为公司领导组、部门经理组、普通员工组，每组用户内部权限相同，组之间才有权限差异。

针对此种应用，可以分别针对不用的用户组创建不同的索引库，分别放置于Group_for_公司领导、Group_for_部门经理、Group_for_普通员工。

搜索时，首先判断用户所在何用户组，针对不同的用户组再定向到不同的搜索库中去全文检索。

2、特殊属性过滤法：

此种方法适用于信息资料源单一，并且有一特殊属性字段可以判断用户权限的情况。

如数据库全文搜索时，有一字段值为授权访问该记录的所有用户或组。

针对此种特殊情况，可以选择使用多字段属性过滤的方法，在搜索页面提交搜索请求后，使用该特殊属性字段过滤最终的搜索结果。

3、搜索结果过滤法：

用户提交搜索后，搜索引擎搜索时并不带入权限信息，只是在搜索结果显示时，使用应用系统的权限规则来过滤搜索结果，并将符合该用户权限范围内的信息显示给搜索者。

4、内建权限规则法：

搜索系统内建权限规则，管理员根据搜索信息来源的权限规则定制搜索系统的权限规则，用户提交的搜索请求搜索系统经过权限过滤后再反馈给搜索者。

5、导入权限规则法：

搜索系统不内建权限系统，但提供权限导入机制。

用户将应用系统的权限规则标准化后，通过搜索系统的API导入到搜索系统中。

用户提交搜索请求，搜索系统经过权限过滤后再反馈给搜索者。

各种方法的比较：

适用环境

优点

缺点

分索引库法

权限较简单，并且权限可以归为几大类的应用

部署简单

适用范围小

特殊属性过滤法

信息资料源单一，并且有一特殊属性字段可以判断用户权限的情况

搜索结果过滤法

应用系统权限判断用时少

应用系统权限规则复杂时，搜索结果权限判断将很花时间，致使搜索结果显示速度慢

内建权限规则法

大部分应用系统

权限系统内嵌在搜索系统中，搜索速度和显示速度快

管理员需要为搜索系统索引库中的每笔记录分配权限，工作复杂

导入权限规则法

权限系统内嵌在搜索系统中，搜索速度和显示速度快。

支持批量导入机制

需要将应用系统权限规则导出为特定格式。

但一旦确定模式，则可重复使用

按照以上搜索系统权限整合分析，此次应用系统涉及的搜索信息来源所包括的Documentum、OA及其它应用系统都有各自的权限规则，应采用第四或第五种权限整合方法。

IRMS全文检索系统支持第五种权限整合方法，它的主要特点包括：

✓支持实时权限信息导入和定时权限信息导入，用户现有权限规则不用做任何改动；

✓支持使用XMLExport与Import的机制提供信息内容权限控管的整合接口；

✓支持权限信息导出为XML文件后，再批量XML文件导入的功能；

✓提供权限组件及SDK，可单独操作权限组件进行不同的权限系统整合；

✓利用XML进行权限整合描述，和其它系统的权限架构做整合。

整合后，不同的权限使用者使用搜寻引擎、自然语言等应用组件时，将得到符合各自权限的数据；

✓权限规则与IRMS可以完全分离,增加可重用性。

1.7.2IRMS和Domino权限整合实例

龙卷风公司已经开发出成熟的Domino适配器，实现将Domino中的文档建立索引，实现全文检索。

1）通过管理界面设定需要如何连接DominoNSF数据库，同时设定索引哪个View或表及其它信息。

2）IRMSDominoComposer通过以上配置实现从Domino中提取文档内容，创建索引。

对于DominoACL信息，龙卷风公司已经开发出一通用Domino权限导出工具，实现一般的Domino数据库权限信息的导出。

再结合IRMS提供的SDK和XML导入工具，即可实现Domino数据库权限信息整合到索引库中，最终实现搜索用户带权限信息搜索，即搜索者只能搜索自己权限范围内的信息，而无权限访问的记录是不会被搜索出来的。

XML文件样例：

xmlversion="

1.0"

encoding="

UTF-16"

Authority>

Item>

DocumentNo>

/DocumentNo>

DocumentKey>

4570<

/DocumentKey>

ValidationList>

AllowPerson>

CN=Peter/O=tornado<

/AllowPerson>

AllowPerson>

CN=Boirs/O=tornado<

AllowGroup>

CN=jessie/O=tornado<

/AllowGroup>

DenyPerson>

CN=hello/O=tornado<

/DenyPerson>

DenyGroup>

CN=badboy/O=tornado<

/DenyGroup>

/ValidationList>

/Item>

6174<

-Default-<

/Authority>

目前IRMS支持平面结构的权限规则。

当用户应用系统使用较多的嵌套用户组和嵌套角色时，则需要进行客制化开发。

开发周期视嵌套复杂度和应用系统权限API灵活程度而定。

1.7.3IRMS和应用系统权限整合总结

综上所述，IRMS采用了及其灵活和方便的一种权限整合方式。

系统管

展开阅读全文