全文检索系统整体设计方案设计.docx

资源描述

全文检索系统整体设计方案设计.docx

《全文检索系统整体设计方案设计.docx》由会员分享，可在线阅读，更多相关《全文检索系统整体设计方案设计.docx（21页珍藏版）》请在冰豆网上搜索。

全文检索系统整体设计方案设计.docx

全文检索系统整体设计方案设计

1全文检索系统方案

1.1全文检索需求

1）系统供给模糊检索、分类搜寻、高级复合搜寻、全文检索、图片内容检索、跨库检索等多种检索门路；

2）支持字索引和词索引；

3）检索条件拥有完好的重点词布尔逻辑运算AND、OR、NOT能力，支持复合式布尔逻辑运算查问，而且能够配合多组左括号"（"与右括号"）"作重点词查问优先级的设置；

4）供给用户多次递进查问的功能，用户可依据前一次查问重点词获得的检索结果集，增添查问重点词与减小搜寻日期范围，而获得更正确的查问结果集；

5）能够支持对以上文件中的中文（简体/繁体）、英文、日语、韩语内容实现重点字检索；

6）支持对Word、TXT、PDF等多种主流文档格式全文检索，并供给开发接口以支持特别文档格式的全文检索；

7）在数据源数据发生更新时，能在索引库中反应出来，保证搜寻的信息为最新，即支持增量索引体制；

8）用户可自行设准时间，让系统自动准时进行更新索引；

9）关于百万级记录数的搜寻以及联合模糊搜寻等查问方式，搜寻时间不得超出10秒；

10）供给跨数据源、数据格式的搜寻；

11）同过有关性搜寻，能够把和搜寻条件有关系的信息搜寻出来；

12）不只好够对图片的描绘信息进行搜寻，还可以对图片内容的检索；

13）供给COM与SOAP的搜寻接口（Interface）可让其余应用程序或查问网页能够供给用户查问进口和查问结果的体现，用户可经过应用程序或阅读器接见全文检索服务器，提交查问条件，可在阅读器中查察检索结果；

14）查问结果集中应包含结果集总数、命中的结果文件的完好路径，以及切合重点词出现的内容片断；

15）在搜寻结果集中，重点词应被表记出来，用特别的字体及颜色和其余文字进行差别，查问者可在查问结果片断中了如指掌的看到重点词出现的地点；

16）查问结果可依据重点词命中次数，命中结果文件的改正时间，大小等条件进行排序；

17）可供给用户对检索命中结果文件在索引库中进行标志，进而再次检索时，不在标志过的文件中进行查问；

1.2全文检索系统整体方案

系统将采纳以下全文检索流程。

针对公司内部的信息，包含文件服务器上的文件、网站网页、ERP等系统寄存信息的数据库信息、办公应用中的公函档案文档已经内容管理系统中流转的内容，本系统供给了两种数据适配器来提取此中的正文内容和属性内容，形成一个相对构造化的数据虚构层；本系统的索引引擎（Indexer）对构造化的数据虚构层进行中文切分词、文件特色剖析和逐渐索引，以及其余索引算法，生成索引数据库；使用者（user）在搜寻页面中输入查问字串等搜寻条件并提交给本系统后，本系统的全文检索查问引擎（Searcher）会在索引库中进行搜寻，并将切合搜寻条件的搜寻结果返回给使用者；使用者（user）可于查问结果页面，进一步链接到信息原文查察详尽内容。

关于系统管理，管理员可经过相应web方式的管理程序来管理整个系统运转环境及设置文件；并经过索引引擎（Indexer.exe）及时或准时创立索引，更新索引数据库的内容，使检索信息保持在最新状态。

1.3全文检索系统带来的效益

✓高效率的整合搜寻，大幅减少组织成员在获得信息时花销的时间！

本系统和其余搜寻系统只针对特定信息源搜寻不一样，它能对公司内部绝大多半的信息创立索引和搜寻，具备强盛的信息整合及快速回应能力，让公司成员以单调搜寻页面、简略的操作方式，即可在最短时间内，完好、正确、及时地掌握公司内外全部信息，不用再耗资大批时间的搜寻信息！

✓信息过度不会造成公司成员的信息忧虑！

经过本系统强盛的索引/搜寻能力，大批的信息也可在瞬时过滤出切合使用者条件的信息，不用担忧迷失在漫漫的信息大水之中！

✓非构造/非组织的信息，不再是知识管理的盲点！

文件/档案以及非经过分类管理的信息，由于附带信息稀罕，常常成为知识利用上难以判断、剖析的信息。

本系统直接针对内容全文剖析、关系，使这种信息相同可让使用者以检索方式，快速挑选利用！

✓整合简单，使用简略，导入快速，易于接受！

套装化、模块化的设计及灵巧的整合能力，能在公司内快速的安装设置；操作方式简单，公司成员易于接受，导入方便。

以最经济的时间、人力及花费成本为公司创立信息流通、充足分享的知识环境。

1.4全文检索系统平台架构

本系统鉴于组件化和松懈耦合架构和设计，系统平台架构表示图以下：

整个系统主要分为信息整合、信息萃取和服务、应用整合三个部分。

✓信息整合

此部分主要作用是将公司内部储存于不一样应用系统中的构造化信息、半构造化信息、非构造化信息经过本系统供给的两种数据适配器进行信息提取，形成一个相对构造化的数据虚构层，以备后期信息萃取和服务。

✓信息萃取和服务

在信息整合层形成的相对构造化的数据虚构层基础上，本系统将对此中的每笔录录进行中文切分词、索引、文件特色剖析、自动分类等各样演算算法办理，形成能够供给搜寻服务的索引库。

用户利用本系统的搜寻引擎办理供给的强盛的搜寻功能，如中文同音搜寻、简繁体对译、模糊搜寻、同义词搜寻、文章观点搜寻、分类阅读等，快速、正确、完好、及时、有效地搜寻到切合自己搜寻条件的信息。

✓应用整合

本系统还供给了完好的外面程序整合体制。

全部组件均供给SDK完好开发接口，方便应用整合和应用扩展。

1.4.1信息整合

此部分主要供给对公司内外面非构造性数据信息源成立自动化数据汇入功能。

依据用户实质需求，用户能够选择导入包含Text、MicrosoftOffice、XML、RTF、PDF、HTML、MHT、AutoCAD及E-mail（含附件文件）等格式及文件影音附件（如电影的文件名或纲要、图片的文件名或纲要、及文字）自动化成立索引数据，成立索引数据所办理之文字包含繁体中文、简体中文等；

同时用户能够选择导入数据库数据，如Oracle、Informix、Sybase、MSSQL等。

其余和Notes系统也已经有了无缝整合，可挂载NotesComposer对nsf库中正文及附件信息索引，在做索引的过程中自动把每笔录录的权限键入索引库。

本系统供给可挂载的数据适配器（DataAdapter），将异质的数据根源与数据构造进行汇整与粹取，亦饰演将非构造的信息构造化，能够很简单地剖析特别档案格式和管理复杂的数据源构造（如递归、巢状等）的多功能设计，以方便信息检索与管理。

以e-mail含附件为例，e-mailAdapter可分析e-mail内文，而入选购officeAdapter后，本来的e-mailAdapter即可分析office有关的附件文件，可视需求额外购置PDF、ZIP、RAR、OCR等不一样数据适配器，即可交互搭配使用。

搭配使用本系统的TXT、MicrosoftOffice、RTF、PDF、HTML、E-mail及FileMeta资料提取器，将可分析Text、MicrosoftOffice、XML、RTF、PDF、HTML、MHT及E-mail（含附件文件）及文件影音附档（如电影的文件名或纲要、图片的文件名或纲要、及文字）等格式，包含繁体中文、简体中文、英文、Unicode等；使用数据库数据适配器，将可支持数据库数据汇入办理如Oracle、Informix、Sybase、MSSQL等。

1.4.2信息萃取和服务

此部分须供给对数据提取的内容所包含的信息，进行数据办理剖析，包含：

✓分类模式成立自动分类功能。

✓针对非构造性数据成立词库，词库须包含同音词库、同义词库、专业词库。

✓自动分类体制与专业词库须具备自动学习与修正之功能以提高数据办理正确度。

✓可针对不一样使用层级、项目进行非构造性数据权限控管。

依据使用者不一样样级供给不一样权限的查问功能接口。

应用本系一致系列内容剖析与索引中心组件群，将汇整的内容进行断词、索引、分类、文件特色等运算与办理，以便知足信息检索与信息管理的应用，供给多功能全面性的数据剖析能力，可针对不一样情境应用加以整合，快速达到使用者需求。

同时，用户利用本系统的搜寻引擎办理供给的强盛的搜寻功能，如中文同音搜寻、简繁体对译、模糊搜寻、同义词搜寻、文章观点搜寻、分类阅读等，快速、正确、完好、及时、有效地搜寻到切合自己搜寻条件的信息。

1.4.3

应用整合

完好外面程序整合体制—全部组件均供给SDK完好开发接口，方便外面整合。

此外大批供给XML的方法来进行信息源更新时的同步以及权限的导入与检查工作。

1.5全文检索系统功能特色

1.5.1基本检索功能支持

✓支持跨数据源索引与整合搜寻。

将分别在FileServer上的文件、远程网站中的网页、群组软件中的资料，以及数据库中的文字与非文字纪录，在一次搜寻条件下，整合搜寻出来。

能够对近线数据、在线数据和离线数据分别成立索引库，到时能够经过索引库的选择来控制对哪些性质的数据进行搜寻；

✓支持「万用字符（*、?

）查问」。

使用者可查问部分重点字及*（代表多于一个字）或?

（代表一个字）的组合。

比如：

输入重点词【Chin*】，会找到【China】、【Chine】、【Chinese】等等。

输入重点词【Chin?

】，会找到【China】；

✓搜寻条件拥有完好的布尔逻辑运算AND、OR、NOT能力，支持复合式布尔逻辑运算查问，而且能够配合多组左括号"（"与右括号"）"作重点词查问优先级的设定，方便查问者输入布尔组合之查问条件；

✓内建「智能型快速响应模式」（Smartcache）体制，能够供给同一种查问条件之重复使用率，提高系统资源的效益。

Cache储藏目录记录了Cache档案所要搁置的地点，经查问过的资料或画面，第二次再进入时，可重复使用第一次查问结果；

✓支持/多字段/多条件检索，提高搜寻精准度；单调字段内，支持AND/OR/NOT逻辑条件，且支持括号方式来供给条件优先权。

多字段条件间，支持AND/OR/NOT逻辑条件；

1.5.2词索引与查问功能

系统中供给了传统的字索引，可是为提高查问检索的正确度，系统采纳自然语言断词体制和灵巧的词索引开关，用户可依据需要选择词索引或字索引。

详细功能以下：

Ø中词句子将透过智能型自动断词技术以达到词索引的成效，自动剖析与断词，并成立词索引；

Ø词索引功能经过开关灵巧设置；

Ø检索字串第一经过自动断词，将其断词结果进行组合检索；

Ø供给「词库」编写器，针对断词用的「词库」进行保护和调整；使中文切分词更切合使用者的行业特色，提高查问的速度和正确度。

该功能优势以下：

✓提高精准度：

输入「民法」不会找到「人民法院」；

✓更小的索引空间：

–经过词索引的方式，索引数据库相对字索引需要更少的磁盘空间；相同数据量下，检索时需要的Memory更少；

✓检干脆能更高：

配合高效算法，词索引的搜寻性能相对字索引均匀高出3倍以上；

1.5.3多国语系数据索引与查问

✓系统鉴于Unicode设计。

✓可支持多国语系（英文、繁简体中文、日文、韩文、Unicode等）混淆的文件的建置与查问。

✓可支持多种编码格式的索引，包含Big5、GB2312、Unicode、UTF-8、EUC-JP、Shift-JIS，并支持以Unicode同时输入多国语系条件进行搜寻。

✓

同个数据表或一条数据库记录中能够支持多国语言混排内容；

✓一个索引数据库能够存在多国语言的不一样数据；

✓能够输入多国语言的检索条件，并使用AND、OR、NOT逻辑关系；

✓检索结果中能够同时显示多国语言记录；

✓搭配多国语言同义词库，能够经过单调语言条件，获得多国语言检索结果；

1.5.4中英文模糊搜寻查问功能

✓内建「中英文容错（Fuzzy）」查问功能。

✓中英文容错功能FuzzySearch，鉴于文字特征，好多专闻名词及词汇依状况不一样，或许衍生出通用的简称，或是文字序次对换。

也有可能由于模糊不明确的意象，使用者希望只需要输入一个重点词，就能一并查问性质近似或有关之信息。

比方：

输入「MobileNetwork」可查到「MobileApplianceNetwork」等特定距离的词句、输入「家产研究」可查到「家产构造研究」、「家产….研究」等，扩展搜寻的完好性。

1.5.5近似观点词库协助查问功能

✓可针对不一样的索引库设定同义词组。

如设定「电脑$Computer$计算机」为同义词，则使用者可搜寻“电脑”时，可同时查到含有“Computer”或“计算机”的信息。

✓内建18万多组中英文同义词组，拥有中英文近似观点与同义词检索，并可提口供库管理工具，使用户可自行改正词库内容。

1.5.6其余检索功能

✓中文同音协助查问功能，如输入“网骆”，启动中文同音功能后，能够搜寻出以“网络”为重点字的记录；

✓英文字根（Stemming）协助查问功能，输入“computing”，能够搜寻出以“computer”为重点字的记录；

✓英文错误字提示功能；

✓简繁对译组件功能，输入“中国”，能够搜寻出以繁体字“中国”为重点字的记录；

1.5.7搜寻结果显示

✓以Web网页形式体现查问结果，使用者可指定所欲观察的特定笔数或分页阅读。

支持二次搜寻功能。

✓供给「属性字段权重排序体制」，管理者可自订查问结果的排序规则，让搜寻结果按搜寻者的企图显示。

✓供给「树形分类目录」，供给查问结果分类，能够让使用者进一步选用下一层目录，以减小查问范围。

✓拥有标示原文重点词功能，能够直接将原文中有关使用者输入得重点词全数标示出来，同时系统管理者能够自行设定重点词标示的颜色、大小、字型….等属性。

✓查问结果可同时显示文件仰头及重要纲要段落或许不过显示文件仰头以加速使用者的查问速度。

✓开发搜寻接口，用户可依据开发的SDK自己开发特定形式和显示风格的搜寻结果页面。

1.5.8自然语言应用组件

利用自然语言的形似有关词功能，可对数据撷取内容进行新词学习，语意剖析等，可自动成立新词，提高数据办理正确度。

鉴于自然语言应用组件，可实现有关文章查问功能、重复文章查问功能、自动纲要功能、语意查问功能、形似有关词建议功能等。

进而能够经过关系组织的方式，把不一样档案库中的相像、有关内容一次性的搜寻出来。

✓有关文件查问

✓文章自动纲要

1.5.9自动分类应用组件

搭配自动分类组件，可对撷取数据进行分类，并可辅以导览式分类组件与搜寻组件进行整合，即可逐个依类型筛检过滤资料，并显示类型内切合资料。

✓导览式分类

✓自动分类

1.5.10高效数据同步功能（增量索引）

从前的全文搜寻引擎在面对大资料量成立索引时，都会限制数据量的多少，而解决这个问题往常都是将资料量分为几个部分分开建索引。

可是这种方法并没法完全解决资料同步更新或检索的需求。

本系统供给渐进式索引技术，也就是经过增量索引体制能够逐渐地分别为数据库成立索引，关于异动的数据或索引，进行及时的更新。

1.5.11高可用性

本全文检索服务能够经过Layer4Switch硬件进行搜寻的负载平衡，提高服务效能。

若某台主机因不明原由没法对外服务，则可及时以另一台主机对外进行正常服务。

索引库可寄存于网络储存设施上，让备用机共享其索引数据，使全文检索服务能够正常运转。

1.5.12可扩大性：

本系统可依不一样需求扩充，分类，自然语言，数据适配器等组件，更可置换其重点性应用组件，比如：

公司已使用其余分类组件，透过本系统供给之SDK，可代替本来之分类应用组件，且不会影响本来服务体制。

1.6大数据量全文检索解决方案

当需要成立索引的数据量达到上千万条时（大体上百个G），单个服务器检索系统在性能方面是不行能获得保证的，这时候查问一条信息所需要的时间已经远远高出了使用者的容忍范围，因此为保证全文检索系统的高性能特色，使用多台检索服务器机群来实行散布式检索成为事不宜迟！

1.6.1大数据量全文检索构架图

以下图，应用系统的全部资料分其余部署到各个索引服务器上成立索引，以后把索引好的数据储存到索引库中，用户发出一个搜寻恳求后，龙卷风大数据量散布式检索系统经过SOAP体制把搜寻恳求发送给索引服务器，而后接收到搜寻恳求的服务器会去到索引库中把搜寻者所需资料查找出来而且把全部查问结果归并到一同经过用户设定的排序方式在前端搜寻页面上显示出来。

在此时期，用户发送搜寻恳求后，机群索引调动服务会依据索引服务器状态表把搜寻恳求发给安闲的服务器，充足利用整个系统的每一分资源。

1.6.2散布式技术优势

●多种数据库信息一致成立索引，支持对数据库的文件附件索引，无需对数据源进行任何变动；

●支持T级总量数据，每日G级的增量数据实现秒级数据检索，而且索引延缓时间保证在1小时之内，即实现用户对每日更新数据能够及时查问，还可以保证T级历史数据的快速查问；

●整个系统拥有灵巧的扩展性，在系统应用过程中，跟着用户需检索数据量的增添，可经过扩展索引服务器和查问服务器集群高性价比光滑升级，已经索引过的数据和原有系统的稳固性不受影响；

●高并发用户接见量支持；

1.7搜寻的权限控制

IRMS供给的信息搜寻并不是是指人人皆可任意搜寻就任何信息，而是依据组织中的角色，让搜寻者只好搜寻自己权限范围内的信息，而无权限接见的记录是不会被搜寻出来的。

IRMS权限控制主要实现：

✓保证存守信息的安全性

✓有该文件读取权的人或群组,才有可能查问到此一文件

✓无该文件读取权的人或群组,不会知道有哪些无权读取的文件存在

✓假如每一个人或群组文件的读取权不一样,查问结果集就会不一样

1.7.1搜寻系统和应用系统权限整合方法

针对不一样的应用及特定的权限规则，有多种方式能够实现IRMS搜寻系统和应用系统的权限整合。

主要方法包含：

1、分索引库法：

此种方法合用于权限较简单，而且权限能够归为几大类的应用。

如用户组分为公司领导组、部门经理组、一般职工组，每组用户内部权限相同，组之间才有权限差别。

针对此种应用，能够分别针对不用的用户组创立不一样的索引库，分别搁置于Group_for_公司领导、Group_for_部门经理、Group_for_一般职工。

搜寻时，第一判断用户所在何用户组，针对不一样的用户组再定向到不一样的搜寻库中去全文检索。

2、特别属性过滤法：

此种方法合用于信息资料源单调，而且有一特别属性字段能够判断用户权限的状况。

如数据库全文搜寻时，有一字段值为受权接见该记录的所实用户或组。

针对此种特别状况，能够选择使用多字段属性过滤的方法，在搜寻页面提交搜寻恳求后，使用该特别属性字段过滤最后的搜寻结果。

3、搜寻结果过滤法：

用户提交搜寻后，搜寻引擎搜寻时其实不带入权限信息，不过在搜寻结果显示时，使用应用系统的权限规则来过滤搜寻结果，并将切合该用户权限范围内的信息显示给搜寻者。

4、内建权限规则法：

搜寻系统内建权限规则，管理员依据搜寻信息根源的权限规则定制搜寻系统的权限规则，用户提交的搜寻恳求搜寻系统经过权限过滤后再反应给搜寻者。

5、导入权限规则法：

搜寻系统不内建权限系统，但供给权限导入体制。

用户将应用系统的权限规则标准化后，经过搜寻系统的API导入到搜寻系统中。

用户提交搜寻恳求，搜寻系统经过权限过滤后再反应给搜寻者。

各样方法的比较：

合用环境

长处

弊端

分索引库法

权限较简单，而且权限能够归为几大类的应用

部署简单

合用范围小

特别属性过滤法

信息资料源单调，而且有一特别属性字段能够判断用户权限的状况

部署简单

合用范围小

搜寻结果过滤法

应用系统权限判断用时少

部署简单

应用系统权限规则复杂时，搜寻结果权限判断将很花时间，以致搜寻结果显示速度慢

内建权限规则法

大多半应用系统

权限系统内嵌在搜寻系统中，搜寻速度和显示速度快

管理员需要为搜寻系统索引库中的每笔录录分派权限，工作复杂

导入权限规则法

大多半应用系统

权限系统内嵌在搜寻系统中，搜寻速度和显示速度快。

支持批量导入体制

需要将应用系统权限规则导出为特定格式。

但一旦确立模式，则可重复使用

依据以上搜寻系统权限整合剖析，此次应用系统波及的搜寻信息根源所包含的Documentum、OA及其余应用系统都有各自的权限规则，应采纳第四或第五种权限整合方法。

IRMS全文检索系统支持第五种权限整合方法，它的主要特色包含：

✓支持及时权限信息导入和准时权限信息导入，用户现有权限规则不用做任何变动；

✓支持使用XMLExport与Import的体制供给信息内容权限控管的整合接口；

✓支持权限信息导出为XML文件后，再批量XML文件导入的功能；

✓供给权限组件及SDK，可独自操作权限组件进行不一样的权限系统整合；

✓利用XML进行权限整合描绘，和其余系统的权限架构做整合。

整合后，不一样的权限使用者使用搜寻引擎、自然语言等应用组件时，将获得切合各自权限的数据；

✓权限规则与IRMS能够完好分别,增添可重用性。

1.7.2IRMS和Domino权限整合实例

龙卷风公司已经开发出成熟的Domino适配器，实现将Domino中的文档成立索引，实现全文检索。

1）经过管理界面设定需要怎样连结DominoNSF数据库，同时设定索引哪个View或表及其余信息。

2）IRMSDominoComposer经过以上配置实现从Domino中提取文档内容，创立索引。

关于DominoACL信息，龙卷风公司已经开发出一通用Domino权限导出工具，实现一般的Domino数据库权限信息的导出。

再联合IRMS供给的SDK和XML导入工具，即可实现Domino数据库权限信息整合到索引库中，最后实现搜寻用户带权限信息搜寻，即搜寻者只好搜寻自己权限范围内的信息，而无权限接见的记录是不会被搜寻出来的。

XML文件样例：

xmlversion="1.0"encoding="UTF-16"?

4570

CN=Peter/O=tornado

CN=Boirs/O=tornado

CN=jessie/O=tornado

CN=hello/O=tornado

CN=badboy/O=tornado

6174

-Default-

CN=Boirs/O=tornado

当前IRMS支持平面构造的权限规则。

当用户应用系统使用许多的嵌套用户组和嵌套角色时，则需要进行客制化开发。

开发周期视嵌套复杂度和应用系统权限API灵巧程度而定。

1.7.3IRMS和应用系统权限整合总结

综上所述，IRMS采纳了及其灵巧和方便的一种权限整合方式。

系统管理员只需将其应用系统的权限规则导出成以下表格形式，IRMS即可方便的导入到索引库中，进而在索引库层实现搜寻者只好搜寻自己权限范围内的信息，而无权限接见的记录是不会被搜寻出来的。

展开阅读全文