TRS全文检索系统文档.docx
《TRS全文检索系统文档.docx》由会员分享,可在线阅读,更多相关《TRS全文检索系统文档.docx(11页珍藏版)》请在冰豆网上搜索。
TRS全文检索系统文档
1.1.1全文检索系统结构
根据全文检索技术和实现方法,结合需求,检索系统由以下三个部分组成:
TRS全文数据库系统(TRSDatabaseServer)
TRS全文检索网关(TRSGateway)
TRS信息发布应用服务器系统(TRSWAS)
TRS全文数据库系统(TRSDatabaseServer)采用TRS具有国际领先水平的信息检索和中文自然语言处理研究成果,具有傲视群雄的检索效果和查询性能,核心功能是对结构化和非结构化信息提供全文检索功能。
主要特点包括:
●异构海量数据统一管理,非结构化和结构化数据联合检索
●NativeXML内核,实现全息检索
●智能辅助检索,支持知识挖掘
●精确计算,检索速度和准确性共达最优
●动态索引实时更新,面向事务处理
●支持Unicode编码,提供多语种查询引擎
●多级机制保障,信息采集和检索高度安全
●集群检索,保证高可靠性,随需轻松扩展规模
TRS全文数据库系统(TRSDatabaseServer)通过TRS全文检索网关,可以实现对关系数据库中文本对象字段的全文检索。
TRS内容分发服务器系统提供将数据库中的信息动态发布到Web服务器上,以为平台用户检索使用。
全文检索系统架构图如下所示:
全文检索系统架构图
1.1.2全文检索网关
TRS全文检索系统采用开放的三层体系架构设计,整个系统基于主流的操作系统。
数据层主要为关系型数据库和TRS全文数据库,关系型数据库主要进行存储和管理,而全文数据库实现检索,利用TRSGateway可以将关系型数据库的数据在TRS全文数据库中建立全文索引,以实现结构化和非结构化数据的全文检索。
TRS全文数据库是TRS公司自主研发的具有知识产权的产品,为了能够更好的提供全文检索和智能检索等应用功能,它其中包括多种词典支持:
分词词典、主题词典、停用词典等。
应用层主要依据TRS全文数据库提供的全文检索功能实现平台所需的检索需求,并为表现层提供检索服务。
这层可以根据具体需求利用TRS提供的丰富开发接口实现全文检索应用。
表现层主要为平台管理人员和最终用户提供数据库检索和网页检索等。
北京市技术标准在线服务平台的大部分业务应用都是基于关系数据库,关系数据库(RDBMS)擅长于结构化数据的事务处理和关系运算,但是对长文本以及非结构化大对象文本缺乏有效的检索手段,而TRS全文数据库对非结构化文本对象具有出色的管理和检索功能。
为了实现对关系数据库中信息的高效全面检索,针对这部分数据,需要将其进行统一采集和统一的检索服务。
这种方式的采集不需人工干预,完全采用自动化采集方式。
为了真正、全面的实现结构化和非结构化信息的全文检索,在全文检索设计中,采用TRS全文检索网关(TRSGateway)实现关系型数据库数据全文检索功能。
TRS全文检索网关(TRSGateway)是由北京拓尔思信息技术有限公司和五大关系型数据库厂商Oracle、Sybase、IBM、Informix、Microsoft鼎力合作,共同推出的实现TRS数据与主流关系型数据库SQLServer、Oracle、Sybase、DB2、Informix数据之间进行数据迁移的工具。
该工具实现了RDBMS与TRS全文数据库之间数据共享,使用户在享有RDBMS卓越的数据处理功能的同时,拥有TRS优秀的全文检索功能。
系统特点:
TRSGateway采用可视化的管理与配置工具使系统简单易用,轻松实现信息管理。
用户只需要按步跟随“任务创建向导”的提示就可以创建更新任务,智能化定时运行工具,全面实现工作的无人监管:
应用向导配置连接关系数据库及TRS数据库
可设置的定时执行任务:
对创建好的任务,用户可以设置其自动定时执行。
如:
用户可以设置一个增量更新任务每隔30分钟执行一次,意即每隔30分钟将用户对RDBMS数据库表中数据的修改向TRS全文数据库中进行一次索引的更新。
高度自动化的定时执行功能使用户不必手动进行数据索引的更新操作,只需启动TRS*Agent即可自动定时执行。
实时查看和修改任务的各种属性:
对任何一个创建好的任务,用户可以查看其属性,并可修改属性。
应用向导配置源表和目标表以及字段对应关系
关系数据库与TRS全文数据库之间的数据更新方式支持:
●完全更新
执行任务时,先将指定的目标数据库表中的内容清空,然后将源数据库表中所有符合条件的数据迁移到目标数据库中。
适用第一次迁移数据。
⏹数据追加
执行任务时,直接将源数据库表中所有符合条件的数据迁移到目标数据库中,并不将目标数据库表中的内容清空。
适用一段时间向目标数据库追加一批数据时。
⏹增量更新
执行任务时,将所有源数据库表中符合条件的更新了的数据(指进行了删除、添加或修改的数据)迁移到目标数据库中。
可以通过设定定时方式由系统自动执行,适用每天有数据更新情况。
1.1.3
TRSWebApplicationServer(TRSWAS)主要由管理控制台及应用端两部分组成,它主要有以下特点:
●完全基于Web的管理方式
管理控制台完全基于Web方式,使管理更加的灵活,真正实现了远程管理。
应用端部分同样是完全基于Web方式实现。
这种架构可以灵活的满足用户的需求,特别是ASP供应商。
●跨平台的支持
由于TRSWAS4.0完全采用了基于Java的技术实现,也就完全继承了Java跨平台的特性,一套代码可以在多个平台上运行,省除了跨操作系统平台可能带来的代码移植问题。
●灵活性及安全性的提高
TRSWAS4.0的开发是完全基于TRSTagLib基础上的。
在开发的过程中,遵循了业务逻辑与显示风格控制分开显示的原则(CVM方式),将所有的业务逻辑封装在Servlet中,完成请求的处理后,将请求转发到包含了TRSTagLib的JSP模板页面中,由此页面完成最终内容的格式化显示。
这种开发方式最大的优点就是灵活性。
在页面表现方面,最终页面的表现控制由TRSTagLib完成,表现为在JSP页面中插入TRS置标,修改起来十分的方便,并且业务代码不包含在其中,只需要美工人员就可以很好的完成,大大的减少了维护工作量;而当业务逻辑发生改变时,只需要对涉及到的Servlet进行逻辑代码的修改,完全屏蔽了显示层,工作量也大幅度的减少,保证了项目快速灵活的实施。
●支持对TRS数据库记录的增、删、改操作
TRSWAS4.0实现了在Web上对TRS数据库中记录信息的增、删、改功能。
目前修改TRS数据库记录只适用于非二进制字段,增加及删除则没有这方面的限制。
●支持记录间相关性的连接,实现相关新闻的功能
TRSWAS4.0实现了相关新闻的功能,通过相关字段,实现了在细览记录时获得与此记录相关联的记录,并显示这些关联记录的连接。
●支持对记录被阅读次数的记录,实现热门新闻的功能
实现了对记录阅读次数的记录功能,当记录被细览一次时,自动将其的阅读次数字段加1,通过对阅读次数字段的排序,可以实现当前最热门记录的功能。
●提供TRSTagLib二次开发接口,保证项目快速灵活的实现
提供一套TRSTagLib置标,以此为开发接口,可以很迅速灵活的开发其他应用程序,在开发过程中,显示部分由嵌入了TRSTagLib的JSP模板文件来完成,而业务逻辑部分可以单独进行开发,这样既减少了开发的复杂程度,保证任务的顺利完成,又同时确保了客户各种灵活性的需求得到了保证,最终的开发及维护工作量都将得到很好的控制。
1.1.4TRS全文检索系统特点
TRS全文检索以TRS全文数据库系统(TRSDatabaseServer)为核心,提供功能全面、智能、高性能的全文检索服务保证。
在当今信息爆炸时代,正确的决策依赖于及时、准确和有效的信息,TRS全文数据库系统突破了传统全文检索和网页搜索引擎的种种局限,是真正基于知识的智能内容检索系统。
TRS全文数据库系统主要特点如下:
●大型数据的存储和管理功能
支持中文(简、繁体)、英文和中英文混合数据;
支持多种索引策略,包括按词、按字、按用户自定义关键词等索引策略,能够根据文档对象的结构属性建立不同的索引结构以实现面向不同结构文档的检索要求;
同时支持结构化数据和非结构化数据,支持多种数据类型(如日期、字符串、短语、文档和二进制多媒体类型);
支持常用格式文件的入库和检索,如TEXT、HTML、RTF、MSOffice、PDF、S2/PS2/PS、MARC、ISO2709等);
支持多媒体数据的管理;
支持多种形式的数据存放方式,如集中存放、分散存放或URL方式存放,并且数据还可以存放在其他数据库或应用系统中;
高效的数据和索引压缩,实现了低空间膨胀率(-0.2~~1.0);
支持字段的唯一(Unique)特性;
支持数据库纪录的增删改操作;
不同操作系统平台之间,库结构自由拷贝,方便管理员操作;
管理员可设置“定时优化”的时间,降低系统管理的成本;
修改记录时,保存记录号的移动轨迹,能够使用移动前的记录号读取记录,确保数据维护的正确和安全;
可以方便地对各种词典进行管理和维护;
在32位系统中使用64位文件系统以支持超大规模的数据库;
方便的数据备份和恢复功能;
多种格式的数据导出功能,可以导出XML,TRS等数据类型文件。
●体系结构
分布式体系结构,可以建立多个TRSDatabaseServer的集群结构,并在应用层实现透明访问;
支持数据库一对多的单向镜像;
多线程设计,支持SMP体系结构,支持大量并发用户访问;
支持三层结构(DataServer、ApplicationServer和WebServer)应用,每一层均可扩展。
●跨平台支持
支持多种硬件平台:
如大型机/小型机/服务器/PC机;
支持多种操作系统:
如64位和32位的Unix、Linux、WindowsNT/2000;
客户机可以运行在Windows9X、WindowsNT、Windows2000、主流Web浏览器上;
应用层接口和系统支持EJB,采用Java技术开发,同一套代码可以运行在异构的设备和操作系统环境中。
●对标准化和开放性的支持
同时支持Client/Server结构和WebBrowser/WebServer结构;
支持ANSI主题词典结构标准;
支持ISO2709、XML数据格式的输入、输出;
支持ApacheServer、NetscapeEnterpriseServer和MicrosoftIIS等主流Web服务器;
支持J2EE/EJB,Web应用服务器支持主流中间件产品,如IBMWebsphere、BEAWeblogic、OracleApplicationServer、Tomcat等;
支持NetscapeNavigator和MicrosoftInternetExplorer等主流浏览器;
支持和主流的五大关系型数据库管理系统无缝集成,提供分布式和跨平台的灵活配置方案,支持对关系型数据库的文本数据和大对象类型数据的检索能力;
支持多语种:
简体(GBK、GB2312、GB18030)、繁体(BIG5)、西文(ASCII)、国际统一码(Unicode);
●实时性支持
系统能支持对数据的增量更新,支持实时的数据添加、修改和删除。
●中文自然语言处理
内嵌汉语自动分词系统,并统计建立了大量歧义排除规则,有效提高了分词准确性。
支持按词索引、按字索引、按关键词索引,适应不同应用环境的需求;
●全文检索功能
同时支持Client/Server和WebBrowser/WebServer两种检索方式;
支持中英文混合检索;
允许使用文中的任意字、词、句和片段进行检索;
全方位检索手段:
提供了多达48种检索运算符。
包括外部特征与正文内容的各种逻辑组合检索(与、或、非、异或)、位置检索(同段、同句、相差几个字以及前后次序有关等)、二次检索、渐进检索、历史检索、词根检索、大小写敏感检索、概念检索、对检索结果按与检索表达式的相关性和重要性程度排序等,支持分类查询,针对不同的栏目和子栏目,允许用户在指定的栏目下查询,以便获得更准确的检索结果;
对数值、日期等特征字段可以进行比较和范围检索;
支持任意一致的通配符检索(模糊检索);
基于成本优化的查询算法(索引分区技术、多线程并行运算技术、Bigram技术等),使得G级数据库查询速度达到亚秒级;
完善的Cache技术(包括检索词、短语、表达式的一级、二级缓存技术),从而支持更多的并发用户访问,并大大提高综合查询速度;
支持跨库和跨服务器的检索;
LIFO:
后进先出的快速排序;
支持对检索结果的各种排序;
可以对检索结果进行浏览、存贮、打印、报表输出以及电子邮件发送等操作,浏览时具有命中点定位和高亮度显示功能;
可以限制每个用户一次存取检索结果的信息量;
●智能检索功能
TRS独创的智能检索技术,在查全和查准方面比一般检索系统高得多。
TRS智能检索技术包括智能中文分词、广义同义词检索、主题词典控制检索、禁用词典、英文词根检索等。
智能中文分词:
TRS采用先进的自动分词系统,根据大量的语料统计和分析,建立了上万条的歧义排除规则,因此检索“华人”不会把仅仅包含“中华人民共和国”的文章检索出来。
广义同义词检索:
TRS独创的广义同义词检索技术能够大大提高检索系统的查全率,比如检索“中央电视台”,TRS能够自动把包含“中央电视台”、“央视”、“CCTV”等文章全部检索出来,检索“电脑”会把包含“计算机”,“Computer”的文章全部检索出来。
在TRS系统中同义词库是用户自己可以维护的。
主题词典控制:
TRS支持ANSI标准和汉语主题词表标准,比如在主题词典中,有一个主题词为“民间工艺”,它的下位词有“编织”、“惠山泥人”、“剪纸”、“麦杆剪贴”、“民间石雕”、“木偶”等,因此为了达到提高查全率的目的,检索“民间工艺”时,系统可以自动扩展检索到包含它的下位词的所有文章;相反,在检索“木偶”时,如果我们发现检索结果很少时,可以通过扩展上位词检索到更多的文章。
●用户管理
多用户系统,具有独立于操作系统的用户管理机制;
系统提供多种权限级别的用户管理:
系统管理员、全域管理员、组管理员、资源用户、登录用户;
服务器的日志文件可以任意配置,即决定哪些操作要日志,可以帮助收集用户访问的统计信息;
支持用户组的概念,以及GroupDBA的概念,适应大型应用中复杂的系统管理和应用;
支持唯一登录功能,可以确保同一账号的用户同时只能登录一次,不能重复登录。
●安全性
安全性好:
具有系统级、数据库级、记录级和字段级四级安全控制机制;
除了可对数据库进行个别单独备份外,还提供系统所有信息的备份;
检索实例的唯一化,妥善处理无用请求,提高系统资源利用率,也可以防止对检索系统的恶意攻击;
用户访问数据库授权机制;
对记录(文献)存取密级控制、存取数量控制;
完善的日志监督管理,可以根据需要灵活配置;
检索服务应用系统与数据库服务器分离,所有的访问都通过应用服务器,可以大大提高数据和系统的安全性。
序号
软件
规格
1
TRS全文数据库系统(TRSDatabaseServer)
全文检索服务器,提供数据库创建、存储、索引、维护管理功能;
2
TRS全文检索网关(TRSGateway)
TRSforSQL全文检索网关
3
TRS信息发布应用服务器系统(TRSWAS)
检索内容发布服务管理