基于双层PDF技术的数字档案馆全文检索实践.docx

上传人:b****8 文档编号:10692784 上传时间:2023-02-22 格式:DOCX 页数:7 大小:77.73KB
下载 相关 举报
基于双层PDF技术的数字档案馆全文检索实践.docx_第1页
第1页 / 共7页
基于双层PDF技术的数字档案馆全文检索实践.docx_第2页
第2页 / 共7页
基于双层PDF技术的数字档案馆全文检索实践.docx_第3页
第3页 / 共7页
基于双层PDF技术的数字档案馆全文检索实践.docx_第4页
第4页 / 共7页
基于双层PDF技术的数字档案馆全文检索实践.docx_第5页
第5页 / 共7页
点击查看更多>>
下载资源
资源描述

基于双层PDF技术的数字档案馆全文检索实践.docx

《基于双层PDF技术的数字档案馆全文检索实践.docx》由会员分享,可在线阅读,更多相关《基于双层PDF技术的数字档案馆全文检索实践.docx(7页珍藏版)》请在冰豆网上搜索。

基于双层PDF技术的数字档案馆全文检索实践.docx

基于双层PDF技术的数字档案馆全文检索实践

基于双层PDF技术的数字档案馆全文检索实践

基于双层PDF文档的全文检索技术在数字档案馆中的应用

贺志军向禹

(湖南长沙中南大学档案馆410083)

【摘要】本文通过基于双层PDF文档的全文检索技术运用于B/S结构的档案管理系统的研究实践,实现了高效、快捷的档案检索,实现了高查全率和高查准率,界面友好,可靠安全,扩展性强。

【关键词】双层PDF全文检索数字档案馆

【分类号】G270

随着社会信息化程度的提高,人们对档案信息资源的依赖程序也越来越高,对高效率的档案资源管理、检索利用的需求也越来越迫切,发展数字档案馆是社会发展的必然,数字档案馆是一个提供档案远程服务和信息共享的平台。

近年来,数字档案馆的研究和建设也如火如荼的开展起来,数字档案馆的平台呈现多样化,档案数字化加工也存在着不同标准,建设数字档案馆的最终目标都是为了档案永久存储和高效利用,本文以中南大学数字档案馆建设实例,着重讨论数字档案馆建设中的全文检索技术。

1概述

1.1全文检索

全文检索是计算机程序通过扫描文件中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。

当用户查询时根据索引进行查找,类似于通过字典的检索字表查字的过程。

  档案的收藏是为了利用,档案检索应该把查全率摆在首位,兼顾查准率。

数字档案馆要提供便捷的查询和高查全率,必须建设全文检索系统,全文检索系统由索引模块、分词模块、检索模块和存储模块等构成。

1.2双层PDF技术

双层PDF文件是一种包含Text层和Image层的多层结构PDF格式文件,两层内容位置上一一对应。

Image层是原始图像,保留了原始档案的效果;Text层是Image层的识别结果,支持选择、检索和复制等功能。

通过程序控制可实现两个图层的任意显示和切换,可实现检索词的精确定位。

双层PDF加工是指将其它文件(可以是WORD、也可以是图像文件)转换,或者将标准纸质文档通过扫描后,经过去污、修正和OCR识别,通过软件生成双层PDF文档,然后挂接到档案管理系统的相应目录下。

1.3全文检索的意义

全文检索是一种很重要的检索途径,弥补了目录检索的不足,也解决了目录著录不全、不规范等问题,大幅度提高了查全率。

由于全文检索不是直接访问数据库,而是通过对数据库中的数据或者对双层PDF文件的Text层进行索引,因此用户搜索对数据库的压力为零,可以达到毫秒级的检索速度和每秒数百次的并发访问,大大提升检索速度。

2全文检索在数字档案馆的实现

2.1创建全文数据库

我们采用湖南德立信软件开发有限公司的档案数字化加工系统和PDF车间进行纸质档案的数字化加工,实行流水线作业,将档案扫描加工为电子档案;使用双层PDF车间,将文件识别为文字,然后再将Text层和Image层组合成为一个完整的双层PDF文件。

我们仍然采用目前技术成熟、广为流行的基于目录数据库挂接方式来实现PDF文件的挂接,对档案内容数据及其元数据等相关信息建立永久联系,形成数据包。

2.2创建索引

将制作好的PDF文件和数据包通过调用德立信全文检索系统(DelisunText)内核函数建立对应的索引文件,抓取和解析数据,创建索引的过程实际上也就是将数字化档案原文及其原数据(包括结构化和非结构化数据)信息提取并创建索引文件的过程。

2.2.1索引创建:

为了对文档进行索引,DelisunText提供了五个基础的类,Document、Field、IndexWriter、Analyzer、Directory。

1、首先指定生成Index目录。

2、建立索引器indexWriter,生成index对象,把一个个的Document对象加到索引中来。

3、建立信息字段对象Field,描述文档的某个属性,如文件标题和内容可以用两个Field对象分别描述。

4、建立文档对象Document,用来描述文档,内容可以从TXT、HTML等文档及数据库等多种途径获得,一个Document对象由多个Field对象组成的。

也可以把一个Document对象看作数据库中的一个记录,而每个Field对象就是记录的一个字段。

在一个文档被索引之前,首先需要对文档内容进行分词处理,这部分工作就是由Analyzer类来完成。

Analyzer类是一个抽象类,它有多个实现,针对不同的语言和应用需要选择适合的Analyzer。

Analyzer把分词后的内容交给IndexWriter来建立索引。

在分词时,如果用来进行索引的文档不是纯文本,先得转换成纯文本才能再进行操作;对同一索引,用来分词建立索引的分词器与用来查询的分词器必须是同一个,才能保证得到正确的查询结果。

5、将Field添加到Document里面,再将Document添加到IndexWriter里面。

6、优化indexWriter对象,Directory类代表了Lucene的索引的存储的位置,它是一个抽象类,有两个实现,一个是FSDirectory,它表示一个存储在文件系统中的索引的位置;其次是RAMDirectory,它表示一个存储在内存当中的索引的位置。

通俗的讲,索引过程也可以理解为四个阶段:

1)有一系列被索引文件;2)被索引文件经过语法分析和语言处理形成一系列词(Term);3)经过索引创建形成词典和反向索引表;4)通过索引存储将索引写入磁盘。

最后完成index的生成。

2.2.2索引管理:

1查看索引,读取指定路径索引中是否存在;索引中包含的文档,词条情况,是否需经过优化等;最后一次修改的时间,路径信息,含有的文档数目等;读取索引词条相关基本信息。

2删除索引,删除指定序号的文档之后,自动删除对应的索引文件;恢复被删除的文档及索引。

3更新索引,更新索引中的某个文档;另外就是,索引同步处理,用户可根据需要自己定制创建索引时间,可定时更新也可以实时更新。

2.3全文检索

2.3.1检索过程

全文检索实际上是一个复杂的过程,主要分为以下步骤:

第一步:

用户输入查询语句。

第二步:

对查询语句进行词法分析和语法分析,得到一系列的词,然后进行语言处理。

词法分析主要用来识别单词和关键字;语法分析主要是根据查询语句的语法规则来形成一棵语法树;语言处理同索引过程中的语言处理几乎相同。

通过分析和处理,得到一个查询树。

第三步:

搜索索引,得到符合语法树的文档。

1)在反向索引表中,分别找出包含查询内容的文档链表;2)对包含查询内容的链表进行合并操作,得到包含查询内容的文档链表;3)将此链表与查询内容的文档链表进行差操作,去除无关的文档信息,从而得到包含查询内容的精确的文档链表;4)此文档链表就是我们要找的文档。

第四步:

根据得到的文档和查询语句的相关性,对结果进行排序。

1)一个文档有很多词(Term)组成;2)找出词(Term)对文档的重要性的过程称为计算词的权重(Termweight)的过程;3)判断词(Term)之间的关系从而得到文档相关性的过程应用向量空间模型算法(VectorSpaceModel);4)最终计算出权重(Termweight)。

第五步:

将查询结果返回给用户界面。

2.3.2用户界面设计

直观实用的用户界面,用于接收系统返回的检索结果:

1)高亮显示结果条目中的检索条件,可根据需要通过Lucene高亮处理基本设置;2)提取过滤搜索结果,对搜索结果进行排序,初始的结果排序列按相关性计算出的权重值从大到小排列;3)对提取过滤搜索结果可进行二次过滤搜索;4)根据档案管理系统权限,对检索出的结果可进行下载与浏览。

2.3.3原文获取和定位

通过检索过程,在用户界面得到了查询结果,接下来,在检索利用中,便是要获取PDF原文,并查出检索词在原文中的具体位置。

这里,我们运用AcrobatReader(创建和阅读PDF文档使用最广泛的软件),结合档案管理系统,自动实现检索词在原文中的定位。

1、在多个PDF文档中查找文本

Reader软件本身对双层PDF文档的查找、文本复制、双层切换等功能都提供了支持,“搜索”窗口允许在多个PDF查找项目。

打开Reader在“查找”工具栏,键入需要查找的文本然后从弹出菜单选择“打开完整的Acrobat搜索”。

在“搜索”窗口,选择“所有PDF文档,位于”。

从本选项下方弹出菜单选择“查找位置”。

运用AcrobatReader,可以实现在检索词在指定文档中的定位。

2、在检索结果中自动实现PDF文档的定位

档案管理系统的用户界面获取了来自检索系统的信息之后,如果实现从超级链接到自动打开PDF文档,以及检索词在文档中的精确定位呢?

以下便是实现这一功能的代码的一部分。

PDF控件代码:

*****'border='0'WIDTH='100%'height='100%'>

">

3总结

经过实际测试,基于双层PDF文档技术的全文检索,有效的提高了查询利用工作效率,它通过对档案数据库的数据和双层PDF文档的TEXT层建立索引,查询时不访问数据库,有效减轻数据库和系统的压力。

目前可以支持1000万级的数据,毫秒级的查询时间,每秒500人的并发访问,从而实现大容量、高速度的目标;可以适应linux和window平台,支持多种数据库接口;它具备通用搜索引擎的构架和功能,可以对用户的输入进行分词,可以进行多关键字搜索、关键词组合搜索,用户友好;同时能够根据客户的需求进行用户的数据挖掘,提高档案全文检索系统的价值。

通过全文数据库及全文检索的实现,得到高查全率和查准率,大幅提高档案的利用价值;同时,对档案编研也起到积极的作用;也为档案信息聚合(RSS,也叫聚合内容,ReallySimpleSyndication)的研究、定向的档案信息服务研究或者更深层次的档案服务奠定了基础。

【参考文献】

[1] 李靖等.基于Lucene的全文检索引擎的研究与应用[J]淮阴工学院学报,2008,(02).

[2]员建厦.Oracle全文检索及自动更新索引的实现[J]计算机与网络,2007,(12).

[3]刘清杰.一种基于全文检索技术的数字档案馆解决方案[J]办公自动化,2009,(10).

[4]朱虹;吴林.倒排索引压缩及在RDBMS全文检索中的实现[J]华中科技大学学报(自然科学版),2009,(4).

[5]张颖;朱大鹏.基于任意字串的全文检索算法[J]河南师范大学学报(自然科学版),2009,(4).

[6]解鹏飞.Lucene搜索引擎技术在国家海洋数字档案馆示范系统中的实现及应用[J]海洋环境科学,2008,(8).

[7]刘清杰.一种基于全文检索技术的数字档案馆解决方案 [Z]OA’2010办公自动化国际学术研讨会论文集,2010,(7).

【作者简介】贺志军,1965年生,男,博士,副研究员,江西人,现为中南大学档案馆馆长,发表专业论文十余篇,参与多项省部级课题;向禹,1976年生,男,副研究馆员,毕业于湘潭大学图书情报、计算机应用专业,现为中南大学档案馆综合办公室主任,发表专业论文十余篇,参与省级课题多项。

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 成人教育 > 自考

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1