档案数字化方案doc.docx

上传人:b****8 文档编号:8770672 上传时间:2023-02-01 格式:DOCX 页数:40 大小:29.21KB
下载 相关 举报
档案数字化方案doc.docx_第1页
第1页 / 共40页
档案数字化方案doc.docx_第2页
第2页 / 共40页
档案数字化方案doc.docx_第3页
第3页 / 共40页
档案数字化方案doc.docx_第4页
第4页 / 共40页
档案数字化方案doc.docx_第5页
第5页 / 共40页
点击查看更多>>
下载资源
资源描述

档案数字化方案doc.docx

《档案数字化方案doc.docx》由会员分享,可在线阅读,更多相关《档案数字化方案doc.docx(40页珍藏版)》请在冰豆网上搜索。

档案数字化方案doc.docx

档案数字化方案doc

 

档案室、档案馆

馆藏档案扫描、数字化加工整体解决方案

 

武汉宝和人通数字科技有限公司

 

 

第一数字化加工作前期准⋯⋯⋯⋯⋯⋯⋯⋯⋯1

 

一、数字化工作人准⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯1

 

二、数字化工作件、硬件准⋯⋯⋯⋯⋯⋯⋯⋯4

 

三、确定数字化内容、数量及用需求⋯⋯⋯⋯⋯5

 

第二数字化加工流程及主要技方案⋯⋯⋯⋯⋯⋯⋯6

 

一、入提卷、拆卷⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯6

 

二、引著⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯7

 

三、档案描⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯8

 

四、像理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯11

 

五、全文OCR、生成双pdf、板式原及格式⋯12

 

六、⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯14

 

七、批量挂接⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯15

 

八、卷及数据份提交⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯15

 

第三量控制方案和保措施⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯17

 

一、加工量保障措施⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯17

 

二、多,多次的量体系⋯⋯⋯⋯⋯17

 

三、段性收与相合的格收程序是量控制的保障⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯19

 

第四安全保密控制⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯21

 

保密⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯22

 

第五售后服⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯24

 

项目背景

 

——————————————————

随着全国文化信息资源共享工程与中国数字图书馆工程的起动,信息化已成为国际潮流,信息资源建设成为当务之急。

信息资源建设的重点是电子文献、各类数据库、网络资源、电子档案、电子图书等新型数字化信息资源的建设。

在数字化信息资源建设中,很大的一个需求是将现有的纸介质印刷品数字化,

 

使之成为能够用计算机阅读、理解、查询、检索的电子文件,最终将其应用于

 

数据库存储,或通过CD-ROM、Internet网进行出版,或上传数字档案馆供用户

 

使用。

 

以传统纸张为载体的保存方式,占据了大量的空间,需要特殊的环境,而且不方便查询,随着时间的推移,还面临着腐蚀、老化等问题。

而将纸介质文件信息进行电子化处理,保存到光盘上,具有存储、管理、共享等功能,还可以减少文件库房占地,节省保管设备和人员方面开支,又方便统计和进行远程查询。

 

因此,将档案、期刊、文件等资料通过扫描仪,扫描成图像文件,再通过处理转换成电子文档,建立目录和索引,制作成电子文件,已是当务之急。

 

公司简介

 

——————————————————————————————

 

武汉宝和人通数字科技有限责任公司(前身是湖北华新职业学院数字

 

科研中心)成立于1994年,是在原国家科委的支持下,为推进建设国家“21

 

1工程”高等学校中英文图书数字化国际合作计划(China-AmericaDigital

 

AcademicLibrary)“CADAL”项目而成立的一家高新技术企业。

公司拥有先进

 

的OCR(双层PDF光学字符识别)技术,图像扫描处理系统、生产流程管理系统,实现工厂化流水作业,智能化质量控制与管理的具有国际领先水平的信息

 

数字化工厂技术。

可同时为图书馆、档案馆、政府、企业提供信息管理系统和

 

信息资源数字化加工服务。

 

经过六年的不断探索和实践,公司建立了一套完善的服务于各领域的

 

业务体系,档案馆:

档案综合管理系统,档案、古籍、期刊、论文、文献资料

 

数字化加工,档案著录、OCR,MARC数据制作、档案馆设备及耗材提供等。

 

政府机关:

数字档案管理系统,历史陈旧档案数字化加工。

医疗、保险金融领

 

域:

病历、保单等数字化加工,数据录入服务,全文OCR等。

 

第一节数字化加工作业前期准备

 

一.数字化工作人员准备

 

1.甲方人员

 

职务:

现场交接管理人员

 

人数要求:

一名

 

专业要求:

为学校档案馆负责档案管理工作的技术或管理人员。

 

职责范围:

 

①.负责与乙方的档案提卷和还卷等交接工作,协同甲方人员作好交接清单记录并签字。

 

②.负责监督乙方规范化加工。

 

③.随时把握乙方加工进度并进行协调。

 

④.及时关注并抽查乙方加工质量

 

⑤.代表甲方与乙方进行及时的沟通及问题协调,确保项目顺利完工。

 

2乙方人员.管理人员

 

主要为:

熟悉现场加工管理,熟悉数字化整体作业流程,具有较强组织能力和现

 

场管理及沟通能力的乙方负责人。

 

.工程技术人员

 

主要为:

熟悉计算机软、硬件技术,了解档案数据库标准和系统开发。

了解档案

 

管理等相关专业知识的乙方技术部技术支持工程师。

 

数据采集作业员

 

主要为:

了解档案数据库数据标准和计算机软件应用等相关知识的乙方数字化制

 

作部工作人员。

职务

 

 

3-1

项目负责

 

 

 

 

 

 

现场主管

 

著录人员

扫描人员

 

 

 

 

图像处理

 

人员

 

 

图像矢量

 

职责人备注

 

 

项目负责人

 

不一定要常驻

1.负责人员,资源的调配工作。

现场,但要通过

2.负责施工组织设计、管理。

一切通讯手段

3.负责施工条件的保障及与甲乙双方

1人和定期到现场

关于项目进展状态的汇报和协调工

的督导,切实做

作。

到对该项目加

 

工进度和加工

 

质量的掌控

 

1.负责与乙方的档案提卷和还卷等交接工作

 

2.负责现场的人员管理和加工管理

1人

3.负责数据的终验和挂接

 

4.配合项目负责人做好与乙方的沟通协调工作。

 

负责将档案卷内目录及其它索引信息

1人

进行手工录入为电子数据信息并校对

 

负责按制定的技术规范将档案资料扫

1人

在进行图像处

1.

去污:

将扫描获取的图像进行图像去

理的时候,肯定

污;去黑边及去杂点等;

是逐页处理,所

2.

纠偏:

将偏斜的图像进行纠正处理;

以要留意每一

3.

文字处理:

将不清楚的文字进行加深

1人

页扫描的质量,

或变浅;

发现扫描质量

4.

拼接:

将页面较大的图像进行拼接处

问题立即发还

理;

上一工序重扫

并作好记录。

1.

负责将处理好的图像进行全文识别、

矢量化人员最

终定员需结合

2.校对、板式还原和格式转换

1-3

 

人员

 

排见表

 

二.

 

字化工

 

作软、硬件准备

 

1.配备硬件数量及档次要视数据采集工作情况及数据量大小。

 

2.甲方提供PC机4-6台给乙方作为采集作业使用,其他硬件设备由乙方自行解

 

决。

 

3.场地:

甲方提供。

 

4.办公用具:

甲方提供打印机(以实际用量为标准)﹑办公桌椅﹑档案资料的

 

装订及打印机所用的全部耗材。

 

5.其他条件:

提供电力和饮水。

软硬件准备详见表3-2

 

表3-2

软、硬件配备列表

软、硬件名称

数量

详细配置

响应时间

提供方

1.需支持全文

检索使用功

能。

综合档案管理系统

一套

2.支持TIFF和

项目开始需

甲方

到位

PDF格式数

据的批量挂

接功能。

数字化流程管理和加工

能满足本加

项目开始需

全套

工项目所有的

乙方

软件、OCR软件

到位

技术要求

服务器

一台

项目开始需

甲方

到位

扫描仪(A3幅面)

一台

富士通A3幅面

项目开始需

乙方

FI-4750C(ADF)

到位

 

A4幅面

项目开始需

扫描仪(A4幅面)

虹光-FB6030

一台

乙方

(平板)

到位

4-6套

PC机

项目开始需

计算机

甲方

到位

 

三.确定数字化内容、数量及用户需求

 

在数据采集之前,首先要客观真实统计数字化内容和数量,确定用户使用需求,

 

然后制定对应方案和技术控制以便准确地进行施工安排。

 

表3-3三峡大学档案馆档案数字化用户需求调研表

 

档案类型档案数量

 

约件

招生名册

约面

 

约件

学籍档案

约面

 

约件

学生成绩

约面

 

约件

党群档案

约面

 

约件

基建档案

约面

 

约件

科研档案

约面

 

数字化准备情况

 

档案装订

档案著录

档案整理排序

 

档案装订

档案著录

档案整理排序

 

档案装订

档案著录

档案整理排序

 

档案装订

档案著录

档案整理排序

 

档案装订

档案著录

档案整理排序

 

档案装订

档案著录

档案整理排序

 

纸张及保存情况

用户需求

很好

一般

影像化

较差

很差

矢量化

很好

一般

影像化

较差

很差

矢量化

很好

一般

影像化

较差

很差

矢量化

很好

一般

影像化

较差

很差

矢量化

很好

一般

影像化

较差

很差

矢量化

很好

一般

影像化

较差

很差

矢量化

 

其它:

档案装订

很好

一般

影像化

档案著录

档案整理排序

较差

很差

矢量化

 

填表人职务

 

第二节数字化加工流程及主要技术方案

 

档案数字化加工主要流程包括:

提卷-拆卷-档案著录-扫描-图像处理-OCR-

 

校对-版式还原-转双层PDF-终验-挂接。

 

图一档案数字化加工流程图

 

一、入库提卷、拆卷

 

1.从档案室移交档案,严格执行原始档案的交接手续,使用双方项目负责人确认的档案交接清单(完成清点登记)。

 

2.档案整理:

编写页码、核对纸质档案页码、对可拆钉的文件做拆钉处理以适应扫描的要求、对需要修复的档案进行归并整理(如果发现破损严重,无法

 

直接进行扫描的档案,应先进行技术修复、折皱不平影响扫描质量的原件应先进行相应处理后再进行扫描,发现破损严重的档案须立即报知项目相关负责人)制作卷内目录,扫描文件抽取

 

3按照扫描处理量明确交接周期和档案交接量(双方项目负责人签字,以保

 

在施工过程中档案不损失、不丢失。

 

4装订案卷应保证装订牢固,案卷整齐,卷内材料不松动,脱落,保持与原

 

案卷一致。

 

图二

 

二、标引著录

 

按要求将文件所需信息录入到软件数据库里,标引著录按照国家档案局有

 

关标准结合用户档案著录的具体要求进行。

 

1.录入方式

 

采用手工录入的方式

 

2.校对方式

 

校对以软件校对和打印输出、对比校对相结合,错误率在万分之二以下。

案卷目录和卷内目录按照档案的原始数据录入。

卷案目录和卷内目录的样

 

式经用户同意可做相应调整。

对档案目录数据修改和补充的数据,须填写更改

 

资料、更改资料放入原案卷内,卷内目录及其他不全的需补充完整。

 

三、档案扫描

 

1.扫描方式:

根据档案幅面的大小选择相应规格的扫描仪或专业扫描仪进行扫描。

大幅面档案可采用加长式扫描或者图像拼接处理方式处理,同一页面有两个以上文件,需分别扫描。

 

2.扫描色彩模式:

以黑白二值扫描为主,附有灰度(彩色)照片及原件分

 

明度很低的档案,可视情况采取灰度和24位真彩色扫描。

然后以黑白二值保存。

 

例:

蓝底招生名册,此种档案长见为A3幅面、纸张很薄,底色与文字的分明度很低。

 

物档案查看时都显吃力,此种档案如果用黑白二值扫描,则会出现大幅暗面,文字显现不清;

 

如果使用彩色扫描,文字部分明度很低。

只有使用灰度扫描,效果相对好一些,如图三。

 

描后的图像再辅以黑白二值保存,则最大限度的提高了图像质量,如图四。

 

图三灰度扫描效果图四保存为黑白值后的效果

 

3.分辨率:

无全文检索需求的文档分辨率调整为200DPI最为合适。

需要全

 

文检索而做ocr识别的文档,黑白二值扫描分辨率最佳为400dpi,此分辨率下

 

识别成功率最高。

24位真彩色扫描分辨率标准为200dpi。

 

4.图像文件的大小:

黑白二值扫描A3页面:

20K—40K;灰度或彩色扫描

 

A3页面:

100—150K。

 

5.如遇字间距和行间距过密、原件本身是复印件等字迹不清楚的情况,可

 

适当增加扫描的分辨率,但要保证图像清晰的同时,又不影响远程查询和浏览

 

的速度。

 

6.清晰度:

扫描图像字迹清晰、颜色恰当,不宜过浅或过深,并且不得出

 

现字迹笔画残缺或字迹笔画叠合而影响阅读的情况,即使原档案存在锈斑变质、

 

颜色过浅或深浅不一致,也保证扫描图像可读,扫描留下的墨迹宽度不得超过

 

厘米,并且指印和黑线不能覆盖或影响正文内容。

 

7.根据档案实体情况,在档案电子文件中相对应目录设置“复制件”、“原

 

件不清”标志。

目录以原有档案目录为准,在实际处理过程中著有未归类的新目录。

可根据情况修改目录,增加或调整标准目录,对档案原目录数据修改或补充的数据,需填写更改资料,更改资料放入原案卷内,能实现一条目录对应多个图像和一个图像对应多条目录的编目。

 

8.图像内容:

 

实时在屏幕上监控扫描全过程,遇有漏扫、重张,图像黑边、偏斜、折角、不清晰等情况,则进行重扫或补扫。

 

检查扫描件是否合乎要求,扫描图像必须与原图页面一一对应,不得出现颠倒、缺页、重页或错页情况,不能有遗漏、重复,扫错的现象

 

扫描的页面内容居中显示,不可出现明显偏左或偏右的现象,正文内容、页眉、页脚、反面印章、附件、手写注释等信息完整;图像内容与书本面

 

完全对应,不得出现书页内容残缺或将旁边页面信息扫入本页的现象。

(对图像

 

黑边、偏斜、折角、不清晰等情况进行处理,以达到用户需求)

 

纸张较差档案扫描方案:

由于进行数字化的档案会有部分为历史档案,

 

纸张质量比较差,对于这部分纸张质量较差的历史档案扫描,我们本着以下原

 

则:

 

8.4.1保证档案安全。

纸张较差的档案多为破损档案,对于破

 

损档案更应该在生产流程中加以特殊对待,不能造成二次破坏。

保证档

 

案的安全是第一要务。

因此,在处理纸张较差的档案时,不允许使用蘸

 

水防滑等有破坏档案可能性的操作方法。

 

8.4.2保证扫描质量。

历史档案之所以进行档案数字化,其中

 

最主要的目的之一就是抢救这部分历史档案,今后在应用这部分档案

 

时,尽量避免人为翻阅历史档案而给档案造成二次伤害,而应使用电子

 

系统,使用扫描件。

这样档案扫描的质量要尽可能的清晰、干净,尽可

 

能的恢复历史原貌,这对扫描质量的要求很高。

 

8.4.3高效高质的完成任务。

 

9.扫描登记:

认真填写纸质档案数字化转换过程交接登记表单,登记扫描的页数,核对每份文件的实际扫描页数与档案整理时填写的文件页数是否一致,不一致时应注明具体原因和处理方法。

 

四、图像处理

 

1.逐张检查图像质量(包括黑边、折角、图像偏斜度、清晰度、失真度等进行检查,发现不符合图像质量要求时,应重新进行图像处理),档案顺序(页号)是否正确,有无漏扫、重张等情况(发现文件漏扫时,应及时补扫并正确

 

插入图像。

发现扫描图像的排列顺序与档案原件不一致时,应及时进行调整。

 

2.纠偏:

图像整体倾斜不得超过1度,不得出现图像的一部分倾斜或扭曲而影响阅读的现象。

如果档案页面存在部分倾斜的,以页面中标题纠正为准。

 

3去污:

所有扫描留下的黑线、指印、阴影或污点都必须清除干净(在放大

 

50%的情况下)由于印刷质量或纸张质量等造成的页面上有零星的污点和反面倒

 

映文字污点比较多,如果在页面视图下看不清楚,或该污点嵌在文本行中无法

 

清除,可以不清除,但应尽量保证图像可读。

 

4全文页面及局部文字的加深和变浅的处理:

原始档案的清晰度较低时,可

 

提高图像的清晰度,修正原资料中存在的字间距和行间距过密,文字较深或较

 

浅,字迹不清楚的缺陷,确保文字及图像信息清晰可辨。

 

5图像拼接:

对大幅面档案进行分区扫描形式的多幅图像,应进行拼接处理,

 

合并为一个完整的图像,以保证档案数字化图像的整体性和数字化档案的准确可读。

 

6照片页处理:

必要时采用专业的图像处理软件进行处理,确保照片的清晰

 

度。

 

7图像存储:

存储格式以G-4压缩TIFF格式保存。

A4幅面档案保存文件不

 

得大于100K;其他幅面档案扫描形成文件在保证影像质量的前提下,尽量缩小文件占用空间。

扫描文件存储命名必须与条目档案号一一对应。

 

五、全文识别(OCR)及生成双层pdf、版式还原及格式转换

 

将扫描处理完成后的文档利用专业的识别软件进行全文OCR,如甲方对识别成功率有严格要求的,还需另外进行人工校对,校对结束后将版式还原及转换成双层PDF文件格式。

 

根据用户对识别率的要求,可选择性进行人工校对。

进行人工校对和不进行

 

校对的优缺点对比:

 

1.不进行人工校对:

其原理是在单层PDF的基础上利用计算机软件进行全文

 

OCR识别后生成双层PDF文件。

从而激活了图片中所反映的文字,而达到提取文

 

字和利用原文所包含的文字进行检索的目的。

但是不进行人工校对和版式还原,识别的准确率取决于原始资源的情况及保存现状。

 

优点:

效率高、成本低、能利用原文检索浏览速度快。

缺点:

识别准确率取决于原件的质量,所以准确率不稳定。

适应范围:

 

①、原件版面干净及保存完好的资源。

(准确率可达95%以上)②、原文中只含部份核心检索内容的资源。

(如学籍档案,检索的重点

 

只是围绕学生的身份信息)

 

2.进行人工校对:

其原理是在OCR的基础上,为了确保识别的准确率而增加

 

了人工校对和版式还原的工序。

可实现无障碍的全文检索。

 

优点:

全文检索无差错,准确率可达99%,且文本层和图像层一一对应。

 

缺点:

效率极低、成本极高、因为进行了版式还原,所以原真率不到

 

98%,而且存储空间很大而致浏览速度降低。

 

适应范围:

 

①、所载信息珍贵且使用频率很高的资源。

 

②、数字化项目资金预算充裕且项目实施时间宽松的资源。

 

③、有很好的硬件环境支持的数字化项目。

 

六、总质检

 

1.对扫描处理完成后的图像页进行检验,对档案拆分、扫描、修正、去污、插图、照片的处理以及文本和图像页的匹配等质量进行全面检验,对于质量达

 

不到要求的进行重扫、补扫等操作。

 

2.对文本域录入与文本录入域的标引、文件的页号和页数进行对比,对扫描前图像页的标引与扫描后的图像页的编号与页数进行对比,发现不合格的登记清单重新处理。

 

3.对图像质量的检查,确保图像版面清晰,干净,大小一致,方向一致。

 

4.主要质检标准:

 

.加工后的电子影像在总数量、完整性、清晰度上与源文件保持一致。

 

.案卷著录、按文件的属性著录数据库字段,检查“文件路径”字段

 

与文件实际存储位置一致,差错率控制在千分之五以内。

 

.电子影像档案件信息定义数据差错率控制在百分之二以内。

 

.电子影像档案卷内页码差错率控制在千分之一以内。

 

.每页电子影像左右端正度控制在三度以内。

 

.电子影像漏扫,压边率控制在千分之一以内。

 

.电子档案与条目数据的挂接一致,差错率小于千分之一以内。

 

七、批量挂接

 

1扫描处理后的图像成品,按年度、机构上传至档案专用服务器,利用档案管理软件中的对应挂接功能将扫描图像信息与录入到档案管理软件系统中的目录进行对应挂接,确保目录与原文的一一对应。

 

2挂接到档案管理系统中区,进行再次的成品验收。

 

八、还卷及数据备份提交

 

1.原始档案还原工作严格按照国家档案局规定的相关标准和实际情况进行

 

有序的还原,

 

将还原的档案资料逐卷精心检查,确实没有落页、掉页、折页等问题后再

 

归还档案管理人员,经双方仔细核实无误后,在还卷交接单上签字确认。

 

2.在数据化加工过程中的各项工作记录,在数据转移完成后、提交给用户

 

方。

 

3.为了有效地保护数据,因此建立数据备份制度,在数字化加工项目工作

 

结束,并经用户在终验报告上签字确认后,将通过验收后的数据利用用户软件

 

的光盘制作功能刻录成光盘,刻录到DVD光盘中,刻录完成后再制作一个光盘

 

备份,或用移动硬盘等存储介质,将所有成品数据备份,提交给用户。

 

4.刻录光盘要求:

、光盘制作两份,制作成档案数据格式为多页

 

TIFF

 

的光盘单盘调阅。

 

、同一份文件不跨越二片

 

DVD片号(同一份文件页数需在同一

 

DVD内)

 

、电子档案存在于符合标准的单片包装光盘

 

、光盘标示光盘编号,单片包装盒上注明光盘内主要信息

 

、在光盘刻录完成后,与硬盘系统中电子档案进行一次比对,确保档案资料

 

无遗漏及正确性。

 

、制作光盘人员对于所有光盘序号进行标记,并提交相应表格。

 

第三节质量控制方案和保证措施

 

项目加工总体质量目标:

保证合格、争创优良!

 

一、加工质量保障措施

 

1.严格遵照执行我方签定的《不分包、转包三峡大学档案数字化项目承

 

诺书》,避免项目转包、分包引起的管理混乱和质量风险。

 

2.严格按照我方制定的人员和设备投入计划进场加工,确保人员设备供

 

应,为项目进度和质量提供保障。

 

3.在该项目加工过程中,我方所有现场加工人员均受我公司《数字化作业人员质量考核制度》的约束,并承担相应奖罚结果。

 

二、多环节,多层次的质量检查体系。

 

1.对档案签收和属性数据录入的质量检查,主要内容:

档案签收的准确性,完整性和即时性;数据内容齐全,属性数据输入准确;与数据校对的档

 

案交接。

 

2.对数据校对处理的质量检查,主要内容:

校对后的数据内容齐全,正确;纸质档案实体完整,还案及时无误。

 

3.对

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 总结汇报 > 学习总结

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1