档案数字化加工方案.docx
《档案数字化加工方案.docx》由会员分享,可在线阅读,更多相关《档案数字化加工方案.docx(14页珍藏版)》请在冰豆网上搜索。
档案数字化加工方案
档案室、档案馆
馆藏档案扫描、数字化加工
整体解决方案
第一节质数字化加工作业前期准备………………………1
一、数字化工作人员准备……………………………1
二、数字化工作软件、硬件准备……………………4
三、确定数字化内容、数量及用户需求……………5
第二节数字化加工流程及主要技术方案…………………6
一、入库提卷、拆卷…………………………………6
二、标引着录………………………………………7…三、档案扫描………………………………………8…四、图像处理…………………………………………11
五、全文OCR、生成双层pdf、板式还原及格式…12
六、总质检……………………………………………14
七、批量挂接…………………………………………15
八、还卷及数据备份提交……………………………15
第三节质量控制方案和保证措施…………………………17
一、加工质量保障措施……………………………17
二、多环节,多层次的质量检查体系……………17
三、阶段性验收与终验相结合的严格验收程序是质量控制的终19
级保障………………………………………….
第四节安全保密控制……………………………………21
…保密协议…………………………………………22
…第五节售后服务…………………………………………24
…项目背景
——————————————————
随着全国文化信息资源共享工程与中国数字图书馆工程的起动,信息化已成为国际潮流,信息资源建设成为当务之急。
信息资源建设的重点是电子文献、各类数据库、网络资源、电子档案、电子图书等新型数字化信息资源的建设。
在数字化信息资源建设中,很大的一个需求是将现有的纸介质印刷品数字化,使之成为能够用计算机阅读、理解、查询、检索的电子文件,最终将其应用于数据库存储,或通过CD-ROM、Internet网进行出版,或上传数字档案馆供用户使用。
以传统纸张为载体的保存方式,占据了大量的空间,需要特殊的环境,而且不方便查询,随着时间的推移,还面临着腐蚀、老化等问题。
而将纸介质文件信息进行电子化处理,保存到光盘上,具有存储、管理、共享等功能,还可以减少文件库房占地,节省保管设备和人员方面开支,又方便统计和进行远程查询。
因此,将档案、期刊、文件等资料通过扫描仪,扫描成图像文件,再通过处理转换成电子文档,建立目录和索引,制作成电子文件,已是当务之急。
第一节数字化加工作业前期准备
一.数字化工作人员准备
甲方人员1.
职务:
现场交接管理人员
人数要求:
一名
专业要求:
为学校档案馆负责档案管理工作的技术或管理人员。
职责范围:
①.负责与乙方的档案提卷和还卷等交接工作,协同甲方人员作好交接清单记录并签字。
②.负责监督乙方规范化加工。
③.随时把握乙方加工进度并进行协调。
④.及时关注并抽查乙方加工质量
⑤.代表甲方与乙方进行及时的沟通及问题协调,确保项目顺利完工。
2乙方人员
2.1.管理人员
主要为:
熟悉现场加工管理,熟悉数字化整体作业流程,具有较强组织能力和现场管理及沟通能力的乙方负责人。
2.2.工程技术人员
主要为:
熟悉计算机软、硬件技术,了解档案数据库标准和系统开发。
了解档案管理等相关专业知识的乙方技术部技术支持工程师。
2.3数据采集作业员
主要为:
了解档案数据库数据标准和计算机软件应用等相关知识的乙方数字化制作部工作人员。
.
人员安排见表3-1
备职职务数二项目负责人字化工不一定要常但要通现场.负责人员,资源的调配工作。
软、硬件一切通讯手.负责施工组织设计、管理项目负和定期到现.负责施工条件的保障及与甲乙双人切实关于项目进展状态的汇报和协调的督导到对该项目作.配工进度和加质量的掌控硬件数负责与乙方的档案提卷和还卷等1.及档次接工2负责现场的人员管理和加工管现场主人视数据3负责数据的终验和挂配合项目负责人做好与乙方的沟4.集工作协调工作负责将档案卷内目录及其它索引信息况及数着录人进行手工录入为电子数据信息并校采据量大小负责按制定的技术规范将档案资料扫描人人.甲在进行图像肯理的时候1去污将扫描获取的图像进行图像去PC提供是逐页处理去黑边及去杂点等
以要留意每2纠偏:
将偏斜的图像进行纠正处;
图像处理台给4-6页扫描的质量3文字处理将不清楚的文字进行加人发现扫描质或变浅方作为问题立即发将页面较大的图像进行拼接4拼接上一工序重理;集作业并作好记录矢量化人员最1.负责将处理好的图像进行全文识别、用,其他使终定员需结合1-3图像矢量2.校对、板式还原和格式转换矢量化的图形对已经产生的成品数据进行初验后人3.化人员件设备硬数量和采集难移交给现场主管终验并挂接。
度。
乙方自由行解决。
甲方提供。
:
.场地3.
4.办公用具:
甲方提供打印机(以实际用量为标准)﹑办公桌椅﹑档案资料的装订及打印机所用的全部耗材。
5.其他条件:
提供电力和饮水。
软硬件准备详见表3-2
表3-2软、硬件配备列表
软、硬件名数详细配响应时提供
.需支持全检索使用能项目开始甲综合档案管理系.支TIF一到格式PD据的批量接功能能满足本数字化流程管理和加项目开始乙工项目所有全到软件OC软技术要求项目开始需甲方一台服务器到位富士通A3幅面项目开始需扫描仪(A3幅面)一台乙方FI-4750C(ADF)到位
A4幅面项目开始需扫描仪(A4幅面)一台乙方虹光-FB6030到位)
(平板项目开始需计算机机PC4-6套甲方到位三.确定数字化内容、数量及用户需求
在数据采集之前,首先要客观真实统计数字化内容和数量,确定用户使用需求,然后制定对应方案和技术控制以便准确地进行施工安排。
表3-3三峡大学档案馆档案数字化用户需求调研表
档案类数字化准备情纸张及保存情备档案数量用户需求注况况型
招生约
约约学籍约学生约
约
党群约约基建约约科研约约
其它
约约面填表人职务
第二节数字化加工流程及主要技术方案
档案数字化加工主要流程包括:
提卷-拆卷-档案着录-扫描-图像处理-OCR-校对-版式还原-转双层PDF-终验-挂接。
图一档案数字化加工流程图
一、入库提卷、拆卷
1.从档案室移交档案,严格执行原始档案的交接手续,使用双方项目负责人确认的档案交接清单(完成清点登记)。
.
2.档案整理:
编写页码、核对纸质档案页码、对可拆钉的文件做拆钉处理以适应扫描的要求、对需要修复的档案进行归并整理(如果发现破损严重,无法直接进行扫描的档案,应先进行技术修复、折皱不平影响扫描质量的原件应先进行相应处理后再进行扫描,发现破损严重的档案须立即报知项目相关负责人)制作卷内目录,扫描文件抽取
3按照扫描处理量明确交接周期和档案交接量(双方项目负责人签字,以保在施工过程中档案不损失、不丢失。
)
4装订案卷应保证装订牢固,案卷整齐,卷内材料不松动,脱落,保持与原案卷一致。
图二
二、标引着录
按要求将文件所需信息录入到软件数据库里,标引着录按照国家档案局有关标准结合用户档案着录的具体要求进行。
1.录入方式
采用手工录入的方式
2.校对方式
校对以软件校对和打印输出、对比校对相结合,错误率在万分之二以下。
案卷目录和卷内目录按照档案的原始数据录入。
卷案目录和卷内目录的样式经用户同意可做相应调整。
对档案目录数据修改和补充的数据,须填写更改资料、更改资料放入原案卷内,卷内目录及其他不全的需补充完整。
档案扫描三、.
1.扫描方式:
根据档案幅面的大小选择相应规格的扫描仪或专业扫描仪进行扫描。
大幅面档案可采用加长式扫描或者图像拼接处理方式处理,同一页面有两个以上文件,需分别扫描。
2.扫描色彩模式:
以黑白二值扫描为主,附有灰度(彩色)照片及原件分明度很低的档案,可视情况采取灰度和24位真彩色扫描。
然后以黑白二值保存。
例:
蓝底招生名册,此种档案长见为A3幅面、纸张很薄,底色与文字的分明度很低。
实物档案查看时都显吃力,此种档案如果用黑白二值扫描,则会出现大幅暗面,文字显现不清;如果使用彩色扫描,文字部分明度很低。
只有使用灰度扫描,效果相对好一些,如图三。
扫描后的图像再辅以黑白二值保存,则最大限度的提高了图像质量,如图四。
图三灰度扫描效果图四保存为黑白值后的效果
3.分辨率:
无全文检索需求的文档分辨率调整为200DPI最为合适。
需要全文检索而做ocr识别的文档,黑白二值扫描分辨率最佳为400dpi,此分辨率下识别成功率最高。
24位真彩色扫描分辨率标准为200dpi。
4.图像文件的大小:
黑白二值扫描A3页面:
20K—40K;灰度或彩色扫描A3页面:
100—150K。
5.如遇字间距和行间距过密、原件本身是复印件等字迹不清楚的情况,可适当增加扫描的分辨率,但要保证图像清晰的同时,又不影响远程查询和浏览的速度。
6.清晰度:
扫描图像字迹清晰、颜色恰当,不宜过浅或过深,并且不得出现字迹笔画残缺或字迹笔画叠合而影响阅读的情况,即使原档案存在锈斑变质、颜色过浅或深浅不一致,也保证扫描图像可读,扫描留下的墨迹宽度不得超过0.5厘米,并且指印和黑线不能覆盖或影响正文内容。
7.根据档案实体情况,在档案电子文件中相对应目录设置“复制件”、“原件不清”标志。
目录以原有档案目录为准,在实际处理过程中着有未归类的新.
目录。
可根据情况修改目录,增加或调整标准目录,对档案原目录数据修改或补充的数据,需填写更改资料,更改资料放入原案卷内,能实现一条目录对应多个图像和一个图像对应多条目录的编目。
8.图像内容:
8.1实时在屏幕上监控扫描全过程,遇有漏扫、重张,图像黑边、偏斜、折角、不清晰等情况,则进行重扫或补扫。
8.2检查扫描件是否合乎要求,扫描图像必须与原图页面一一对应,不得出现颠倒、缺页、重页或错页情况,不能有遗漏、重复,扫错的现象
8.3扫描的页面内容居中显示,不可出现明显偏左或偏右的现象,正文内容、页眉、页脚、反面印章、附件、手写注释等信息完整;图像内容与书本面完全对应,不得出现书页内容残缺或将旁边页面信息扫入本页的现象。
(对图像黑边、偏斜、折角、不清晰等情况进行处理,以达到用户需求)
8.4纸张较差档案扫描方案:
由于进行数字化的档案会有部分为历史档案,纸张质量比较差,对于这部分纸张质量较差的历史档案扫描,我们本着以下原则:
8.4.1保证档案安全。
纸张较差的档案多为破损档案,对于破损档案更应该在生产流程中加以特殊对待,不能造成二次破坏。
保证档案的安全是第一要务。
因此,在处理纸张较差的档案时,不允许使用蘸水防滑等有破坏档案可能性的操作方法。
8.4.2保证扫描质量。
历史档案之所以进行档案数字化,其中最主要的目的之一就是抢救这部分历史档案,今后在应用这部分档案时,尽量避免人为翻阅历史档案而给档案造成二次伤害,而应.
使用电子系统,使用扫描件。
这样档案扫描的质量要尽可能的清晰、干净,尽可能的恢复历史原貌,这对扫描质量的要求很高。
8.4.3高效高质的完成任务。
9.扫描登记:
认真填写纸质档案数字化转换过程交接登记表单,登记扫描的页数,核对每份文件的实际扫描页数与档案整理时填写的文件页数是否一致,不一致时应注明具体原因和处理方法。
四、图像处理
1.逐张检查图像质量(包括黑边、折角、图像偏斜度、清晰度、失真度等进行检查,发现不符合图像质量要求时,应重新进行图像处理),档案顺序(页号)是否正确,有无漏扫、重张等情况(发现文件漏扫时,应及时补扫并正确插入图像。
发现扫描图像的排列顺序与档案原件不一致时,应及时进行调整。
)
2.纠偏:
图像整体倾斜不得超过1度,不得出现图像的一部分倾斜或扭曲而影响阅读的现象。
如果档案页面存在部分倾斜的,以页面中标题纠正为准。
3去污:
所有扫描留下的黑线、指印、阴影或污点都必须清除干净(在放大50%的情况下)由于印刷质量或纸张质量等造成的页面上有零星的污点和反面倒映文字污点比较多,如果在页面视图下看不清楚,或该污点嵌在文本行中无法清除,可以不清除,但应尽量保证图像可读。
4全文页面及局部文字的加深和变浅的处理:
原始档案的清晰度较低时,可提高图像的清晰度,修正原资料中存在的字间距和行间距过密,文字较深或较浅,字迹不清楚的缺陷,确保文字及图像信息清晰可辨。
5图像拼接:
对大幅面档案进行分区扫描形式的多幅图像,应进行拼接处理,合并为一个完整的图像,以保证档案数字化图像的整体性和数字化档案的准确可读。
.
6照片页处理:
必要时采用专业的图像处理软件进行处理,确保照片的清晰度。
7图像存储:
存储格式以G-4压缩TIFF格式保存。
A4幅面档案保存文件不得大于100K;其他幅面档案扫描形成文件在保证影像质量的前提下,尽量缩小文件占用空间。
扫描文件存储命名必须与条目档案号一一对应。
五、全文识别(OCR)及生成双层pdf、版式还原及格式转换
将扫描处理完成后的文档利用专业的识别软件进行全文OCR,如甲方对识别成功率有严格要求的,还需另外进行人工校对,校对结束后将版式还原及转换成双层PDF文件格式。
根据用户对识别率的要求,可选择性进行人工校对。
进行人工校对和不进行校对的优缺点对比:
1.不进行人工校对:
其原理是在单层PDF的基础上利用计算机软件进行全文OCR识别后生成双层PDF文件。
从而激活了图片中所反映的文字,而达到提取文字和利用原文所包含的文字进行检索的目的。
但是不进行人工校对和版式还原,识别的准确率取决于原始资源的情况及保存现状。
优点:
效率高、成本低、能利用原文检索浏览速度快。
缺点:
识别准确率取决于原件的质量,所以准确率不稳定。
适应范围:
①、原件版面干净及保存完好的资源。
(准确率可达95%以上)
②、原文中只含部份核心检索内容的资源。
(如学籍档案,检索的重点只是围绕学生的身份信息)
2.进行人工校对:
其原理是在OCR的基础上,为了确保识别的准确率而增加了人工校对和版式还原的工序。
可实现无障碍的全文检索。
.
优点:
全文检索无差错,准确率可达99%,且文本层和图像层一一对应。
缺点:
效率极低、成本极高、因为进行了版式还原,所以原真率不到98%,而且存储空间很大而致浏览速度降低。
适应范围:
①、所载信息珍贵且使用频率很高的资源。
②、数字化项目资金预算充裕且项目实施时间宽松的资源。
③、有很好的硬件环境支持的数字化项目。
六、总质检
1.对扫描处理完成后的图像页进行检验,对档案拆分、扫描、修正、去污、插图、照片的处理以及文本和图像页的匹配等质量进行全面检验,对于质量达不到要求的进行重扫、补扫等操作。
2.对文本域录入与文本录入域的标引、文件的页号和页数进行对比,对扫描前图像页的标引与扫描后的图像页的编号与页数进行对比,发现不合格的登记清单重新处理。
3.对图像质量的检查,确保图像版面清晰,干净,大小一致,方向一致。
4.主要质检标准:
4.1.加工后的电子影像在总数量、完整性、清晰度上与源文件保持一致。
4.2.案卷着录、按文件的属性着录数据库字段,检查“文件路径”字段与文件实际存储位置一致,差错率控制在千分之五以内。
4.3.电子影像档案件信息定义数据差错率控制在百分之二以内。
4.4.电子影像档案卷内页码差错率控制在千分之一以内。
.每页电子影像左右端正度控制在三度以内。
4.5.
4.6.电子影像漏扫,压边率控制在千分之一以内。
4.7.电子档案与条目数据的挂接一致,差错率小于千分之一以内。
七、批量挂接
1扫描处理后的图像成品,按年度、机构上传至档案专用服务器,利用档案管理软件中的对应挂接功能将扫描图像信息与录入到档案管理软件系统中的目录进行对应挂接,确保目录与原文的一一对应。
2挂接到档案管理系统中区,进行再次的成品验收。
八、还卷及数据备份提交
1.原始档案还原工作严格按照国家档案局规定的相关标准和实际情况进行有序的还原,
将还原的档案资料逐卷精心检查,确实没有落页、掉页、折页等问题后再归还档案管理人员,经双方仔细核实无误后,在还卷交接单上签字确认。
2.在数据化加工过程中的各项工作记录,在数据转移完成后、提交给用户方。
3.为了有效地保护数据,因此建立数据备份制度,在数字化加工项目工作结束,并经用户在终验报告上签字确认后,将通过验收后的数据利用用户软件的光盘制作功能刻录成光盘,刻录到DVD光盘中,刻录完成后再制作一个光盘备份,或用移动硬盘等存储介质,将所有成品数据备份,提交给用户。
4.刻录光盘要求:
4.1、光盘制作两份,制作成档案数据格式为多页TIFF的光盘单盘调阅。
4.2、同一份文件不跨越二片DVD片号(同一份文件页数需在同一DVD内)
4.3、电子档案存在于符合标准的单片包装光盘
、光盘标示光盘编号,单片包装盒上注明光盘内主要信息4.4.
4.5、在光盘刻录完成后,与硬盘系统中电子档案进行一次比对,确保档案资料无遗漏及正确性。
4.6、制作光盘人员对于所有光盘序号进行标记,并提交相应表格。
第三节质量控制方案和保证措施
项目加工总体质量目标:
保证合格、争创优良!
一、加工质量保障措施
1.严格遵照执行我方签定的《不分包、转包三峡大学档案数字化项目承诺书》,避免项目转包、分包引起的管理混乱和质量风险。
2.严格按照我方制定的人员和设备投入计划进场加工,确保人员设备供应,为项目进度和质量提供保障。
3.在该项目加工过程中,我方所有现场加工人员均受我公司《数字化作业人员质量考核制度》的约束,并承担相应奖罚结果。
二、多环节,多层次的质量检查体系。
1.对档案签收和属性数据录入的质量检查,主要内容:
档案签收的准确性,完整性和即时性;数据内容齐全,属性数据输入准确;与数据校对的档案交接。
2.对数据校对处理的质量检查,主要内容:
校对后的数据内容齐全,正确;纸质档案实体完整,还案及时无误。
3.对数据迁移的质量检查,主要内容:
迁移后的数据的完整性准确性;对数据进行组合查询并且结果正确;对数据进行汇总统计并输出标准表格,试运行无死机现象。
.
4.在完成以上每个环节后,检查人员将其数据再次进行一遍全面的复查,尤其对检查记录单上更正后的错误进行仔细的检查,确保扫描得来的数据与源文件内容完全一致。
5.实施项目负责人对成品数据进行百分之十的抽查,在抽查时将该查数据的年度、保管期限、全宗号、卷号、卷内顺序号等目录信息是否准确无误,再对获取图像数据的亮度、歪斜、是否错页等方面进行抽查,如有不合格的数据及时进行统计和修正,确保最终数据的准确无误。
三、阶段性验收与终验相结合的严格验收程序是质量控制的终极保障。
阶段验收报告
项目名称
项目
报告人项目负责人项目状态项目进度
编号时间
所处阶段项目状态参数监控情况
计划情况
实际情况偏差扫描
纠正措施
项目工作量(人时)项目规模.
项目外工
作量情况描述(非项目工作)
其他
工作中遇到问题及困难:
需要用户支持与配合:
用户意见:
用户签字:
签字日期:
终验报告
项目名称报告人
项目编号
时间
第()阶段项目负责人本阶段项目完成情况完成情况验收项目备注
档案整理(卷)
档案扫描(A4页,A3页,其他页)
图像处理(卷页)
索引目录录入(条)
全文OCR所有报表输出(卷)
资料装订(卷,件)内部验收(页)
目录与图像文件的衔接数据是否上传到服务器
数据备份本阶段验收结论:
双方于年月日,进行了档案数字化工作的第阶段
的成品验收,乙方所提供的数据基本满足甲方的要求,甲方同意通过验收,进入下一个工作阶段。
用户签字:
日期:
项目经理签字:
日期:
第四节安全保密控制
一、为了确保采集数据不外泄,在开始进行数字化加工后,我公司将不允许加工人员携带任何存储介质进出加工现场。
二、为避免采集数据在硬盘上的物理磁道上被还原外泄,我公司将使用乙方提供的电脑用于数据采集作业。
三、电脑上所有的可以读写存储介质的接口,自进场之日起即贴上封条,直到工程完工。
四、为避免数据采集过程中数据通过网络外泄,我公司在加工期间将关闭外网,只使用局域网完成数字化作业。
五、为了建立并严格落实安全保密制度,保证档案资料的安全保密性,做到绝对不外泄任何信息。
保密协议将同加工合同同时签定并成为合同不可分割的一部分。
见附件。
.
附件:
保密协议
保密协议
甲方:
地址:
乙方:
数字科技有限公司
地址:
鉴于甲方委托乙方承担其档案资料的数字化加工服务,乙方可能接触到甲方某些非公开的,涉密的文件、档案和资料,为了维护甲方资料的安全,保守国家秘密,乙方同意在整理档案中涉及大量的重要的档案材料承担保密义务,并遵守如下保密规定:
1,乙方同意上诉须保密的文件和资料承担保密义务,数字化期间保证上诉文件和资料秘密安全,不得以任何形式向第三方(包括家属、亲友)谈论工作中接触的文件资料内容。
2,在乙方工作人员在工作过程中接触到重要文件资料时,除确有必要(如自拟文件标题,图像处理等需要查看文件内容外)不得阅读文件资料内容。
3,乙方工作人员不得带进、带出各种计算机磁盘、光盘等易于存储文件资料的存储介质;
4,因工作需要必须带进的计算机软件工具类应用软件,须经档案室同意,并在带出时办理检查登记手续。
5,甲方提供乙方所需数字化处理的文件和资料等有形载体,仅限于乙方基于甲方需要制作档案数字化产品的应用,乙方不得复制以上的任何文件和资料,或向第三方泄露;同时乙方在结束本期工作,所加工的数据
经甲方按照《合同》验收合格后,必须无条件将其工作组机器内的数据清理干净。
6,乙方工作人员在工作任务实事工程中,非工作需要不得将档案资料带出工作场所,不得私自记录或议论甲方涉密文件资料的内容。
7,乙方应承担本协议约定的保密责任,妥善保管有观点文件和资料,并对有关人员进行有效管理,以确保本协议的履行。
8,乙方工作人员在工作过程中造成泄密或遗失文件资料的,甲方视情节轻重追究其行政甚至刑事责任。
9,未尽事宜,按《保密法》等有关规定执行。
10,本协议一式贰份,甲乙双方各执一份,其有同等的法律效率,本协议经甲乙双方签字盖章立即生效。
甲方:
乙方:
代表人(签字)代表人(签字)
第五节售后服务
一、享有在双方签字验收合格后12个月内的免费技术服务
二、一般技术响应时间为24小时,若出现数据加工质量问题,在48小时内到达现场进行服务。
三、为档案馆软件使用人员提供免费的档案资料加工软件的使用培训,同时有义务提供有偿的后续技术支持。
四、保证建库的档案资料电子影像的数据质量,对出现质量问题的档案资料,有重新整理,免费补扫的责任。
五、电话支持服务:
提供7×24小时电话支持,售后服务电话:
在线支持,号码: