推广工程数字资源联合建设地方文献数字化加工规则.docx
《推广工程数字资源联合建设地方文献数字化加工规则.docx》由会员分享,可在线阅读,更多相关《推广工程数字资源联合建设地方文献数字化加工规则.docx(38页珍藏版)》请在冰豆网上搜索。
推广工程数字资源联合建设地方文献数字化加工规则
推广工程数字资源联合建设地方文献数字化加工规则(2015)
1术语和定义
1.1双层PDF
将标准资料通过扫描仪快速录入后,经过去污、纠偏和OCR识别,直接生成的可检索的PDF文件。
该文件是双层的,上层是原始图像,下层是识别结果。
1.2单版TXT文件
由图像数据一一对应进行文本转换得到的TXT文件。
一个单版TXT文件对应一个图像文件。
1.3合并版TXT文件
将单版TXT文件按顺序合并得到一册书的完整TXT文件。
2图像数字化和命名规则
2.1图像数字标准
2.1.1扫描标准
(1)黑白页和灰度页用灰度方式扫描
色彩位深:
8位
分辨率:
300dpi;小于5号字体用400dpi
档案典藏级格式:
TIFF不压缩
(2)彩色页用彩色方式扫描
色彩位深:
24位
分辨率:
300dpi;小于5号字体用400dpi
档案典藏级格式:
TIFF不压缩
2.1.2拍照标准
像素:
不小于300万
档案典藏级格式:
TIFF不压缩
2.2数字化要求
数字化环境注意防护光源,避免透光或反射光的影响。
数字化后的图像清晰,文件页码连续,没有重页、缺页、错页等情况(原书缺页、错页除外)。
补扫的图像要与同册图像文件的大小一致,颜色接近。
(1)以原文献的上边沿为基准,保持原文献的天头、地脚的尺寸不变,左右两边的尺寸基本不变。
(2)数字图像放大至实际尺寸100%,图像不失真。
(3)数字图像文件与文献原件颜色不一致,须先进行设备色彩校正,再重新进行扫描或拍照工作。
2.3数字图像处理要求
数字图像处理是在未改变原扫描图像的色彩、分辨率、格式、压缩等情况下进行。
数字图像文件处理容及要求如下:
(1)纠偏处理。
对出现偏斜的图像进行纠偏处理,图像歪斜度不可以超过一度,对方向不正确的图像进行旋转还原,以符合阅读习惯。
(2)图像剪裁。
图像保留到文献的外边缘。
(3)不能进行锐化或者图像增强处理,不能更改图像的颜色,尽量减少对图像文件的后期处理。
2.4数字图像检查要求
根据本项目要求,数字化单位检查各级别图像数据的质量,建议扫描完成后立即进行质检。
数据检查的容和要求如下:
(1)图像文件(各种格式)放大到1:
1状态,逐页检查。
检查文件是否有透光、透字、彩点、彩线、太淡、太浓、黑边、污点、歪斜、模糊(马赛克等)或图像容不完整等现象。
若不符合图像质量要求应进行图像校正或重新扫描(拍照)。
(2)发现文件漏扫时,应及时补扫并正确插入图像。
(3)拼接图像接缝处无错位、无缝吻合,不应出现白边和容缺失,没有明显的歪斜。
(4)检查是否符合扫描(拍照)规格要求和技术参数。
(5)所有文件保存位置正确,可以有效打开和显示。
(6)图像名称必需正确,同一数据流水号不得有跳号情况,按顺序排列命名,图像文件的排列顺序应与原文献一致。
2.5命名规则
2.5.1加工编号(book_id)
文献数字化加工过程中一册文献的唯一标识,它由11位数字和1位下划线组成。
文献基本资料类型(1位)、文献语种(1位)、加工年(2位)、机构代码(4位)、下划线(1位)、单位部流水号(3位)。
本规则针对图书的文献基本资料类型为0,文献语种为1,加工年为公元年后两位数字(15年项目统一为15),机构代码见《推广工程数字资源联合建设机构代码》,单位部流水号由各单位自行分配,从1开始,不足3位以0补齐。
例:
01150101_001
2.5.2图像文件名
(1)前封(含封一、封二)
扫描文件名为Axxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。
(2)前附页
目录页之前的前附页扫描文件名为Bxxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。
目录页之后的前附页扫描文件名为Dxxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。
(3)目录页
扫描文件名为Cxxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。
(4)正文
有页码的正文扫描文件名为Txxxxx_00,其中xxxxx为5位数字,与原书页号一致,按原书顺序依次排序。
正文中插页扫描文件名为Txxxxx_yy,其中xxxxx为5位数字,表示插页的前一页顺序号,yy为数字,表示插页,并按原书顺序依次排序。
(5)后附页
扫描文件名为Yxxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。
(6)后封(含封三、封四)
扫描文件名为Zxxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。
3双层PDF标准
3.1双层PDF输出
将处理完成后的TIFF图像进行OCR逐页识别校对。
采用图在文上的模式进行双层PDF输出,包括单版PDF和合并版PDF两种,单版PDF命名与对应TIFF文件保持一致,合并版的命名同该文献的加工编号。
PDF文件根据图像尺寸、颜色、数据存储量、按JPEG2000有损压缩,压缩因子适度动态调整,在确保图像清晰的情况下,尽量压缩图像文件所占空间至最小。
3.2PDF目录提取
将输出后的双层PDF进行目录标签提取,提取级别上限为三级。
提取过程中应按照原书页面顺序进行提取,不可出现章节丢失或级别划分错误等情况。
3.3PDF文件质量要求
(1)双层PDF数据需完整,避免缺页、重页、页码顺序颠倒等问题。
(2)双层PDF文件的图像层和文字层的文字对位准确,反显区域与文字区域相差1毫米以。
(3)打开一本电子文献阅览并对文字放大时,保证在放大到百分之二百的时候,字迹清晰,笔画连续,无断裂、缺块的现象。
(4)合并版PDF必须制作书签。
书签是电子书的目录,容和纸质书的目录一致。
书签的功能是用户点击书签的某一章节,电子书会自动显示为相应页。
打开PDF文件时,自动显示书签,书签只展开到第一级目录。
(5)双层PDF错误率不超过0.3‰。
4图像文本转换要求
4.1单版TXT和合并版TXT
(1)对图像数据逐页进行版式分析,并对版式分析结果进行质检。
(2)对图像数据逐页进行文本转换,生成单版TXT文件,文件名与对应TIFF文件名一致。
(3)对单版TXT文件进行校对。
(4)经验收合格的单版TXT文件需合并生成合并版TXT文件,合并版文件的命名同加工编号。
(5)图像中的注释、下划线等特殊情况需进行专门处理,表格、插图、空白页等需进行描述,描述容用[==]进行标识([==]均用半角标识),并保存未转换文件对应的图像文件。
4.2TXT文件质量要求
(1)文本数据应如实反映原书容、版面等所有原书相关信息。
(2)文本数据保存格式为TXT纯文本格式。
(3)文件命名无误,且在数量上与TIFF图像一致。
(4)文本数据容与TIFF图像容吻合,不存在乱码、转换错误等问题。
(5)文本数据应如实反映原文的章节、段落,不应出现与文章不符的字符、段落、硬回车、空格等。
(6)单版TXT文件与合并版TXT文件容完全一致。
(7)文本转换数据的文字、符号,其错误率不超过0.3‰。
4.3特殊情况处理办法
4.3.1注释
注释分注释类和解说类,仅对有意义注释进行转换,无意义注释不做转换。
(1)注释出现在当页,且明确标出与正文对应位置的将注释容填入括号“()”,插回到原文注释所对应的位置。
(2)注释在一篇文章或章节结尾,以参考或引用等专项标题单独列出的按原文版式转换,不插回原文。
(3)解说类注释出现在正文文字段落中间或左右两侧,在正文中无对应位置的将注释容放在其出现的那段文字后,另起一段,段首标注“注释:
”。
(4)解说类注释出现在黑框或深色底框,且在正文文字段落中间的将注释容放在【】,原位置转换。
4.3.2空白页
为保持容完整性和页面连贯性,正文中空白页需保留,并按照命名规则正确命名,容标注为“[=此处为空白页=]”。
4.3.3插图与插图页
(1)插图
仅对有意义插图进行转换和标注。
在插图出现的段落后另起一段,标注为“[=此处为插图(图注)=]”。
(2)插图页
均需保留,并按照命名规则正确命名,容标注为:
“[=此处为插图页(图注)=]”;对于包含多个插图的插图页,容标注为:
“[=此处为插图页:
图一(图注),图二(图注)…=]”。
4.3.4表格与表格页
表格只转换表格文字及表注,任何形式表格边框不予转换。
(1)表格
简单的单列或横向排版表格应予转换;多列复杂表格,容为分类列举的文字按列予以转换;其他表格不予转换,在表格出现的位置,标注为“[=此处为表格(表格说明)=]”。
(2)表格页
需保留,并按照命名规则正确命名,容标注为“[=此处为表格页(表格说明)=]”。
对未进行转换的图像和表格,需在其所属单版TXT文件目录建立“未转换文件对应图像”子目录,将此插图/表格所在的图像文件以jpg格式保存在该子目录,命名不变;多个插图/表格对应同一个图像时,仅保存一个图像文件。
同时对未进行转换的插图/表格在《文献全文转换未转换文件记录表》中进行记录。
4.3.5拼音文字混编
拼音文字混编分为对全文均做拼音标注和仅对个别文字做拼音标注两种情况。
(1)全文均做拼音标注的(拼音一般标注在文字上方),只转换文字,不转换拼音。
(2)个别文字做拼音标注的(拼音一般标注在文字后面),需按照原文版式,同时转换文字和拼音。
4.3.6下划线
(1)下划线标记的为单个字符或字母的,将标注容填入【】,放在有下划线的字符或字母后。
(2)下划线标注的为一句话或一段字符或字母的,将有下划线的容放在(),标注容填入【】,放在有下划线的容后。
4.3.7其他
无法录入的生僻字、公式、符号等容用“〓”表示。
同时将“〓”所对应图像文件保存在单版TXT文件目录建立“未转换文件对应图像”文件夹。
文件夹建立方法:
(1)子目录应包含所有用“〓”表示的图像文件并以jpg格式保存。
(2)图像文件删除其他信息,仅保留“无法录入的容”信息,图像命名不变。
(3)多个用“〓”表示的容对应同一个图像时,仅保存一个图像文件。
5.数据库命名及加工
5.1数据库命名
对象数据所对应数据库。
数据库名由8位数字组成:
文献基本资料类型(1位)、文献语种(1位)、加工年(2位)、机构代码(4位)。
本规针对中文图书其文献基本资料类型为0,文献语种为1,加工年为公元年后2位数字。
例:
01150101.mdb
5.2数据库制作
5.2.1对marc数据进行加工处理,制作文献基本信息表(book)。
序号
中文名称
字段名称
对应书目数据(MARC)容
1
加工编号
book_id
2
分类
cat_id
第一个690字段$a
3
书名
book_name
200字段$a.$h,$i,$e
4
作者
author
200字段$f
5
pub_house
210字段$c
6
出版时间
pub_date
210字段$d
7
ISBN号
isbn
010字段$a
8
001
record_id
001字段
9
条码号
barcode
10
唯一标识符
cdoi
注:
文献基本信息表(book表)除加工编号和条码号外,各字段容原则上均取自书目数据(MARC)。
对于相同“001”、不同“条码号”的图书,要进一步标注“书名”字段,标注容用“()”括起来。
如:
(上册)、(下册)。
如果没有MARC数据,可人工添加。
5.2.2目录信息著录,生成文献目录信息表(catalog)。
序号
中文名称
字段名称
备注
1
加工编号
book_id
2
序号
serial_num
3
章节号
chapter_num
4
章节名
chapter_name
5
作者
author
6
页码
page_num
客观著录,如实反映目录页原貌(可为空)
7
绝对页码
ppage_num
文件名数字部分
8
页位置
page_place
文件名字母部分
9
属性
page_prop
1)“目录”属性为“1”;
2)“无目录”属性为“2”;
3)每册文献除第一条目录外,其余记录的属性默认为“0”。
5.2.3文献页著录,生成文献信息表(copyright)。
序号
中文名称
字段名称
备注
1
加工编号
book_id
2
书名
book_name
3
作者
author
4
001
record_id
5
页位置
copyright_place
记录页文件名
5.2.4不带页号插图信息著录,生成文献插页信息表(inset)。
序号
中文名称
字段名称
备注
1
加工编号
book_id
2
插页前正文页号
prior_text_page
文献印刷页码
3
插页数量
inset_num
5.2.5文献缺页信息著录,生成文献缺页信息表(lostpage)。
序号
中文名称
字段名称
备注
1
加工编号
book_id
2
缺页前正文页号
start_text_page
文献印刷页码
3
缺页数
lostpage_num
5.2.6文献结构信息著录,生成文献结构信息表(process)。
序号
中文名称
字段名称
备注
1
加工编号
book_id
2
封面页数
fore_cover_num
3
目录前,前附页数
preface1_num
4
目录前,前附页起始页号
preface1_start_page
5
目录页数
content_num
6
目录起始页号
content_start_page
7
目录后,前附页数
preface2_num
8
目录后,前附页起始页号
preface2_start_page
9
正文页数
text_num
10
正文起始页号
text_start_page
11
后附页数
appendix_num
12
后附页起始页号
appendix_start_page
13
封底页数
back_cover_num
注:
起始页号均为文献印刷页码
5.2.7记录扫描分辨率、压缩因子、文件数量、存储量等信息,生成文献加工信息表(struct)。
序号
中文名称
字段名称
备注
1
加工编号
book_id
2
书名
book_name
3
扫描分辨率
dpi
4
压缩因子
comp_factor
5
灰度页数量
grey_num
6
彩色页数量
col_num
7
TIFF数量
tiff_num
8
PDF数量
pdf_num
包含单版和合并版总数量
9
TXT数量
txt_num
包含单版和合并版总数量
10
TIFF存储量
tiff_mb
存储单位:
MB
11
PDF存储量
pdf_mb
存储单位:
MB
12
TXT存储量
txt_kb
存储单位:
KB
13
TIFF硬盘位置
hdA_place
硬盘号
14
PDF硬盘位置
hdB_place
硬盘号
15
TXT硬盘位置
hdC_place
硬盘号
注:
在制作数据库表时,数据库表使用英文名称,同时将以上7表格中“字段名称”一栏容作为著录字段,横向排列。
以文献信息表(copyright)为例,其他表格式相同。
copyright:
book_id
book_name
author
record_id
copyright_place
5.3数据库制作要求
数据库的制作符合下列要求。
(1)文件格式为mdb格式。
(2)使用字符集为UTF-8。
(3)著录信息应严格按照文献实际容进行描述,所著容与对象文件应正确。
(4)数据库字段、说明文件、各类表格等容严格按照附件规定和样例版式。
6.数据备份
容包括TIFF图像、双层PDF(单版和合并版)、TXT文件(单版和合并版)、对应数据库、说明文件、介质说明文件、文献的书目数据,各一份。
各类型对象数据按加工编号递增顺序依次放置在硬盘,保存目录及文件名由四级组成:
第一级目录为加工单位名称,如首都图书馆,同时将介质说明文件并行保存;
第二级目录为TIFF\单版PDF\合并版PDF\单版TXT\合并版TXT,同时将对应数据库(mdb文件)、说明文件(Excel文件)及文献的书目数据(ISO格式)并行保存;
第三级目录为加工编号;
第四级目录为相应格式的对象数据文件,TIFF和单页PDF还需要相应的单册文献的说明文件。
7.说明文件
7.1制作文献的说明文件
说明文件格式:
MicrosoftExcel
说明文件命名:
地方文献数据说明(说明文件的4表需保存在同一个Excel文件的不同工作表中,每个工作表按下列表命名)。
7.1.1数据总体说明表
项目名称
承建馆
质检单位
项目时间
数据加工编号
完成文献总册书
完成文献总页数
介质编号
介质数量
存储量
备注
注:
Ø“项目名称”填写项目名称,如地方文献数字化;
Ø“承建馆”填写承建馆名称全名;
Ø“质检单位”填写项目第三方质检单位全名;
Ø“项目时间”填写项目所属年份;
Ø“数据加工编号”以起始~终止表示,如01150101_001~01150101_030;
Ø“介质编号“填写硬盘编号,如01150101;
Ø“介质数量“填写存储硬盘的数量;
Ø“存储量“以GB为单位表示。
7.1.2文献单册数据量统计表
序号
加工编号
灰度页
彩色页
图像合计
目录条数
1
2
……
合计
注:
Ø“灰度页”本册文献中按灰度方式扫描的图像数量;
Ø“彩色页”本册文献中按彩色方式扫描的图像数量;
Ø“图像合计”灰度页与彩色页数量之和;
Ø“目录条数”本册文献录信息表(catalog表)条目数。
7.1.3文献全文转换未转换文件记录表
序号
加工编号
未转换图像文件名
对应单版文本文件名
未转换原因
备注
1
2
……
注:
文献加工编号按递增顺序排列。
7.1.4全文转换加工文字量统计表
序号
加工编号
文献名称
文字量(千字)
转换后文字量(千字)
备注
1
2
……
7.2制作每册文献和保存数据介质的说明文件
每册文献的说明文件(bookinfo.txt)
book_id=01150101_001
book_name=xxxxxx
author=xxxxxxxx
file_number=519
说明:
book_id:
文献加工编号
book_name:
书名
author:
作者
file_number:
总文件数
存储介质的说明文件(readme.txt)
一、文献类型:
例如,中文图书
二、制作时间:
2015年月
三、承建馆:
四、加工单位:
五、存储介质信息
1、介质名称:
2、加工起止号:
例如,01150101_001~01150101_099
3、文献数量:
4、文件数量:
5、存储容量:
六、技术参数
1、存储格式:
例如,不压缩tif格式
2、加工设备:
3、加工软件:
4、参数指标
扫描分辨率:
例如,300dpi
扫描方式:
8.存储介质命名及要求
8.1硬盘命名
由8位组成:
文献基本资料类型(1位)、文献语种(1位)、加工年(2位)、机构代码(4位)。
8.2存储介质要求
介质中不得存放与备份容无关的文件、严禁携带病毒、严禁浪费介质空间。
9.修订说明
推广工程数字资源联合建设地方文献数字化加工规则(2015)在2014年地方文献数字化加工规基础上,对以下方面进行修订。
(1)在“1.术语和定义”中删除了档案典藏级相关定义。
(2)在“2.2数字化要求”中删除了“以中缝为中心线”要求。
(3)在“2.4数字图像检查要求”中删除了部分命名规则、介质等信息检查要求。
(4)在“2.5.1加工编号(book_id)”中添加了下划线说明和样例。
(5)在“3.双层PDF标准”中修改了错误率要求为0.3‰。
(6)在“3.3PDF文件质量要求”中删除了嵌入子集方式要求。
(7)在“4.2TXT文件质量要求”中添加了错误率要求为0.3‰。
(8)在“4.3.7其他”中添加了“单版TXT文件目录建立“未转换文件对应图像”文件夹”,同时添加了图像保存格式为jpg要求。
(9)在“5.2数据库制作”中增加了copyright表样例。
(10)在“7.说明文件”中删除了序号、存储容、数据格式、存储介质字段,以及对其他表的格式进行了修改。
附件1:
推广工程数字资源联合建设机构代码
附件2:
地方文献验收数据提交单
附件3:
地方文献成品数据移交单
附件4:
推广工程数字资源联合建设项目质检报告
附件1
推广工程数字资源联合建设机构代码
序号
机构名称
代码
1
首都图书馆
0100
2
区图书馆
0101
3
东城区第一图书馆
0102
4
西城区第一图书馆
0103
5
平谷区图书馆
0104
6
大兴区图书馆
0105
7
怀柔图书馆
0106
8
石景山区图书馆
0107
9
东城区第二图书馆
0108
10
西城区第二图书馆
0109
11
海淀区图书馆
0110
12
丰台区图书馆
0111
13
顺义区图书馆
0112
14
昌平区图书馆
0113
15
门头沟区图书馆
0114
16
通州区图书馆
0115
17
房山区图书馆
0116
18
延庆县图书馆
0117
19
密云县图书馆
0118
20
房山区燕山图书馆
0119
21
图书馆
0200
22
和平区图书馆
0201
23
泰达图书馆
0202
24
北辰区图书馆
0203
25
东丽区图书馆
0204
26
武清区图书馆
0205
27
西青区图书馆
0206
28
河东区图书馆
0207
29
区图书馆
0208
30
河西区图书馆
0209
31
南开区图书馆
0210
32
大港区图书馆
0211
33
塘沽区图书馆
0212
34
津南区图书馆
0213
35
汉沽区图书馆(市滨海新区汉沽图书馆)
0214
36
宝坻区图书馆
0215
37
红桥区图书馆
0216
38
蓟县图书馆
0217
39
静海县图书馆
0218
40
宁河县图书馆
0219
41
省图书馆
0300
42
市图书馆
0301
4