ABBYY FineReader使用指南.docx

上传人:b****6 文档编号:6184444 上传时间:2023-01-04 格式:DOCX 页数:15 大小:3.63MB
下载 相关 举报
ABBYY FineReader使用指南.docx_第1页
第1页 / 共15页
ABBYY FineReader使用指南.docx_第2页
第2页 / 共15页
ABBYY FineReader使用指南.docx_第3页
第3页 / 共15页
ABBYY FineReader使用指南.docx_第4页
第4页 / 共15页
ABBYY FineReader使用指南.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

ABBYY FineReader使用指南.docx

《ABBYY FineReader使用指南.docx》由会员分享,可在线阅读,更多相关《ABBYY FineReader使用指南.docx(15页珍藏版)》请在冰豆网上搜索。

ABBYY FineReader使用指南.docx

ABBYYFineReader使用指南

ABBYY FineReader使用指南

 

(2012-09-1918:

36:

31)

转载▼

标签:

 

扫描

 

校对

 

书籍

 

ocr

 

分享

 

杂谈

分类:

 他山之石

首先,什么是OCR技术?

OCR(OpticalCharacterRecognition,光学字符识别)传统上是指,电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。

本文所述OCR,特指将PDF文档,拆分为一幅幅图像文件,用OCR技术通过相应软件,将图片中文字转换成文本,便于下一步操作(例如导入书苑的epubBuilder制作软件)。

传说中一步到位的PDF转换成EPUB,并不在本文的讨论范畴内。

一、准备工作:

1.  准备PDF源文件,并将PDF按页拆分成图像文件。

方法有很多,不一一赘述了,如图例1;

 

2.  准备OCR软件,本人用的是 ABBYYFineReader10,如图例2;

 

二、初始工作:

 

1.  新建FineReader文档,如图例3;

 

2.  点击上栏“打开”图标,打开图像,打开后,软件处理图像添加进文档,如图例4、5;

提示:

在新建的FineReader文档中,添加若干图像文件,可以合理安排工作量,例如:

按章节分派,每个文档就是一个章节的图像文件;平均分派,每个文档取一个固定值的图像文件,便于均衡校对的工作量。

 

 

 

3.  保存FineReader文档,如图例6;

提示:

建立并保存FineReader文档后,下次可以打开未完成的文档,继续校对工作。

  

 

三、设置工作:

 

1.  将输出设置为“另存为TXT”,如图例7; 

提示:

个人认为无格式的TXT文档便于后期编辑,具体喜好因人而宜。

 

 

2.  点击“选项”图标,设置“文档语言”,这个很重要,如图例8;

提示:

简体中文书籍,繁体书籍,英文书籍请按相应语言设置,也可按右侧“编辑语言”,设置你要的语言,不要添加过多选项,否则将影响准确率。

如图例9。

 

 

3.  在“选项”内选“查看”标签,设置软件显示待校对文字的字体,如图例10;

提示:

我选“楷体”,并不是说我喜欢这个字体,而是因为,很多生僻字在楷体字库下显示不出,例如“事”和“亊”,识别为“亊 ”,在宋体下能显示,楷体不显示,便于纠错。

四、校对工作:

 

1.  打开FineReader文档(类似一个专辑),调出一组图像文件; 

2.  一般情况打开左右两栏,左侧原图,右侧待校对文字; 

3.  调整好两栏显示大小; 

4.  打开右上角“显示不可打印字符”按钮,便于将不规则字符去除;如图例11 

 

5.  遇到书源不好的PDF,字迹比较模糊,也可调整为上下俩栏(共4栏),识别校对,如图例12; 

 

6.  软件会将可能错误的字符以背景颜色显示出来,便于校对更正,更正时可以手动输入,也可以鼠标移动待修改字,右键以显示待选字符,再选择正确字符。

如图例13;

 

7.  将此档校对完毕,保存输出,如图例14;

 

8.  其他一些情况,如中英文混编的书籍,更复杂一些。

建议分别选择识别区域,分别识别,如图例15。

 

 

9.  OCR技术的扩展应用,一份小女的卷子,手机拍下,分别识别校对。

 

 

 

五、总结:

 

      有书友提出不必拆分为图片,直接进行转换,甚至有的软件号称可以直接PDF转EPUB。

当然那也是可以的,同样的OCR软件输出质量应该是相差无几的。

但是本人是完美主义者,做事的理念是:

“不喜欢难看的东西,更不喜欢错误的东西”。

        所以多做了一些前期工作,喜欢以图片、文字对照的方式边读边校对。

作完一本书,就是读完一本书,用时肯定比别人长,但精度也肯定比别人强一些。

所以,修改了一下帖子,谨将此帖献给励志做精校、精确书籍,让他人有舒畅阅读体验的书友们!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 中国风

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1