第 9 章光学字符识别技术Word格式.docx

资源描述

第 9 章光学字符识别技术Word格式.docx

《第 9 章光学字符识别技术Word格式.docx》由会员分享，可在线阅读，更多相关《第 9 章光学字符识别技术Word格式.docx（49页珍藏版）》请在冰豆网上搜索。

第 9 章光学字符识别技术Word格式.docx

先将文本图像切割为行（或列），再从图像行（或列）中分离出单个字符。

当图像的质量较差时，

不易进行简单的分割，常与识别过程相结合。

随着单字识别率的提高，切割错误在所有错误中所占的

比重不断上升，怎样实现字符的正确分割成了一个需要认真解决的问题。

4.特征提取

从单个字符图像上提取统计特征或结构特征，是整个环节中最重要的，所提取特征的稳定性及有

效性直接决定了识别的性能。

在提取特征前常常先进行归一化、细化等处理。

5.单字识别

从学习得到的特征库中找到与待识字符相似度最高的字符。

为了提高识别速度，常采用树分类器。

6.后处理

对单字识别的结果，利用词义、词频、语义等先验知识进行识别结果的确认或纠错。

9.1.2文字识别技术

光学文字识别（OCR）技术可分为印刷体文字识别和手写体文字识别两大类，后者又可分为联机

（on-line）手写体识别和脱机（off-line）手写体识别。

从识别的难度来看，多体印刷体识别难于单体印

刷体识别，手写体识别难于印刷体识别，而脱机手写体识别又远远难于联机手写体识别。

识别器是整个系统的核心，识别器的结构通常如图9-2所示。

字符的模式表达形式和相应的字典形成方法有多种，每种形式又可以选择不同的特征，每种特征

又有不同的抽取方法，这就使得判别方法和准则以及所用的数学工具不同，形成了种类繁多、形式特

别的文字识别方法。

用于文字识别的模式识别方法可以大致分为统计模式识别、结构模式识别和人工

神经网络识别。

1.统计模式识别方法

统计模式识别方法是先提取待识别模式的的一组统计特征，然后按照一定准则所确定的决策函数

进行分类判别。

将字符点阵看作一个整体，其所用的特征是从这个整体上经过大量的统计而得到的。

统计特征抗干扰能力强，匹配与分类的算法简单，易于实现，但不足之处在于细分能力较弱，区分相似字的能力差。

在统计模式识别中，通常用特征矢量间的距离和相似度进行判别，其计算公式如下：

均方误差距离：

其他的判别方法有复合相似度、混合相似度等。

为了提高单字匹配的准确度，还有一种类似于

K-L变换的特征提取方法，以及由此给出的多重相似度，它考虑了输入模式的畸变，抗干扰能力强，

但计算量很大。

2.结构模式识别方法

结构模式识别方法一般需要先抽取笔段或基本笔画作为基元，由这些基元构成部件（子模式），

再由部件的组合来描述字符（模式），最后利用形式语言及自动机理论进行文法推断，即识别。

然而，

从字符图像中抽取笔画等基元比较困难，为了抽取笔画，通常需要对原始点阵图像进行细化处理，而

且容易产生伪笔画段，给准确抽取基元造成了困难。

有些研究人员采用字符轮廓结构信息作为特征，

这一方案的识别结果优于抽取基元的方法，但识别方法需要进行松弛迭代匹配，耗时严重，而且对于

笔画较模糊的字符图像，抽取内轮廓会遇到极大困难，外轮廓的抽取也不太稳定。

也有些学者采用抽

取字符图像中的关键特征点来描述字符，但是特征点的抽取易受噪声点、笔画的粘连与断裂等影响。

统计方法具有良好的鲁棒性和较好的抗干扰能力，它采用多维特征值累加的办法，把局部噪声和

微小畸变淹没在最后的累加和里，但是，可以用来区分“敏感部位”的差异也随之消失，因此区分相

似字的能力较差；

而结构方法对结构特征较敏感，区分相似字的能力较强，因此，可以将两种方法结

合起来使用，取长补短，网格化特征就是其中一种方法。

将字符图像划分为若干区域，称之为“网格”，

在每一个网格内提取各种特征，特征的统计以网格为单位，即使个别点的统计有误差也不会造成大的

影响，增强了特征的抗干扰性。

3.人工神经网络

人工神经网络（ANN，ArtificialNeuralNetwork）是一种模拟人脑神经元细胞的网络结构，它是

由大量简单的基本元件——神经元相互连接成的自适应非线性动态系统。

ANN具有一定的自适应的学

习与组织能力，组成网络的各个“细胞”可以并行工作，并通过调整“细胞”间的连接系数完成分类、

识别等复杂的功能。

不同于传统的模式识别方法，在这种情况下，神经网络所“提取”的特征并无明显的物理含义，而是存储在神经物理中各个神经元的连接之中，省去了由人来决定特征提取的方法与

实现过程。

从这个意义上来说，ANN提供了一种“字符自动识别”的可能性。

此外，ANN分类器是

一种非线性的分类器，它可以提供复杂的类间分界面，这也为解决复杂分类问题提供了一种可能的解

决方式。

9.1.3印刷体汉字识别

汉字识别是模式识别的一个重要分支，也是文字识别领域最为困难的问题之一。

自20世纪70年

代以来，日本学者在汉字识别方面做了大量工作，提出了多种识别方法，先后研制了能识别2000/4000

个印刷体汉字和限制性手写体汉字的装置。

1984年日本研制成多体印刷汉字识别装置，经后处理后识

别率可达99.98%，识别速度大于100字/秒，代表了当时印刷体汉字识别的最好水平，但需要采用专

用的硬件设备，价格昂贵，难以推广。

我国从70年代末开始就进行印刷体和手写印刷体汉字识别的原

理性研究，10余年来，取得了很大进展，探索出许多新方法。

自1986年以来，各种汉字识别软件与

系统大量涌现，已进入实用阶段。

系统支持简/繁体汉字识别，解决了多字号、多字体以及中英文混排

的识别问题，可以进行简单的版面分析，同时汉字识别率在样本质量较好的情况下可达98%以上。

在汉字识别中，目前常见的识别方法有以下两种。

1.统计识别方法

（1）模板匹配法

1966年，IBM公司的Casey和Nagy发表了第一篇关于汉字识别的论文，采用模板匹配法识别了

一千个印刷体汉字，只能识别单一字体。

模板匹配直接以像素为特征，不需要另外提取特征，其优点

是识别算法与文字种类无关，且抗随机噪声，但其缺点是对伸缩、平移、旋转等变形敏感，对切分等

前处理要求过高，且识别运算量大，目前使用的不多。

（2）笔画复杂性指数（ComplexityIndex）

笔画复杂性指数是指文字笔画的线段密度，其定义如下：

x、c

y分别反应了横向和纵向的笔画复杂性，横多的c

x大，竖多的c

y大。

笔画复杂性指数与汉字

的位移无关，受字体和字号的影响较小，但易受笔画断裂和粘连的影响，且其分类能力较差，常与另

一种粗分类方法“四边码”联用。

（3）四边码（Four-sideCode）

四边码是在汉字点阵图的四周各取一条带，计算其中的文字像素点数，并将它分成四级，构成一个四元组。

由于汉字边框不但含有丰富的结构信息，而且边框部分笔画一般较少，不易粘连，抗干扰能力强，

但对汉字的位移和旋转比较敏感，与笔画复杂性指数正好形成互补。

（4）特征点法

特征点法的主要思想是利用字符点阵中一些有代表性的黑点（笔画）、白点（背景）作为特征来区分不同的字符。

特征点包括笔画骨架线的端点、折点、歧点和交点，汉字的背景也含有一定的区别

于其他汉字的信息，选择若干背景点作为特征点，有利于提高系统的抗干扰能力。

其特点是能够大大压缩特征库的容量，对于内部笔画粘连字符，其识别的适应性较强、直观性好，但不易表示为矢量形式，匹配难度大，不适合作为粗分类的特征。

（5）变换特征法

对字符图像进行变换后，大大降低了图像特征的维数。

由于直接求二维图像的变换系数的计算量很大，通常先采用投影法将其变为一维数据，常用的变换是二进制变换（如Walsh、Hardama变换、R

变换），其计算虽然简单，但变换后的特征没有明显的物理意义。

而更复杂的变换如K-L变换、Fourier

变换等运算复杂度较高，K-L变换虽然从最小均方误差角度来说是最佳的，但是运算量太大，不实用。

由于这些变换不是旋转不变的，因此对于倾斜变形的字符的识别会有较大的偏差，而且变换特征与字

体的关系十分密切，只能用于单体汉字识别。

（6）笔段特征法

汉字是由笔画组成的，而笔画又由笔段组成，笔段可近似为一定方向、长度和宽度的矩形段。

利用笔段及笔段之间的关系组成的特征对汉字进行识别，受字体和字号的影响小，对于多体汉字的识别，

获得了良好的效果。

其缺点是笔段的提取会较为困难，匹配的难度大，抗内部笔画断裂或粘连能力差。

（7）包含配选法

许多汉字都有相同的偏旁、部首，由此可将汉字进行粗分类。

包含选配法就是用偏旁、部首的骨

架做成标准模板，分类时将输入汉字与各标准模板相与，如结果与标准模板相同，则表明输入的汉字

含有该偏旁、部首，即可判别出它所属的类别。

包含配选法的分类速度快，存储量小，缺点是容易受

到文字笔画绝对位置移动的影响。

还有许多种不同的统计特征，如粗网格特征（GrossMeshedFeature）、笔画序列（Stroke）、脱壳

透视法、差笔画法（DifferentialStroke）、平均线密度（Averagelinedensity）、图描述法、几何矩特征

（GeometricMoment）等，这里不一一介绍。

2.汉字识别中的结构识别方法

主要包括抽取笔画法、松弛匹配法和非线性匹配法等。

（1）抽取笔画法

抽取笔画法是利用汉字由笔画所构成的特点进行识别，它利用汉字的结构信息来进行汉字的联机识别，在印刷体和脱机手写识别中，由于笔画提取的困难，结果不是很理想。

（2）松弛匹配法

松弛匹配法是一种基于全局特征的匹配方法，它对输入汉字作多边形近似，抽取边界线段，将这

些边界线段组成临近线段表，然后用松弛匹配操作，完成边与边的匹配。

这种方法利用弹性吸收汉字

的变形，一个字只用一个样本。

其缺点是操作速度较慢，计算量大。

（3）非线性匹配法

非线性匹配法是由Tsukumo等提出的，用以解决字形的位移、笔画的变形等现象。

此方法试图克

服从图形中正确抽取笔画的困难，以提高正确判别的能力。

目前，对有关人工神经网络汉字识别方法也进行了一系列的研究，如汉字嵌套层次特征和嵌套分

层识别方法。

但是，对于像汉字识别这样超多类的分类问题，ANN的规模过大，结构也很复杂，运算复杂度太大，还远未达到实用的程度。

在分类器的设计上，由于汉字集合数量大，为了提高识别速度常采用多级分类方法，其中最为广泛采用的是两级分类器，待识汉字输入识别器时，先根据某一准则判定它属于整个汉字集合的某一子

集，然后再将它与该子集中的汉字进行匹配和识别。

前一级叫预分类或粗分类，后一级叫单字识别。

由于每个子集的字数较少，因而可以减少逐字比较、匹配的时间。

为进一步提高速度，可采用多级分

类器。

可以证明在假设汉字集中所有的汉字出现的概率相同，且分类过程的每一级相互独立的情况下，

能缩短汉字集均匀分类的特征对应的平均分类时间；

且分类的最佳子类数为

对应平均识别时间为

9.1.4存在的问题

虽然文字识别（OCR）软件已经得到广泛的应用，但现有的OCR软件仍有很多不尽人意之处。

首先，抗干扰能力不强，对于噪声、缺损、变形及切分错误比较敏感，对识别结果不能正确给出置信度。

抗干扰能力（鲁棒性）是OCR系统的重要性能，提高抗干扰能力可以使OCR系统能够识别

质量较差的印刷文字，提高系统的可靠性。

当然，提高抗干扰能力是有限度的，由于人具有根据语意

推测文字的能力，单靠字型信息使OCR系统达到与人相同水平的识别能力是不可能的，重要的是让

OCR系统能够正确判断自身识别结果的置信度，如果能做到这一点，即使识别失败，系统也可以将不

能识别的文字提交给用户，由用户进行修改，或移交其他功能模块进行处理。

虽然在现有的OCR系

统中，都具备“拒识”和可疑字标记的能力，但由于给出的置信度并不正确，因此利用价值不大。

其次，在用户界面和自动化程度方面还有待提高，如实现版面的自动分析与自动恢复，将印刷文

本材料上面的各种插图、表格、横竖文字等自动加以区分，对于识别结果能够保持原来的排版形式、

字体信息、表格和插入的图形图像，使用户能够在Word、北大方正等排版软件中直接修改。

实现印刷

表格的自动录入，自动进行框线检测、栏目切分，直至将各栏目中的内容识别出来后再自动恢复成表

格形式。

9.2预处理技术

在进行印刷体汉字识别时，首先将印在纸上的汉字，经光电扫描产生模拟电信号，再通过模数转

换将其转换为带灰度值的数字信号并输入计算机。

纸张的薄厚度、洁白度、光洁度、油墨深浅、印刷

或书写质量都要造成字型畸变，产生污点、飞白、断笔、交连等干扰。

输入设备的分辨率、线性度、

光学畸变、量化过程也要产生噪声。

所以，在单个汉字识别之前，要对这幅带有随机干扰、噪声的整

版汉字灰度值数字信号进行预处理。

汉字图像预处理一般包括二值化、行、字切分、平滑化、去噪声、规范化和细化（或抽取轮廓）

等。

这里使用的预处理方法有二值化、行、字切分、平滑化、抽取轮廓等。

因为预处理部分在文字识

别的整个过程中较靠前，而模式识别部分是在文字图像经过预处理的基础上进行的，所以对原始图形

进行预处理后得到的文字图形的质量直接影响着模式识别的效果。

471

9.2.1二值化

把汉字图形带灰度电平的数字信号处理成二值（0、1）的，称为汉字图形数字信号二值化。

最先

得到的原始文字图形一般为256色灰度图。

现在虽然在某些情况下可以直接得到二值图，但这通常是

扫描仪器用一个固定的阈值（下面将给出说明）进行二值化的结果，效果并不满意，所以选用由系统

进行二值化的方法。

如图9-3所示的文字图像就是一幅256色的灰度图。

可以看到文字的骨架部分较黑，但边缘部分

颜色较浅，与背景颜色相近，关键是怎样分离出边缘与背景。

而且有的部分背景噪声很大，这是因为

所扫的资料的反正面都有字，而这在一般的书刊、报纸都是很正常的事。

所选择的二值化应充分注意

到这些情况。

下面就介绍二值化方法和理论依据。

在这里用（,）gij表示像素点（,）ij的灰度值，按照文字识别

的习惯定义方式，首先将256色灰度图进行规范化，即255g为最黑，0g为最白（通常的256色

图形0g为最黑，255g为最白）。

二值化后用（,）cij表示像素点值，（,）0cij表示背景，即白点；

（,）1cij表示文字上，即黑点。

汉字二值化的基本要求是，二值化后的图像能如实地再现原汉字。

具体为：

（1）笔画中不出现空白；

（2）二值化后的笔画基本保持原来文字的特征。

二值化的关键在于阈值T的选取，常用一个形式为三元函数的阈值算子来表示阈值T。

T=T[g（i,j）,N（i,j）,（i,j）]

式中（,）Nij是（,）ij周围局部灰度特性。

二值化有很多种算法，本章只介绍整体阈值二值化的方法。

整体阈值二值化是指对一幅图像的各

个部分都用同一阈值进行二值化，而不考虑图像局部的情况，即T=T[g（i,j）]。

常用的整体阈值的设定

方法有以下几种。

1.人工设定整体阈值

根据实验或人的先验知识，预先给定一个固定的阈值，当（,）gijT≥时为文字笔画，否则为背景。

这种方法简单、易实现、速度快。

但是，这种方法既不能根据每幅图的具体情况修改阈值，又不能将

一幅图中不同位置的不同情况区别对待。

2.由灰度级直方图确定整体阈值

通常汉字图形的直方图如图9-4所示，从图中可以看出，汉字图形的直方图一般有两个峰值，一

个峰值对应汉字笔画部分，另一个峰值对应汉字的背景部分。

阈值应取在两个峰值的波谷处，波谷越

陡，二值化效果越好。

但是这种方法实施起来较麻烦，容易出现问题，计算量较大。

3.二次定值法

先根据经验取T1作为阈值，对文字图形进行整体阈值二值化，区分出是背景还是图像。

再分别

求出对应T1的图像和背景的灰度平均值Fa和Ba，定出二次选用的阈值为：

最后再用T

2对原图进行整体阈值二值化。

用这种方法进行二值化比较好。

因为这种二值化的方法，速度较快，而且对扫描前纸面、光源等

不同的外界情况，阈值可以随之进行适应。

T1取70～90比较合适。

图9-5就是用二次定值法对图9-3进行了二值化后的结果，其中T1=70。

9.2.2版面分析

印刷体文字识别常遇到的识别主体不是一个文字段，而是整个版面，所以版面分析是印刷体文字

识别系统的重要组成部分。

它是指对印刷文档图像进行分析，提取出文本、图像、图形、表格等区域，

并确定其逻辑关系，并将相应的文本块连接在一起。

这一过程的自动完成算法还不是很完善，有些部

分常由手工辅助完成，最终的系统能够自动完成所有的版面分析任务。

通常印刷体版面的成分和结构非常复杂、灵活。

图文混排、中英文混排、不同字体、字号在不同

方向上的混排大量存在；

字间距、行间距、块间距变化无常。

而且汉字的印刷体还有横排、竖排之分，

同时，汉字、阿拉伯数字、英文字母和单词的几何特征不同（如宽高比、间距等），所以不能直接套用

西方的版面分析方法。

上述特点决定了如何适应汉字由部件组字与英文由字母组词之间的差异；

如何针对版面规范性差、印刷质量差的情况，使用具有较强适应能力的版面分析特征；

如何在版面分析算法中的各个部分

都注意处理横/竖排，成为了版面分析过程中需要解决的问题。

目前，版面分析的算法主要分为两类，一种是自顶向下的方法，另一种是自底向上的方法。

1.自顶向下

这种版面分析方法是从整个图像入手，重视全局图像信息，根据对文档版面的形式语言描述，将

图像递归分解成足够小的区域。

它是一个分解的过程。

优点是速度快、简单明了。

但是，这种方法在

分析过程中忽略了图像的细节，不适合复杂版面文档。

2.自底向上

这种方法从图像细节入手，重视局部图像信息，将图像小区域逐步合并成较大区域，是一个合并

的过程。

由于重视图像细节，使得这类方法适合复杂版面。

但是自底向上的方法合并过程非常复杂，

速度较慢。

采取以自底向上分析为主，同时融入自顶向下的某些思想与方法，是目前公认的版面分析的发展

方向。

9.2.3倾斜度校正

通常扫描得到的文件可能由于扫描时文本摆放不正，光源位置不佳等各种原因，造成图像文件中

文本有不同程度的倾斜。

这种倾斜可能是整个版面都存在的问题，也可能是局部文本块存在的问题。

当倾斜角度不大时，不影响识别过程，可以忽略不计。

若倾斜角度较大，就影响到了垂直积分投影和

水平积分投影的正确性和有效性，使版面分析行/字切分受到干扰，不能正常进行。

因此有人提出不依

赖于垂直、水平积分投影的图像预处理，行/字切分等识别处理工作，但是这些算法普遍较复杂，运算

时间比较长，运算速度较慢。

还有一种处理方式是先根据版面的不同倾斜方式，进行不同算法的倾斜

校正，然后再进行其他处理。

1.整体倾斜度校正

扫描得到的图像其整个版面有可能都是歪的，如图9-6所示，一般是由于扫描时文档没有放正造

成的。

当然可以人工放正，然后再扫描一次；

也可以让计算机自行校正，其方法就是对整个版面进行

校正，也就是对图像进行旋转。

对整体图像进行旋转有两种方法：

（1）只将图像进行旋转，并不扩大图像区域的面积。

用这种方法处理的一个例子，如图9-7所示，

可以看出，旋转后的图像丢失了一部分文字。

这是因为旋转后图像的宽度应该比原图大一些，但是却

没有扩大图像区域造成的。

（2）将图像旋转，并按照旋转后新图像的宽高扩大区域。

对于文字识别系统，文字的丢失当然是不能接受的，所以选用第二种方法。

算法采用的是坐标变换的方法，先将图像以原点为中心进行旋转，分别计算旋转后图像的最高点、

最低点的纵坐标top、bottom，最左点、最右点的横坐标left、right，然后推算出新图的宽和高，按照

新的宽和高扩展图像。

最后，将坐标轴的原点移到（left，bottom）。

旋转的效果如图9-8所示。

2.局部版面的倾斜校正

有的时候版面的倾斜只是发生在局部区域上，如图9-9所示，它可能是纸的褶皱现象造成的，可

能是扫描时光源的影响，也可能是排版时故意这么做的。

但是不论什么原因造成的局部版面倾斜，都

会影响到版面分析及预处理的效果，所以也必须进行校正。

通常局部的版面倾斜角度都很小，或倾斜区域周围有很宽的空白部分，倾斜部分旋转回原来的位

置时，不会造成文字丢失或覆盖其他文字的现象（否则发生倾斜的局部区域就已经覆盖了其他文字区

域了）。

所以就不考虑旋转后图像扩大的问题，而使用旋转算法中的第一种方

展开阅读全文