基于matlab的数字识别系统设计.docx-资源下载

基于matlab的数字识别系统设计.docx

1、基于matlab的数字识别系统设计数字识别系统 1.绪论1.1研究背景1.1.1索书号的简介索书号是图书馆赋予每一种馆藏图书的号码，这种号码具有一定结构并带有特定的意义。在馆藏系中，每种书的索书号是唯一的，可准确地确定馆藏图书在书架上的排列位置，它是读者查找图书必要的代码信息。索书号通常是根据中国图书资料分类法编排的【1】简称中图法。中图法采拉丁字母和阿拉伯数字相结合的混合标记符号。根据图书的学科主题，以拉丁字母标记并顺序展列出22个基本大类，其中没有L、M和Y开头的参考附录1中图法简表。由于“T工业技术”的大类范围广泛、内容繁多，故又在该类基础上采用双位拉丁字母标记出16个二级类目，如TK

2、、TL、TM和TN等。字母之后再用阿拉伯数字对大类进行细分。如B表示哲学、宗教一大类；B020则表示宗教理论。有的图书馆如清华大学还在图书分类号码后添加按照图书作者姓名所编排的著者号码，或者是按照图书进馆时间的先后所取用的顺序号码。不同索书号确定排列先后顺序的步骤是，先比较分类号码：如分类号码相同再比较著者号码或顺序号码。最后按照字母表和数字大小的顺序排列。1.1.2书库中图书查找存在的问题随着电子计算机和网络技术的发展，现代图书馆都已经广泛建立电子数据库图书管理系统，方便用户查找、阅览书籍。读者借图书的流程如图2所示，一般利用书目查询系统，根据图书的书名，出版社，作者以及书的内容等在电子

3、数据库中检索自己需要的图书，记录图书相关信息。最后，根据图书的索书号，快速方便地在书库中找到相应的图书。但是，经常会遇到下列问题：电子数据库系统显示图书状态为“归还”，利用检索到号，却无法在书库找到此书。出现这种情况主要有两个原因：(1)图书错位放置，即图书在书库中摆放的位置与索书号不一致。(2)图书已经丢失，即虽然电子数据库中显示图书状态为“归还”，但实质图书已经丢失，并不在书库中。随着图书馆藏书数目的不断增加，每天借阅的人数增多，而且有的图书馆发展成拥有几个分馆，上述问题越来越严重。这一方面严重降低了图书馆的资源的利用率；另一方面，浪费了读者的时间，造成了很大麻烦。目前，图书馆主要通过定

4、期的人工检查发现书库中错位和丢失的图书。但是，由丁馆藏图书多达上万，甚至几十万，而且每天又都有大量图书的借出和还入，人工检查工作量很大，单调、重复的工作容易使工作员疲劳，检查速度比较慢，无法满足实际的需要。因此，迫切希望开发索书号自动识别系统，实现对书库中图书放置位置的自动检查，并通过索书号识别结果与电子数据库中图书信息的比较，找出已经丢失的图书。确保电子数据库中的图书状态与书库中的一致，以及书库中的图书准确排放，从而有效解决上述“用索书号找不到图书”的问题。1.2索书号自动识别系统近年来，随着电子计算机技术、图像处理技术和摄像技术的迅速发展，图像中的文字信息提取系统已经成功地应用于各个领域

5、。因此，借助其经验，本文研究采用图像处理和识别技术实现索书号的自动识别。1.2.1索书号自动识别系统概述系统的硬件由彩色CCD摄像头，8位图像采集卡和计算机组成，拍摄的图像为8位RGB彩色数字图像。如图1-1所示 CCD摄像机拍摄排放在书架上的图书图像，图书的图像出索书号外还有其他内容，如出版社的标志，其他文字甚至大块的污渍等，必须从中分割出仅包含索书号的文字图像。灰度的文字图像难以直接用于识别，所以讲灰度的文字图像装换为二值图像。由于噪声和五点的干扰，以及光照不均匀的影响，二值化后的文字会发生粘连，严重改变文字的自营。字符切分成单个字符后才进行文字识别。按照上述流程，具体介绍索书号识别的整个

6、过程。1.2.2 索书号识别存在的问题及关键技术索书号识别所涉及的摄像技术，无线通讯技术，电子数据库图书管理技术，AGV自动导引技术和图像处理技术都已经在其他领域有成功应用的实例。图像处理技术是索书号识别的核心技术，而与相类似的应用相比，索书号图像处理与识别又有其自身显著的特点和难点。图书馆收集了近几十年的藏书，不同时代的索书号编写风格大不相同。本论文选取图书馆的主要类别图书印刷体索书号，从图书馆的书架上随即抽取样本进行研究。如图7所示，CCD摄像头拍摄的索书号图像，由于光照不均匀、退色、污迹、噪声以及其他非索书号文字的存在，大大增加了索书号识别的困难。为了能够解决上述问题，索书号图像识别

7、主要由以下4个模块组成：索书号定位，索书号提取，索书号字符切分和索书号单字识别。第一阶段：索书号定位是在图像中找到包含索书号的图像区域，要求该区域尽可能包含完整的索书号，同时尽量排除非索书号的图像区域。由于该阶段是解决索书号的区域查找问题，而没有涉及单字切分，因此图像区域的估计允许有一定误差。为了包含完整的索书号以及避免索书号漏检，往往是定位得到的图像区域略大于索书号的真实区域。索书号定位主要存在两个问题：(1)受不均匀光照和褪色的影响，索书号的纹理特征、颜色特征以及形状特征等有较大的变化，可靠性相对较差；(2)有的索书号由1个字符串组成，有的索陆号由2个字符串组成，而在索书号的周围附近还会

8、存在其他文字，如出版社名称和作者姓名。因此，将索书号与其他文字相区别比较困难。第二阶段：索书号提取是在定位得到的索书号区域中，将索书号字符与周围目标和背景相互分离。通过二值化处理，能将字符与背最相互分离。但由于定位得到的图像区域略大于真实索书号区域，二值化后在索书号字符附近可能会存在一些非字符目标，影响后续的单字切分和识别。所以，二值化后采用连通域滤波进一步消除索书号周围的非字符目标。索书号提取主要存在的问题：(1)不均匀光照增大了索书号图像的灰度值变化范围。(2)褪色程度的不同则降低了字符与背景的对比度。(3)污迹的影响。上述因素的存在不仅使得确定二值化过程中合理的阈值非常困难，而且会改变

9、索书号字符的形状特征，最终影响连通域滤波的性能。第三阶段：索书号字符切分是将索书号字符串切分成一个个字符，以提供给识别算法进行识别。单字切分的结果如何将直接影响识别结果，而且切分好坏除字符能否正确识别之外，没有较好的判别依据。因此，单字切分往往与字符识别紧密结合在一起。索书号的单字切分可以分为两种情况：非粘连单字切分和粘连字符的单字切分。非粘连单字切分比价容易解决。但质量较差索书号图像二值化处理后，相邻字符可能会发生粘连。而粘连索书号切分存在的主要问题是(1)粘连字符的切分比较困难：(2)索书号字符发生粘连有一部分是字符的笔画发生变形所致，如笔划宽度变粗等。即使正确的切分也不一定能够完全修正

10、笔画的变形，即无法通过粘连切分恢复字符的原形。第四阶段：索书号单字识别。印刷体单字识别的研究已经相当成熟，只是与其他应用领域的文字识别相比，索书号文字的质量较差，存在字符不均匀褪色，笔划残缺以及大面积污迹等问题，2索书号文字图像分割复杂背景图像中的文字定位和分割是从图像中获取文字信息的关键步骤，直接影响到后续文字识别的准确性，它在机器人视觉汽车牌照自动识别，计算机文本自动输入，邮件地址自动识别，集装箱编号自动识别以及视频图像内容的检索等系统中都有广泛的应用。CCD拍摄的图书索书号图像如图2-1所示.图像中除了索书号还包含尤其他文字，红色条形框还包含有其他文字，红色条形框以及装饰景物等，为了

11、能够正确识别该书的索书号，首先必须从图像中正确分割出索书号图像。图2-1 图书索书号图像但是，从图像尤其场景图像中自动定位和分割文字是比较困难的，其主要原因有以下几个方面：第一，文字嵌入在图像中，并与其它图形共存，如边框，商标，装饰物以及污点等；第二，由于文字颜色退化，文字颜色不均匀，热切背景颜色有食欲吻脖子颜色差异很小；第三，文字尺寸大小变化；第四，关照条件无法控制，广州不均匀；第五，索书号文字与其他文字。本课题利用基于边缘点数量统计的文字图像分割方法。根据图书馆索书号的制定规则，索书号文字图像具有如下特征：第一，索书号文字采用黑色应刷；第二，索书号文字的数量至少为3个；第三，索书号字符

12、水平排列；第四，索书号贴在书脊的下半部分。它的算法流程如图2-2所示，实验结果证明，该方法具有定位精度高，准确率高，抗噪能力强，并在“索书号自动识别系统”中取得理想效果。图2-2 索书号图像分割算法流程 2.1 HSI彩色空间转换摄像头拍摄的彩色图片的像素点通常是采用24位RGB表示。但R，G和B3分量之间有很高的相关性，直接利用这些分量常常不嫩得到所需的分割效果。比较接近人堆颜色视觉感知的是色度，饱和度和亮度空间。其中I表示颜色的敏感程度，H表示不同的颜色，S表示颜色的深浅，I分量与彩色信息无关，H和S与人感受彩色的方式紧密相连。本算法中，只对边缘点进行财社分割，切自用S分量。英雌，问

13、了减少算法的耗时，首先子转换I分量，如图2-3所示，待边缘检测出来后，再堆边缘点进行S分量计算。转换关系如下： I=(R+G+B)/3 (2-1) S=1-3/(R+G+B)*min(R,G,B) (2-2) 图2-2 HSI彩色空间的I分量图2.2 Canny算子检测Canny算子边缘检测先计算X和Y方向的梯度平方和，局部最大的梯度幅值局部变化最大的点的过程叫非极大值抑制。 Canny算子边缘检测有如下3个指标：第一，对每个边缘点有唯一的响应，得到的边缘为单像素狂；第二，错误率最低，即要少将真正的边缘点丢失也要少将非边缘点判为边缘点；第三，高位置精度，检测的边缘应在正真的边界上。为此，Can

14、ny像影帝定义了3给准函数衣表达上述指标的约束：a，信噪比函数准则；b，定位精度准这函数；c，单边缘响应准这函数。这三个准则相结合可以检测的最佳的边缘。 Canny算子中有3个参数，是高斯函数闻不得参数，他控制平滑程度：高阈值（TG）和低阈值（TL)。实验中设置为1，TL=0.4*TG。这样在Canny算子中只保留了一个参数高阈值（TG)。实际应用中，TG取值只需要满足两个条件：第一，确保尽可能地检测出索书号文字的边缘点，这粗限定了TG取值的最高上限；第二，确保加边缘尽可能少，这限定了TG取值的下限。由于文字和背景具有较强的对比度，TG取值有一个较大的范围，实验中TG=0.2。如图2-4所示，

15、即实验中的Canny算子边缘检测结果。图2-3 Canny算子检测的边缘 2.3索书号边缘点彩色分割文字图像有一些独特的特征，文字图像的解构比较复杂，边缘像素点比较多，切分布比较集中。受光照条件和文字颜色退化程度不同的影响，文字部分特征如对比度，亮度等容易搜到干扰，但是文字的边缘分布规律且有较强的干扰性能。Canny算子检测等到的边缘点在HSI彩色空间S分量上精心索书号文字边缘点的分割。由于索书号文字采用黑色应刷，但发生不同程度的退色，继黑岩色的饱和度S有一定的变化，故 BW_Word(i,j)= S1Ss2 and BW(i,j)=1 （2-3）式中， BW(i,j)是Canny算子检测的

16、边缘，BW_Word(i,j)是文字的边缘点，S1和S2表示索书号文字S分量对应的范围。实验中，去S1=0,S2=0.05。经边缘点S分量分割后的图像如图2-5所示，图中的边缘点为主要的文字边缘点。图2-5 分割出的索书号图像2.4文字图像行区域检测由于文字图像中解构相对比较复杂，其边缘点数量也就比较多，分布比较集中。因此文字图像区域中行统计平均的边缘点数量比非文字图像区域中的多，则： Ny0（word）Ny0 (non-word) (2-4)式中， Ny0（word）为文职图像区域的行平均边缘点个数，Ny0(non-word) 为非文字图像区域的行平均边缘点个数。虽然文字图像区域中也存在者

17、字符见得间隔，必能完全保证每一行的边缘点数量都比非文字区域的行边缘点数量多。但是从概率角度可以认为，文字图像区域的每一行边缘点适量大于政府图像边缘点数量的行平均值，而非文字图像区域者相反，即： Ny（word） Ny0（word）Ny (non-word) （2-5）式中 Ny（word）是文字图像区域中某一行的边缘点数量，Ny (non-word)是非文字图像区域中某一行的边缘点数量，Ny0（word）所示是整幅图像边缘点数量的行平均值。边缘点数量统计如图2-6所示。图2-6 行方向边缘点数量统计检测出的可能文字图像应先进行合并，形成可能的文字图像区域。受文字图形自身结构繁简程度不同的影

18、响，以及索书号可能有多行字符串组成，而两行字符串之间可能存在间隔，使的图像文字区域中的某些行的边缘点数量低于平均值，设置行方向的间隔阈值Ty=10.即去过两可能文字图像行的间距DyTy，这经性合并，否则视为两个独立的文字图像区域。经可能文字图像行合并后，图2-1所示的索书号文字图像区域中存在两个索书号图像区域。现在其中包含可能文字图像行最多的区域为索书号文字图像。2.5文字图像列区域检测在检测出行区域文字图像中进一步确定。同理： Nx0（word）Nx0 (non-word) （2-6）式中， Nx0（word）为文字图像区域的列平均边缘点个数，Nx0(non-word) 为非文字图像区

19、域的列平均边缘点个数。文字图像区域列边缘点数两也有下属关系： Nx（word） Nx0（word）Nx (non-word) (2-7)式中 Nx（word）是文字图像区域中某一列的边缘点数量，Nx (non-word)是非文字图像区域中某一列的边缘点数量，Nx0（word）所示是整幅图像边缘点数量的列平均值。边缘点数量统计如图2-7所示。图2-7 列方向边缘点数量统计检测出的可能文字图像应先进行合并，形成可能的文字图像区域。受文字图形自身结构繁简程度不同的影响，以及索书号可能有多列字符串组成，而两列字符串之间可能存在间隔，使的图像文字区域中的某些列的边缘点数量低于平均值，设置行方向的间隔

20、阈值Tx=20.即去过两可能文字图像行的间距DxTx，这经性合并，否则视为两个独立的文字图像区域。经可能文字图像行合并后，图2-1所示的索书号文字图像区域中存在两个索书号图像区域。现在其中包含可能文字图像行最多的区域为索书号文字图像。 2.6 边界调整检测出的文字图像中，由于文字大小写，吱声结构等造成字符排列不争气，导致不问字符的笔画会被漏检，如字符P的下半部分。因此，必须调整文字图像的边界。在已经分割出的文字区域赴京，统计行方向的边缘点数量，若边缘点数量大于2，则将列并入文字图像区域。同理在列方向进行边界调整。经过列方向和行方向边界天正，形成完整的文字图像区，并提取出文字图像。如图2-1

21、所示的索书号分割出的索书号图像如图2-8所示。图2-8 分割出的索书号图像 3文字图像二值化3.1二值化的概述多数OCR文字识别系统都是在二值化的文字图像上实现的。因此，灰度文字图像的二值化处理是文字识别系统中的关键步骤，其结果直接影响后续的图像处理，包括字符切分、特征提取和字符识别等。二值化问题描述如：令N为一系列自然数，(x,y)是数字图像的空间坐标，G=0,1,2.l-1是表示灰度级的正整数，这样图像函数以定义为映射：f:N*NG，坐标为(x，y)的像素点值为f(x，y)。设t为阈值，B=(0,1)，是一对二值灰度，其二值化过程为： f(x，y)= f(x，y)t 由此可见，确定合

22、理的阈值是灰度图像二值化的关键。阈值法就是按照某种准则确定阈值t3.2最优阈值法对灰度图像，基于各像素值的阈值是仅考虑各像素本身灰度值而确定的，因而算法一般较简单，但对抗噪声能力不强。所确定的阈值作用与政府图像的每个相熟，婴儿对木表和背景的灰度有梯度变化的图像效果较差或失效。图像的灰度直方图是图像个相熟灰度值得一种统计度量。许多常用的阈值选取反复发就是更具直方图来进行。如果对算风直方图选取两峰之间的谷所对应的灰度值作为阈值就可将目标和背景分开。谷的选取有很多方法，下面主要介绍最优阈值法。有时图像中目标和背景的灰度值有部分交错，这是乳痈一个全局阈值进行分割则总会稀罕省一定的误差。实际中长希望能尽

23、可能减少误分割（包括吧目标分成背景和把背景分成目标两类）的概率，而选取最有阈值是一种常用的方法。这里最优阈值指能使误分割率最小的分割阈值。图像的直方图可看成像素灰度值的概率分布广函数的一个近似，设疑富图像仅包含两类主要的灰度值区域（目标和背景），那其直方图所代表的像素灰度值概率分布密度函数实际上是对应目标和背景的两个蛋羹分布密度函数纸盒。如果已知密度函数的形式，就有可能计算出一个最优阈值，用它可把图像分成两类区域而是误分割率最小。设有这样一副混有加性高斯噪声的图像，背景和噪声的概率密度分别是P1(z)和P2(z)，政府图像的混合概率密度： P(z)=P1*p1(z)+P2*p2(z) （式3-

24、1）P1和p2分别是背景和目标区域灰度值的先验概率。根据概率定义有P1+p2=1，所以混合概率密度式自由5个未知的参数。如果能求的这些参数可以确定混合概率密度。需确定一个阈值T是的灰度值小于T的像素分割为背景而是的灰度值大于T的像素分割为目标。这时错误地将目标像素划分为背景的概率和将背景像素错误地划分为目标的概率分别是： E1（T)= （式3-2） E2(T)= （式3-3）总的误差概率为： E（T）=P2*E1(T)+P1*E2(T) (式3-4）为了求得误差最小的阈值可将E(T)对T求导并令导数为零，这样得到： P1p1(T)=P2p2(T) （式3-5）将这个结果用于高斯密度，并假设先

25、验概率相等，即P1=P2，则： T=（A1+A2）/2 (式3-6)其中A1,A2为别是背景和目标区域的平均灰度值。这表示如果图像灰度值服从正太分布是，最佳阈值可按上式求得。3.3实验结果及分析经索书号定位和分割处理后，用于验证本二值化算法的性能。其中有的索书号图像中存在污迹，有的文字或标签纸不均匀褪色，有的存在大面积阴影和低对比度等4种典型。图36为实验样本中存在文字褪色和阴影的典型索书号图像。图42为实验样本中低对比度和污迹干扰的典型索书号图像。由于本算法是基于笔画模型检测文字像素点的，因此，实验分为2部分：笔画模型检测文字像素点实验和提出的二值化算法实验。如图3-1即分割出的索书号图像的

26、二值化图像。图3-1 索书号二值化图像4单个字符的切分4.1粘连字符切分的概述OCR(OplicalCharacterRecognition)文字识别系统大多数是指对单个字符的识别。但在实际应用中，需要识别的往往都是由多个字符组成的字符串，其中不乏存在笔画粘连的字符切分是寻求最佳的路径将字符串切分成一个个的完整字符，它是文字识别系统的关键步骤之一。错误的字符切分是无法得到正确的识别结果的。一般认为粘连字符的错误切分会导致字符笔画的严重失真变形，以致无法实现字符的正确识别。美国Nevada大学的商业印刷体文字识别系统实验表明，错误的字符切分是产生错误识别的主要原，而且随着图像质量的下降，粘连

27、现象趋于严重，将会导致误切分率的急剧增加。4.2索书号字符的粘连原因文档图像本身是二值图像，如前所述，其粘连的主要原因是字符的字体、尺寸、间距的变化，低劣的印刷质量和图像分辨率较低而引起的，字符笔划变形主要是由字符粘连和粘连笔划的切分引起。因此，准确的切分路径就能纠正字符变形，保证切分后字符识别有较高的正确率。与文档图像相比，索书号字符图像具有以下特点：(1)字符间隔比文档中单词的字符问隔大；(2)索书号的字符基本保持相同高度；发生重叠粘连和交错粘连的概率很小。但是，从书架上的图书侧翼分割出的索书号字符图像是彩色图像或灰度图像，字符识别之前需要二值化处理。而且索书号字符图像受下列因素的严重干

28、扰：(1)字符串附近存在的污点；(2)字符和纸张的不均匀褪色：(3)光照不均匀。这些因素的存在，使字符图像在二值化处理时，不可避免地会将部分背景I区域错误地分为字符笔划使得笔画变宽或变长，致使字符笔划发生变形而导致粘连，即字符粘连处也是笔划变形程度相当严重的地方，即使准确切分也不一定能完全纠正字符的笔画变形。切分后字符的笔画粘连引起的字符变形被纠正，但是，字符“3”的笔画变形依旧没有修复。因此，索书号粘连字符在准确切分后还必须纠正粘连处的笔划J变形。另一方面，由于干扰而引起的字符变形比较严重，导致图像分析容易出错，切分点的选择和切分路径的建立比较困难。43索书号粘连字符的切分为了提高切分速度，

29、本节提出了采用上下轮廓凹凸特征近似检测单个字符的宽度，在字符宽度的约束下，根据轮廓凹凸特征，直接建立切分路径。并利用切分处笔划宽度特征，对切分处的变形笔划进行了恢复，有效抑制噪声干扰而产生的字符笔划变形，提高索书号文字识别的正确率。431 字符串凹凸轮廓的定义及检测图书馆藏书的索书号文字图像经过文字提取分割后得到的字符串，经阈值分割后大小为MN的二值化图像定义1：从上而下逐列扫描图像，由每列的第一个黑色像素点组成的轮廓曲线称之为字符串上轮廓。上轮廓用其像素点的坐标表示为： PT(i)=ET(i) i=1，2，3，4.M （式4-1）式中ET(i) 即自上而下扫描i列图像时遇到的第一个黑色像素点

30、的y轴坐标。如果所在列无字符，即无黑色像素点，则该列ET(i)为0。同理，同理，从下而上逐列扫描图像，由每列的第一个黑色像素点组成的轮廓曲线称之为字符串下轮廓。下轮廓用其像素点的坐标表示为： PB(i)=EB(i) i=1，2，3，4.M (式4-2）式中Eb(i) 即自上而下扫描i列图像时遇到的第一个黑色像素点的y轴坐标。如果所在列无字符，即无黑色像素点，则该列Eb(i)为0。根据上述定义检测到的索书号字符的上下轮廓如图所示。在字符间的间隔处，则在上轮廓存在凹结构，在下轮廓存在凸结构。上轮廓的离散差分为， TDp(i)=Tp(i+1)-Tp(i), i=1，2，3，4.M-1 （式4-3）

31、下轮廓的离散差分为： BDp(i)=Bp(i+1)-Bp(i), i=1，2，3，4.M-1 （式4-4）如果TDp(j)0,若k2,i(j,j+k),TDp(i)=0,则在j，j+k】内必然存在唯一的凹结构，如果BDp(j)0,若k2,i(j,j+k),BDp(i)=0,则在j，j+k】内必然存在唯一的凸结构，如图4-1所示为二值化的索书号图像的上轮廓和下轮廓曲线，在凹凸轮廓实际检测时，由于字符图像受噪声影响，字符的部分笔划边缘不光滑，会检测到一些仅有1，2个象素深度或高度的假凹轮廓或假凸轮廓。为了有效抑制笔划边缘不光滑的干扰影响，在检测过程中，增加了一个约束条件，即凹轮廓的深度和凸轮廓的高度必须大于等于3个象素。图4-1（a) 字符串上轮廓曲线图4-1（b) 字符串下轮廓曲线432字符高度和宽度的近似检测根据上轮廓和下轮廓的定义，可以检测到各列字符高度H(i)： H(i)=ET(i)- EB(i) （式4-4）取字符串的最大高度为字符的近似高度Hw： Hw=maxH(i) （式4-5）字符串图像的上下轮廓曲线表明：(1)非粘连字符的间隔处存在鲜明的凹

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？