印刷体汉字识别方法的研究毕业设计论文.docx

资源描述

印刷体汉字识别方法的研究毕业设计论文.docx

《印刷体汉字识别方法的研究毕业设计论文.docx》由会员分享，可在线阅读，更多相关《印刷体汉字识别方法的研究毕业设计论文.docx（45页珍藏版）》请在冰豆网上搜索。

印刷体汉字识别方法的研究毕业设计论文.docx

印刷体汉字识别方法的研究毕业设计论文

印刷体汉字识别方法的研究

作者姓名xx

专业电子信息工程

指导教师姓名王导

专业技术职务

摘要

汉字识别技术是一种高速、自动的信息录入手段,成为未来计算机的重要职能接口，还可以作为办公自动化、新闻出版、机器翻译等领域的理想输入方式，有着广泛的应用前景。

汉字识别的最终目的是使中文信息能更自然，更方便地输入计算机，以便于进一步处理．实际生活中，大量的书信、报纸、杂志内容需要输入计算机，这就是印刷体汉字识别要解决的问题。

本文首先就汉字识别研究的意义及背景作了综述。

第二章介绍了汉字识别的基本过程以及印刷体汉字识别研究存在的问题与困难。

第三章对印刷体汉字识别作了详细阐述，论述了印刷体汉字识别的原理和预处理、特征抽取与分析、后处理过程；着重分析了统计模式识别方法、结构模式识别方法以及匹配识别；第四章用Matlab对系统进行了仿真；最后阐明了汉字识别技术研究今后发展的方向。

关键词：

印刷体汉字识别特征提取匹配识别统计模式识别Matlab仿真

ABSTRACT

Chinesecharacterrecognitiontechnologyisakindofautomatichigh-speed,informationinputmethod,becometheimportantfunctionsofthecomputerinterface,stillcanasofficeautomation,thepressandpublishing,machinetranslation,etc,theidealinputhaswideapplicationprospects.TheaimofChinesecharacterrecognitionistomaketheChineseinputmorenaturalandconvenientsothatthecomputercouldprocessChineseinformationmoreeasily.Inpractice,largevolumeofletters,newspaper,magazinesneedtobecoveredintoacodedrepresentationoftheinputcharacters.That'swhatprintedChinesecharacterrecognitioncando.Firstly,thisthesisgiveswhatisthesignificanceofresearchandbackgroundofChinesecharacterrecognition.Inchapter2,thebasicprocedureofChinesecharacterrecognitionanddefectsanddifficultiesofprintedChinesecharacterrecognitionisintroduced.Everystepofrecognitioniselaboratedindetails.Inchapter3,wedescribeprintedChinesecharacterrecognitionsystemindetails,discussingtheprintcharacterrecognitiontechnology,andlooksforwardtothedevelopmenttrendofChinesecharacterrecognitiontechnology.Discussestheprinciplesandprintedcharacterrecognition,featureextractionandanalysis,thepost-processingprocess,Emphaticallyanalysesthestatisticalpatternrecognitionmethod,structuralpatternrecognitionmethodandmatchingrecognition.Inchapter4,givingansimulationforthesystem.Expoundedcharactersidentificationtechnologyresearchdirectionsoffuturedevelopment.

Keywords:

PrintedChinesecharacterrecognition;featureextraction;

Matchingrecognition;Statisticalpatternrecognition;MatlabSimulation

第一章绪论

1.1汉字识别研究的意义

汉字已有数千年的历史，是中华民族文化的重要结晶，闪烁着中国人民智慧的光芒。

同时也是世界上使用人数最多和数量最多的文字之一。

现如今，汉字印刷材料的数量大大增加，一些专业单位如新闻社、图书馆、古籍出版社、档案馆等所接触的印刷材料更是浩如烟海，信息量均是爆炸性增长，毕竟阅读印刷材料更为符合人的自然阅读习惯。

然而，汉字是非字母化、非拼音化的文字，因此，如何将汉字快速高效地输入计算机，是信息处理的一个关键问题[1]，也是关系到计算机技术能否在我国真正普及的关键问题，更是传播与弘扬中华民族悠久历史文化的关键问题。

但人工键入速度不仅慢而且劳动强度大，一般的使用者每分钟只能输入40—50个汉字。

这种方法不适用于需要处理大量文字资料的办公自动化、文档管理、图书情报管理等场合。

而且随着劳动力价格的升高，利用人工方法进行汉字输入也将面临经济效益的挑战。

因此，对于大量已有的文档资料，汉字自动识别输入就成为了最佳的选择。

因此，汉字识别技术也越来越受到人们的重视。

汉字识别技术已经呈现出了广泛的应用前景，它主要应用在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域。

汉字识别是模式识别的重要应用领域，也是光学字符识别OCR（OpticalCharacterRecognition）的重要组成部分[2]。

汉字识别是一门多学科综合的研究课题，它不仅与人工智能的研究有关，而且与数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等都有着千丝万缕的联系。

一方面各学科的发展给它的研究提供了工具；另一方面，它的研究与发展也必将促进各学科的发展。

因而有着重要的实用价值和理论意义。

1.2印刷体汉字识别研究的背景

印刷体汉字识别是汉字识别研究中的一个重要课题。

在以往的研究中，均十分重视印刷体汉字特征点提取的工作。

所谓特征点，是指反映汉字形体特征整体分布状况的关键点集，即构成汉字笔划骨架线的端点、折点、交点等。

如图1-1所示汉字图像“大”：

汉字图像“大”的特征点。

圆圈标出的点为特征点表示

图1-1图像“大”特征点

通常，对大多数结构稳定的汉字，一旦获得了正确的特征点集，就可能顺利地按照一定的策略和步骤（比如汉字的连接笔划、结构匹配等），将汉字形体划归为正确的字类，印刷体汉字识别的正确性就能够得到保证。

当前，印刷体汉字特征点的识别效率还有进一步改进的空间。

特征点提取方法属于句法结构模式识别方法之一。

另一方面，随着数字图像处理技术的发展和实际应用的需求，许多问题不要求其输出结果是一幅完整图像本身，而是将经过特定处理的图像，再分割和描述，提取有效的特征，进而加以判决分类。

这种技术就是图像的模式识别。

随着数字图像处理和模式识别技术的不断发展与广泛应用，图像的编码技术得到了飞速发展，并以其优良的特性在图像处理领域得到越来越多的运用。

第二章汉字识别技术

2.1汉字识别概述

汉字识别（CCR：

ChineseCharacterRecognition）是用电子计算机自动辨识印刷在纸上和人写在纸（或者介质）上的汉字。

汉字识别技术是计算机智能接口的一个重要组成部分。

从学科上划分．汉字识别属于模式识别和人工智能的范畴。

它涉及到模式识别和图像处理、人工智能、形式语言学、模糊数学等众多学科，是一门综合性的技术。

2.2汉字识别的原理

汉字识别的基本思想是匹配判别。

汉字识别可简单的分为两个过程：

学习（训练）过程和识别过程。

学习过程就是让计算机通过样本学习或训练提取出每个汉字的特征并存储起来，作为标准特征库，即模板库。

识别过程中，计算机首先按学习过程中的特征提取方法提取出输入模式的特征，然后再与标准特征库中的特征进行匹配，匹配程度最大的汉字即为识别结果。

因此，如何确定表达待识别汉字模式的最佳特征（组合优化特征），如何进行特征匹配，从而进行高效、快速的识别，是汉字识别技术的关键所在。

抽取代表未知汉字模式本质的表达形式（如汉字的各种特征）和预先存储在机器中的标准汉字模式表达形式的集合（称为字典）逐一匹配，用一定的准则进行判别，在机器存储的标准汉字模式表达形式的集合中，找出最接近输入模式的表达形式，该表达模式对应的字就是识别结果。

图2-1汉字识别原理框图

汉字识别原理如图2-1所示：

光电扫描器扫描纸上的文字，产生模拟电信号，经模数转器转换为由灰度值表达的数字信号，并送至预处理环节。

预处理的内容和要求取决于识别方法，一般包括行、字切分，二值化，细化或抽取轮廓，平滑，规范化等等。

经过预处理，汉字模式成为规范化的二值数字点阵信息，其中“l”部分反映了汉字笔划部分，“0”部分是文字的空白背景。

对该二值化汉字点阵，抽取一定的表达形式后，和存储在字典中的已知标准汉字表达形式匹配判别，就可以识别出输入的未知汉字。

2.3汉字识别的一般方法

汉字的模式表达形式有多种，每种形式又可以选择不同的特征。

每种特征又有不同的抽取方法。

这些就使得判别方法和准则有不同，乃至形成多种不同形式的汉字识别方法。

这些方法可以归结为两类一般性处理方法——统计决策的方法和句法结构的方法。

1.统计决策的方法（statisticaldecisionmethod）

在汉字识别中，每个字的特征不是一维，而是一个m维的特征向量;字典的每类标准模板也不是一个，而是一批；判别输入文字属于哪一类时，也不是只把它的特征向量和字典内标准特征向量逐一简单比较从而得到完全相同的结果才能分类识别，而是根据某种判别准则，相似到一定程度而且彼此又能区分时就可以分类识别。

这些就需要用统计决策的概念、理论、方法来指导，这就产生了汉字识别的统计决策方法。

统计决策的方法分类判别时，常用的判别准则是距离和类似度，它们是分类识别的依据。

2.句法结构的方法（syntacticstructuremethod）

在汉字模式中，代表字形本质特征的结构信息很重要，研究这类结构信息丰富的模式时，可以用简单的子模式（subpattern）（如笔划）构成多级结构来描述一个复杂模式（如整个汉字）。

例如把“叶”字先分解为部件“口”和部件“十”，并知道“十”在“口”的右面，再把这两个部件分解为笔划“|”、“”、“一”和“一”、“|”，也知道部件内这些笔划之间相对位置和连接关系，这样就可以把“叶”字表达成一维的符号串。

若用（、）表示部件的界符，用↓、→、×分别表示部件笔划间的上下、左右、交叉关系，则可以把“叶”字表示为符号串（|→↓一）→（一×|）。

汉字是一个模式，部件则是子模式，而笔划是一种最简单的子模式。

组成一个模式的最简单的而且不再分割的子模式叫做基元（Patternprimitive）。

上例中，各笔划以及↓、→、×都是基元，基元根据一定规律组合成模式。

这种对于一个模式。

用层层更为简单的子模式，最后用基元来描述的方法，就是结构分析的方法。

2.4汉字识别问题与困难

当今许多汉字识别技术研究者想提升汉字识别系统的识别效果都遇到了一些同样的问题[3]。

这些问题包括汉字量大、汉字结构复杂、字体字号多以及相似字多。

这也使得汉字识别难度远远大于其它语言文字识别。

由于汉字自身的特殊性，研究者也无法借鉴其它语言特别是西方发达国家的已有的技术来识别汉字。

（1）汉字量特别大，类别繁多

我国1980年公布的国家标准GB2312．80中第一级常用汉字共有3755个，第二级有3008个，两级共有6763个汉字。

其中常用汉字有3000至4000个之多。

第一级汉字使用频度为99．7％，两级汉字总使用频度为99．99％。

一个汉字识别系统至少要识别这些常用汉字才能满足需求，才具有实际应用价值。

显然，汉字样本数量众多，这对一个系统来说是一种考验。

大量的样本要占据更多的内存空间，更多的寻址时间，这对一个RTS（RealTimeSystems）来说是致命的。

为了提高识别速度而采取一些措施之后，又可能会导致识别率的降低。

这也导致了汉字识别系统不得不在识别率和识别速度之间有个妥协。

（2）汉字结构复杂

印刷体汉字识别系统的特征提取和匹配识别研究汉字是世界上结构最为复杂的文字之一。

它的构成方法主要有三种：

象形法、会意法和形声法。

不同的构成方法，具备不同的构字规律，这对采用统一标准处理如此大样本的汉字集来既是一大困难。

笔画和部首的不同排列组合，构成了表达不同含义的结构异常复杂的汉字字符。

非字母化，不同于拼字母文字，与世界上常用的其它民族的文字相比，汉字的结构是最为复杂的。

（3）字体字号多

我国印刷体汉字种类有超过一百种之多，其中主要以宋体、黑体、楷体和仿宋体为主，其它多为这四种字体的衍生字体。

另外，印刷体汉字同一个字的不同字体即使拓扑结构大致相同，但字形点阵还是有很大差别。

笔画的粗细、长短、位置及姿态，都有一定的差别，各个部件（如偏旁、部首与主体）的大小比例与位置，也都有所变异。

对于手写汉字，这种差别就更大。

手写体有楷体、行书和草书三类，但其自由发挥度很大，以致识别难度更大。

印刷体汉字的字号更是繁多，这给汉字归一化带来了一定的计算量，归一化后也有可能使得汉字信息损失一部分，这给汉字识别也带来了困难。

（4）相似字多

由于我国汉字种类繁多以及构成方法的原因，汉字集中包含了大量的相似字。

这些相似字不仅在形状上、构造上相似，而且在笔画上也相近。

例如，“大”和“太”两个字只相差一个短捺，常用的特征提取算法根本无法区分这两个字的不同之处。

这个相似字区分的问题往往出现在汉字识别系统的最后一级，也是至关重要的一级。

第三章印刷体汉字识别的研究

3.1印刷体汉字识别技术的发展历程

计算机技术的快速发展和普及，为文字识别技术应运而生提供了必备条件。

加上人们对信息社会发展的要求越来越高，文字识别技术的快速发展可想而知。

印刷体文字的识别可以说很早就成为人们的梦想，早在1929年，Taushek就在德国获得了一项有关OCR的专利[4]。

为了将多年以来印刷在纸上的浩如烟海、与日俱增的报刊杂志、文献资料和单据报表等文字材料输入计算机进行信息处理，单靠人工击键输入，其速度利效率已远远不能满足要求，这就迫切需要研制以印刷体汉字识别为核心的光学汉字字符阅读器（OpticalChineseCharacterReader，简称OCCR），使印刷体汉字可以高速自动地输入计算机。

印刷体汉字的识别最早可以追溯到60年代。

1966年，IBM公司的Casey和Nagy发表了第一篇关于印刷体汉字识别的论文[5]。

在这篇论文中他们利用简单的模板匹配法识别了l.000个印刷体汉字。

70年代以来，日本学者做了许多工作，其中有代表性的系统有1977年东芝综合研究所研制的可以识别2000个汉字的单体印刷汉字识别系统；80年代初期，日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统，代表了当时汉字识别的最高水平。

此外，日本的三洋、松下、理光和富士等公司也有其研制的印刷体汉字识别系统。

这些系统在方法上，大都采用基于数字变换的匹配方案，使用了大量专用硬件，其设备有的相当于小型机甚至大型机，价格极其昂贵，没有得到广泛应用。

我国对印刷体汉字识别的研究始于70年代末80年代初。

大致可以分为三大阶段[6]：

（1）第一阶段从70年代末期到80年代末期，主要是算法和方案探索。

研究人员提出了用于汉字识别的各种方法和特征，如特征点方法、汉字周边特征、汉字的结构元特征等，并在此基础上成功地研究出一批汉字识别系统。

这一阶段是印刷汉字识别成果倍出的时期。

但是，这些成果还仅仅处于实验室阶段，没有转化为产品来实际解决印刷汉字的自动输入问题。

（2）第二阶段是90年代初期，中文OCR由实验室走向市场，初步实用。

在实际的汉字识别输入应用条件下，检验和考查这些研究成果。

而一个汉字识别系统能否通过这一严峻的考验，并进一步发展，取决于三个重要因素：

第一该系统能否根掘社会的发展，用户需求的变化，灵活地改进或者增加系统功能，以适应市场需求；第二该系统是否能在识别效率、识别速度和系统资源三者之间协调好关系；第三该系统是否具有足够高的抗噪性能，以适应各种各样的实际应用坏境。

（3）第三阶段也就是目前，主要是印刷体汉字识别技术和系统性能的提高，包括汉英双语混排识别率的提高和稳定性的增强。

同国外相比，我国的印刷体汉字识别研究起步较晚。

从80年代开始，汉字ORC的研究开发一直受到国家重视，经过科研人员十多年的辛勤努力，印刷体汉字识别技术的发展和应用，有了长足进步，从简单的单体识别发展到多种字体混排的多体识别，从中文印刷材料的识别发展到中英混排印刷材料的双语识别。

各个系统可以支持简、繁体汉字的识别，解决了多体多字号混排文本的识别问题，对于简单的版面可以进行有效的定量分析。

同时汉字识别率已达到了98％以上。

但印刷体汉字识别系统的研究还要解决好实用汉字识别系统所必须解决的一些问题，如版面的自动分析、行字切分、人机界面和良好的应用环境等等。

3.2印刷体汉字识别的原理分析及算法研究

汉字识别实质是解决文字的分类问题,一般通过特征辨别及特征匹配的方法来实现。

目前汉字识别技术按照识别的汉字不同可以分为印刷体汉字识别和手写体汉字识别。

印刷体汉字识别从识别字体上可分为单体印刷体汉字识别（printedcharacterrecognition）与多体印刷体汉字识别（multipleprintedcharacterrecognition）；手写体汉字识别根据实时性又可以分为联机手写体识别（on-linehandwrittencharacterrecognition）和脱机手写体识别（off-linehandwrittencharacterrecognition）。

印刷体汉字识别的流程[7]如图3-1所示：

图3-1汉字识别流程框图

印刷在纸张上的汉字,通过用扫描仪扫描或者数码相机拍摄等光学方式输入后得到灰度图像（Grayscaleimage）或者二值图像（Binaryimage）,然后利用各种模式识别算法对汉字图像进行分析,提取汉字的特征，与标准汉字进行匹配判别,从而达到识别汉字的目的。

印刷体汉字识别技术主要包括预处理、特征提取、匹配识别和后处理等步骤。

预处理是在所有识别处理之前进行的，它将从各种不同输入方式获得的汉字图像中的干扰因素降到最低。

随着汉字识别技术的深入研究，汉字的特征提取的算法越来越多，如何选择特征和如何组合优化特征已经成了研究的重要领域。

匹配识别技术涉及到分类器的设计等重要问题，这也是非常重要的一个环节。

汉字的后处理是出于获得最大化识别率考虑，它在前期已有识别水平上，通过调整参数或反馈处理获得更高的识别率。

3.2.1预处理　

由于用数码相机或扫描仪作为输入设备得到的数据不可避免地存在着各种外在的干扰，图像质量也有偏差,对识别效果有一定影响。

因此,在对原始图像进行识别处理之前，尽可能将干扰因素影响降低，是非常有必要的，也就是要先对原始采样信号进行预处理。

预处理[8]通常包括去除噪声、版面分析、二值化、倾斜校正、行列切分、平滑、归一化、细化等。

（1）版面分析

印刷体文字识别常遇到的识别主体不是一个文字段，而是整个版面，所以版面分析是印刷体文字识别系统中的重要组成部分。

它是指对印刷体文档图像进行分析，提取出文本、图像图形、表格等区域，并确定其逻辑关系，并将相应的文本块连接在一起。

这一过程的自动完成算法还不是很完善，有些部分常由手工完成，最终的系统能够自动完成所有的版面分析。

（2）二值化

将一幅具有多种灰度值的图像变成白黑分布的二值图像的工作称为二值化处理，二值化的主要目的是将汉字从图像中分离出来。

通常的方法为先确定像素的阈值，比较像素值和阈值的大小，从而确定为1或0，这个二值化阈值的选取较为关键。

若阈值取的过大，则保留的信息过多，其中许多杂点无用信息造成了对以后处理的干扰；若阈值取得过小，则丢失的信息过多，其中许多文字信息产生续断或丢失，造成最终文字提取分割的信息丢失。

如何确定此阈值的过程也就成了研究二值化算法的重点。

现如今，汉字图像二值化方法多种多样，但大多都有应用限制。

研究一种适合各种文字图像的二值化方法也是预处理环节的重点。

（3）倾斜校正

通过输入设备获得的图像不可避免地会发生倾斜，这会给后面的行字分割、文字识别等图像处理与分析带来困难，因此，在汉字识别系统中，倾斜校正是图像预处理的重要部分。

倾斜校正的核心在于如何检测出图像的倾斜角。

目前，倾斜角检测的方法有许多种，主要可分为5类：

基于Hough变换的方法；基于交叉相关性的方法；基于投影的方法；基于Fourier变换的方法和K-最近邻簇方法。

灵活运用倾斜角度检测算法将是倾斜校正环节的重要研究方向。

（4）行字切分

汉字切分的目的是利用字与字之间、行与行之间的空隙，将单个汉字从整个图像中分离出来。

汉字的切分分为行切分和字切分[9]。

行切分是利用行与行之间的直线型空隙来分辨行，将各行的行上界和行下界记录下来。

典型的算法是，从上到下，对二值汉字点阵的每行像素值进行累加，若从某行开始的若干累加和均大于一个试验常数，则可认为该行是一汉字文本行的开始，即行上界。

同理，当出现连续大约一个汉字高度的大累加和情况后突然出现一系列小累加和甚至零值时，判定为行下界。

字切分是利用字与字之间的直线型空隙来分辨字，将各字的左边界和右边界记录下来。

典型的算法是，在确定这一行的行上界和行下界之后，从左到右搜索一行文字的左右边界，切分出单字或标点符号。

从左边开始垂直方向的行距内像素单列累加和均大于一个试验常数，则可认为是该汉字的左边界。

同理，当出现连续一个汉字宽度的大累加和情况后突然出现一系列小累加和甚至零值时，判定为该汉字的右边界。

对文本汉字行来说，由于存在左右分离字，宽窄字，字间交连等，加上行间混有英文、数字、符号、和字间污点干扰，使得字切分比行切分困难得多。

（5）归一化

归一化也称规格化，它是把文字尺寸变换成统一大小，纠正文字位置（平移），文字笔画粗细变换等文字图像的规格化处理，并只对文字图像进行投影。

汉字图像的归一化往往会带来两个问题：

一是字符图像的缩放可能会引入一些干扰;二是图像缩放本身的运算量较大。

所以，必须采用恰当的归一化方法来消除尺度变化对特征值的影响。

（6）平滑

对数字图像进行平滑，目的是去处孤立的噪声干扰，以平滑笔画边缘。

平滑在图像处理中实质是一幅文字图像通过一个低通滤波器，去除高频分量，保留低频分量，在实际应用中，采用WXW（一般采用3x3）的辅助矩阵对二值文字图像进行扫描。

根据辅助矩阵中各像素0、1的分布，使处于矩阵中心的被平滑的像素X０从“0”变成

展开阅读全文