印刷体汉字识别技术的研究毕业设计.docx

资源描述

印刷体汉字识别技术的研究毕业设计.docx

《印刷体汉字识别技术的研究毕业设计.docx》由会员分享，可在线阅读，更多相关《印刷体汉字识别技术的研究毕业设计.docx（67页珍藏版）》请在冰豆网上搜索。

印刷体汉字识别技术的研究毕业设计.docx

印刷体汉字识别技术的研究毕业设计

印刷汉字识别技术的研究

摘要：

印刷体汉字识别技术是一种高速、自动的信息录入手段,成为未来计算机的重要职能接口，还可以作为办公自动化、新闻出版、机器翻译等领域的理想输入方式，有着广泛的应用前景。

汉字识别的最终目的是使中文信息能更自然，更方便地输入计算机，以便于进一步处理。

实际生活中，大量的书信、报纸、杂志内容需要输入计算机，这就是印刷体汉字识别要解决的问题。

本文首先在第一章就汉字识别研究的意义和背景以及对目前存在的问题作了综述。

第二章对印刷体汉字的识别过程进行基本概述。

第三章对印刷体汉字识别作了详细阐述，论述了印刷体汉字识别的原理和预处理、特征抽取与分析、后处理过程；分析了统计模式识别方法、结构模式识别方法以及人工神经网络模式识别方法；第四章用Matlab对系统进行了仿真；最后在第五章进行全文总结并预测了汉字识别技术研究今后的发展方向。

关键词：

汉字识别;特征提取;匹配识别;人工神经网络;Matlab仿真

TheresearchofprintedChinesecharactersrecognitiontechnology

Abstract:

PrintedChinesecharacterrecognitiontechnologyisakindofautomatichigh-speed,informationinputmethod,becometheimportantfunctionsofthecomputerinterface,stillcanasofficeautomation,thepressandpublishing,machinetranslation,etc,theidealinputhaswideapplicationprospects.TheaimofChinesecharacterrecognitionistomaketheChineseinputmorenaturalandconvenientsothatthecomputercouldprocessChineseinformationmoreeasily.Inpractice,largevolumeofletters,newspaper,magazinesneedtobecoveredintoacodedrepresentationoftheinputcharacters.That'swhatprintedChinesecharacterrecognitioncando.Firstly,inchapter1，thisthesisgiveswhatisthesignificanceofresearchandbackgroundofChinesecharacterrecognitionandintroducetheproblemsweencounterednow.Thechapter2，itisabasicoverviewoftherecognitionprocessofprintedChinesecharacters.Inchapter3,wediscussestheprinciplesandprintedcharacterrecognition,featureextractionandanalysis,thepost-processingprocess,Emphaticallyanalysesthestatisticalpatternrecognitionmethod,structuralpatternrecognitionmethodandArtificialneuralnetworkpatternrecognitionmethod.Inchapter4,givinganMatlabsimulationconcludesthewholearticleandforecastcharactersidentificationtechnologyresearchdirectionsoffuturedevelopment.

KeyWords：

Chinesecharactersrecognition；featureextraction；Matchingrecognition；Artificialneuralnetwork；Matlabsimulation

1绪论

1.1印刷体汉字识别技术的研究意义

汉字已有数千年的历史，是中华民族文化的重要结晶，闪烁着中华人民智慧的光芒。

同时也是世界上使用人数最多和数量最多的文字之一。

在跨入信息时代后，现如今汉字印刷材料的数量大大增加，一些专业单位如新闻社、图书馆、古籍出版社、档案馆等所接触的印刷材料更是浩如烟海，信息量均是呈爆炸性增长，毕竟阅读印刷材料更为符合人的自然阅读习惯。

然而，随着人们对电子化信息需求的日益增加，如何将汉字快速高效地输入计算机，是信息处理的一个关键问题，也是关系到计算机技术能否在我国真正普及的重要前提，更是能否传播与弘扬中华民族悠久历史文化的关键因素。

传统的人工键入不仅速度慢而且劳动强度大，即使是专业的打字员每分钟也只能输入100-120个汉字。

这种方法不适用于需要处理大量文字资料的办公自动化、文档管理、图书情报管理等场合。

而且随着劳动力价格的升高，利用人工方法进行汉字输入也将面临经济效益的挑战。

人们要求有一种能将文字信息高速、自动输入计算机的方法，于是印刷体汉字识别技术便应运而生。

这种快速，准确的自动处理方式将在很大程度上推动我国信息化的发展进程，对社会各方面的工作都有着相当深远的意义。

目前印刷体汉字识别技术已经呈现出了广泛的应用前景，它主要应用在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域。

汉字识别是模式识别的重要应用领域，也是光学字符识别OCR（OpticalCharacterRecognition）的重要组成部分。

汉字识别是一门多学科综合性的研究课题，它不仅与人工智能的研究有关，而且与数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等技术都有着千丝万缕的联系。

一方面各学科的发展给它的研究提供了工具；另一方面，它的研究与发展也必将促进各学科的相互进步。

因而该技术有着重要的实用价值和理论意义。

同时，中国是使用汉字最久远和最广泛的国家。

因此，能否在汉字识别技术的研究方面占据领先的位置也是中国科技实力的一项至关重要的体现。

1.2印刷体汉字识别技术的研究状况

印刷体汉字识别是文字识别技术的一种。

利用机器识别文字符号，可以说从1929年奥地利科学家陶舍克利用光学模板匹配识别开始。

当时，他使用了10块模板对应10个数字，依次把待识别的数字投影到这10块模板上，当模板透过的光达到最小时（数字遮挡了模板的透光部分），数字就被识别成这块模板上的数字。

大约在50年代末60年代初，就已经出现了关于利用计算机识别数字及英文符号的研究论文。

据文献记载，印刷体汉字的识别最早可以追溯到60年代中期。

1966年，IBM公司发表了第一篇关于印刷体汉字识别的论文，在这篇论文中他们利用简单的模板匹配法识别了1000个印刷体汉字。

随后，日本也在70年代开始对汉字识别进行了研究。

1981年5月在日本第56届商业展览会上，富士通研究实验室进行了手写印刷体汉字识别的公开表演。

1984年日本武藏野电气研究所研制成多体印刷汉字识别装置，可以识别2300个多体汉字的印刷体汉字识别系统,识别率为99.88%，识别速度大于100字/秒，代表了当时汉字识别的最高水平[1]。

此外，日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统，但因这些系统价格极其昂贵，没有得到广泛应用。

直到80年代中期以来，以软件为主并使用通用高档微机的产品才逐步走向市场。

同国外相比，我国的印刷体汉字识别研究起步较晚[2]。

我国在20世纪70年代才开始对数字、英文字母及符号的识别技术进行研究，20世纪70年代末仅有少数大学和研究所开始进行汉字识别的研究并发表了一些论文，研制了少量模拟识别软件或系统。

但由于我国政府从80年代中期开始对汉字自动识别输人的研究给予了充分的重视和支持，汉字识别技术进入了研究的高潮。

经过科研人员这些年的辛勤努力，印刷体汉字识别技术的发展和应用有了长足进步，从简单的单体识别发展到多种字体混排的多体识别，从中文印刷材料的识别发展到中英文混排印刷材料的双语识别。

各个系统可以支持简、繁体汉字的识别，解决了多体多字号混排文本的识别问题，对于简单的版面可以进行有效的定量分析，同时汉字识别率已达到了98%以上。

进入90年代以来，印刷体汉字识别研究的主要目的是提高识别系统的品质和效率，增强系统对不同文本的适应性，扩大使用面。

在加强版面分析、识别结果上下文匹配后处理和各种实用化技术的研制的同时，进行对识别方法的进一步研究，促使更实用的产品广泛出现。

1.3印刷体汉字识别技术存在的难点

由于汉字具有以下几个方面的特点，使汉字字符在识别难度上远远大于字母化字符的识别。

（1）类别较大

目前我国常用汉字约3000~4000个。

国标GB2312一80常用汉字字符集中共有，6763个常用字，分为两级。

第一级3，755个汉字，使用频度为99.7%，第二级有3，008个汉字，两级汉字总使用频度为99.99%，识别系统一般应能正确识别这些常用字，才能满足实际应用的需要。

目前的研究目标一般都着眼于解决国标一级3755个汉字，即使是这样，汉字识别也属于大类别数的模式识别问题。

可以说，字量大是造成汉字识别困难的主要原因之一。

（2）结构复杂

汉字是一种结构性很强的文字，每个汉字都具有独一无二特定分布的若干笔划构成，笔划是汉字最基本的组成部分，汉字也可以看成是由部件组合而成的，部件是笔划有意义的组合，一般称之为偏旁、部首或字根。

笔划和部首的不同排列组合，构成了数以千计表达不同含义的结构异常复杂的汉字字符。

与世界上常用的其他民族的文字相比，汉字的结构是最为复杂的。

（3）相似字多

部分汉字字符之间只存在着很细小的差别，具有相同笔划数目的汉字字符之间的差异有的表现为某一个笔划位置或形态的微小变化，又比如“土”和“士”这两个字仅在下部笔划长短有细微的差别而已。

即使由人来辨认印刷体的这些汉字，在无上下文信息的帮助时，也很容易发生混淆[3]。

识别算法和系统必须能够正确判定这些细微的差异，否则就会发生错误。

汉字的以上几个特点就决定了没有单一的一种特征就可以完成对汉字的识别，因此如何有效的选取各种特征，有效的进行组合，使它们在匹配速度和识别率上都能满足实际需求就成为整个系统的关键。

2印刷体汉字识别的概述

2.1印刷体汉字识别的原理简介

汉字识别（CCR：

ChineseCharacterRecognition）是用电子计算机自动辨识印刷在纸上或者人写在纸（或其他介质）上的汉字。

汉字识别技术是计算机智能接口的一个重要组成部分。

从学科上划分，汉字识别属于模式识别和人工智能的范畴。

它涉及到模式识别和图像处理、人工智能、形式语言学、模糊数学等众多学科，是一门综合性的技术。

该系统由输入设备、汉字识别模块和计算机硬、软件三部分组成。

核心部分是汉字识别模块部分，印刷体汉字识别的过程主要过程包括预处理、特征提取、特征匹配、识别后处理。

预处理是在所有识别处理之前进行的，它将从各种不同输入方式获得的汉字图像中的干扰因素降到最低。

随着汉字识别技术的深入研究，汉字的特征提取的算法越来越多，如何选择特征和如何

展开阅读全文