基于SVM的手写数字识别的应用与实现【开题报告+文献综述+毕业论文】Word文件下载.docx
《基于SVM的手写数字识别的应用与实现【开题报告+文献综述+毕业论文】Word文件下载.docx》由会员分享,可在线阅读,更多相关《基于SVM的手写数字识别的应用与实现【开题报告+文献综述+毕业论文】Word文件下载.docx(42页珍藏版)》请在冰豆网上搜索。
⑵手写数字识别应用广泛,如邮政编码自动识别,税表系统和银行支票自动处理等。
这些工作以前需要大量的手工录入,投入的人力物力较多,劳动强度较大。
手写数字识别的研究适应了无纸化办公的需要,能大大提高工作效率。
⑶由于数字类别只有10个,较其他字符识别率较高,可用于验证新的理论和做深入的分析研究。
许多机器学习和模式识别领域的新理论和算法都是先用手写数字识别进行检验,验证理论的有效性,然后才应用到更复杂的领域当中。
这方面的典型例子就是人工神经网络和支持向量机(Support VectorMachine)。
⑷手写数字的识别方法很容易推广到其它一些相关问题,如对英文之类拼音文字的识别。
事实上,很多学者就是把数字和英文字母的识别放在一起研究的。
手写数字识别的一般原理为:
首先把数字图像经过预处理,然后得到的数据进行特征提取或不用进行特征提取就可以直接输入识别器进行识别得到结果。
手写数字识别的预处理通常包括数字图像的二值化处理、细化处理等步骤。
数字图像的二值化处理是将上一步骤所得到的灰度数字图像转化为二值数字图像,即在数字图像中区分出字符和背景。
二值化处理方法很多,但考虑到大量数字识别的需要,一般只能采用一维的阈值分割算法进行处理以获得
二值化数字图像,预处理技术在当前比较成熟。
基于SVM的手写数字识别系统主要是利用支持向量机在识别领域良好的识别性能。
对于一个完整的识别系统应包括从图像采集到得出识别结果的过程,由于本系统主要是用来检验支持向量机在手写数字识别系统中的应用,所以在本系统中图像采集、样本预处理等就不在提及,主要是在特征提取方法和识别器设计上下功夫。
手写数字识别一共有10类样本,是属于一个多分类问题。
那么对于像手写数字识别这样的多类分别问题,支持向量机又怎样处理呢?
实验中可以将多个支持向量机的二类分类器组合起来构成一个多类分类器。
构造一个多类分类器的原理是这样的:
对于一个N类分类问题,我们需要构造N个基于支持向量机的二类分类器,每一个二类分类器将N类中的每一类与其它N-1类区分开来,识别的时候,只要把输入样本依次输入到N个分类器,比较
N个分类器的识别结果,就会得到最终的识别结果。
在本系统中有10类,那就要设计10个二类分类器,比如分类器0将0与1、2、3、4、5、6、7、8、9数字分开。
实验时将输入向量输入到10个分类器中进行分类,比较10个分类器的分类参数性能判断输入样本是属于哪个数字.
在数字识别领域研究重点是特征提取和识别器设计。
在特征提取方面,过去的40年中,人们想出了很多办法获取手写字符的关键特征。
这些手段分两大类:
全局分析和结构分析。
对前者,我们可以使用模板匹配、像素密度、矩、特征点、数学变换等技术。
这类的特征常常和统计分类方法一起使用。
对后者,多半需要从字符的轮廓或骨架上提取字符形状的基本特征,包括圈、端点、节点、弧、突起、凹陷、笔画等。
经过多年的研究研究者提出了各种各样识别的方法,比如有一种基于轮廓信息进行结构分析的手写体数字识别方法,实验中取得了较好的识别结果。
数字的类别只有十种,笔划比较简单,其识别问题似乎不是很困难。
但事实上,一些测试结果表明,数字的正确识别率并不如印刷体汉字识别正确率高,甚至也不如联机手写体汉字识别率高,而只仅仅优于脱机手写体汉字识别。
这其中主要原因有:
第一,手写数字字形相差不大,比如“1”和“7”,“3”和“8”,由于个人书写习惯不同,书写出来很容易变得很相似,在数字识别系统中,要准确区分开来,就变得很困单;
第二,数字虽然只有十种,而且笔划简单,但也正是因为数字的笔画非常简单,同一数字的写法千差万别,世界各国,各地区的书写习惯、书写方式都有很大不同,很难做到兼顾到各地区各种写法的数字识别系统的高识别率。
第三,在实际应用中,手写数字识别的精确度要求也比汉字识别要严格的多。
因为,数字识别常被用到的领域是财会、金融等,这方面的严格性要求不言而喻,往往一字之差,带来的差别与损失是无法估量的。
但是数字识别系统的要求并不仅仅是识别率,需要处理的数据一般都是大批量的,所以,即使有了高的识别率,没有相当的速度也是行不通的。
近年来支持向量机已经成为模式识别领域的研究热点因此一些学者也开始把支持向量机技术应用到手写数字识别中,例如有研究者把支持向量机技术与神经网络技术结合,构成
一个复合的识别器来识别手写体数字,在实验中该系统取得了很好的识别效果。
但是,支持向量机应用到手写数字识别中也出现了很多有待解决的问题,例如训练时间过长、识别速度慢等问题,解决这些问题还有待进一步研究。
二、研究的基本内容,拟解决的主要问题:
研究基本内容:
利用Matlab语言编程实现算法功能。
拟解决的主要问题:
1、SVM(支持向量机)2、算法的设计与实现。
三、研究步骤、方法及措施:
研究步骤:
1.查阅相关资料,做好笔记;
仔细阅读研究文献资料;
2..理清整个课题的思路,撰写开题报告和文献综述;
翻译英文资料;
3..根据需求分析,编写算法,实现算法功能;
4..撰写论文;
上交论文初稿;
5..反复修改论文;
论文定稿。
方法、措施:
充分利用好学校和网络资源,搜集与SVM相关的资料,仔细阅读、分析、总结。
在老师指导下,与同组同学研究讨论,解决设计中所碰到的问题。
四、参考文献
[1]蒙庚祥,方景龙.基于支持向量机的手写体数字识别系统设计.计算机工程与设计,2005(26).6
[2]刘宏兵,熊盛武.用于手写数字识别的改进模糊支持向量机.小型微型计算机系统,2008(29).05
[3]柳回春,马树元,吴平东,李晓梅.手写体数字识别技术的研究.计算机工程,2003(29).4
[4]张学工.关于统计学习理论与支持向量机.自动化学报,2000(26).01
[5]吴今培.基于核函数的主成分分析及应用.系统工程,2005(23).02
[6]汪同庆,居琰,任莉.基于神经网络及多层次信息整合的手写数字识别.小型微型计算机系统,2003(24).12
[7]卜富清,王茂芝,于庆刚. 基于BP神经网络的数字识别.长江大学学报(自然科学版)2009
(6).6
[8]张晓龙,任芳.支持向量机与Adaboost的结合算法研究.计算机应用研究,2009(26).01[9]谭旭,孔梦荣. 基于层次分解决策树的手写体数字识别.微电子学与计算机,2004.11
[10]NelloCristianini,JohnShawe-Taylor.支持向量机导论.北京工业出版社,2004(3).1
毕业论文文献综述
基于SVM 的手写数字识别的应用与实现
引言:
支持向量机(SupportVectorMachine,SVM)是由Vapnik于1995年提出的针对分类和回归问题的统计学习理论,是在高维特征空间使用线性函数假设空间的学习系统。
近年来,其理论研究和算法实现方面都取得了突破性进展,开始成为克服维数灾难和过学习等传统困难的有力手段。
SVM方法具有许多引人注目的优点和极有前途的实验性能,受到了越来越广泛的重视。
继神经网络之后,该技术已经成为机器学习研究领域中的新热点,并取得了非常理想的效果,在人脸识别、手写体数字识别和网页分类等领域受到广泛应用。
手写体数字识别是手写字符识别的一个重要分支,又可分为在线手写体识别和离线手写体识别。
前者识别系统通过记录文字图像抬笔、落笔、字迹上各像素的空间位臵,以及各笔段之间的时间关系等信息,对手写体字符进行识别;
而后者因为是离线识别,无法获取写字者抬笔、落笔等笔划信息,因此难度更大,但具有广泛的应用空间,如银行票据、工商报表、财务报表等,再如邮件自动分类等都需要对手写体数字进行识别。
随着信息化及人工智能的发展,手写数字识别的应用市场已经越来越广泛了。
1研究动态
手写数字识别在经过过去几十年的研究发展,取得了很大的成功,识别率在90%以上,但是作为数字识别它需要非常高的识别精度以及效率,因为数字识别的错误所带来的影响非比寻常,比文字识别等其他字符识别所带来的影响更大,尤其在金融、财会领域数字识别的错误所带来的后果更是不可低估。
手写体数字识别一直是是多年来的研究热点,具有很广泛的应用范围及很高的商业价值。
目前,市场上也出现了许多手写体数字识别系统的产品,在许多实际应用系统(如邮政编码自动识别系统、银行支票自动处理系统等)中都有广泛的应用。
显然,高精度,高效率的手写体数字识别器能够提高实际应用系统的整体性能,然而现
在还没有哪个手写体数字识别系统能够达到完美的识别效果。
因此,进一步提高手写数字识别系统的识别精度和速率是每一位手写数字识别系统研究者的奋斗目标。
1929年德国科学家Taushek利用光学模板匹配识别,开创了用机器识别文字符的先河。
欧美国家为了将繁琐复杂的材料输入计算机,让其进行信息处理,从50年代就开始了西文光学字符识别(OptiealCharacter Recognition,OCR)的研究,OCR的意思就演变为了利用光学技术对文字和字符进行扫描的识别,转化为计算机内码。
1960~70年代,世界各国相继开始了OCR的研究,OCR可以说是一种不确定的技术研究,因为牵扯到书写者的书写习惯,识别的方法,训练测试的样本等因素,都会影响到识别的正确率。
其正确率就像一个趋势函数,只能趋近,而不能达到100%,大家都以100%作为研究目标。
世界上第一个将该技术付诸实用的是日本东芝公司研发的手写体邮政编码识别的信函自动分拣系统,之后,随着时间的推移,各种各样的产品、系统相继问世。
中国对于OCR方面的研究起步相对较晚,直到1989年,清华大学率先推出了国内第一套中文OCR软件—
—清华文通TH一OCR,至此中国的OCR技术正式起步。
随着