支持向量机SVM 的手写数字识别的有效方法 外文文献翻译.docx
《支持向量机SVM 的手写数字识别的有效方法 外文文献翻译.docx》由会员分享,可在线阅读,更多相关《支持向量机SVM 的手写数字识别的有效方法 外文文献翻译.docx(11页珍藏版)》请在冰豆网上搜索。
支持向量机SVM的手写数字识别的有效方法外文文献翻译
文献出处:
NevesRFP,ZanchettinC,FilhoANGL.AnEfficientWayofCombiningSVMsforHandwrittenDigitRecognition[M]//ArtificialNeuralNetworksandMachineLearning–ICANN2012.SpringerBerlinHeidelberg,2012:
229-237.
翻译后中文字数:
4763
第一部分为译文,第二部分为原文。
默认格式:
中文五号宋体,英文五号TimesNewRoma,行间距1.5倍。
一种结合支持向量机的手写数字识别的有效方法
摘要:
本文提出了一种将组合SVM(支持向量机)与其他分类器相比较,以保证高识别率和短处理时间的多问题的方法。
这种分层的SVM组合考虑了高识别率和短处理时间作为评价标准。
使用的案例研究是手写数字识别问题,并取得初步实验成功。
关键词:
模式识别,手写数字分类器,支持向量机。
1引言
现在世界是数字化的。
技术在人们的生活中无处不在,一些人工任务,如手写识别,语音识别,人脸识别等都可以由机器来替代。
在这种应用中使用的主要识别过程[1][2]需要以下步骤:
数据采集;预处理数据消除噪声;分割,其中要识别的对象(文本,数字,面部等)位于背景中并分离;特征提取,其中提取每个对象的主要特征;最后有识别或分类,其中的对象是根据其特征进行标记的。
本文将重点放在分类任务上,用作案例研究手写数字识别问题,因为这个任务可以代表一些分类问题。
例如,模式可能是不明确的,或者一些功能在多个类中是相似的。
这个问题的一个例子如图1所示。
在图1中1a和图1中1c图像的正确值为7,而在图1中1b是4,但图1a和b是相似的,可以是相同的数字。
因此,构建一个概括好的分类器是一项艰巨任务。
在某些情况下,最好的选择是尝试使用上下文信息来区分。
隐马尔可夫模型(HMM)[3]是一种经常用于分析上下文并提高分类器识别率的技术。
但其主要缺点是处理时间。
建模上下文技术通常也较慢。
因此,我们的研究重点是研究经典方法的优化和组合,并尝试在分类器中引入更多的知识。
近年来手写数字识别研究的简要概述表明,经典分类器,如多层感知器(MLP)[5],k-最近邻(kNN)[2]和支持向量机(SVM)[6]用过的。
一些研究人员尝试使用这些分类器的组合来改进结果[7][8][10][11][12]。
组合不同技术的主要问题是我们结合了二者的优势同时也不可避免地结合了二者的缺点。
MLP[5]是用于多类问题的强大分类器,但是当使用反向传播作为学习算法时,存在缺点。
该算法可以以局部最小值停止训练。
但是,如果我们尝试继续训练阶段,网络可以超越权重,降低泛化能力,就可以使用动量策略来摆脱局部最小化。
kNN[2]根据距离样本最近的训练集中的模式的距离对样本进行分类。
因此,训练集合中的模式越多,类之间的分布也越均匀,识别率越高。
但是,对样本进行分类的时间取决于训练数据库中模式的数量。
因此,这种技术通常是缓慢的。
SVM[6]被认为是最好的二进制分类器,因为它找到两个类之间最好的分隔边距。
SVM是一个二进制分类器的事实是其最大的缺点,因为大多数的识别任务是多类问题。
为了解决这个问题,有些研究人员尝试将SVM[8]组合起来,或者将其用作决策者分类器[9]。
基于这些假设,本文介绍了一种分层SVM组合,在应用于手写数字识别时,可以在短时间内提供高精度的识别率。
本研究结构如下:
相关文献见第2节;第3节提出的SVM组合架构;实验和结果在第4节;本文的最终结论在第5节。
2相关文献
支持向量机(SVM)[6][5]是一种二进制分类技术。
训练阶段包括查找每个类的支持向量,并创建一个函数,表示不同类的支持向量之间的最佳分离边距。
因此,可以获得一个最优的类分离的超平面。
分析支持向量机及其先前提出的特征,它似乎类似于感知器[1],因为它也试图找到一个线性函数来分离类。
但有两个主要的区别:
SVM发现最优线性函数,而感知器寻求发现任何线性分离函数;第二个区别是SVM可以处理非线性的可分离数据。
为了做到这一点,SVM利用核函数来增加特征维数,从而使数据线性地分离。
有两种经典的方法可以使用支持向量机来处理多个类:
一反对全部和一反对一[13]。
在一个反对所有的方法,一个SVM是为每个类创建。
如果我们有10类,例如,在数字识别,我们将有10向量,每个数字一个。
这样我们训练支持向量机(0)区分0类和其他类标记为1,其他模式为0;SVM
(1)以相同的方式将类1与其他类区分开来,等等。
在识别阶段,模式被提交到10向量,应答标签1的SVM表示模式的类[2]。
训练集是相同的数据库,所有向量只改变模式的标签。
如果该集合用于训练SVM(i),则归类为i的模式将被替换为1,其他模式被替换为0。
Nevesetal.[8]提出了组合一反对-一应用于手写数字识别。
研究人员对每个可能的类使用了不同的SVM。
在这种方法中,对称对(如0-1和1-0)被视为相同的对,而同一类的对(如1-1)不被考虑。
在手写数字识别的情况下,有10类:
0到9。
配对的类,我们有一个总计45对。
每个类将出现在9向量。
例如,类0将出现在以下对中:
0-1、0-2、0-3、0-4、0-5、0-6、0-7、0-8、0-9。
训练阶段包括两个步骤:
分离数据库,为每对SVM创建45个数据子集。
每个子集只包含其各自类的模式。
例如,如果该对负责将0与1区分开,则子集(0,1)将仅包含0和1个模式;
找到更好地分离类的内核函数
训练所有45个SVM
分类阶段包括向所有45个SVM提交模式,并确定SVM输出中最常见的类。
该算法的主要优点来自于每个SVM给出的最优超平面分离。
它产生高精度的识别率。
然而,组合的SVM的数量取决于类的数量。
如果问题有很多类,系统时间处理会增加。
Bellili等人提出的另一种使用SVM进行手写数字识别的方法是一种决策分类器。
[9]。
在这项工作中,研究人员观察到,在97.45%的病例中,正确的识别类别存在于最高MLP输出中。
然而,如果我们考虑两个最高的MLP产出,正确类别的百分比增加到99%的情况。
然后,研究人员证实了哪些主要的类对被混淆。
在他们提出的方法中,当这些对存在于两个最高MLP输出中时,研究人员使用SVM来决定哪个输出对应于正确的类。
对于所有其他情况,他们使用MLP输出。
在[7]中,主要思想是使用SVM作为决策者分类器来增加kNN识别率,类似于Bellili等人。
[9]。
在这种情况下的适应是在k个最近邻居中采用两个最常见的类,并使用SVM来决定这两个类之间的关系。
错误分类导致高处理时间或计算成本本质上并不理想,这是令人满意的技术。
在Ciresan等人数字识别任务使用MLP执行。
研究人员的观点是找到正确的MLP架构的主要问题是从训练数据集中产生一个强大的分类器。
该建议是提供具有隐藏层和神经元的MLP。
Camastra[18]将SVM与神经气体相结合。
该方法使用神经气体网络来验证在哪种情况下字符是大写的,然后定义字符的大写或小写形式是否可以包含在单个类中。
然后将字符提交给SVM识别器以获得最终分类。
在[19]中,研究人员创建了一个综合分类器,使用门控网络来组合来自三个不同神经网络的输出。
在[20]中提出了一种使用基于字符图像的递归细分的新特征提取技术的方法。
MLP和SVM的组合也用于识别没有西方语言。
3提出的算法
在分析了现有技术之后,我们提出了另一个简单的SVM组合。
主要思想是创建一个分层的SVM结构。
第一级由一组SVM组成。
每个类对有一个SVM,但是如果一个类是一对,则不能在其他对中。
例如,在数字识别的情况下,我们有10个可能的类(输出):
0到9.第一级将有五个支持向量机,这些对中的每一个对:
0-1,2-3,4-5,6-7和8-9。
该模式将由第一级的每个SVM分类。
预期用正确分类集训练的SVM正确地对样本进行分类,其他人可以选择其对中的任何类别。
第二级将使用与上一级相同的策略组合第一级获得的输出。
该过程将持续到只有一个输出。
这种分层结构的一个例子如图1所示。
其中字母a,b,x,y和i表示由SVM给出的输出,括号中的数字表示SVM可以区分的对。
4实验方法和结果
实验中使用的图像是从NISTSD19数据库[3]中提取的,它是美国国家标准和技术研究所提供的一个数字数据库。
该数据库中的每个图像都包含不同的数字,如图3所示。
利用连通分量标注的算法将图像分割成孤立位数[10]。
每个标签对应一个孤立的数字。
分割后,垂直和水平投影[15]被用来集中在图像中的数字。
大于20x25的图像被裁剪,只删除额外的白色边框。
如果图像中的对象大于20x25,则删除白色边框并调整数字大小。
之所以选择大小(20x25)是因为大多数数字是近似于此大小的。
在分类器的监督训练中,每个数字都被手工分离并标记成类。
最终数据库包含总共11377位数字。
每个类平均包含1150位数字。
这个数字数据库被分成训练集和测试集。
训练集包含7925示例。
它包含大约每类800位数。
测试集包含3452样本,每类大约350位数。
所有分类器的特征向量都是相同的。
它是作为一个向量结构的矩阵图像。
但是,在将其转换为矢量之前,图像又重新调整为12x15,以减少特征向量的维数,从而生成具有180个二进制特征的向量。
这个尺寸是根据先前的实验定义的。
4.1算法:
训练和配置
实验中使用的方法是MLP,kNN,MLP-SVM,45SVM(一对一),kNN-SVM,SVM(一对一)和所提出的分层SVM结构。
在实验中,我们尝试找到每个分类器的最佳配置。
所使用的配置如下所述:
a)多层感知器
输入数量:
180(基于特征向量);
隐藏层数:
一个;
隐藏层节点数:
180(在实验过程中,此数字减少并增加,这是找到的最佳拓扑)。
输出数量:
10(可能类数);
双曲正切作为所有节点的激活功能;
训练时期的数量:
30,000;
反向传播(梯度下降)作为训练算法。
b)支持向量机(对)
如前所述,为每个可能的对创建了一组训练数据库,并使用了45对。
多项式和高斯径向基函数(RBF)被用作核函数。
多项式核呈现最好的结果,被选为SVMs对和SVM一对一。
c)KNN
kNN主要参数是k值和使用的距离方程。
k值在3和11之间变化。
实验中使用的距离是欧几里得,曼哈顿和闵可夫斯基。
发现最好的结果是k等于3和欧几里得距离。
所有算法都使用MatlabTM[16]版本R2010a实现。
所有算法在参数选择后训练。
在整个方法中使用相同训练的MLP和SVM,以及相同的kNN参数。
4.2实验和结果
使用两个标准来比较七种算法(MLP,kNN,MLP-SVM[9],45SVMs-一对一[8],分层SVM组合,kNN-SVM[7]和SVM-所有)。
这些标准是处理时间和识别率。
表1给出了算法在测试集上获得的识别率。
表2给出了在每个算法中分类一个模式的处理时间(以秒为单位)的平均和标准偏差。
考虑到具有分层SVM的算法是最快的算法(表2)的假设的统计测试中,结果表明,假设是98%的置信度的假设。
分析SVM组合,一对一和一对一,他们呈现有希望的结果,但如果使用分类器的标准是:
处理时间和高识别率,则可能不足。
在一个对抗中,主要的困难是找到一个增加特征空间的内核函数,使一个类与其他类线性分离。
如果类的数量增加,找到有效内核函数的复杂度也会增加。
在某些情况下,此组合不会返回有效的输出。
例如,在向所有SVM提交一个模式之后,输出被标记为0,并且不能进行分类。
在一对一中,使用的SVM的数量是基于类的数量。
该数字可以通过使用下面的公式
(1)获得。
本文提出的架构也取决于类的数量,但是由于SVM的数量较少,所以显着降低。
基于kNN的技术获得了较高的识别率和较长的处理时间。
因此,例如,这些方法不足以用于在线识别任务。
如果我们考虑识别率标准,则基于SVM的技术获得了良好的效果。
一对一的方法是唯一一个在SVM方法中不具有高识别率的方法。
然而,仔细分析,我们可以看到,在634个错误中,629没有被标记,当所有SVM返回相同的分类时,这样就不可能对模式进行分类(样本被分类器拒绝)。
在634个错误中,只有15个错误分类。
当拒绝而不是分类错误时,这种方法可以是一个很好的选择。
所提出的分级SVM是手写数字的第三好的分类器,但是第一和第二之间的差异非常小,所以在统计测试中它们是等效的。
在这种情况下,处理时间是主要目标,因为kNN-SVM和45SVMs技术是最慢的,所提出的方法是最快的。
因此,分层方法可以在短的处理时间内被高识别率所强调。
在图4,将评估方法的处理时间和误差率归一化,并在图形中绘制在一起。
在这种情况下,最好的方法是结果接近图形来源的方法。
该分析表明,本文提出的方法是最佳评估方法。
5结论
本文提出了一种考虑到短处理时间和高精确识别率的SVM应用于手写识别问题的方法。
经过对相关文献的简要研究,发现传统分类器由于处理次数少,识别率高,仍然被用于识别手写文本。
新的方法,如Neves等[8]和Zanchettin等[7]增加了识别率,同时也增加了处理时间和计算成本。
基于这些标准,对手写体数字识别的经典分类器和分类符进行了实现和测试。
提出的新方法考虑了处理时间和识别率的最佳结果。
基于kNN的技术处理时间最长,识别率最高。
另一方面,递阶SVM组合获得了高识别率和最短的处理时间。
通过实验验证,当这两种标准都是必须要达到的要求时,这种SVM组合是最佳选择。
未来的作品将考虑手写字符,并尝试将提出的方法与单词分类方法相结合。
AnEfficientWayofCombiningSVMsforHandwrittenDigitRecognition
Abstract.ThispaperpresentsamethodofcombiningSVMs(supportvectormachines)formulticlassproblemsthatensuresahighrecognitionrateandashortprocessingtimewhencomparedtootherclassifiers.ThishierarchicalSVMcombinationconsidersthehighrecognitionrateandshortprocessingtimeasevaluationcriteria.Theusedcasestudywasthehandwrittendigitrecognitionproblemwithpromisingresults.
Keywords:
patternrecognition,handwritingdigitclassifier,supportvectormachine.
1Introduction
Nowadaystheworldisdigital.Technologyhasbecomeubiquitousinpeople´slives,andsomehumantasks,suchashandwritingrecognition,voicerecognition,facerecognitionandothersarenowmachinetasks.Themainrecognitionprocess[1][2]usedinthiskindofapplicationrequiresthefollowingsteps:
dataacquisition;pre-processdatatoeliminatenoise;segmentation,wheretheobjects(text,numbers,face,etc)toberecognizedarelocatedandseparatedfromthebackground;featureextraction,wherethemainfeaturesofeachobjectareextracted;andfinallythereistherecognition,orclassification,wheretheobjectsarelabeledbasedontheirfeatures.Thispaperisfocusedontheclassificationtaskandweusedascasestudythehandwrittendigitrecognitionproblembecausethistaskcanrepresentsomeclassificationissues.Forexample,thepatternscanbeambiguousorsomefeaturesaresimilarinmorethanonegroupofclasses.AnexampleofthisproblemispresentedinFig.1.InFig.1aandinFig.1cthecorrectvalueoftheimageisseven,andinFig.1b,four.ButtheFig.1aandbaresimilarandcouldbethesamedigit.Fig.1ccouldbeconfusedasadigitone.
Becauseofthis,tobuildaclassifierthatgeneralizeswellisahardtask.Insomecasesthebestchoiceistrytousethecontextinformationtodifferentiateoneclassfromtheother.
TheHiddenMarkovModels(HMM)[3]isatechniquefrequentlyusedtoanalyzethecontextandimprovetheclassifierrecognitionrate.Butitsmaindisadvantageistheprocessingtime.Modelingcontexttechniquesalsousuallyareslower.Thus,ourresearchfocusesonstudyingtheoptimizationandcombinationofclassicalapproachesandtryingtointroducemoreknowledgeintheclassifier.
Abriefoverviewofthehandwrittendigitrecognitionresearchinrecentyearsshowsthatclassicalclassifierssuchasthemultilayerperceptron(MLP)[5],k-nearestneighbor(kNN)[2]andsupportvectormachine(SVM)[6]areextensivelyused.Someauthorstriedcombinationsoftheseclassifierstoimproveresults[7][8][10][11][12].Themainproblemofcombiningdifferenttechniquesisthatalthoughwearecombiningtheadvantages,wearealsojoiningthedisadvantagesofboth.
TheMLP[5]isapowerfulclassifierformulticlassproblems,butthereisadisadvantagewhenusingback-propagationasthelearningalgorithm.Thealgorithmcanstoptraininginalocalminimum.Itispossibletousethemomentumstrategytoescapefromlocalminima,however,ifwetrytocontinuethetrainingphasethenetworkcanoverfittheweights,decreasingthegeneralizationcapability.kNN[2]classifiesasamplebasedonthedistancefromthepatternsintrainingsetnearesttothesample.Thus,themorepatternsthereareintrainingset,equallydistributedbetweentheclasses,higheristherecognitionrate.Butthetimetoclassifyasampledependsofthenumberofpatternsintrainingdatabase.Therefore,thistechniqueisusuallyslow.
TheSVM[6]isconsideredthebestbinaryclassifier,becauseitfindsthebestmarginofseparationbetweentwoclasses.ThefactthatSVMisabinaryclassifierisitsgreatestdisadvantage,asmostoftherecognitiontasksaremulticlassproblems.Tosolvethis,someauthorstrytocombinetheSVMs[8]oruseitasadecisionmakerclassifier[9].
Basedontheseassumptions,thispaperintroducesahierarchicalSVMcombinationthatprovidesahighlyaccuraterecognitionrateinashorttimetoanswerwhenappliedtohandwrittendigitrecognition.
Thepresentstudyisstructuredasfollows:
relatedworksarepresentedinSection