基于神经网络的印刷体字母识别文档格式.docx

资源描述

基于神经网络的印刷体字母识别文档格式.docx

《基于神经网络的印刷体字母识别文档格式.docx》由会员分享，可在线阅读，更多相关《基于神经网络的印刷体字母识别文档格式.docx（19页珍藏版）》请在冰豆网上搜索。

基于神经网络的印刷体字母识别文档格式.docx

2BP网络介绍

BP神经网络又称误差反向传递神经网络。

它是一种依靠反馈值来不断调整节点之间的连接权值而构建的一种网络模型。

它的整个体系结构分为输入层、隐藏层和输出层,其中隐藏层根据具体情况的需要,可以是一层结构也可为多层结构。

BP算法的基本思想是:

学习过程由信号的正向传播与误差的反向传播两个过程组成。

正向传播时,输入样本从输入层传入,经各隐藏层逐层处理后，传向输出层。

若输出层的实际输出与期望的输出（教师信号）不符,则转入误差的反向传播阶段。

误差反传是将输出误差以某种形式通过隐藏层向输入层反传,并将误差分摊给各层的所有单元,从而获得各层单元的误差信号,此误差信号即作为修正各单元权值的依据。

这种信号正向传播与误差反向传的各层权值调整过程,是周而复始地进行的。

权值不断调整的过程,也就是网络的学习训练过程。

此过程一直进行到网络输出的误差减少到可接受到的程度,或进行到预先设定的学习次数为此。

3系统实现思想

字母识别系统一般分为预处理、特征提取和分类器三部分。

其中，预处理包括将图片从模拟图像到进行二值化、归一化等过程；

特征提取和分类器的设计是整个系统的核心部分。

通过对各个部分分别进行编程处理来实现，将每部分编为可调用的函数，最后统一对函数进行调用，清晰方便。

3.1字母识别整体框图

aBP神经网络训练过程

bBP神经网络识别过程

图2.1BP神经网络识别系统

3.2预处理及其特征提取方法

本文使用傅里叶描述符及其反变换进行图片的二值化、字母轮廓提取，之后进行归一化，将其特征变成1*120的矩阵，之后选取里面的六十个点变为1*60的矩阵。

特征提取程序：

functionFD=Feature_Building（RGB）

%RGB=imread（'

A.bmp'

）;

%figure

（1）,inshow（RGB）

[B]=outline（RGB）;

%figure

（2）

%subplot（221）,draw_outline（B）;

%title（'

outlineofobject'

[m,n]=size（B）;

FD=fsd（B,30,m,4）;

其中outline、fsd为傅里叶描述及其反变换程序。

outline程序：

%%Functionforextractingoutlineofobject;

Q.K.,2008.4.29

%%DeaprtmentofAutomation,TsinghuaUniv.Beijing100084,China.

function[outline]=outline（RGB）

I=rgb2gray（RGB）;

[junkthreshold]=edge（I,'

sobel'

fudgeFactor=.5;

BWs=edge（I,'

threshold*fudgeFactor）;

%Step3:

Dilatetheimage

se90=strel（'

line'

3,90）;

se0=strel（'

3,0）;

BWsdil=imdilate（BWs,[se90se0]）;

%Step4:

Fillinteriorgaps

BWdfill=imfill（BWsdil,'

holes'

%Step5:

Removeconnectedobjectsonborder

BWnobord=imclearborder（BWdfill,4）;

%Step6:

Smoothentheobject

seD=strel（'

diamond'

1）;

BWfinal=imerode（BWnobord,seD）;

BWfinal=imerode（BWfinal,seD）;

bw=bwareaopen（BWfinal,30）;

%%fillagapinthepen'

scap

[B,L]=bwboundaries（bw,'

noholes'

outline=B{1};

fsd程序见程序清单。

3.3BP神经网络结构

3.3.1输入层神经元个数的确定

将图像的特征向量作为神经网络的输入，所以神经网络的输入层神经元个数等于特征向量的维数，即1×

60=60个输入神经元。

3.3.2隐含层神经元个数的确定

隐层节点数对网络的学习和计算特性具有非常重要的影响，是该网络结构成败的关键。

若隐层节点数过少，则网络难以处理复杂的问题；

但若隐层节点数过多，则将使网络学习时间急剧增加，而且还可能导致网络学习过度，抗干扰能力下降。

本文根据实际的实验，确定隐含层神经元的个数为15个。

3.3.3输出层神经元个数的确定

因为要识别26个英文大写字母，因此输出选择26×

1的矩阵，即输出层神经元的个数为26个。

当26个字母输入神经网络后，在对应的位置上输出1，其他位置上输出零。

当网络进入识别过程时，哪个位置上输出的期望值最大，认为识别出的是这个位置上的字母。

3.3.4BP神经网络的构造

建立一个前向BP神经网络函数newff:

net=newff（minmax（P）,[S1,S2],{‘logsig’,‘logsig’},‘trainlm’）;

net.LW{2,1}=net.LW{2,1}*0.01;

net.b{2}=net.b{2}*0.01;

其中minma（P）为神经网络的对它的60个输入元素的最大值和最小值的限制。

P为训练样本集合。

S1、S2分别为该神经网络的隐含层和输出层的神经元个数。

{‘logsig’,‘logsig’}为神经网络的各层的转移函数,均设置为对数S型激活函数。

训练函数采用‘trainlm’。

3.4BP神经网络的训练

3.4.1训练样本集合和目标值集合

字母图片归一化后的图像为60×

1的矩阵，用60×

26的矩阵形成一个训练样本；

目标矢量是希望每一个数字输入神经网络后在输出神经元对应的位置上为1,其他的位置为0。

为此取目标矢量为对角线上为1的26×

26的单位阵,用matlab命令实现为:

T=eye（26）;

3.4.2网络训练

隐含层神经元的传递函数采用s型对数函数logsig，输出层神经元传递函数也采用s型对数函数，训练函数采用trainlm，性能函数采用sse，训练步数设置为最大5000，性能目标值为0.05,。

BP训练程序：

net.performFcn='

sse'

;

%设置目标性能函数

net.trainParam.goal=0.05;

%性能目标值

net.trainParam.show=20;

%显示间隔次数

net.trainParam.epochs=5000;

%最大训练次数

net.trainParam.mc=0.95;

[net,tr]=train（net,P,T）;

BP网络训练流程图：

使用第一组样本进行训练的结果：

TRAINLM,Epoch0/5000,SSE169.303/0.05,Gradient39.0748/1e-010

TRAINLM,Epoch20/5000,SSE9.07917/0.05,Gradient0.647529/1e-010

TRAINLM,Epoch40/5000,SSE5.45171/0.05,Gradient0.465044/1e-010

TRAINLM,Epoch60/5000,SSE3.85999/0.05,Gradient1.13736/1e-010

TRAINLM,Epoch80/5000,SSE3.37108/0.05,Gradient0.970379/1e-010

TRAINLM,Epoch100/5000,SSE1.43394/0.05,Gradient0.27961/1e-010

TRAINLM,Epoch120/5000,SSE1.13878/0.05,Gradient0.661835/1e-010

TRAINLM,Epoch140/5000,SSE0.561939/0.05,Gradient0.497918/1e-010

TRAINLM,Epoch160/5000,SSE0.537153/0.05,Gradient0.0963243/1e-010

TRAINLM,Epoch180/5000,SSE0.518194/0.05,Gradient0.00990168/1e-010

TRAINLM,Epoch200/5000,SSE0.461637/0.05,Gradient11.4576/1e-010

TRAINLM,Epoch206/5000,SSE0.0350697/0.05,Gradient0.265104/1e-010

TRAINLM,Performancegoalmet.

可见经过206次训练后，网络误差达到要求，误差曲线如下图：

使用第二组样本进行训练的结果：

TRAINLM,Epoch0/5000,SSE168.635/0.05,Gradient33.7987/1e-010

TRAINLM,Epoch20/5000,SSE3.28669/0.05,Gradient40.5407/1e-010

TRAINLM,Epoch32/5000,SSE0.0441687/0.05,Gradient0.0844925/1e-010

可见经过26次训练之后，网络误差达到要求。

误差曲线如下图所示：

3.5字母的识别

以上所介绍为网络的学习期，学习过程结束后，网络进入工作期，即可以进行字母的识别。

单一字母识别程序如下：

RGB=imread（'

\ProgramFiles\MATLAB71\work\新建文件夹1\A11.bmp'

%工作期A11为大写字母A略带噪声的图片

FDB=Feature_Building（RGB）;

%提取字母轮廓特征

FDB=reshape（FDB,1,120）;

FDB=FDB（1:

120）;

%归一化处理

[a,b]=ma

展开阅读全文