神经网络论文.docx

资源描述

神经网络论文.docx

《神经网络论文.docx》由会员分享，可在线阅读，更多相关《神经网络论文.docx（12页珍藏版）》请在冰豆网上搜索。

神经网络论文.docx

神经网络论文

摘要

神经网络是一门发展十分迅速的交叉学科，它是由大量的处理单元组成非线性的大规模自适应动力系统。

神经网络具有分布式存储、并行处理、高容错能力以及良好的自学习、自适应、联想等特点。

目前已经提出了多种训练算法和网络模型，其中应用最广泛的是前馈型神经网络。

前馈型神经网络训练中使用最多的方法是误差反向传播（BP）学习算法。

但随着使用的广泛，人们发现BP网络存在收敛速度缓慢、易陷入局部极小等缺陷。

于是我们就可以分析其产生问题的原因，从收敛速度和局部极小两个方面分别提出改进的BP网络训练方法。

关键字：

神经网络，收敛速度，局部极小，BP网络，改进方法

Abstract

Neuralnetworkisacrossdisciplinewhichnowdevelopingveryrapidly,itisthenonlinearityadaptivepowersystemwhichmadeupbyabundantoftheprocessingunits.Theneuralnetworkhasfeaturessuchasdistributedstorage,parallelprocessing,hightoleranceandgoodself-learning,adaptive,associate,etc.Currentlyvarioustrainingalgorithmandnetworkmodelhavebeenproposed,whichthemostwidelyusedtypeisFeedforwardneuralnetworkmodel.Feedforwardneuralnetworktrainingtypeusedinmostofthemethodisback-propagation（BP）algorithm.ButwiththeuseofBPnetwork,peoplefindthattheconvergencespeedisslow,andeasyfallintothelocalminimum.Sowecananalyzethecausesofproblems,fromthetwoaspectsrespectivelywecanimprovetheBPtrainingmethodsofneuralnetwork.

Keywords：

neuralnetwork，convergencespeed，localminimum，BPneuralnetwork

improvingmethods

4结束语…………………………………………………..………………….…………13

1.神经网络概述

1.1生物神经元模型

人脑是由大量的神经细胞组合而成的，它们之间相互连接。

每个神经细胞（也称神经元）具体如图1.1所示的结构。

图1.1生物神经元模型

由图看出，脑神经元由细胞体、树突和轴突构成。

细胞体是神经元的中心，它一般又由细胞核、细胞膜等构成。

树突是神经元的主要接受器，它主要用来接受信息。

轴突的作用主要是传导信息，它将信息从轴突的起点传到轴突末梢，轴突末梢与另一个神经元的树突或细胞体构成一种突触的机构。

通过突触实现神经元之间的信息传递。

1.2人工神经元模型

人工神经网络是利用物理器件来模拟生物神经网络的某些结构和功能。

图1.2是最典型的人工神经元模型。

图1.2人工神经元模型

这个模型是1943年心理学家McCulloch和科学家W.Pitts在分析总结神经元基本特性的基础上首先提出的M-P模型，它是大多数神经网络模型的基础。

---代表神经元i与神经元j之间的连接强度（模拟生物神经元之间突触连接强度），称之为连接权;

---代表神经元i的活跃值，即神经元状态；

---代表神经元j的输出，即是神经元i的一个输入；

---代表神经元的阐值。

函数f表达了神经元的输入输出特性。

在M-P模型中，f定义为阶跳函数:

人工神经网络是一个并行与分布式的信息处理网络结构，该网络结构一般由许多个神经元组成，每个神经元由一个单一的输出，它可以连接到许多其他的神经元，其输出有多个连接通路，每个连接通路对应一个连接权系数。

严格来说，神经网络是一个具有如下性质的有向图。

（1）对于每个结点有一个状态变量

；

（2）结点i到结点j有一个连接权系数

；

（3）对于每个结点有一个阈值

；

（4）对于每个结点定义一个变换函数

，最常见的情形为

。

图1.3表示了两个典型的神经网络结构，做为前馈网络，右为反馈网络。

图1.3典型的神经元网络结构

2．BP神经网络

人工神经网络是一种信息处理系统，它有很多种模型。

其中有一种用误差传播学习算法（ErrorBackPropagation即BP算法）进行训练的多层前馈神经网络，简称为BP网络。

BP神经网络模型是人工神经网络的重要模型之一。

它有广泛的应用，主要包括模式识别及分类、故障智能诊断、图像处理、函数拟合、最优预测等方面的应用。

2.1BP神经网络特点：

l）分布式的信息存储方式

神经网络是以各个处理器本身的状态和它们之间的连接形式存储信息的，一个信息不是存储在一个地方，而是按内容分布在整个网络上。

网络上某一处不是只存储一个外部信息，而是存储了多个信息的部分内容。

整个网络对多个信息加工后才存储到网络各处，因此，它是一种分布式存储方式。

2）大规模并行处理

BP神经网络信息的存储与处理（计算）是合二为一的，即信息的存储体现在神经元互连的分布上，并以大规模并行分布方式处理为主，比串行离散符号处理的现代数字计算机优越。

3）自学习和自适应性

BP神经网络各层直接的连接权值具有一定的可调性，网络可以通过训练和学习来确定网络的权值，呈现出很强的对环境的自适应和对外界事物的自学习能力。

4）较强的鲁棒性和容错性

BP神经网络分布式的信息存储方式，使其具有较强的容错性和联想记忆功能，这样如果某一部分的信息丢失或损坏，网络仍能恢复出原来完整的信息，系统仍能运行。

1986年由Rumelhart和McCelland领导的科学家小组在《ParallelDistributedProcessing》一书中，对具有非线性连续转移函数的多层前馈网络的误差反向传播算法进行了详尽分析，实现了Minsky关于多层网络的设想。

人工神经网络具有广泛的应用领域;在所有的神经网络应用中，BP神经网络所占比例在80%以上。

BP神经网络因其良好的非线性逼近能力和泛化能力以及使用的易适性而更是受到众多行业的青睐。

BP神经网络采用的反向传播算法（BP算法）是目前在前馈神经网络中研究得最为成熟且应用最广的一种有导师学习算法。

BP神经网络在模式识别、图像处理、信息处理、智能控制、故障检测、企业管理、市场分析等方面的应用已取得了显著成效。

可以说，BP神经网络的应用已深入到经济、化工、工控、军事等众多领域，并且从其应用的优势及趋势可以预言其应用前景将更加光明。

在这样一个信息及经济高度发达的时期，研究BP神经网络，为其进一步的发展及应用做出一定的贡献是极具理论价值和实用价值。

2.2BP神经网络介绍

BP网络是一种单向传播的多层前馈网络，它包含输人层、隐含层和输出层，如图2.1所示，是目前应用较多的一种模型。

该算法在层次型网络结构上采用误差逆传播学习方式，学习过程由正向传播和误差逆传播组成。

图2.1BP网络示意图

BP网络的结构如图1所示，算法的主要思想是把学习过程分为两个阶段:

第一阶段是正向传播过程，输入信息从输入层经隐层逐层计算各单元的实际输出值，每一层神经元的状态只对下一层神经元的状态产生影响;第二阶段是反向传播过程，若在输出层未能得到期望的输出值，则逐层递归计算实际输出与期望输出之间的差值，根据此误差修正前一层权值使误差信号趋向最小。

它通过连续不断地在相对于误差函数斜率下降的方向上计算网络权值和偏差变化而逐渐逼近目标。

每一次权值和误差的变化都与网络误差的影响成正比。

假设神经网络每层有N个节点，若某一层节点j与上层节点i之间权值为Wij，节点的输入总和计为netj、输出计为Oj，转移函数取非线性的Sigmoid型函数

，对于节点j，其输入值为其前一层各单元加权和

，输出值为

.定义误差函数

式中

为输出期望值，

为输出实际值。

BP算法采用梯度法调整权值，每次调整的量

、式中0<

<1,称为学习速率，它决定每一次训练中的权值变化大小。

进一步简化计算有

，

其中：

，j为输出层单元；

，j为隐层单元。

BP网络是一种多层前馈神经网络，它采用后向传播算法，亦称BP算法（首先样本从输入层经各中间层向输出层传播，输出层的各神经元获得网络的输人响应;然后按照减小目标输出与实际输出误差的方向，从输出层开始经各中间层逐层修正各连接权值，以达到学习目的）。

BP网络具有结构简单、可操作性强、能模拟任意的非线性输入/输出关系等优点，目前已被广泛应用于模式识别、智能控制、预测、图像识别等领域。

但是，BP网络存在两个突出问题（①收敛速度慢，②易陷入局部极小点）使其应用受到了一定限制。

综上，我们可以看出BP算法主要的优点是简单、易于实现。

但是BP算法有两个致命的缺陷:

首先最大的缺陷是BP算法很可能陷入局部极小值，因为通常的误差曲面都是凸凹不平的，会有多个极值点。

BP算法的另一个缺陷是收敛速度慢，当采用梯度下降法时步长不容易确定，步长太长则达不到精度，甚至会发散;太小则迭代步骤增加，收敛速度慢。

鉴于此，目前对BP算法的改进主要集中在两个方面:

1.是避免陷入局部极小值，一旦陷入要想办法逃出;

2.是改进迭代算法，加快收敛速度，较常用的方法是共轭梯度法、变尺度法等。

3.BP神经网络算法的改进

3.1BP网络训练过程介绍

BP网络其实质仍然是多层前馈型人工神经网络,并且一般认为网络是严格分层的,即当且仅当两相邻层的节点才有可能互联。

又根据万能逼近定理（UniversalApproximationTheory）:

如果隐层节点是可以根据需要自由设置的,那么用三层S状的I/O特性的节点可以以任意精度逼近任何具有有限间断点的函数。

一般地,在研究BP网络时都假设网络具有输入层、隐层、输出层共三层;其结构见图3.1。

各神经元节点的激活函数一般可以是S型函数和线性函数。

图3.1BP网络结构示意图

BP网络的整个训练过程是建立在输入/输出样本对基础上的;在训练开始前赋予权值较小的随机值。

则整个训练过程大致可分为以下几步:

1）从样本集中选择有用样本对,将输入样本送给BP网络的输入节点;

2）计算BP网络对应该输入的输出值;

3）求出BP网络实际输出和理想输出（输出样本）之间的误差值;

4）根据采用的算法调整网络的权值以减小误差;

5）重复1～4达到预设的训练要求（最大允许误差、最大训练次数等）。

从以上步骤可以看出:

1）、2）步是从输入节点到输出节点的前向过程;3）、4）步则是从输出节点到输入节点的误差反传过程——这也正是BP算法的由来。

3.2动态调节学习率的改进方法

BP算法是基于误差-修正学习的，修正量的大小受到学习率的控制。

对学习率的改进是BP算法改进的重要部分，因为学习率的大小对收敛速度和训练结果影响很大。

较小的学习率可以保证训练能稳定的收敛，但学习速度慢，训练时间长;较大的学习率可以在某种程度上提高收敛速度，但可能导致振荡或发散。

因此一个固定的学习率不可能很好地适用于网络的整个学习过程。

为实现快速而有效的学习收敛过程，人们提出了许多动态调节学习率的方法（动态调节学习率，即在网络学习过程中，学习率随环境状态的变化不断调整）。

以下是几类动态调节学习率的方法。

（1）学习率会随训练次数进行调节，但在每次训练中整个网络的学习率是相同的。

具体有以下两种实现方法:

①开始时以较大的学习率训练，然后根据训练情况调节学习率。

学习率渐小法（即在网络训练开始阶段，实际输出与期望输出误差较大时，采用较大的学习率，并让其随着学习次数的增加而递减），该方法在许多改进的BP算法中得到应用，它使网络在训练开始阶段能够以较大幅度修改权值，误差快速减小，然后随着训练渐渐稳定逐步减小学习率，不仅加快了网络收敛速度，也较好地避免了振荡现象。

②开始时以较小的学习率训练，然后根据训练情况调节学习率。

以较小的学习率开始训练，如果连续的训练使误差减小，则指数地增大学习率;如果误差增长非常大时，则快速减小学习率。

以较小的学习率开始训练，如果连续训练时误差函数梯度方向很稳定，则增大学习率;如果每次训练时误差函数梯度方向的变化都很大，则快速减小学习率。

但是这种调节学习率的方法虽然能在一定程度上改善网络训练速度，但常因学习率的调节幅度控制不当，导致网络训练产生振荡现象。

（2）每个权值都对应一个学习率，学习率根据权值的变化而改变。

Jacobs的delta-bar-delta方法（亦称为DBD算法）就是对每个权值分别计算其各时刻的学习率。

它对网络性能有较大的改善，是一种很有效的方法。

但是它仍然是一种梯度下降法，没有从根本上解决BP网络的问题，并且对参数的改变十分敏感，很容易引起收敛变慢或振荡发散。

每个权值都有一个不同的学习率，可以避免误差函数曲面较平坦区域的收敛速度太慢和陡峭区域的振荡现象。

然而要为每个权值寻找一个合适的学习率通常会产生收敛速度和训练算法稳定性之间的矛盾。

3.3BP神经网络收敛速度的改进方法

1）　激活函数的选取

BP网络神经元节点的激活函数选用对数S型函数,即:

（1）

式中,I表示输入权值总和（包括阈值）,O表示神经元输出。

（1）式的一阶导数为：

（2）

2）输出层权值调整

输出层权值的调整可以直接通过实际输出和期望输出的误差来对相应的权值进行调整。

现在考察第j隐层中的p节点和第k输出层（有时输出层不止一层）的q节点,可以用k输出层的期望输出减去实际输出得到此时的误差值,根据传统动量BP算法可以得到输出层的δ值:

（3）

E是q的期望输出值。

从而可以进一步得到p、q的权值增量和新的连接权值:

（4）

（5）

式中,η是学习率、α是动量因子、

是隐层p节点和输出层q节点第n次迭代的连接权值、

是（n+1）次迭代的权值、

是输出层k中q神经元的δ值、

是隐层j中p神经元的输出值。

另外,n=0时即第一次的调整假设α=0。

现在改变权值调整规则,将其改写为如下形式:

（6）

（7）

　3）隐层权值调整

为了调整每层的权值,BP网络将误差在网络各层之间反向传播。

（6）、（7）两式适合于网络的所有各层。

但是,对于隐层，由于不知道期望输出值，所以不能直接计算出隐层的误差值,即是说等式（3）对于隐层是不存在的。

这时可以借助于输出层的误差来调整隐层的权值。

隐层神经元前向传播时,通过权值将输入值传到输出层;同时对于反向,当进行权值调整时,可以将输出层的δ值返回到隐层。

所以,对于隐层的δ值可以采用下式得到:

（8）

然后采用（6）、（7）两式得到隐层节点的权值。

这种方法可以使BP网络的收敛速率有很大提高,而且对网络的误识率也有较大改进,体现了改进BP网络的有效性。

3.4局部极小问题的几种改进方案

BP网络的权值修正方法即误差函数梯度下降法,从理论上看其训练是沿着误差曲面的切面向下逼近的。

对一个复杂网络来说,其误差曲面是一个高维空间中的曲面,是非常复杂不规则的,其中分布着许多局部极小点。

在网络的训练过程中,很容易陷入这样的局部极小点,而且一旦陷人就难以逃脱。

以下是几种改进方案：

（1）选取合适的初始权值

BP算法采用的是梯度下降法,训练是从某一起始点沿误差函数的斜面逐渐达到误差的最小值,一旦初始值确定,就注定了网络收敛的方向。

因此选择合适的初始权值就显得相当重要。

所以一般设置了多个初始值,然后从中选择训练效果最好的一个是一个很好的方法。

在实际训练中可以采取了比较法选取,训练时随机产生多个初始权值,训练后选择一个最佳值作为初始权值。

当然也可以在选取初始权值时,使节点输入加权的绝对值小于1，但不能太小；还希望初始权值在输入累加时,使每个神经元的状态值接近于零,这样可以保证每个神经元在一开始就在它们激活函数变化最大的地方进行。

（2）调整网络权值修改量和η动量项α

增加动量项的连接权值调整公式为：

（1）

式

（1）中,α为动量常数,通常取0.9左右,

为本次应得校正量,

为前次校正量。

增加动量项降低了网络对误差曲面局部调节的敏感性,从而有效地抑制了网络陷于局部极小。

但这不能完全避免网络陷入局部极小,一旦网络陷入其中则无法逃脱,经过长时间的学习后,网络的误差仍得不到有效下降,造成网络收敛能力降低。

为改善这种情况,本文提出一种类似退火算法的修正方案,该方法的思想是：

在网络误差较长时间未下降时,使网络的权值修改量加大,以一定的概率使网络重新处于高收敛系数和动量项的方式下学习,过一段时间后又重新使收敛系数和动量项逐步减少,从而使网络跳出局部极小,达到收敛。

在解决局部极值问题上,上面曾经提到的模拟退火算法确有一定作用,但是学习速度却非常慢。

考虑到学习率

既对权值有影响,又在整个训练过程中是单一的变量,可以将模拟退火思想用于调整

大大减少了计算量,加快了收敛速度,而且改善了局部极小问题。

这种算法只对一个变量使用模拟退火算法,因而大大减少了计算量,明显提高了收敛速度,这对权值多的多层网络来说尤为明显。

4.结束语

总结了针对BP网络的两个突出问题所做的各种网络参数改进方法。

在收敛速度方面主要讨论了学习率改进方法对此的影响。

大量研究和实验表明，与固定学习率相比，动态学习率调节方法提高了BP网络的收敛速度和误差精度，改善了收敛性能，减小了网络陷人局部极小和产生振荡的可能性。

不同的动态学习率调节方法有不同的特点，在实际应用中，应该针对具体情况来选择适合的动态学习率调节方法。

在局部极小方面主要讨论了网络初始值的选取和连接权值的调整对此的改善。

这些改进方法在一定程度上很好地避免了陷入局部极小点的问题。

这给我以启示：

在解决具体问题时，需要综合考虑各种因素的影响，合理改进网络参数或是与其他方法相结合，以使网络工作在最优的状态。

参考文献

（1）龚安，张敏.BP网络自适应学习率研究【J】.科学技术与工程，2006,6

（1）:

64-66.

（2）VoglTP,MangisJK,RiglerJK,etal.Acceleratingthe

ConvergenceoftheBackPropagationMethod【J】.BiologicalCybernetics，1988，59（3）:

257-263.

（3）ChanLW，FallsideF.AnAdaptiveTrainingAlgorithmforBackPropagationNetworks【J】.Computers,SpeechandLanguage，1987

（2）:

205-218.（4）JacobsRA.IncreasedRatesofConvergenceThroughLeamingRateAdaptation【J】.NeuralNetworks,1988，1（4）:

295-307.

（5）李剑萍，胡光锐，孙逊.一种改进的BP算法在导弹综合测试专家系统中的应用【J].计算机应用与软件，2005，22

（1）:

100-102.

（6）HsinHC,LiCC,SunM，etal.AnAdaptiveTrainingAlgorithmforBack-propagationNeuralNetwork[J].IEEETransactionsonSystem,ManandCybernetics,1995，25（4）:

512-514.

（7）MagoulasGD,VrahatisMN,AndroulakisGS.EffectiveBack-propagationwithVariableStepSize【J】.NeuralNet-works，1997，10

（1）:

69-82.

（8）张磊，胡春，钱锋.BP算法局部极小问题改进的研究进展【J】.工业控制计算机，2004,17（9）:

33-34.50.

展开阅读全文