多层感知器学习算法研究.docx

上传人:b****6 文档编号:3329815 上传时间:2022-11-21 格式:DOCX 页数:45 大小:314.78KB
下载 相关 举报
多层感知器学习算法研究.docx_第1页
第1页 / 共45页
多层感知器学习算法研究.docx_第2页
第2页 / 共45页
多层感知器学习算法研究.docx_第3页
第3页 / 共45页
多层感知器学习算法研究.docx_第4页
第4页 / 共45页
多层感知器学习算法研究.docx_第5页
第5页 / 共45页
点击查看更多>>
下载资源
资源描述

多层感知器学习算法研究.docx

《多层感知器学习算法研究.docx》由会员分享,可在线阅读,更多相关《多层感知器学习算法研究.docx(45页珍藏版)》请在冰豆网上搜索。

多层感知器学习算法研究.docx

多层感知器学习算法研究

多层感知器学习算法研究

中文摘要

多层感知器是一种单向传播的多层前馈网络模型,由于具有高度的非线性映射能力,是目前神经网络研究与应用中最基本的网络模型之一,广泛应用于模式识别、图像处理、函数逼近、优化计算、最优预测和自适应控制等领域。

而多层感知器采用的是BP算法。

BP算法的收敛速度慢是个固有的缺点,因为它是建立在基于只具有局部搜索能力的梯度法之上的,是只具有局部搜索能力的方法,若用于多个极小点的目标函数时,是无法避免陷入局部极小和速度慢的缺点的。

因此,对BP算法的研究一直以来都是非常重要的课题。

毕业设计课题旨在对多层感知器的学习算法进行研究,并提出一种新的学习算法。

由于BPWE(权值外推BP)算法和TBP(三项BP)算法都是基于权值调整的改进算法,而考虑将TBP算法中的均衡因子融入到BPWE算法中,从而使后者对权值的调整由原来的两项增加为三项,从而提出一种新的学习算法---TWEBP算法。

为了验证本算法的优点,采用了三个例子,分别对异或问题、三分类问题和函数逼近问题进行了实验,发现其收敛速度和逃离局部极小点的能力都优于传统算法。

关键词:

多层感知器学习算法趋势外推均衡因子TWEBP

作者:

王之仓指导教师:

邓伟

ResearchonMultilayerPerceptronLearningAlgorithmABSTRACT

MultilayerPerceptronisasortofmultilayerfeed-forwardsingledirectpropagationnetworkmodel.Becauseofitsgoodnonlinearmappingability,itisoneofthebasicmodelsintheresearchandapplicationofneuralnetworkatpresent,whichhasbeenwidelyappliedtopatternrecognition,imageprocessing,functionapproximation,optimizationcomputation,optionalprediction,adaptationcontrolandsoon.MultilayerPerceptiontrainedwithBPalgorithmoftenhasalowconvergencespeedasanaturaldrawback,becauseitisbasedongradientdescentmethodwhichisonlylocalsearching.Whenappliedtoanobjectfunctionwithmanylocalminimums,itisnotpossibleforBPalgorithmtoavoidbeingtrappedinlocalminimumandtohavealowconvergesspeed.Inaword,theresearchonBPalgorithmhasbecomeveryimportantforalongtime.

ThepurposeofthisdesigntaskistostudythealgorithmsofMultilayerPerceptron,andanewBPalgorithmispresented.BothBPWEalgorithm(back-propagationbyweightextrapolation)andTBPalgorithm(athree-termbackpropagationalgorithm)arebasedonweightvalueadjusted.ConsideredtoaddtheproportionalfactoroftheTBPalgorithmintoBPWEalgorithm,itmadethelattercanadjustweightvaluebythreetermstoo.AnewBPalgorithm,namedTWEBP(thethree-termweightextrapolationbackpropagationalgorithm),ispresentedbasedonthetwoalgorithmproposedjustnow.ThisnewTWEBPalgorithmistestedonthreeexamplesandtheconvergencebehavioroftheTWEBPandBPalgorithmarecompared.Theresultsshowthattheproposedalgorithmgenerallyout-perfoimstheconventionalalgorithmintermsofconvergencespeedandtheabilitytoescapefromlocalminima.Keywords:

MultilayerPerceptron,learningalgorithm,extrapolation,proportionalfactor,TWEBP

目录

攸顺I

ABSTRACTII

第一章绪论1

1.1基本概念1

1.2神经网络的发展过程2

1.2.1产生背景2

1.2.2发展历史2

1.2.3现状4

1.3多层感知器5

1.3.1基本概念5

1.3.2多层感知器学习算法存在的问题6

1.3.3多层感知器学习算法的研究成果7

1.4毕业设计工作及论文结构8

1.4.1毕业设计工作8

1.4.2论文结构8

第二章反向传播算法9

2.1反向传播算法9

2.1.1学习规则9

2.1.2学习过程9

2.1.3反向传播算法的步骤11

2.2反向传播算法的贡献和局限性12

2.2.1反向传播算法的贡献12

2.2.2反向传播算法的局限性12

2.3对反向传播算法的进一步讨论13

2.3.1激活函数13

.2.3.2;16

2.3.3云力量项16

2.3.4学习速率17

2.3.5误差函数19

2.4小结20

第三章性能优化21

3.1性能优化的理论基础21

3.2最速下降法23

3.3牛顿法24

3.4共轭梯度法25

3.5小结27

第四章TWEBP算法29

4.1趋势外推思想29

4.1.1趋势外推29

4.1,2BPWE算法30

4.2TBP算法32

4.3TWEBP算法32

4.4计算机仿真33

4.4.1XOR问题33

4.4.2三分类问题37

4.4.3函数逼近问题42

4.54^46

第五章总结与展望47

#%娜48

攻读学位期间公幵发表的论文50

®51

第一章绪论

一个神经元有两种状态,即兴奋和抑制,平时处于抑制状态的神经元,其树突和胞体接收其他神经元经由突触传来的兴奋电位,多个输入在神经元中以代数和的方式叠加;如果输入兴奋总量超过某个阈值,神经元就会被激发进入兴奋状态,发出输出脉冲,并由轴突的突触传递给其他神经元。

神经元被触发之后有一个不应期,在此期间内不能被触发,然后阈值逐渐下降,恢复兴奋性。

神经元是按照“全或无”的原则工作的,只有兴奋和抑制两种状态,但也不能认为神经元只能表达或传递二值逻辑信号。

因为神经元兴奋时往往不是只发出一个脉冲,而是发出一串脉冲,如果把这一串脉冲看成是一个调频信号,脉冲的密度是可以表达连续量的。

人工神经网络(ARTIFICIALNEURALNETWORK,简称ANN)是在对人脑组织结构和运行机制的认识理解基础之上模拟其结构和智能行为的一种工程系统。

早在本世纪40年代初期,心理学家McCulloch、数学家Pitts就提出了人工神经网络的第一个数学模型,从此开创了神经科学理论的研究时代。

其后,F.Rosenblatt、Widrow和Hopfield等学者又先后提出了感知模型,使得人工神经网络技术得以蓬勃发展。

1.1基本概念

从数学的角度讲,人工神经网络是一个由互连接突触的节点和激活连接构成的有向图,具有4个主要特征:

1每个神经元可表示为一组线性的突触连接,一个应用它的外部偏置,以及可能的非线性激活连接。

偏置由和一个固定为+1的输入连接的突触连接表示。

2神经元的突触连接给它们相应的输入信号加权。

3输入信号的加权和构成该神经元的诱导局部域。

4激活连接压制神经元的诱导局部域产生输出。

[1]

图1-1(a)和(b)分别是神经元MP模型和通用神经元模型。

(a)神经元MP模型(b)通用祌经元模型

阁1-1神经元模型

1.2神经网络的发展过程1.2.1产生背景

19世纪90年代,美国心理学家WilliamJames发表了《心理学原理》一书,论述了相关学习、联想记忆的基本原理,对人脑功能作了创见性的工作。

.他指出当前基本的脑细胞曾经一起相继被激活过,其中一个受到刺激重新激活时,会将刺激传播到另一个。

同时,James认为,在大脑皮层上任意点的刺激量,是其他所有发射点进入该点的总和。

1913年,人工神经系统第一个实践是Russell描述的水力装置。

1943年,美国心理学家W.S.Mcculloh与数学家W.H.Pirts合作,用逻辑数学工具研究客观事件在形成神经网络中的数学模型表达,从此开创了对神经网络的理论研究。

他们首先提出了二值神经元的MP模型(图1-1(a)),论述了有一定数量输入作用下超过某一阈值,神经元才兴奋,突触联系的神经元之间只有兴奋和抑制两种方式。

1.2.2发展历史

1萌芽期(20世纪40年代)

人工神经网络的研究最早可以追溯到人类开始研究自己的智能的时期,到1949年止。

1943年,心理学家McCulloch和数学家Pitts建立起了著名的阈值加权和模型,简称为M-P模型。

发表于数学生物物理学会刊《BulletinofMathematicalBiophysics》。

1949年,心理学家D.O.Hebb提出神经元之间突触联系是可变的假说一Hebb学习律。

2第一高潮期(1950〜1968年)

以MarvinMinsky,FrankRosenblatt,BernardWidrow等为代表人物,代表作是单层感知器(Perceptron),该感知器可用电子线路模拟。

人们乐观地认为几乎已经找到了智能的关键。

许多部门都开始大批地投入此项研究,希望尽快占领制高点。

3潜伏期(1969〜1982年)

在20世纪60年代感知器的经典时期,好像神经网络可以做任何事情。

但是M.L.Minsky和S.Papert于1969年出版《Perceptron》一书,利用数学证明单层感知器指出单层感知器所能计算的根本局限(如不能解决“异或”问题)。

在有关多层感知器的简短一节中,他们认为没有任何理由假定单层感知器的任何局限可以在多层的情况下被克服。

另一方面,当时串行计算机正处于全盛发展时期,早期的人工智能研究也取得了很大成就,从而掩盖了发展新的计算型的迫切性,使有关祌经网络的研究热潮低落下来。

在此期间仍有不少科学家坚持这一领域的研究,对此后的神经网络研究提供了很好的理论基础。

4第二高潮期

1982年,J.Hopfield提出了神经网络的一种数学模型,引入了能量函数的概念(用Lyapunov函数作为网络性能判定的能量函数,建立ANN稳定性的判别依据),研究了网络的动力学性质;紧接着(1984年)又设计出用电子线路实现这一网络的方案,同时开拓了神经网络用于联想记忆和优化计算的新途径,大大促进了神经网络的研

1986年,并行分布处理小组的Rumelhart等研究者重新独立地提出多层感知器的学习算法一反向传播算法,克服了当初阻碍感知器模型继续发展的重要障碍。

我国脑功能和祌经网络课题的研究,早在40年前就已经进行,对于人工神经网络能力的研究,是在20世纪80年代才开始。

]980年,涂序彦先生发表《生物控制

论》一书,书中系统地介绍了神经元和神经网络的结构、功能和模型。

1988年,北京大学组织召开了第一次关于神经网络的讨论会,一些知名学者在会上作了专题报告。

1989年,北京和广州等地召幵了神经网络及其应用讨论会和第一届全国信号处理——神经网络学术会议。

1990年2月,由中国电子学会及计算机学会等八个学会联合发起并组织了中国第一次神经网络会议,参加人数400余人,搜集到会议记录中的论文358篇,内容涉及生物、人工神经网络模型、理论、分析应用及实现等各方面。

1991年由13个单位发起和组织召开了第二次全国神经网络会议,录用论文280篇。

1991年成立中国神经网络学会,大大推动了中国学术界及工程界在人工神经网络理论及应用方面的研究。

经过十年的发展,我国人工神经网络的研究和应用正迈向新的高科技时代。

1.2.3现状

20世纪80年代以来,传统的基于符号处理的人工智能在解决工程问题时遇到了许多困难。

现代的串行机尽管有很好的性能,但在解决像模式识别、学习等对人来说是轻而易举的问题上显得困难。

这就促使人们怀疑当前的VonNeumann机是否能解决智能问题,也促使人们探索更接近人脑的计算模型,于是又形成了对神经网络研究的热潮。

近十年来,神经网络理论与实践有了引人注目的进展,它再一次拓展了计算概念的内涵,使神经计算、进化计算成为新的学科,神经网络的软件模拟得到了广泛的应用。

近几年来科技发达国家的主要公司对神经网络芯片、生物芯片独有情钟。

例如Intel公司、IBM公司、AT&T公司和HNC公司等己取得了多项专利,已有产品进入市场,被国防、企业和科研部门选用,公众手中也拥有神经网络实用化的工具,其商业化令人鼓舞。

尽管神经计算机、光学神经计算机和生物计算机等研制工作的艰巨性和长期性,但有一点可以使人欣慰:

它现在还只是初露锋芒,有巨大的潜力与机会,前景是美好的。

MexicoUniversity的Forest领导的小组开发出来的计算机免疫系统更是展现出惊人的潜力&此套免疫系统用于网络防毒,改变了传统的被动杀毒的方法,釆用类似于人体免疫系统的主动抗毒,现在美国已经全面介入这套系统的开发。

近年来,我国“863”计划、攻关计划、“攀登”计划和国家自然科学基金等,都对神经网络的研究给予了资助,吸引了大量的优秀青年人才从事神经网络领域的研究工作,促进我国在这个领域取得世界上的领先地位。

总之,在21世纪科学技术发展征程中,神经网络理论的发展将与日俱增。

1.3多层感知器1.3.1基本概念

由Rumdhart提出的多层前馈神经网络,由于采用误差反传的BP学习算法,又被称为误差反向传播神经网络,简称HBP网络(ErrorBackPropagation)<=

多层前馈神经网络其神经节点分层排列,一般由输入层,输出层和若干隐层组成。

同层神经元节点之间没有连接,相邻两层之间的节点两两连接,而前一层神经元的输出即为后一层神经元的输入,每层神经节点只接收前一层神经元节点的输出信号。

[31如图1-2所示:

图1-2多层前馈网络的示意图

利用人工神经元的非线性性,可以实现各种逻辑门。

由于任何逻辑函数都可以由与非门组成,所以,第一,任何逻辑函数都可以用前馈网络实现。

第二,单个阈值神经元可以实现任意多输入的与、或及与非、或非门。

由于任何逻辑函数都可以化为

5

析取(或合取)形式,所以任何逻辑函数都可用一个三层(只有两层计算单元)的前馈网络实现。

1.3.2多层感知器学习算法存在的问题

反向传播算法(Back-PropagationAlgorithm,简称BP算法)已经成为多层感知器训练的标准算法。

它通常作为其他学习算法的基准。

但是,它本身存在大量的问题,天出表现在:

1BP算法的学习速度很慢,其原因主要有:

1)由于BP算法本质上为梯度下降法,而它所要优化的目标函数又非常复杂,

因此,必然会出现“锯齿形现象”,这使得BP算法低效。

2)存在麻痹现象,由于优化的目标函数很复杂,它必然会在神经元输出接近0或1的情况下,出现一些平坦区,在这些区域内,权值误差改变很小,使训练过程几乎停顿。

3)为了使网络执行BP算法,不能用传统的一维搜索法求每次迭代的步长,而必须把步长的更新规则预先赋予网络,这种方法将引起算法低效。

2网络训练失败的可能性较大,其原因有:

1)从数学角度看,BP算法为一种局部搜索的优化方法,但它要解决的问题为求解复杂非线性函数的全局极值,因此,算法很有可能陷入局部极值,使训练失败;

2)网络的逼近、推广能力同学习样本的典型性密切相关,而从问题中选取典型样本实例组成训练集是一个很困难的问题。

3)难以解决应用问题的实例规模和网络规模间的矛盾。

这涉及到网络容量的可能性与可行性的关系问题,即学习复杂性问题。

4)网络结构的选择尚无一种统一而完整的理论指导,一般只能由经验选定。

为此,有人称神经网络的结构选择为一种艺术。

而网络的结构直接影响网络的逼近能力及推广性质。

因此,应用中如何选择合适的网络结构是一个重要的问题。

5)新加入的样本要影响己学习成功的网络,而且刻画每个输入样本的特征的数目也必须相同。

网络的泛化能力与训练能力的矛盾。

一般情况下,训练能力差时,泛化能力

也差,并且一定程度上,随训练能力地提高,泛化能力也提高。

但这种趋势有一个极限,当达到此极限时,随训练能力的提高,泛化能力反而下降,即出现所谓“过拟合”现象。

此时,网络学习了过多的样本细节,而不能反映样本内含的规律。

1.3.3多层感知器学习算法的研究成果

由于多层感知器突出的优点和广泛的应用领域,对多层感知器学习算法的研究一直以来从未停止过,因而也取得了大量的研究成果。

[4]

1增加“惯性量(动量)”

W{n+\)=W{n)-aKW{n)+r1hW{n-\)(1.1)

2米用动态步长

1)开始时,a取大一些,然后逐渐减小a值。

2)动态选取的步长,比如先给一个的初始值,在迭代的过程中按增减的情况不断调整值,如r

kv连续巧次A£<0

~]毛,连续772次A£>0(12)

、0,其他

还可以釆取其他的调节方法。

3与全局搜索算法相结合

为克服BP算法全局搜索能力弱的缺点,将BP算法与具有很强全局搜索能力的算法相结合,如与遗传算法结合。

4模拟退火算法(simulativeanneal)

为了克服BP算法易陷入局部极小的缺点,人们从退火现象中得到启发,引入模拟退火算法。

为了不陷入局部最小,在用梯度法迭代的过程中,可以不完全按梯度下降的方向进行迭代,而是给予一个小概率的机会,按不同的方向进行迭代,这样就有可能跳出局部极小的陷阱。

将熵空间、统计推断方法和启发式搜索技术相结合,可以有效地降低计算量。

1.4毕业设计工作及论文结构1.4.1毕业设计工作

作者通过广泛地阅读关于BP算法改进的论文,比较提出的各种改进算法,认为Kamarthi和PktneP^据趋势外推的思想提出的基于每个独立的互连权值外推的加速

标准BP算法的算法权值外推算法(BPWE)和Zweiri、Whidbome和Seneviratne[6][7]

提出的通过加大收敛率来减少训练时间,并降低学习延迟,同时保持了标准二项BP算法的简单有效的进行权值调整的方法一三项BP算法(TBP)是比较优秀的算法。

因为BPWE算法和TBP算法都是基于权值调整的改进算法,而考虑将TBP算法中的三项因子融入到BPWE算法中,从而使后者对权值的调整由原来的两项增加为三项,加快收敛速度,避免陷入局部极小点,从而提出一种新的学习算法--TWEBP算法,从而完成题为“多层感知器学习算法研究”的毕业设计。

1.4.2论文结构

全文共分为七章,具体介绍如下:

第一章介绍了神经网络的产生背景、发展历史,多层感知器的学习算法存在的问题、研究成果、改进的策略和最终的论文结构。

第二章描述了反向传播算法的原理和对其进行改进的策略。

第三章描述了性能优化的理论基础,比较并分析了几种成熟的基于BP算法的优化算法。

第四章阐述了趋势外推的思想和基于该思想的外推算法,并阐述了三项因子的思想,并在此基础上提出了改进算法…TWEBP算法,并以XOR问题、三分类问题和函数逼近为例进行了仿真试验。

第五章对全文进行总结,提出了对BP算法进行改进的后继工作。

第二章反向传播算法

最初由Werbos开发的反向传播训练算法是一种迭代梯度算法,用于求解前馈网络的实际输出与期望输出间的最小均方差值。

BP网是一种反向传递并能修正误差的多层映射网络。

它采用梯度搜索算法,以期使网络实际输出与期望输出的误差均方值为最小。

当参数适当时,此网络能够收敛到较小的均方差,是目前应用最广的网络之

o

2.1反向传播算法2.1,1学习规则

误差反向传播算法以一种有教师示教的方式进行学习,学习过程由正向传播过程和反向传播过程组成。

首先由教师对每一种输入模式设定一个期望输出值。

然后对网络输入实际的学习记忆模式(或称训练样本),并由输入层经中间层向输出层传播(称为“正向传播过程”)。

实际输出与期望输出的差即是误差。

按照误差平方最小这一规则,如果在输出层不能得到期望的输出,则转入反向传播,根据实际输出与期望输出之间的误差,由输出层往中间层逐层修正连接权值,此过程称为“误差反向传播”。

所以误差反向传播神经网络也简称BP(BackPropagation)网。

随着“正向传播”过程和“误差反向传播”过程的交替反复进行。

网络的实际输出逐渐向各自所对应的期望输出逼近,网络对输入模式的响应的正确率也不断上升。

通过此学习过程,确定下来各层间的连接权值之后就可以工作了。

2.1.2学习过程

BP算法是一个有导师的学习算法,它含有隐节点。

对于一个输入样本,经过网络的正向推理得出一个输出,然后让它与期望的输出样本进行比较。

如果有偏差,就从输.出开始向回传播,调整权系数

设z为输入样本,y为输出样本r为期望输出样本,7为学习率(是一个小于1的正数),/Xx)是网络的激活函数,选用s形曲线,而是第f个单元到第/个单元

联接的权系数,广00为厂00的导数,正向传播时是从输入一层一层地到输出,上一

层的输出作为下一层的输入。

于是有:

正向传播:

(2.1)

1

.-exp(-x)

(2.2)

wji{n+\)=wji{n)+?

]-Sj-xi

其中/(幻:

学习过程:

对于输出节点:

 

(2.3)

 

对于非输出节点;

 

(2.4)

S'f=

BP算法收敛慢是由于误差是时间的复杂非线性函数,而BP算法本质上是简单的最速下降法,其权值调整依据误差对权值的偏导数。

即按误差变化率最小的方向进

(2.5)

行,当接近收敛时/(x)=0,导致收敛缓慢。

初始值是很小的随机数,而权增量:

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 小学教育 > 语文

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1