梯度下降法牛顿迭代法共轭梯度法.docx

上传人:b****1 文档编号:1657333 上传时间:2022-10-23 格式:DOCX 页数:6 大小:67.25KB
下载 相关 举报
梯度下降法牛顿迭代法共轭梯度法.docx_第1页
第1页 / 共6页
梯度下降法牛顿迭代法共轭梯度法.docx_第2页
第2页 / 共6页
梯度下降法牛顿迭代法共轭梯度法.docx_第3页
第3页 / 共6页
梯度下降法牛顿迭代法共轭梯度法.docx_第4页
第4页 / 共6页
梯度下降法牛顿迭代法共轭梯度法.docx_第5页
第5页 / 共6页
点击查看更多>>
下载资源
资源描述

梯度下降法牛顿迭代法共轭梯度法.docx

《梯度下降法牛顿迭代法共轭梯度法.docx》由会员分享,可在线阅读,更多相关《梯度下降法牛顿迭代法共轭梯度法.docx(6页珍藏版)》请在冰豆网上搜索。

梯度下降法牛顿迭代法共轭梯度法.docx

梯度下降法牛顿迭代法共轭梯度法

梯度下降法、牛顿迭代法、共轭梯度法

(参见:

神经网络->PGM-ANN-2009-C09性能优化)

优化的目的是求出目标函数的最大值点或者最小值点,这里讨论的是迭代的方法梯度下降法

首先,给定一个初始猜测值,然后按照等式

(2)

 

逐步修改猜测。

这里向量?

k代表一个搜索方向,一个大于零的纯量〉k为学习

速度,它确定了学习步长。

当用工k二XkakPk进行最优点迭代时,函数应该在每次迭代时

都减小,即F(、k1■F(二k)

考虑

 

的F(X)在Xk的一阶泰勒级数展开:

F(工k)g:

*

F(工kJ=F(乂「-

(4)

其中,gT为在旧猜测值Xk处的梯度

gk=▽F(x)x=xk

要使F(工k-1V:

Fk)

只需要(4)中右端第二项小于0,即

g

TgT0

kkkkk(6)

(6)

选择较小的正数:

A。

这就隐含g:

Pko°

满足g:

Pk0的任意向量成为一个下降方向。

如果沿着此方向取足够小步长,函数一

定递减。

并且,最速下降的情况发生在g:

Pk最小的时候,容易知道,当Pk=-gk时g:

Pk最

小,此时,方向向量与梯度方向相反。

在(1式中,令Pk=-gk,则有

k1Xkakgk(7)

对于式(7)中学习速率的选取通常有两种方法:

一种是选择固定的学习速率:

“,

另一种方法是使基于学习速率的性能指数或目标函数F(Xki)在每次迭代中最小化,即

沿着梯度反方向实现最小化:

Xk1=Xk-,kgk°

注意:

1、对于较小的学习速度最速下降轨迹的路径总是与轮廓线正交,这是因为梯度与轮廓线总是正交的。

2、如果改变学习速度,学习速度太大,算法会变得不稳定,振荡不会衰减,反而会增大。

3、稳定的学习速率

对于任意函数,确定最大可行的学习速度是不可能的,但对于二次函数,可以确定一个上界。

令特征函数为:

F(x)二

(8)

1

XtAXdTXc

2

那么梯度为

IF(X)二AXd

代入最速下降法公式(7)中

Xk1二Xk-akgk二Xk-ajAXkd)=(I-akA)Xk-akd(9)

在动态系统中,如果矩阵[I-aA]的特征值小于1则该系统是稳定的。

可用赫森矩阵

A的特征值来表示该矩阵的特征值,假设A的特征值和特征向量分别为匚仆’2,'n[和

立,Z2,…Zn二那么

〔I-aA^=(l-a\)z(10)

于是,最速下降法的稳定条件为

 

如果二次函数有一个强极小点,则其特征值为正数,上式可以化为a:

由于该式对于赫森矩阵的所有特征值都成立则

2a(12)

max

分析:

最大的稳定学习速度与二次函数的最大的曲率成反比。

曲率说明梯度变化的快慢。

如果梯度变化太快,可能会导致跳过极小点,进而使新的迭代点的梯度的值大于原迭代点的梯度的值(但方向相反)。

这会导致每次迭代的步长增大。

4、沿直线最小化

选择学习速率的另一种方法是ak使得每次迭代的性能指数最小化,即选择ak使得下

式最小:

F(Xk・akPk)

对二次函数解析线性最小化是可能的。

上式

对任意函数的这种最小化需要线性搜索。

对ak的导数为:

令式(13)导数为零求得

(14)

汴以)二氓R_gk>k

T2—t

PklF(X)|xmRRAk耳

这里Ak为Xk的赫森矩阵:

Ak八午(X)|x

牛顿法

牛顿法基于二阶泰勒级数:

1

F(Xk!

^F(X^Xk^F(Xk)gk人2XkA人(15)

牛顿法的原理是求F(X)的二次近似的驻点,求这个二次函数对Xk的梯度并令它等

于0,则有

gkA&Xk=0(16)

解得:

'Xk=-A:

gk

_4

于是,牛顿法定义为Xk1二Xk-Akgk(17)

注意:

牛顿法总是用一个二次函数逼近F(X),然后求其驻点,因此此方法总能够一步

找到二次函数的极小点,如果原函数为二次函数(有强极小点),它就能够实现一步极小化

如果F(X)不是二次函数,则牛顿法一般不能在一步内收敛,是否收敛取决于具体的函

数和初始点

尽管牛顿法的收敛速度通常比最速下降法快,但其表现很复杂,除了收敛到鞍点的问题外,算法还可能震荡和发散,如果学习速率不太快或每步都实现线性极小化,最速下降法能

保证收敛

牛顿法的另一个问题是需要对赫森矩阵及其逆阵的计算和存储

共轭梯度法

牛顿法有一个性质成为二次终结法(quadratictemination),即它能在有限迭代次数

内使得二次函数极小化,但这需要计算和存储二阶导数,当参数个数很大时,计算所有二阶

导数是很困难的。

假定对下述二次函数确定极小点:

1

(18)

F(x)XtAXdTXc

2

当且仅当pjAR=0,k=j时,称向量集合〈Pk[对于一个正定赫森矩阵A两两共轭。

注意,第一次搜索方向

Po是任意的,而P是与厶g。

垂直的任意向量。

所以共轭向量集

由于'g^gk1-gk=A」Xk,又有」Xk=(Xk1-Xk^akPk,选择ak使函数F(X)

在P.方向上极小化,则共轭条件可重写称

每次迭代都要构造一个与

「9。

厂91,…:

gn[正交的向量耳。

可以将迭代形式简化为

R=-gk■:

kP2(21)

的数量是无限的。

通常从最速下降法的方向开始搜索:

Po=「g0

通常选择

rAgkk帶氏g^k

-kT或_kT或_kT

igk-iPk-igk-igk-igk-igk-i

综上,算法可以归纳为:

1、选择如Po^-g。

的与梯度相反的方向作为第一次搜索方向

2、根据.)Xki=(Xk.i-XJ=ak&进行下一步搜索,确定ak以使函数沿搜索方向极

小化

3、根据Ri=-gki很确定下一个搜索方向,计算'-ki

4、如果算法不收敛,回到第2步

算法比较

梯度下降法形式简单,一般情况下都能够保证收敛,但是收敛速度慢

牛顿法对于二次目标函数收敛速度快,但是不能够保证收敛,而且需要对赫森矩阵及其

逆阵的计算和存储

共轭梯度法结合了前面两种方法的性质,收敛速度快,不需要对赫森矩阵及其逆阵的计

算和存储,但是形式比前两者复杂

Welcome!

!

!

欢迎您的下载,

资料仅供参考!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经管营销 > 公共行政管理

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1