梯度下降法牛顿迭代法共轭梯度法.docx

资源描述

梯度下降法牛顿迭代法共轭梯度法.docx

《梯度下降法牛顿迭代法共轭梯度法.docx》由会员分享，可在线阅读，更多相关《梯度下降法牛顿迭代法共轭梯度法.docx（6页珍藏版）》请在冰豆网上搜索。

梯度下降法牛顿迭代法共轭梯度法.docx

梯度下降法牛顿迭代法共轭梯度法

梯度下降法、牛顿迭代法、共轭梯度法

（参见：

神经网络->PGM-ANN-2009-C09性能优化）

优化的目的是求出目标函数的最大值点或者最小值点，这里讨论的是迭代的方法梯度下降法

首先，给定一个初始猜测值，然后按照等式

（2）

逐步修改猜测。

这里向量？

k代表一个搜索方向，一个大于零的纯量〉k为学习

速度，它确定了学习步长。

当用工k二XkakPk进行最优点迭代时，函数应该在每次迭代时

都减小，即F（、k1■F（二k）

考虑

的F（X）在Xk的一阶泰勒级数展开:

F（工k）g：

F（工kJ=F（乂「-

（4）

其中，gT为在旧猜测值Xk处的梯度

gk=▽F（x）x=xk

要使F（工k-1V:

Fk）

只需要（4）中右端第二项小于0，即

TgT0

kkkkk（6）

（6）

选择较小的正数:

A。

这就隐含g：

Pko°

满足g：

Pk0的任意向量成为一个下降方向。

如果沿着此方向取足够小步长，函数一

定递减。

并且，最速下降的情况发生在g：

Pk最小的时候，容易知道，当Pk=-gk时g：

Pk最

小，此时，方向向量与梯度方向相反。

在（1式中，令Pk=-gk，则有

k1Xkakgk（7）

对于式（7）中学习速率的选取通常有两种方法：

一种是选择固定的学习速率：

“,

另一种方法是使基于学习速率的性能指数或目标函数F（Xki）在每次迭代中最小化，即

沿着梯度反方向实现最小化：

Xk1=Xk-，kgk°

注意:

1、对于较小的学习速度最速下降轨迹的路径总是与轮廓线正交，这是因为梯度与轮廓线总是正交的。

2、如果改变学习速度，学习速度太大，算法会变得不稳定，振荡不会衰减，反而会增大。

3、稳定的学习速率

对于任意函数，确定最大可行的学习速度是不可能的，但对于二次函数，可以确定一个上界。

令特征函数为：

F（x）二

（8）

XtAXdTXc

那么梯度为

IF（X）二AXd

代入最速下降法公式（7）中

Xk1二Xk-akgk二Xk-ajAXkd）=（I-akA）Xk-akd（9）

在动态系统中，如果矩阵［I-aA］的特征值小于1则该系统是稳定的。

可用赫森矩阵

A的特征值来表示该矩阵的特征值，假设A的特征值和特征向量分别为匚仆’2,'n［和

立,Z2,…Zn二那么

〔I-aA^=（l-a\）z（10）

于是，最速下降法的稳定条件为

如果二次函数有一个强极小点，则其特征值为正数，上式可以化为a：

：

—

由于该式对于赫森矩阵的所有特征值都成立则

2a（12）

max

分析：

最大的稳定学习速度与二次函数的最大的曲率成反比。

曲率说明梯度变化的快慢。

如果梯度变化太快，可能会导致跳过极小点，进而使新的迭代点的梯度的值大于原迭代点的梯度的值（但方向相反）。

这会导致每次迭代的步长增大。

4、沿直线最小化

选择学习速率的另一种方法是ak使得每次迭代的性能指数最小化，即选择ak使得下

式最小：

F（Xk・akPk）

对二次函数解析线性最小化是可能的。

上式

对任意函数的这种最小化需要线性搜索。

对ak的导数为：

令式（13）导数为零求得

（14）

汴以）二氓R_gk>k

T2—t

PklF（X）|xmRRAk耳

这里Ak为Xk的赫森矩阵：

Ak八午（X）|x

牛顿法

牛顿法基于二阶泰勒级数：

F（Xk!

^F（X^Xk^F（Xk）gk人2XkA人（15）

牛顿法的原理是求F（X）的二次近似的驻点，求这个二次函数对Xk的梯度并令它等

于0,则有

gkA&Xk=0（16）

解得：

'Xk=-A：

于是，牛顿法定义为Xk1二Xk-Akgk（17）

注意：

牛顿法总是用一个二次函数逼近F（X）,然后求其驻点，因此此方法总能够一步

找到二次函数的极小点，如果原函数为二次函数（有强极小点），它就能够实现一步极小化

如果F（X）不是二次函数，则牛顿法一般不能在一步内收敛，是否收敛取决于具体的函

数和初始点

尽管牛顿法的收敛速度通常比最速下降法快，但其表现很复杂，除了收敛到鞍点的问题外，算法还可能震荡和发散，如果学习速率不太快或每步都实现线性极小化，最速下降法能

保证收敛

牛顿法的另一个问题是需要对赫森矩阵及其逆阵的计算和存储

共轭梯度法

牛顿法有一个性质成为二次终结法（quadratictemination），即它能在有限迭代次数

内使得二次函数极小化，但这需要计算和存储二阶导数，当参数个数很大时，计算所有二阶

导数是很困难的。

假定对下述二次函数确定极小点：

（18）

F（x）XtAXdTXc

当且仅当pjAR=0,k=j时，称向量集合〈Pk［对于一个正定赫森矩阵A两两共轭。

注意，第一次搜索方向

Po是任意的，而P是与厶g。

垂直的任意向量。

所以共轭向量集

由于'g^gk1-gk=A」Xk，又有」Xk=（Xk1-Xk^akPk，选择ak使函数F（X）

在P.方向上极小化，则共轭条件可重写称

每次迭代都要构造一个与

「9。

厂91,…：

gn［正交的向量耳。

可以将迭代形式简化为

R=-gk■：

kP2（21）

的数量是无限的。

通常从最速下降法的方向开始搜索：

Po=「g0

通常选择

rAgkk帶氏g^k

-kT或_kT或_kT

igk-iPk-igk-igk-igk-igk-i

综上，算法可以归纳为：

1、选择如Po^-g。

的与梯度相反的方向作为第一次搜索方向

2、根据.）Xki=（Xk.i-XJ=ak&进行下一步搜索，确定ak以使函数沿搜索方向极

小化

3、根据Ri=-gki很确定下一个搜索方向，计算'-ki

4、如果算法不收敛，回到第2步

算法比较

梯度下降法形式简单，一般情况下都能够保证收敛，但是收敛速度慢

牛顿法对于二次目标函数收敛速度快，但是不能够保证收敛，而且需要对赫森矩阵及其

逆阵的计算和存储

共轭梯度法结合了前面两种方法的性质，收敛速度快，不需要对赫森矩阵及其逆阵的计

算和存储，但是形式比前两者复杂

Welcome!

欢迎您的下载,

资料仅供参考!

展开阅读全文