(4)
其中,gT为在旧猜测值Xk处的梯度
gk=▽F(x)x=xk
要使F(工k-1V:
Fk)
只需要(4)中右端第二项小于0,即
g
TgT0
kkkkk(6)
(6)
选择较小的正数:
A。
这就隐含g:
Pko°
满足g:
Pk0的任意向量成为一个下降方向。
如果沿着此方向取足够小步长,函数一
定递减。
并且,最速下降的情况发生在g:
Pk最小的时候,容易知道,当Pk=-gk时g:
Pk最
小,此时,方向向量与梯度方向相反。
在(1式中,令Pk=-gk,则有
k1Xkakgk(7)
对于式(7)中学习速率的选取通常有两种方法:
一种是选择固定的学习速率:
“,
另一种方法是使基于学习速率的性能指数或目标函数F(Xki)在每次迭代中最小化,即
沿着梯度反方向实现最小化:
Xk1=Xk-,kgk°
注意:
1、对于较小的学习速度最速下降轨迹的路径总是与轮廓线正交,这是因为梯度与轮廓线总是正交的。
2、如果改变学习速度,学习速度太大,算法会变得不稳定,振荡不会衰减,反而会增大。
3、稳定的学习速率
对于任意函数,确定最大可行的学习速度是不可能的,但对于二次函数,可以确定一个上界。
令特征函数为:
F(x)二
(8)
1
XtAXdTXc
2
那么梯度为
IF(X)二AXd
代入最速下降法公式(7)中
Xk1二Xk-akgk二Xk-ajAXkd)=(I-akA)Xk-akd(9)
在动态系统中,如果矩阵[I-aA]的特征值小于1则该系统是稳定的。
可用赫森矩阵
A的特征值来表示该矩阵的特征值,假设A的特征值和特征向量分别为匚仆’2,'n[和
立,Z2,…Zn二那么
〔I-aA^=(l-a\)z(10)
于是,最速下降法的稳定条件为
如果二次函数有一个强极小点,则其特征值为正数,上式可以化为a:
:
:
—
由于该式对于赫森矩阵的所有特征值都成立则
2a(12)
max
分析:
最大的稳定学习速度与二次函数的最大的曲率成反比。
曲率说明梯度变化的快慢。
如果梯度变化太快,可能会导致跳过极小点,进而使新的迭代点的梯度的值大于原迭代点的梯度的值(但方向相反)。
这会导致每次迭代的步长增大。
4、沿直线最小化
选择学习速率的另一种方法是ak使得每次迭代的性能指数最小化,即选择ak使得下
式最小:
F(Xk・akPk)
对二次函数解析线性最小化是可能的。
上式
对任意函数的这种最小化需要线性搜索。
对ak的导数为:
令式(13)导数为零求得
(14)
汴以)二氓R_gk>k
T2—t
PklF(X)|xmRRAk耳
这里Ak为Xk的赫森矩阵:
Ak八午(X)|x
牛顿法
牛顿法基于二阶泰勒级数:
1
F(Xk!
^F(X^Xk^F(Xk)gk人2XkA人(15)
牛顿法的原理是求F(X)的二次近似的驻点,求这个二次函数对Xk的梯度并令它等
于0,则有
gkA&Xk=0(16)
解得:
'Xk=-A:
gk
_4
于是,牛顿法定义为Xk1二Xk-Akgk(17)
注意:
牛顿法总是用一个二次函数逼近F(X),然后求其驻点,因此此方法总能够一步
找到二次函数的极小点,如果原函数为二次函数(有强极小点),它就能够实现一步极小化
如果F(X)不是二次函数,则牛顿法一般不能在一步内收敛,是否收敛取决于具体的函
数和初始点
尽管牛顿法的收敛速度通常比最速下降法快,但其表现很复杂,除了收敛到鞍点的问题外,算法还可能震荡和发散,如果学习速率不太快或每步都实现线性极小化,最速下降法能
保证收敛
牛顿法的另一个问题是需要对赫森矩阵及其逆阵的计算和存储
共轭梯度法
牛顿法有一个性质成为二次终结法(quadratictemination),即它能在有限迭代次数
内使得二次函数极小化,但这需要计算和存储二阶导数,当参数个数很大时,计算所有二阶
导数是很困难的。
假定对下述二次函数确定极小点:
1
(18)
F(x)XtAXdTXc
2
当且仅当pjAR=0,k=j时,称向量集合〈Pk[对于一个正定赫森矩阵A两两共轭。
注意,第一次搜索方向
Po是任意的,而P是与厶g。
垂直的任意向量。
所以共轭向量集
由于'g^gk1-gk=A」Xk,又有」Xk=(Xk1-Xk^akPk,选择ak使函数F(X)
在P.方向上极小化,则共轭条件可重写称
每次迭代都要构造一个与
「9。
厂91,…:
gn[正交的向量耳。
可以将迭代形式简化为
R=-gk■:
kP2(21)
的数量是无限的。
通常从最速下降法的方向开始搜索:
Po=「g0
通常选择
rAgkk帶氏g^k
-kT或_kT或_kT
igk-iPk-igk-igk-igk-igk-i
综上,算法可以归纳为:
1、选择如Po^-g。
的与梯度相反的方向作为第一次搜索方向
2、根据.)Xki=(Xk.i-XJ=ak&进行下一步搜索,确定ak以使函数沿搜索方向极
小化
3、根据Ri=-gki很确定下一个搜索方向,计算'-ki
4、如果算法不收敛,回到第2步
算法比较
梯度下降法形式简单,一般情况下都能够保证收敛,但是收敛速度慢
牛顿法对于二次目标函数收敛速度快,但是不能够保证收敛,而且需要对赫森矩阵及其
逆阵的计算和存储
共轭梯度法结合了前面两种方法的性质,收敛速度快,不需要对赫森矩阵及其逆阵的计
算和存储,但是形式比前两者复杂
Welcome!
!
!
欢迎您的下载,
资料仅供参考!