神经网络设计PPT课件下载推荐.ppt

资源描述

神经网络设计PPT课件下载推荐.ppt

《神经网络设计PPT课件下载推荐.ppt》由会员分享，可在线阅读，更多相关《神经网络设计PPT课件下载推荐.ppt（98页珍藏版）》请在冰豆网上搜索。

神经网络设计PPT课件下载推荐.ppt

,方程的常数项是判定边界的偏置值：

两点式直线方程：

例如点（x1,y1）和（x2,y2）：

选一个判定边界及其上的两点得其方程：

例如点（0.5,0）和（0,0.5）,多神经元感知机,每个神经元将有自己的判定边界：

单个神经元可以将输入向量分为两类。

一个有S个神经元的感知机可将输入向量分为多类，共有2S种可能的类别。

感知机学习规则,为满足给定的训练样本：

设计一般性的方法来确定感知机的权和偏置值。

学习规则测试实例,测试问题的网络,初始化,将p1送入网络：

随机初始化权：

错误分类,构造学习规则,令1w为p1前后振荡将p1加到1w上1w的指向偏向p1,规则：

第二个输入向量,（错误分类，见前图）,修正规则：

第三个输入向量,三个模式现在都正确分类了,（错误分类，见前图）,统一的学习规则,偏置可视为对应输入为1的权,多神经元感知机,权值矩阵的第i行修改为：

矩阵表示：

苹果/香蕉例子,训练集：

初始权值：

第一次迭代：

第二次迭代,检查,学习规则的能力,只要权值的解存在（问题线性可分），该学习规则总能收敛到实现期望分类的权值上。

感知机的局限性,线性判定边界,解决不了线性不可分问题,有导师的Hebb学习,Hebb规则,突触前的信号,突触后的信号,简化形式无导师的形式：

有导师的形式：

矩阵形式：

学习速度常数,（设）,线性联想器,训练集:

线性层,输入,批操作,矩阵形式:

（权矩阵初始化为）,性能分析,情况，输入向量为标准正交向量：

所以网络输出等于相应的目标输出：

情况，输入向量标准化了但不正交：

误差,例子,香蕉,苹果,归一化原型模式,权矩阵（Hebb规则）：

测试：

香蕉,苹果,仿逆规则-

（1）,性能参数：

仿逆规则-

（2）,最小化：

若矩阵P的逆存在,可以使得F（W）为零：

当逆阵不存在，F（W）可以用仿逆规则最小化：

当矩阵P的行数大于其列数，且P的列向量线性无关时，其仿逆为：

与Hebb规则的关系,Hebb规则,仿逆规则,如果原型模式正交：

例子,性能曲面和最优点,性能学习,性能学习的优化分两步骤进行：

找一个衡量网络性能的定量标准，即性能指数：

F（x）。

性能指数在网络性能良好时很小，反之则很大。

搜索减小性能指数的参数空间（调整网络权值和偏置值）。

下面将研究性能曲面的特性，建立确保极小点（即所寻求的最优点）存在的条件。

学习规则的几种类型：

联想学习，竞争学习，性能学习。

性能学习目的在于调整网络参数以优化网络性能。

Taylor级数展开,例子,Taylor级数的近似表示：

F（x）在x*=0点的Taylor级数展开式为：

阶近似：

三个近似的图形,向量情况,矩阵形式,F,x,（,）,F,x,*,（,）,F,x,（,）,T,x,x,*,=,x,x,*,（,）,+,=,1,2,-,-,-,x,x,*,（,）,T,F,x,（,）,x,x,*,=,x,x,*,（,）,2,+,+,梯度,Hessian矩阵,方向导数,F（x）沿xi轴的一阶导数（斜率）:

F（x）沿xi轴的二阶导数（曲率）:

（梯度的第i个元素）,（Hessian矩阵的第i,i处的元素）,F（x）沿向量p的一阶导数（斜率）:

F（x）沿向量p的二阶导数（曲率）:

p,T,F,x,（,）,2,p,p,2,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,极小点,点x*是F（x）的强极小点，如果存在某个纯量d0,使得当d|Dx|0时，对所有Dx都有F（x*）F（x*+Dx）成立。

强极小点：

点x*是F（x）的唯一全局极小点，如果F（x*）F（x*+Dx）对所有Dx都成立。

全局极小点：

点x*是F（x）的弱极小点，如果它不是一个强极小点，且存在某个纯量d0,使得当d|Dx|0时，对所有Dx都有F（x*）F（x*+Dx）成立。

弱极小点：

例子,StrongMinimum,StrongMaximum,GlobalMinimum,向量例子,一阶优化的必要条件,对很小的Dx：

如果x*是个极小点,则要求：

如果,则有,这与x*是极小点相矛盾，所以唯一的选择只有,该式对所有的Dx都必须成立Dx，即,驻点：

使得梯度为零的点称为驻点（稳定点）。

一个极小点一定为驻点，这是局部极小点的一阶必要条件（不是充分条件）。

二阶条件,在x*将存在强极小点，如果,对所有Dx0成立。

Hessian矩阵正定是强极小点存在的二阶充分条件。

一个矩阵A是半正定的，如果任意向量z，有：

如果一阶条件满足（梯度为）,则有,一个矩阵A是正定的，如果对任意向量z0，有：

可以通过检验矩阵的特征值来检验这些条件。

如果矩阵所有特征值为正，则矩阵为正定矩阵；

如果矩阵所有特征值非负，则矩阵为半正定矩阵。

Hessian矩阵半正定是强极小点存在的二阶必要条件。

例子,（不是x的函数）,检查上述Hessian矩阵的特征值来检验正定性。

如果特征值全都大于零，则该矩阵是正定的。

两个特征值是正定的，所以x*是强极小点。

二次函数,梯度的性质：

梯度和Hessian矩阵：

二次函数的梯度：

二次函数的Hessian矩阵：

（A是对称矩阵）,二次函数特点的小结,如果赫森矩阵的所有特征值为正，则函数有一个强极小点。

如果赫森矩阵的所有特征值为负，则函数有一个强极大点。

如果赫森矩阵的所有特征值有正有负，则函数有一个鞍点。

如果赫森矩阵的所有特征值为非负，但某些特征值为零，则函数要么有一个弱极小点，要么没有驻点。

如果赫森矩阵的所有特征值为非正，但某些特征值为零，则函数要么有一个弱极大点，要么没有驻点。

驻点：

性能优化,基本的优化算法,k搜索方向,ak学习速度,or,优化的目标是求出使性能指数（x）最小化的x的值。

这里讨论迭代算法，设初始值为x0，然后按下式迭代：

最速下降法,选择下一次迭代使得性能指数函数减小：

对x小的变化F（x）可近似表示为（在xk的一阶Taylor级数展开）：

这里gk是在xk的梯度：

要使F（xk+1）F（xk），则Taylor展式的第二项必须为负，即：

满足上式的任意向量称为一个下降方向。

最速下降方向在哪里？

当方向向量与梯度反向时，该内积为负，而绝对值最大（设长度不变，只改变方向）。

所以最速下降方向的向量为：

例子,图,稳定的学习速度（二次函数）,稳定性由这个矩阵的特征值决定.,即（1li）是I-aA的特征值。

所以最速下降法稳定条件为：

若二次函数有一个强极小点，则其特征值为正，上式可化为：

如果矩阵I-aA的特征值小于1，则该系统就是稳定的。

设li是A的特征值，zi是A的特征向量。

那么,例子,沿直线最小化,选择ak最小化,其中,对二次函数，令该导数为0，可得ak的解析表示：

例子,图,后继每一步都正交.,牛顿法,求这个二阶近似式的梯度并设它为零来得到驻点：

例子,图,非二次函数例子,驻点:

F（x）,F2（x）,不同的初始情况,F（x）,F2（x）,牛顿法的特点,牛顿法是在当前初始点确定原函数F（x）的二次近似的驻点，它并不区别极小点、极大点和鞍点如果原函数为二次函数（有强极小点），牛顿法能够实现一步极小化如果原函数不是二次函数，则牛顿法一般不能在一步内收敛，甚至有可能收敛到鞍点和发散（最速下降法能够确保收敛，如果学习速度不太快）,共扼向量,对于一个正定的Hessian矩阵A,称向量集合是两两共扼的如果下式成立:

矩阵A的特征向量组成一个共扼向量集合.,（对称矩阵的特征向量是正交的.）,已经证明，如果存在沿一个共扼方向集的准确线性搜索序列，就能在最多n次搜索内实现具有n个参数的二次函数的准确最小化。

问题是如何构造这些共扼搜索方向而毋须先求Hessian矩阵？

即找到一种不需要计算二阶导数的方法。

对于二次函数,在第k+1次迭代梯度的变化是,其中,共扼条件可重写成：

这不需要Hessian矩阵了。

构造共扼方向,选择初始的搜索方向为梯度的反方向。

构造后继的搜索方向为共扼方向，即使后继向量pk与g0,g1,gk-1正交。

类似Gram-Schmidt正交化过程（第五章介绍），可有如下简化的迭代式：

其中,or,or,共扼梯度算法,第一次搜索方向是梯度的负方向。

选择学习速度来沿直线最小化。

用下式确定下一个搜索方向：

如果算法不收敛，回到第二步。

一个有n个参数的二次函数将在n步内被极小化。

（用于二次函数）,例子,例子,图,共扼梯度,最速下降,Widrow-Hoff学习算法（LMS算法）,LMS算法,ADALINE网络,2-输入的ADALINE,均方差性能指数,训练集：

输入：

目标：

符号：

均方差：

均方差性能指数分析,ADALINE网络的均方差性能指数是一个二次函数：

近似的最速下降法,近似的均方误差（单个样本）:

近似的梯度值:

近似的最速下降法,按最速下降方向更新,LMS算法,多神经元情况,矩阵表示：

稳定条件,由于,总是成立。

因此稳定性条件为：

对所有,当矩阵I2aR的所有特征值落在单位圆内时，此动态系统趋于稳定。

设li是R的一个特征值，则I-2aR的特征值将为12li。

因此系统的稳定的条件为：

或,例子,香蕉,苹果,第一次迭代,香蕉,第二次迭代,苹果,第三次迭代,继续此迭代过程，算法将收敛于,LMS算法与感知机学习规则,感知机学习规则：

LMS算法：

二者有相同的限制：

只能分类线性可分的模式。

LMS算法比感知机学习规则更有效，它使均方误差最小化，能产生比感知机学习规则受噪声影响小的判定边界。

展开阅读全文