中科大模式识别课件Lec5.pdf

资源描述

中科大模式识别课件Lec5.pdf

《中科大模式识别课件Lec5.pdf》由会员分享，可在线阅读，更多相关《中科大模式识别课件Lec5.pdf（28页珍藏版）》请在冰豆网上搜索。

中科大模式识别课件Lec5.pdf

PatternRecognitionLecture5NeuralNetworksMar.25th,2008主要内容主要内容神经元模型双层神经网络多层神经网络前馈运算反向传播（BackPropagation,BP）算法神经网络训练的实用技术神经元模型神经元模型fwnetybx（）netwxbyfnet=+=神经元模型是线性判别模型的一种扩展，对于一个一维输入x，有w和b是可调标量参数f是传输函数（激活函数）常见传输函数常见传输函数符号函数线性函数Sigmoid函数0（）10netfnetnet1=（）fnetnet=1（）1netfnete=+双层神经网络双层神经网络fff?

1x2x3xdx?

1bb2sb1netnet2snet1yy2sy输入层输出层1,1w,sdw?

1（）（）djijijijjTnetxwbyfnetf=+=+ywxb考虑多维度、多类别的情况，神经元模型推广为双层神经网络学习规则学习规则将输入作用到网络上，得到输出，与目标输出比较，由此得到w和b，用于修改w和b：

w=w+wb=b+b设输入为x，目标输出为t，实际输出为y，则w=（t-y）xb=t-y两种模式两种模式SequentialMode（逐个处理模式）在每个回合（epoch）中，对每个输入样本都进行一次权值的修改。

BatchMode（批处理模式）在每个epoch中，对所有样本计算权值的修改量，取其平均，对权值进行修改。

学习过程举例（增量模式）学习过程举例（增量模式）设两个样本初始化的参数传输函数为（）（）112201,111,1TTtt=xx（0.5,0.5）,0.1b=w0（）10netfnetnet1=wbxytewb（-0.50.5）0.1（01）1-1-2（0-2）-2（-0.5-1.5）-1.9（11）-112（22）2（1.50.5）0.1（01）1-1-2（0-2）-2（1.5-1.5）-1.9（11）-112（22）2（3.50.5）0.1（01）1-1-2（0-2）-2（3.5-1.5）-1.9（11）110（00）0（3.5-1.5）-1.9（01）-1-10（00）0两层神经网络两层神经网络两层神经网络可以实现线性分类，却无法解决哪怕是最简单的非线性分类问题异或问题线性不可分线性不可分x1x2t-1-1-1-1111-1111-1多层神经网络多层神经网络前馈运算反向传播（BackPropagation,BP）算法神经网络训练的实用技术多层神经网络多层神经网络1f1f2f1x2x11b11net1net21yy221netz21b1b2增加一层神经元，即可解决异或问题，如令111111122122111221212210.51.510.70.4wwwwbbbww=0（）10netfnetnet1=前馈运算前馈运算1f1f1f2f2f2f?

1x2x3xRx?

11b1b211sb11net1net211snet1y21,1wy21sy212,ssw22snet2net221net1zz22sz22sb2b221b输入层隐层输出层11,1w11,sRw111（）=+yfWxb222（）=+zfWyb?

三层神经网络模型多层神经网络多层神经网络一般来说，为了便于训练，我们希望所有隐单元的激活函数可微。

不同神经元允许采用不同激活函数。

理论上说，只要选取了适当的激活函数，且隐层神经元数目足够大，任何从输入到输出的连续映射函数都可以通过调整权值获得。

换言之，多层神经网络可实现任意形状任意形状的判定面。

多层神经网络多层神经网络隐层单元所起的作用可以视为对数据进行非线性变换（映射）。

调节隐层到输出层的权值本质是在变换后的空间中寻找最优线性分类面，所以，我们希望通过该非线性映射使数据变得线性可分。

神经网络的训练套路：

求解最小化问题训练隐层和输出层间的权值较为容易，而输入层和隐层之间的最优权值则较难获取，一般采用反向传播算法计算。

min（）Jw反向传播反向传播（BP）算法算法考虑不含偏置b的三层神经网络训练误差定义为jijijiJwwwij=表示前一层的第个节点与后一层的第个节点的权值表示学习率这里t和z分别表示长度为c的目标向量和实际输出向量，w表示所有权值。

反向传播学习规则是基于梯度下降法的。

权值修改量定义为：

反向传播反向传播（BP）算法算法考虑隐层到输出层的权值wkj，由链式法则：

其中定义为敏感度由此可得隐层到输出层的权值更新规则：

反向传播反向传播（BP）算法算法再考虑输入层到隐层的权值wkj：

反向传播反向传播（BP）算法算法定义隐单元的敏感度于是得输入层到隐层的权值更新规则：

BP算法无法保证同时对两层权值获得全局最优值，而只能保证收敛到局部最优。

反向传播反向传播（BP）算法算法“误差”（敏感度）反向传播图示反向传播反向传播（BP）算法算法随机训练、在线训练第3行中随机选择替换为顺序选择，即是在线训练注意：

在线学习中，每个样本仅提供一次反向传播反向传播（BP）算法算法成批训练学习曲线神经网络训练的实用技巧神经网络训练的实用技巧输入数据一般需进行规格化（normalization）隐单元数的调整：

隐单元数决定了网络的极限分类能力，隐单元太少，则网络难以充分学习。

但隐单元数越多，过拟合的风险就越大。

一般只能手动调整隐单元数。

权值的随机初始化：

对输入层和隐层间的权值取对隐层和输出层间的权值取（1/,1/）dd（1/,1/）HHnn神经网络训练的实用技巧神经网络训练的实用技巧权值衰减：

每次更新w后，进一步将其更新为权值衰减等价于采用一个新的目标函数P.Bartlett（1998年）证明，相同网络拓扑结构中，权值的模较小更易获得好的泛化性能。

为避免过拟合，采用earlystop策略

（1）newold=ww22（）（）mJJ=+www神经网络与神经网络与SVM多层神经网络与SVM在解的数学表达式上非常相似，但采用了不同目标函数，因此需要使用不同求解方案（训练算法）。

神经网络不需要存储训练数据，而只需保留网络结构。

二者分类精度在许多情况下不相伯仲，但SVM相对更易于使用。

EndofLecture5

展开阅读全文