学习笔记之人工神经网络综述.docx

资源描述

学习笔记之人工神经网络综述.docx

《学习笔记之人工神经网络综述.docx》由会员分享，可在线阅读，更多相关《学习笔记之人工神经网络综述.docx（13页珍藏版）》请在冰豆网上搜索。

学习笔记之人工神经网络综述.docx

学习笔记之人工神经网络综述

简介：

人工神经网络（artificialneuralnetwork，缩写ANN），简称神经网络（neuralnetwork，缩写NN），是一种模仿生物神经网络的结构和功能的数学模型或计算模型。

神经网络由大量的人工神经元联结进行计算。

大多数情况下人工神经网络能在外界信息的基础上改变内部结构，是一种自适应系统。

现代神经网络是一种非线性统计性数据建模工具，常用来对输入和输出间复杂的关系进行建模，或用来探索数据的模式。

人工神经网络是一个能够学习，能够总结归纳的系统，也就是说它能够通过已知数据的实验运用来学习和归纳总结。

人工神经网络通过对局部情况的对照比较（而这些比较是基于不同情况下的自动学习和要实际解决问题的复杂性所决定的），它能够推理产生一个可以自动识别的系统。

与之不同的基于符号系统下的学习方法，它们也具有推理功能，只是它们是建立在逻辑算法的基础上，也就是说它们之所以能够推理，基础是需要有一个推理算法则的集合。

神经网络是一种运算模型，由大量的节点（或称“神经元”，或“单元”）和之间相互联接构成。

每个节点代表一种特定的输出函数，称为激励函数（activationfunction）。

每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重（weight），这相当于人工神经网络的记忆。

网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。

而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。

它的构筑理念是受到生物（人或其他动物）神经网络功能的运作启发而产生的。

人工神经网络通常是通过一个基于数学统计学类型的学习方法（LearningMethod）得以优化，所以人工神经网络也是数学统计学方法的一种实际应用，通过统计学的标准数学方法我们能够得到大量的可以用函数来表达的局部结构空间，另一方面在人工智能学的人工感知领域，我们通过数学统计学的应用可以来做人工感知方面的决定问题（也就是说通过统计学的方法，人工神经网络能够类似人一样具有简单的决定能力和简单的判断能力），这种方法比起正式的逻辑学推理演算更具有优势。

人工神经网络依学习策略分类主要有：

监督式学习网络（SupervisedLearningNetwork），无监督式学习网络（UnsupervisedLearningNetwork），混合式学习网络（HybridLearningNetwork），联想式学习网络（AssociateLearningNetwork），最适化学习网络（OptimizationApplicationNetwork）。

依网络架构分类主要有:

前向式架构（FeedForwardNetwork），回馈式架构（RecurrentNetwork），强化式架构（ReinforcementNetwork）。

几个几本概念：

神经元，单层神经元网络，多层神经元网络。

神经元

单层神经元网络，是最基本的神经元网络形式，由有限个神经元构成，所有神经元的输入向量都是同一个向量。

由于每一个神经元都会产生一个标量结果，所以单层神经元的输出是一个向量，向量的维数等于神经元的数目。

示意图：

多层神经元网络：

人工神经网络的特点和优越性，主要表现在三个方面：

第一，具有自学习功能。

例如实现图像识别时，只是需要先把许多不同的图像样板和对应的应识别的结果输入人工神经网络，网络就会通过自学习功能，慢慢学会识别类似的图像。

自学习功能对于预测有特别重要的意义。

预期未来的人工神经网络计算机将为人类提供经济预测、市场预测、效益预测，其应用前途是很远大的。

第二，具有联想存储功能。

用人工神经网络的反馈网络就可以实现这种联想。

第三，具有高速寻找优化解的能力。

寻找一个复杂问题的优化解，往往需要很大的计算量，利用一个针对某问题而设计的反馈型人工神经网络，发挥计算机的高速运算能力，可能很快找到优化解。

人工神经网络的主要缺点为可解释性差，训练代价比较高。

讲解：

（这里讲的是前向神经网络，或者叫前馈神经网络）

参考出处：

“人工神经网络入门系列”博文——逖靖寒（博客园）

网址：

单层神经网络：

与和或操作用单层神经网络就可以实现，2个神经元作为输入，1个神经元作为输出，模型如下所示：

图1.与操作的神经网络模型

图中把求解权值（w1,w2）和阀值的问题转化为求解权值（w1,w2,w3）的问题，激活函数f（x）=w1*x1+w2*x2+w3*x3。

该ANN通过10000次训练，最终求得三个权值。

训练过程中制定如下学习规律：

W（i）=W（i）+（正确值-实际计算的值）*x（i）。

通过一定次数的训练，我们就可以让（正确值-实际计算的值）变得相当小，这样最后的结果也就稳定了，同时求出了我们需要的w1,w2,w3的近似值。

多层神经网络：

用单层神经网络去训练异或操作，发现结果并不理想，网上给出的解释是单层神经网络的学习能力有限，需要使用更加复杂的网络模型。

至于使用多少层的网络，查阅相关资料，得到的结论是：

1.一般认为，增加隐层数可以降低网络误差，提高精度，但也使网络复杂化，从而增加了网络的训练时间和出现“过拟合”的倾向。

2.若输入层和输出层采用线性转换函数，隐层采用Sigmoid转换函数，则含一个隐层的MLP网络能够以任意精度逼近任何有理函数。

在设计BP网络时可参考这一点，应优先考虑3层BP网络（即有1个隐层）。

3.一般地，靠增加隐层节点数来获得较低的误差，其训练效果要比增加隐层数更容易实现。

其中，sigmoid转换函数是f（x）=1/[1+e^（-x）]，图形如下:

图2.Sigmoid函数图像（当倾斜系数为1）

可以看出，sigmoid函数是一个良好的阈值函数，连续，光滑，严格单调，关于（0,0.5）中心对称。

如果x=a*r.其中a为倾斜系数，当a足够小，这个图形可以无限制接近阈值函数，效果如下：

图3.Sigmoid函数图像（当倾斜系数为5）

在设计异或操作的ANN时，采用了3层神经网络（其实前面所说的单层是两层，输入层，输出层），添加了一个隐藏层Hidden。

问题：

3层神经网络实现异或学习的效果要好于单层，但是也有学习失败的情况发生。

修改了训练次数，发现问题还是没有很好解决。

增加隐藏层的神经元个数为3，结果好很多。

3层神经网络对于与或操作的学习效果反而不如单层的效果，网上给出的解释为：

不同的网络对不同的情况都有不同的适应程度，这就需要深层的理论支持了。

增加隐藏神经元个数为3，结果好很多。

BP算法：

BP算法，误差反向传播（ErrorBackPropagation,BP）算法。

BP算法的基本思想是，学习过程由信号的正向传播与误差的反向传播两个过程组成。

由于多层前馈网络的训练经常采用误差反向传播算法，人们也常把将多层前馈网络直接称为BP网络。

1）正向传播：

输入样本－>输入层－>各隐层（处理）－>输出层

注1：

若输出层实际输出与期望输出（教师信号）不符，则转入2）（误差反向传播过程）

2）误差反向传播：

输出误差（某种形式）－>隐层（逐层）－>输入层

其主要目的是通过将输出误差反传，将误差分摊给各层所有单元，从而获得各层单元的误差信号，进而修正各单元的权值（其过程，是一个权值调整的过程）。

注2：

权值调整的过程，也就是网络的学习训练过程（学习也就是这么的由来，权值调整）。

BP网络具有很强的非线性映射能力，一个3层BP神经网络能够实现对任意非线性函数进行逼近（根据Kolrnogorov定理）。

BP算法是一种监督类型的算法，也是局部优化的算法，是前向算法，一般采用梯度下降。

层前向神经网络不具有侧抑制和反馈的连接方式，即不具有本层之间或指向前一层的连接弧，只有指向下一层的连接弧。

代表是BP神经网络：

输入模式由输入层进入网络，经中间各隐层的顺序变换，最后由输出层产生一个输出模式

BP算法实现步骤（软件）：

1）初始化

2）输入训练样本对，计算各层输出

3）计算网络输出误差

4）计算各层误差信号

5）调整各层权值

6）检查网络总误差是否达到精度要求

满足，则训练结束；不满足，则返回步骤2）

梯度下降法：

一、基本概念

梯度下降法，就是利用负梯度方向来决定每次迭代的新的搜索方向，使得每次迭代能使待优化的目标函数逐步减小。

梯度下降法是2范数下的最速下降法。

最速下降法的一种简单形式是：

x（k+1）=x（k）-a*g（k）,其中a称为学习速率，可以是较小的常数。

g（k）是x（k）的梯度。

梯度下降法是按下面的流程进行的：

1）首先对θ赋值，这个值可以是随机的，也可以让θ是一个全零的向量。

2）改变θ的值，使得J（θ）按梯度下降的方向进行减少。

为了更清楚，给出下面的图：

这是一个表示参数θ与误差函数J（θ）的关系图，红色的部分是表示J（θ）有着比较高的取值，我们需要的是，能够让J（θ）的值尽量的低。

也就是深蓝色的部分。

θ0，θ1表示θ向量的两个维度。

在上面提到梯度下降法的第一步是给θ给一个初值，假设随机给的初值是在图上的十字点。

然后我们将θ按照梯度下降的方向进行调整，就会使得J（θ）往更低的方向进行变化，如图所示，算法的结束将是在θ下降到无法继续下降为止。

当然，可能梯度下降的最终点并非是全局最小点，可能是一个局部最小点，可能是下面的情况：

上面这张图就是描述的一个局部最小点，这是我们重新选择了一个初始点得到的，看来我们这个算法将会在很大的程度上被初始点的选择影响而陷入局部最小点