欢迎来到天天文库
浏览记录
ID:59223985
大小:216.50 KB
页数:18页
时间:2020-09-09
《前馈神经网络介绍.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、激活函数通常用于多层感知器的连续可导非线性激活函数的一个例子是Sigmoid非线性函数;有两种形式:1.logistic函数.如下定义这里vj(n)是神经元j的诱导局部域。根据这种非线性,输出的范围是0≤yj≤1。对方程(4.30)取微分,我们得到且yj(n)=(vj(n))。式(4.31)可以如下表示因为神经元j位于输出层,所以yj(n)=oj(n)。因此可以将神经元j的局域梯度表示为这里的oj(n)是神经元j输出端的函数信号,而dj(n)是它的期望反应。对任意的一个隐层神经元,局域梯度表示为
2、2.双曲正切函数,表示为这里a和b是常数。它对vj(n)的导数如下如果神经元j位于输出层,它的局域梯度是如果神经元j位于隐层,则学习率我们使用的学习率参数η越小,网络中一次迭代的突触权值的变化量就越小,权空间的轨道就越光滑。另一方面,如果我们让η的值太大以加快学习率的话,结果就有可能使网络的突触权值的变化量不稳定。一个既要加快学习率又要保持稳定的简单模型要包括动量项,如下这里α是动量常数,通常是正数。解这个关于Δwji(n)的方程我们得到:我们可知δj(n)等于因此我们将方程(4.40)重写为在
3、这个关系的基础上,做以下的观察:1.校正值Δwji(n)代表指数加权的时间序列的和。欲使时间序列收敛,所以动量常数必须限制在这个范围内:0≤︱α︱<1。当α等于0时,反向传播算法没有动量。虽然在实际中动量常数α不可能是负的,但它还是可正可负。2.当偏导数在连续迭代中有相同的代数符号,指数加权和Δwji(n)数量增加,所以,权值wji(n)被大幅度调整。3.当偏导数在连续迭代中有相反的代数符号,指数加权和Δwji(n)减少,所以,权值wji(n)调整不大。动量项对于使学习过程不停止在误差曲面上一个
4、浅层的局限最小化也有益处。在导出反向传播算法时假设学习率参数η是一个常数。然而,事实上它应该被定义为ηji;也就是说,学习率参数应该是基于连接权值的。在网络的不同地方使用不同的学习率参数。在反向传播算法的中假设了所有的突触权值都是可调整的,或者在适应过程中我们限制网络中某些权值保持固定。对于后者,误差信号是以通常的方式通过网络反向传播的;固定的突触权值可以通过使突触权值的学习率参数ηji等于0来做到。训练的串行和集中方式对于一个给定的训练集,反向传播学习可能会以下面两种基本方式中的一种进行:1.
5、串行方式。正是目前反向传播算法公式所引用的方式。2.集中方式。权值更新要在所有样本出现后才进行。代价函数定义为:误差ej(n)等于dj(n)和yj(n)的差,它们分别表示期望响应向量d(n)的第j个分量和网络输出的相应的值。对于学习率参数η,应用于从i连接到j的wji的校正值由delta法则定义:要计算偏导数根据式(4.43),在集中方式,权值的校正值Δwji(n)是在整个训练集提交训练以后才决定。从在线运行的观点来看,训练的串行方式比集中方式要好,1.需有更少的局部存储。2.具有随机性。这使得
6、达到局部最小可能性降低。同样地,串行方式的随机性质使得要得到算法收敛的理论条件变得困难了。1.集中方式的使用为梯度向量提供了一个精确的估计;收敛到局部最小只要简单的条件就可以保证。2.集中方式的组合比连续模式更容易保证并行。总的来说,串行方式能够如此流行(特别对解决模式分类问题)有两个重要的原因:·算法的实施很简单。·它为大型而困难的问题提供了有效的解决方法。停止准则通常,反向传播算法不能证明收敛,并且没有定义得很好的准则来停止它的运行。我们可以将反向传播学习的一个合理的收敛准则公式化:1.当梯
7、度向量的欧几里得模达到一个充分小的梯度阈值时,认为反向传播算法已经收敛。收敛准则的缺点是,学习时间可能会很长。这也需要梯度向量g(w)的计算。2.当整个样本的均方误差的变化的绝对速率足够小时,认为反向传播算法已经收敛。3.一个有用的且有理论支持的收敛准则。在每一个学习迭代之后,都要检查网络的泛化性能。当泛化性能是适当的,或泛化性能有明显的最大值时,学习过程被终止。4.4反向传播算法的总结权值的串行更新的运行方式中,算法通过训练样本{(x(n),d(n))}Nn=1进行如下循环:1.初始化.假设没
8、有先验知识可用,选择一个均值等于0的均匀分布,它的标准差的平方使神经元的诱导局部域的标准导数位于S型激活函数的线形部分与饱和部分转折处,我们以这个分布随机挑选突触权值和阈值。2.训练样本的呈现.在训练集中每个样本以某种形式顺序呈现给网络依次进行在下面的第三点和第四点中所描述的前向和后向计算.前向计算.设一个训练样本是(x(n),d(n)),有一个输入向量x(n)指向输入层的感知节点和一个期望响应向量=如果神经元j是在第一隐层(=1),置yj(0)(n)=xj(n)如果神经元j在输出层,令yj(0
此文档下载收益归作者所有